Python Pandas to prawdopodobnie najpopularniejsza biblioteka na świecie do ładowania, czyszczenia, przygotowywania i analizowania danych. Czyli wszystkiego tego co zajmuje 80% czasu każdej osobie pracującej jako analityk danych czy też data scientist.
W poniższym tutorialu, składającym się z szeregu mniejszych lekcji. przyjrzymy się bliżej tej jednej z najbardziej rozbudowanych bibliotek Python oraz wykonamy szereg ćwiczeń, które pozwolą nam nabrać wprawy w używaniu jej do codziennych zadań.
Zanim jednak do tego przejdziemy, zastanówmy się chwilę do czego Pandas się nadaje a do czego nie, i czy jest to biblioteka która zaadresuje nasze potrzeby,
Python Pandas – co możemy zrobić za pomocą tej biblioteki?
Za pomocą Pandas możemy:
- załadować dane z plików o rozmaitym formacie danych (CSV, Excel, JSON i wiele innych )
- załadować dane bezpośrednio z baz danych
- wyczyścić dane i przygotować je do dalszej analizy
- Dokonać podstawowej analizy danych, takiej jaką znamy z Excel czy też SQL – np. grupowanie czy też tabele przestawne
- Zwizualizować nasze wyniki
Czyli można powiedzieć że scyzoryk szwajcarski analizy danych, ale …. zasada jest jedna. Plik z danymi musi zmieścić się na naszym komputerze i mieć postać tabeli. Wtedy jesteśmy gotowi aby uruchomić Python wyposażony w bibliotekę Pandas i 'dobrać się’ do danych 🙂
Python Pandas vs Excel
Excel jest znanym i lubianym ( lub nie lubianym ) narzędziem do analizy danych. Ma swoje plusy takie jak łatwość tworzenia wykresów czy też tabeli przestawnych.
Jednak posiada 2 główne ograniczenia, które bez problemu mogą zostać przez Pandas wyeliminowane:
- Jest bardzo mało wydajny, tak więc przy większej ilości danych zaczyna działać bardzo powoli, lub nie jest wstanie otworzyć zbioru danych na naszym komputerze. Kiedyś ograniczenie było do 65 tysięcy rekordów. Dzisiaj już go nie ma, jednak nie ma co liczyć, że poradzimy sobie z plikiem który ma 1GB, 10GB czy już na pewno nie 100GB
- Bardzo trudno jest zautomatyzować tworzenie powtarzalnych raportów. Nawet jeżeli będziemy mieli przygotowany Excel, to i tak będziemy musieli go otworzyć, wkleić dane, skopiować wyniki itp. Czyli coś co z łatwością możemy wykonywać automatyczne z Python oraz Pandas.
Tym samym Pandas znajdzie swoje zastosowanie w prawdopodobniej KAŻDEJ firmie i dla wielu ludzi oszczędzi sporej ilości frustracji związanej z pracą z Excelem.
Prawda jest taka że używanie Excel wymaga o wiele mniejszej wiedzy, tak więc jeżeli ktoś nie ma potrzeby obróbki dużych zbiorów, ani nie wykonuje w kółko powtarzanych raportów w Excelu, Pandas raczej mu się do niczego nie przyda.
Python Pandas vs Big Data
I jeszcze jedno ograniczenie Pandas, o którym warto wspomnieć, aby mieć pełen obraz gdzie możemy mieć z Pandas korzyści. Pandas, tak jak na początku wspomnieliśmy, wymaga aby plik z danymi znalazł się na naszym komputerze.
Dla większości zastosować jest to normalne, ale nie dla big daty. W przypadku big daty będziemy mieć do czynienia z ogromnymi zbiorami, które będą wymagać przetwarzania rozproszonego, czyli z użyciem wielu maszyn. W dodatku dane mogą nie mieć formy u strukturyzowanej. Innymi słowy nie będą tabelą. W takim przypadku będziemy chcieli sięgnąć to takie biblioteki jak Apache Spark czy też Apache Beam.
W każdej innej sytuacji, Pandas to nasz bilet klasy I, do analizy danych:)
Spis treści Pandas Tutorial / Kurs
- Pandas – Intro
- Pandas – przygotowanie środowiska pracy
- Pandas – tworzenie prostego DataFrame
- Pandas – odczyt i zapis do pliku
- Pandas – podstawowe informacje o DataFrame
- Pandas – indeksy oraz funkcja loc
- Pandas – maski
- Pandas – modyfikacje kolumn
- Pandas – funkcja apply
- Pandas – typy danych
- Pandas – grupowanie z groupby
- Pandas – unstack oraz tabele przestawne
- Pandas – łączenie zbiorów danych
- Pandas – SQL i bazy danych