W celu powtórzenia aktywności oraz wykonania ćwiczeń w tutorialu, będziemy potrzebować 3 rzeczy: (1) Zainstalować bibliotekę Pandas (2) Zainstalować biblioteki potrzebne do pracy z plikami Excel (3) Pobrać przykładowe zbiory danych, na których będziemy pracować.
1. Instalacja Pandas
Samą bilbiotekę instaluje się bardzo prosto. Wystarczy w konsoli wpisać
pip install pandas
jeżeli korzystamy z Jupyter Notebook, instalowanego w raz z pakietem Anaconda, biblioteka Pandas powinna już być. Możemy to sprawdzić z użyciem polecenia import
import pandas as pd
pd jest standardową nazwą jaką nadaje się tej bibliotece.
2. Instalacja bibliotek do pracy z plikami Excel
Nie musimy tego robić teraz, jednak w momencie kiedy z użyciem naszej biblioteki Pandas, będziemy potrzebować zaimportować dane z plików Excelowych, będziemy dodatkowo potrzebować paru drobnych bibliotek.
Proponuję je zainstalować odrazu, aby później uniknąć walki z błędami.
Binlioteki:
xlwt – zapis do plików .xls
xlrd – odczyt z plików .xls oraz .xlsx
openpyxl – zapis do plików .xlsx
pip install xlwt openpyxl xlrd
3. Przykładowe zbiory danych używane w tutorialu
W różnych lekcjach będziemy potrzebować innych danych. Cześć z nich będziemy generować w kodzie programów, natomiast część będzie pochodzić z poniższych plików. Proponuje od razu je pobrać i mieć pod ręką.
Pliki:
Imiona – banalny plik z krótką listą imion, wiekiem oraz wynikiem pewnego egzaminu
Halloween – informacje na temat najchętniej kupowanego kostiumu na Halloween w US, w podziale na regiony
Film – niewielka baza filmów, ich popularności, kategorii oraz długości trwania
Cities – zbiór zawierający listę miast oraz kilka danych na ich temat, takich jak populacja czy też lokalizacja
Podsumowując
To wszystko. Jesteśmy gotowi do rozpoczęcia pracy z bohaterem tego tutorialu. Zaczynajmy!
Spis treści Pandas Tutorial / Kurs
- Pandas – Intro
- Pandas – przygotowanie środowiska pracy
- Pandas – tworzenie prostego DataFrame
- Pandas – odczyt i zapis do pliku
- Pandas – podstawowe informacje o DataFrame
- Pandas – indeksy oraz funkcja loc
- Pandas – maski
- Pandas – modyfikacje kolumn
- Pandas – funkcja apply
- Pandas – typy danych
- Pandas – grupowanie z groupby
- Pandas – unstack oraz tabele przestawne
- Pandas – łączenie zbiorów danych
- Pandas – SQL i bazy danych