Podstawowym typem danych z którym będziemy mieć do czynienia w Pandas to DataFrame. DataFrame, to nasza tabele z danymi. Będziemy tworzyć nasze DataFramy poprzez wczytanie danych z plików, baz danych lub też poprzez wygenerowanie danych w naszych programach.

W kolejnych 2 lekcjach przyjrzymy się jak to wygląda aby oswoić się z tym zjawiskiem.

Przykład DataFrame

Na samym początku spojrzymy na przykładowy DataFrame. Skorzystamy z pliku 'imiona'. Najpierw, w naszym programie, zaimportujemy bibliotekę Pandas, a następnie za pomocą funkcji 'read_excel', wczytamy nasz plik. Samą funkcją nie musimy się jeszcze przejmować. Operacje na plikach będziemy omawiać w kolejnych lekcjach.

import pandas as pd
pd.read_excel('c:/python/pandas/imiona.xlsx')

W wyniku wykonania powyższego kodu, zobaczymy zawartość naszego DataFrame:

Wygląda zupełnie jak znana nam z Excela tabela. Ma wiersze oraz kolumny. Kolumny mogą być różnych typów, ale o tym jeszcze będziemy rozmawiać.

Dodatkowo pojawiają się 2 rzeczy, na które warto od razy zwrócić uwagę:

  1. Index – jest to swoisty adres danego wiersza lub kolumny. Na obrazku powyżej wskazany jest index wiersza. Indexy to ważna rzecz. Ułatwiają nam jednoznaczną identyfikację danego elementu. W naszym przypadku indexem dla wierszy są liczby. Nie musi tak być. Jako index mogli byśmy ustawić imię, pod warunkiem że dane imię występowało by w pliku tylko raz.
  2. NaN – czyli puste komórki. Jeden z największych wrogów prawdziwych analityków danych. Będziemy na nie często zwracać uwagę i podejmować odpowiednie akcje aby nie wpływały negatywnie na wyniki naszych analiz. Czasami będziemy kasować wiesze z wartościami NaN, czasami zamieniać je na zera itd

To wszystko będziemy omawiać w kolejnych lekcjach, ale krok po kroku.

Pusty DataFrame

Zobaczmy jak możemy utworzyć pusty DataFrame za pomocą funkcji pd.DataFrame()

import pandas as pd
zbior = pd.DataFrame()
print(zbior)

W wyniku otrzymamy poniższą informację:

Bardzo prosta sprawa. Nie mamy ani kolumn ani indexów.

DataFrame, na podstawie listy

Czas na utworzenie DataFrame który będzie zawierać dane. Jednym ze sposobów jest utworzenie go na podstawie list.

lista = [1,2,5,7]
print(pd.DataFrame(lista))

Lista reprezentuje kolumnę, natomiast w wyniku wykonania powyższego kodu otrzymamy:

Kolumna po lewej stronie to nasz index. Od 0 do 3. Identyfikuje on jednoznacznie dany wiersz. Kolumna z wartościami ma etykietę 0. Dla tego że nie nadaliśmy jej jeszcze żadnej nazwy. Zmieńmy to:

zbior.columns = ['Liczby']
zbior

Nasz zbiór wygląda teraz tak:

Możemy też stworzyć DataFrame z klikoma kolumnami:

lista = [[1,2,5,7],[11,22,55,77]]
df = pd.DataFrame(lista)
df.columns = ['One', 'Two', 'Three', 'Four']
print(df)

DataFrame, na podstawie słownika

Innym sposobem utworzenia DataFrame, jest na podstawie słownika. Wygląda to równie prosto jak w przypadku życia list:

slownik = {'Imie':['Ania','Michał','Przemek'], 'Wiek':[18,25,40]}
print ( pd.DataFrame(slownik) )

W tym przypadku klucze słownika, stają się automatycznie nazwami kolumn. Bardzo wygodne.

DataFrame, na podstawie Series

I jeszcze jeden sposób utworzenia DataFrame o którym warta wspomnieć na tym etapie. Otóż w Pandas oprócz DataFrame, mamy jeszcze jeden specyficzny typ danych, Mianowicie Series.

Series jest bardzo podobne do list, z tym wyjątkiem że w przeciwieństwie do list Series posiada index, zupełnie jak DataFrame. Spójrzmy:

s = pd.Series([11,33,55,99])
print(s)

Tak jak widzimy mamy zarówno index jak i kolumnę z wartościami. DataFrame utworzymy w znany nam sposób:

pd.DataFrame(s)

O Series nie będziemy zbyt wiele mówić w tutorialu, jednak przemierzając zakątki Internetu, nie raz natrafimy na Series, tak więc warto wiedzieć czym jest i że nie gryzie.

Podsumowanie

Pierwsze kroki za nami. Znamy kilka sposobów utworzenia DataFrame. bardzo nam się do przyda w kolejnych lekcjach. W następnej lekcji nauczymy się podstaw tworzenie DataFrame na podstawie plików. Takich jak CSV, XLS czy JSON. Zanim jednak przejdziemy do tego zagadnienia, są przed nami, krótkie ćwiczenia które mają za zadanie utrwalić dotychczasową wiedzę. Analogicznie znajdziemy ćwiczenia na końcu każdej kolejnej lekcji.

Ćwiczenia

  1. Utwórzmy DataFrame na podstawie list, oraz nadajmy nazwy naszym kolumnom.
  2. Utwórzmy analogiczny DataFrame na podstawie słownika
  3. Utwórzmy analogiczny DataFrame na podstawie Series

Spis treści Pandas Tutorial / Kurs

  1. Pandas – Intro
  2. Pandas – przygotowanie środowiska pracy
  3. Pandas – tworzenie prostego DataFrame
  4. Pandas – odczyt i zapis do pliku
  5. Pandas – podstawowe informacje o DataFrame
  6. Pandas – indeksy oraz funkcja loc
  7. Pandas – maski
  8. Pandas – modyfikacje kolumn
  9. Pandas – funkcja apply
  10. Pandas – typy danych
  11. Pandas – grupowanie z groupby
  12. Pandas – unstack oraz tabele przestawne
  13. Pandas – łączenie zbiorów danych
  14. Pandas – SQL i bazy danych
Facebook Comments