W tej lekcji porozmawiamy o podstawowych modyfikacjach kolumn. Tworzeniu nowych, modyfikacji wartości, łączenia kolumn oraz ich rozdzielania. Zaczniemy łączyć wszystkie elementy które nauczyliśmy się do tej pory. Zaczynajmy!
Jeszcze jeden raz skorzystamy ze zbioru Halloween. Nie chcę tego robić, ale wiem jak bardzo go lubisz:)
import pandas as pd kostium = pd.read_csv('https://analityk.edu.pl/wp-content/uploads/2020/12/Halloween.csv', header=2) kostium.head()
Dodanie nowej kolumny
Utworzenie kolejnej kolumny w Pandas jest banalne. Wystarczy w nawiasach [] podać nazwę nowej, i zostanie ona utworzona automatycznie.
kostium['Nowa'] = '0' kostium
Edycja wartości kolumn
Poznaliśmy funkcję loc, która umożliwia nam edycję wartości, oraz maski które również do tego celu możemy wykorzystać. jeżeli chcieli byśmy zmienić wartość kolumny 'Nowa’ na 1, tam gdzie najpopularniejszym kostiumem jest 'Harley Quinn’, wystarczy że zrobimy to tak:
kostium.loc[ kostium['1'] == 'Harley Quinn', 'Nowa'] = 1
Uporządkowanie kolumn
- Zmiana nazwy kolumn
Nazwy naszych kolumn nie są jeszcze zbyt przyjazne. Możemy je łatwo zmienić za pomocą funkcji rename, która przyjmuje parametr columns, podając w postaci słownika nazwy starych oraz nowych kolumn.
kostium.rename(columns={'1':'Pierwszy', '2':'Drugi'})
- Kasowanie kolumny
Skasować kolumnę możemy za pomocą funkcji drop. Funkcja ta umożliwia nam kasowanie zarówno rekordów jak i kolumn. Aby skasować rekord wystarczy podać jako parametr pozycję w indeksie. Jeżeli chcemy skasować kolumnę, podajemy nazwę kolumny, oraz informacje że chcemy skasować kolumnę – axis = 1
kostium.drop('Nowa', axis=1)
Scalanie i rozdzielanie kolumn
- Scalanie
Aby połączyć dwie lub więcej kolumn w jedną, wystarczy utworzyć nową kolumnę na bazie już istniejących. Przykładowo w ten sposób:
kostium['Połączone'] = kostium['3'] + ' | ' + kostium['4']
- Rozdzielanie
Mamy nową kolumnę 'Połączone’. Dość częstą sytuacją jest rozdzielanie tego typu kolumn, na kolumny osobne. Często na podstawie konkretnego znaku w ciągu znaków. Możemy to zrobić na kilka sposobów. O kolejnych będziemy się dowiadywać w następnych lekcjach, jednak popularnym sposobem jest skorzystanie z funkcji split, znanej nam z operacji na łańcuchach znaków:
kostium[['Trzeci','Czwarty']] = kostium.Połączone.str.split('|',expand=True)
Podsumowanie
I to wszystko jeżeli chodzi o podstawowe operacje na kolumnach takie jak tworzenie nowych, edycja, zmiana nazw, scalanie czy też rozdzielanie.
Zaczyna być już również widoczna przewaga Pandas nad Excelem. Z jednej strony musimy nauczyć się więcej aby zacząć korzystać z Pandas, z drugiej strony, jak już to zrobimy, w Pandas edycja table jest o wiele szybsza, łatwiejsza i skuteczniejsza. Co zresztą będzie jeszcze bardziej widoczne w kolejnych lekcjach.
W między czasie zapraszam do rozwiązania kilku ćwiczeń.
Ćwiczenia Pandas
-
Skasować kolumny 3 i 4
-
Zmienić nazwę kolumny 5 na 'Piąty’
-
Utworzyć nowy zbiór danych, który nie zawiera regionów w których najpopularniejszym strojem był 'Angel’
Spis treści Pandas Tutorial / Kurs
- Pandas – Intro
- Pandas – przygotowanie środowiska pracy
- Pandas – tworzenie prostego DataFrame
- Pandas – odczyt i zapis do pliku
- Pandas – podstawowe informacje o DataFrame
- Pandas – indeksy oraz funkcja loc
- Pandas – maski
- Pandas – modyfikacje kolumn
- Pandas – funkcja apply
- Pandas – typy danych
- Pandas – grupowanie z groupby
- Pandas – unstack oraz tabele przestawne
- Pandas – łączenie zbiorów danych
- Pandas – SQL i bazy danych