Pandas knjižnica čini znanost podataka temeljenu na pythonu jednostavnom vožnjom. To je popularna Python biblioteka za čitanje, spajanje, razvrstavanje, čišćenje podataka i još mnogo toga. Iako je pandas jednostavan za korištenje i primjenu na skupove podataka, ima mnogo funkcija za manipulaciju podacima za učenje.
Možda koristite pande, ali postoji velika šansa da ga nedovoljno koristite za rješavanje problema povezanih s podacima. Evo našeg popisa vrijednih funkcija panda koje manipuliraju podacima koje bi svaki znanstvenik za podatke trebao znati.
Instalirajte pande u svoje virtualno okruženje
Prije nego što nastavimo, provjerite jeste li instalirali pande u svoje virtualno okruženje koristeći pip:
pip install pande
Nakon što ga instalirate, uvezite pande na vrhu vaše skripte i idemo dalje.
1. pande. DataFrame
Ti koristiš pande. okvir podataka() za stvaranje DataFramea u pandama. Postoje dva načina korištenja ove funkcije.
Možete formirati DataFrame prema stupcu prosljeđivanjem rječnika u pande. okvir podataka() funkcija. Ovdje je svaki ključ stupac, dok su vrijednosti redovi:
uvoz pande
DataFrame = pande. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
ispis (DataFrame)
Druga metoda je formiranje okvira podataka preko redaka. Ali ovdje ćete odvojiti vrijednosti (stavke redaka) od stupaca. Broj podataka na svakom popisu (podaci retka) također se mora podudarati s brojem stupaca.
uvoz pande
DataFrame = pande. Okvir podataka([[1, 4, 5], [7, 19, 13]], stupci= ["J", "K", "L"])
ispis (DataFrame)
2. Čitanje iz i pisanje u Excel ili CSV u pandama
Možete čitati ili pisati u Excel ili CSV datoteke s pandama.
Čitanje Excel ili CSV datoteka
Za čitanje Excel datoteke:
#Zamijenite example.xlsx stazom vaše Excel datoteke
DataFrame = DataFrame.read_excel("example.xlsx")
Evo kako pročitati CSV datoteku:
#Zamijenite example.csv stazom vaše CSV datoteke
DataFrame = DataFrame.read_csv("example.csv")
Pisanje u Excel ili CSV
Pisanje u Excel ili CSV dobro je poznata operacija panda. I zgodno je za spremanje novoizračunatih tablica u zasebne tablice s podacima.
Za pisanje u Excel list:
DataFrame.to_excel("full_path_of_the_destination_folder/filename.xlsx")
Ako želite pisati u CSV:
DataFrame.to_csv("full_path_of_the_destination_folder/filename.csv")
Također možete izračunati središnje tendencije svakog stupca u DataFrameu pomoću panda.
Evo kako dobiti srednju vrijednost svakog stupca:
DataFrame.mean()
Za vrijednost medijana ili načina, zamijenite znači () s srednja vrijednost () ili način ().
4. DataFrame.transform
pande' DataFrame.transform() mijenja vrijednosti DataFramea. Prihvaća funkciju kao argument.
Na primjer, kod u nastavku množi svaku vrijednost u DataFrameu s tri pomoću Pythonova lambda funkcija:
DataFrame = DataFrame.transform (lambda y: y*3)
ispis (DataFrame)
5. DataFrame.isnull
Ova funkcija vraća Booleovu vrijednost i označava sve retke koji sadrže nulte vrijednosti kao Pravi:
DataFrame.isnull()
Rezultat gornjeg koda može biti teško pročitati za veće skupove podataka. Dakle, možete koristiti isnull().suma() umjesto toga funkcija. Ovo vraća sažetak svih vrijednosti koje nedostaju za svaki stupac:
DataFrame.isnull().suma()
6. Dataframe.info
The info() funkcija je bitna operacija panda. Umjesto toga vraća sažetak vrijednosti koje ne nedostaju za svaki stupac:
DataFrame.info()
7. DataFrame.opisati
The opisati() funkcija vam daje zbirnu statistiku DataFramea:
DataFrame.describe()
8. DataFrame.replace
Koristiti DataFrame.replace() metode u pandama, možete zamijeniti odabrane retke drugim vrijednostima.
Na primjer, za zamjenu nevažećih redaka s Nan:
# Osigurajte da ste pip install numpy da bi ovo funkcioniralo
import numpy
uvoz pande
# Dodavanje inplace ključne riječi i postavljanje na True čini promjene trajnima:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
ispis (DataFrame)
9. DataFrame.fillna
Ova funkcija vam omogućuje da ispunite prazne retke određenom vrijednošću. Možete ispuniti sve Nan retke u skupu podataka sa srednjom vrijednošću, na primjer:
DataFrame.fillna (df.mean(), inplace = True)
ispis (DataFrame)
Također možete biti specifični za stupac:
DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
ispis (DataFrame)
10. DataFrame.dropna
The dropna() metoda uklanja sve retke koji sadrže null vrijednosti:
DataFrame.dropna (inplace = True)
ispis (DataFrame)
11. DataFrame.insert
Možete koristiti pande' umetnuti() funkciju za dodavanje novog stupca u DataFrame. Prihvaća tri ključne riječi, naziv stupca, popis njegovih podataka i njegov mjesto, što je indeks stupca.
Evo kako to funkcionira:
DataFrame.insert (stupac = 'C', vrijednost = [3, 4, 6, 7], loc=0)
ispis (DataFrame)
Gornji kod umeće novi stupac u indeks nultog stupca (postaje prvi stupac).
12. DataFrame.loc
Možeš koristiti lok pronaći elemente u određenom indeksu. Za prikaz svih stavki u trećem retku, na primjer:
DataFrame.loc[2]
13. DataFrame.pop
Ova funkcija vam omogućuje da uklonite određeni stupac iz pandas DataFramea.
Prihvaća an artikal ključnu riječ, vraća iskočiti stupac i odvaja ga od ostatka DataFramea:
DataFrame.pop (stavka= 'naziv_stupca')
ispis (DataFrame)
14. DataFrame.max, min
Dobivanje maksimalnih i minimalnih vrijednosti pomoću panda je jednostavno:
DataFrame.min()
Gornji kod vraća minimalnu vrijednost za svaki stupac. Da biste dobili maksimum, zamijenite min s maks.
15. DataFrame.join
The pridružiti() funkcija pandas vam omogućuje spajanje okvira podataka s različitim nazivima stupaca. Možete koristiti lijevi, desni, unutarnji ili vanjski spoj. Da biste lijevo spojili DataFrame s još dva:
#Slijevo spojite duže stupce s kraćim
newDataFrame = df1.join([df_shorter2, df_shorter3], how='lijevo')
ispis (noviDataFrame)
Da biste spojili DataFrames sa sličnim nazivima stupaca, možete ih razlikovati uključivanjem sufiksa s lijeve ili desne strane. Učinite to uključivanjem lsufiks ili rsufiks ključna riječ:
newDataFrame = df1.join([df2, rsuffix='_', how='outer')
ispis (noviDataFrame)
16. DataFrame.combine
The kombinirati() funkcija je zgodna za spajanje dvaju okvira podataka koji sadrže slične nazive stupaca na temelju postavljenih kriterija. Prihvaća a funkcija ključna riječ.
Na primjer, za spajanje dvaju okvira podataka sa sličnim nazivima stupaca samo na temelju maksimalnih vrijednosti:
newDataFrame = df.combine (df2, numpy.minimum)
ispis (noviDataFrame)
Bilješka: Također možete definirati prilagođenu funkciju odabira i umetnuti numpy.minimum.
17. DataFrame.astype
The astype() funkcija mijenja tip podataka određenog stupca ili okvira podataka.
Za promjenu svih vrijednosti u DataFrameu u niz, na primjer:
DataFrame.astype (str)
18. DataFrame.zbroj
The iznos() funkcija u pandas vraća zbroj vrijednosti u svakom stupcu:
DataFrame.sum()
Također možete pronaći kumulativni zbroj svih korištenih stavki cumsum():
DataFrame.cumsum()
19. DataFrame.drop
pande' pad() funkcija briše određene retke ili stupce u DataFrameu. Morate navesti nazive stupaca ili indeks redaka i os da biste ih koristili.
Da biste uklonili određene stupce, na primjer:
df.drop (stupac=['stupac1', 'stupac2'], os=0)
Za ispuštanje redaka na indeksima 1, 3 i 4, na primjer:
df.drop([1, 3, 4], os=0)
20. DataFrame.corr
Želite li pronaći korelaciju između cjelobrojnih ili float stupaca? pande vam mogu pomoći da to postignete pomoću corr() funkcija:
DataFrame.corr()
Gornji kod vraća novi DataFrame koji sadrži korelacijski slijed između svih cjelobrojnih ili float stupaca.
21. DataFrame.add
The dodati() funkcija vam omogućuje da svakoj vrijednosti u DataFrameu dodate određeni broj. Radi tako što se ponavlja kroz DataFrame i operira sa svakom stavkom.
Povezano:Kako koristiti For petlje u Pythonu
Da biste dodali 20 svakoj od vrijednosti u određenom stupcu koji sadrži cijele brojeve ili plutajuće, na primjer:
DataFrame['interger_column'].add (20)
22. DataFrame.sub
Poput funkcije zbrajanja, također možete oduzeti broj od svake vrijednosti u DataFrameu ili određenom stupcu:
DataFrame['interger_column'].sub (10)
23. DataFrame.mul
Ovo je verzija množenja funkcije zbrajanja panda:
DataFrame['interger_column'].mul (20)
24. DataFrame.div
Slično, svaku podatkovnu točku u stupcu ili DataFrameu možete podijeliti određenim brojem:
DataFrame['interger_column'].div (20)
25. DataFrame.std
Koristiti std() funkcija, pandas vam također omogućuje izračunavanje standardne devijacije za svaki stupac u DataFrameu. Radi tako što se ponavlja kroz svaki stupac u skupu podataka i izračunava standardnu devijaciju za svaki od njih:
DataFrame.std()
26. DataFrame.sort_values
Također možete sortirati vrijednosti uzlazno ili silazno na temelju određenog stupca. Da biste sortirali DataFrame u silaznom redoslijedu, na primjer:
newDataFrame = DataFrame.sort_values (prema = "colmun_name", silazno = True)
27. DataFrame.melt
The topiti() funkcija u pandas okreće stupce u DataFrameu na pojedinačne retke. To je kao razotkrivanje anatomije DataFramea. Tako vam omogućuje da eksplicitno vidite vrijednost dodijeljenu svakom stupcu.
newDataFrame = DataFrame.melt()
28. DataFrame.count
Ova funkcija vraća ukupan broj stavki u svakom stupcu:
DataFrame.count()
29. DataFrame.query
pande' upit() omogućuje pozivanje stavki pomoću njihovog indeksnog broja. Da biste dobili stavke u trećem redu, na primjer:
DataFrame.query('4') # Pozovite upit na četvrtom indeksu
30. DataFrame.gdje
The gdje() funkcija je pandas upit koji prihvaća uvjet za dobivanje određenih vrijednosti u stupcu. Na primjer, da dobijete sve uzraste mlađe od 30 godina od Dob stupac:
DataFrame.where (DataFrame['Age'] < 30)
Gornji kod daje DataFrame koji sadrži sve dobi mlađe od 30 godina, ali dodjeljuje Nan na redove koji ne ispunjavaju uvjet.
Rukujte podacima kao profesionalac s pandama
pandas je riznica funkcija i metoda za rukovanje malim i velikim skupovima podataka s Pythonom. Knjižnica je također korisna za čišćenje, provjeru valjanosti i pripremu podataka za analizu ili strojno učenje.
Odvojite vrijeme da ga svladate definitivno vam olakšava život kao znanstvenika podataka i itekako je vrijedno truda. Stoga slobodno pokupite sve funkcije koje možete nositi.
Python Standard Library sadrži mnoge funkcije koje će vam pomoći u vašim programskim zadacima. Saznajte o najkorisnijima i izradite robusniji kod.
Pročitajte dalje
- Programiranje
- Piton
- Programiranje
- baza podataka
Idowu je strastven za sve pametne tehnologije i produktivnost. U slobodno vrijeme igra se s kodiranjem i prelazi na šahovsku ploču kad mu je dosadno, ali voli se s vremena na vrijeme otrgnuti od rutine. Njegova strast da ljudima pokaže put oko moderne tehnologije motivira ga da piše više.
Pretplatite se na naše obavijesti
Pridružite se našem biltenu za tehničke savjete, recenzije, besplatne e-knjige i ekskluzivne ponude!
Kliknite ovdje za pretplatu