Pandas knjižnica čini znanost podataka temeljenu na pythonu jednostavnom vožnjom. To je popularna Python biblioteka za čitanje, spajanje, razvrstavanje, čišćenje podataka i još mnogo toga. Iako je pandas jednostavan za korištenje i primjenu na skupove podataka, ima mnogo funkcija za manipulaciju podacima za učenje.

Možda koristite pande, ali postoji velika šansa da ga nedovoljno koristite za rješavanje problema povezanih s podacima. Evo našeg popisa vrijednih funkcija panda koje manipuliraju podacima koje bi svaki znanstvenik za podatke trebao znati.

Instalirajte pande u svoje virtualno okruženje

Prije nego što nastavimo, provjerite jeste li instalirali pande u svoje virtualno okruženje koristeći pip:

pip install pande

Nakon što ga instalirate, uvezite pande na vrhu vaše skripte i idemo dalje.

1. pande. DataFrame

Ti koristiš pande. okvir podataka() za stvaranje DataFramea u pandama. Postoje dva načina korištenja ove funkcije.

Možete formirati DataFrame prema stupcu prosljeđivanjem rječnika u pande. okvir podataka() funkcija. Ovdje je svaki ključ stupac, dok su vrijednosti redovi:

instagram viewer
uvoz pande
DataFrame = pande. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
ispis (DataFrame)

Druga metoda je formiranje okvira podataka preko redaka. Ali ovdje ćete odvojiti vrijednosti (stavke redaka) od stupaca. Broj podataka na svakom popisu (podaci retka) također se mora podudarati s brojem stupaca.

uvoz pande
DataFrame = pande. Okvir podataka([[1, 4, 5], [7, 19, 13]], stupci= ["J", "K", "L"])
ispis (DataFrame)

2. Čitanje iz i pisanje u Excel ili CSV u pandama

Možete čitati ili pisati u Excel ili CSV datoteke s pandama.

Čitanje Excel ili CSV datoteka

Za čitanje Excel datoteke:

#Zamijenite example.xlsx stazom vaše Excel datoteke
DataFrame = DataFrame.read_excel("example.xlsx")

Evo kako pročitati CSV datoteku:

#Zamijenite example.csv stazom vaše CSV datoteke
DataFrame = DataFrame.read_csv("example.csv")

Pisanje u Excel ili CSV

Pisanje u Excel ili CSV dobro je poznata operacija panda. I zgodno je za spremanje novoizračunatih tablica u zasebne tablice s podacima.

Za pisanje u Excel list:

DataFrame.to_excel("full_path_of_the_destination_folder/filename.xlsx")

Ako želite pisati u CSV:

DataFrame.to_csv("full_path_of_the_destination_folder/filename.csv")

Također možete izračunati središnje tendencije svakog stupca u DataFrameu pomoću panda.

Evo kako dobiti srednju vrijednost svakog stupca:

DataFrame.mean()

Za vrijednost medijana ili načina, zamijenite znači () s srednja vrijednost () ili način ().

4. DataFrame.transform

pande' DataFrame.transform() mijenja vrijednosti DataFramea. Prihvaća funkciju kao argument.

Na primjer, kod u nastavku množi svaku vrijednost u DataFrameu s tri pomoću Pythonova lambda funkcija:

DataFrame = DataFrame.transform (lambda y: y*3)
ispis (DataFrame)

5. DataFrame.isnull

Ova funkcija vraća Booleovu vrijednost i označava sve retke koji sadrže nulte vrijednosti kao Pravi:

DataFrame.isnull()

Rezultat gornjeg koda može biti teško pročitati za veće skupove podataka. Dakle, možete koristiti isnull().suma() umjesto toga funkcija. Ovo vraća sažetak svih vrijednosti koje nedostaju za svaki stupac:

DataFrame.isnull().suma()

6. Dataframe.info

The info() funkcija je bitna operacija panda. Umjesto toga vraća sažetak vrijednosti koje ne nedostaju za svaki stupac:

DataFrame.info()

7. DataFrame.opisati

The opisati() funkcija vam daje zbirnu statistiku DataFramea:

DataFrame.describe()

8. DataFrame.replace

Koristiti DataFrame.replace() metode u pandama, možete zamijeniti odabrane retke drugim vrijednostima.

Na primjer, za zamjenu nevažećih redaka s Nan:

# Osigurajte da ste pip install numpy da bi ovo funkcioniralo
import numpy
uvoz pande
# Dodavanje inplace ključne riječi i postavljanje na True čini promjene trajnima:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
ispis (DataFrame)

9. DataFrame.fillna

Ova funkcija vam omogućuje da ispunite prazne retke određenom vrijednošću. Možete ispuniti sve Nan retke u skupu podataka sa srednjom vrijednošću, na primjer:

DataFrame.fillna (df.mean(), inplace = True)
ispis (DataFrame)

Također možete biti specifični za stupac:

DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
ispis (DataFrame)

10. DataFrame.dropna

The dropna() metoda uklanja sve retke koji sadrže null vrijednosti:

DataFrame.dropna (inplace = True)
ispis (DataFrame)

11. DataFrame.insert

Možete koristiti pande' umetnuti() funkciju za dodavanje novog stupca u DataFrame. Prihvaća tri ključne riječi, naziv stupca, popis njegovih podataka i njegov mjesto, što je indeks stupca.

Evo kako to funkcionira:

DataFrame.insert (stupac = 'C', vrijednost = [3, 4, 6, 7], loc=0)
ispis (DataFrame)

Gornji kod umeće novi stupac u indeks nultog stupca (postaje prvi stupac).

12. DataFrame.loc

Možeš koristiti lok pronaći elemente u određenom indeksu. Za prikaz svih stavki u trećem retku, na primjer:

DataFrame.loc[2]

13. DataFrame.pop

Ova funkcija vam omogućuje da uklonite određeni stupac iz pandas DataFramea.

Prihvaća an artikal ključnu riječ, vraća iskočiti stupac i odvaja ga od ostatka DataFramea:

DataFrame.pop (stavka= 'naziv_stupca')
ispis (DataFrame)

14. DataFrame.max, min

Dobivanje maksimalnih i minimalnih vrijednosti pomoću panda je jednostavno:

DataFrame.min()

Gornji kod vraća minimalnu vrijednost za svaki stupac. Da biste dobili maksimum, zamijenite min s maks.

15. DataFrame.join

The pridružiti() funkcija pandas vam omogućuje spajanje okvira podataka s različitim nazivima stupaca. Možete koristiti lijevi, desni, unutarnji ili vanjski spoj. Da biste lijevo spojili DataFrame s još dva:

#Slijevo spojite duže stupce s kraćim
newDataFrame = df1.join([df_shorter2, df_shorter3], how='lijevo')
ispis (noviDataFrame)

Da biste spojili DataFrames sa sličnim nazivima stupaca, možete ih razlikovati uključivanjem sufiksa s lijeve ili desne strane. Učinite to uključivanjem lsufiks ili rsufiks ključna riječ:

newDataFrame = df1.join([df2, rsuffix='_', how='outer') 
ispis (noviDataFrame)

16. DataFrame.combine

The kombinirati() funkcija je zgodna za spajanje dvaju okvira podataka koji sadrže slične nazive stupaca na temelju postavljenih kriterija. Prihvaća a funkcija ključna riječ.

Na primjer, za spajanje dvaju okvira podataka sa sličnim nazivima stupaca samo na temelju maksimalnih vrijednosti:

newDataFrame = df.combine (df2, numpy.minimum)
ispis (noviDataFrame)

Bilješka: Također možete definirati prilagođenu funkciju odabira i umetnuti numpy.minimum.

17. DataFrame.astype

The astype() funkcija mijenja tip podataka određenog stupca ili okvira podataka.

Za promjenu svih vrijednosti u DataFrameu u niz, na primjer:

DataFrame.astype (str)

18. DataFrame.zbroj

The iznos() funkcija u pandas vraća zbroj vrijednosti u svakom stupcu:

DataFrame.sum()

Također možete pronaći kumulativni zbroj svih korištenih stavki cumsum():

DataFrame.cumsum()

19. DataFrame.drop

pande' pad() funkcija briše određene retke ili stupce u DataFrameu. Morate navesti nazive stupaca ili indeks redaka i os da biste ih koristili.

Da biste uklonili određene stupce, na primjer:

df.drop (stupac=['stupac1', 'stupac2'], os=0)

Za ispuštanje redaka na indeksima 1, 3 i 4, na primjer:

df.drop([1, 3, 4], os=0)

20. DataFrame.corr

Želite li pronaći korelaciju između cjelobrojnih ili float stupaca? pande vam mogu pomoći da to postignete pomoću corr() funkcija:

DataFrame.corr()

Gornji kod vraća novi DataFrame koji sadrži korelacijski slijed između svih cjelobrojnih ili float stupaca.

21. DataFrame.add

The dodati() funkcija vam omogućuje da svakoj vrijednosti u DataFrameu dodate određeni broj. Radi tako što se ponavlja kroz DataFrame i operira sa svakom stavkom.

Povezano:Kako koristiti For petlje u Pythonu

Da biste dodali 20 svakoj od vrijednosti u određenom stupcu koji sadrži cijele brojeve ili plutajuće, na primjer:

DataFrame['interger_column'].add (20)

22. DataFrame.sub

Poput funkcije zbrajanja, također možete oduzeti broj od svake vrijednosti u DataFrameu ili određenom stupcu:

DataFrame['interger_column'].sub (10)

23. DataFrame.mul

Ovo je verzija množenja funkcije zbrajanja panda:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

Slično, svaku podatkovnu točku u stupcu ili DataFrameu možete podijeliti određenim brojem:

DataFrame['interger_column'].div (20)

25. DataFrame.std

Koristiti std() funkcija, pandas vam također omogućuje izračunavanje standardne devijacije za svaki stupac u DataFrameu. Radi tako što se ponavlja kroz svaki stupac u skupu podataka i izračunava standardnu ​​devijaciju za svaki od njih:

DataFrame.std()

26. DataFrame.sort_values

Također možete sortirati vrijednosti uzlazno ili silazno na temelju određenog stupca. Da biste sortirali DataFrame u silaznom redoslijedu, na primjer:

newDataFrame = DataFrame.sort_values ​​(prema = "colmun_name", silazno = True)

27. DataFrame.melt

The topiti() funkcija u pandas okreće stupce u DataFrameu na pojedinačne retke. To je kao razotkrivanje anatomije DataFramea. Tako vam omogućuje da eksplicitno vidite vrijednost dodijeljenu svakom stupcu.

newDataFrame = DataFrame.melt()

28. DataFrame.count

Ova funkcija vraća ukupan broj stavki u svakom stupcu:

DataFrame.count()

29. DataFrame.query

pande' upit() omogućuje pozivanje stavki pomoću njihovog indeksnog broja. Da biste dobili stavke u trećem redu, na primjer:

DataFrame.query('4') # Pozovite upit na četvrtom indeksu

30. DataFrame.gdje

The gdje() funkcija je pandas upit koji prihvaća uvjet za dobivanje određenih vrijednosti u stupcu. Na primjer, da dobijete sve uzraste mlađe od 30 godina od Dob stupac:

DataFrame.where (DataFrame['Age'] < 30)

Gornji kod daje DataFrame koji sadrži sve dobi mlađe od 30 godina, ali dodjeljuje Nan na redove koji ne ispunjavaju uvjet.

Rukujte podacima kao profesionalac s pandama

pandas je riznica funkcija i metoda za rukovanje malim i velikim skupovima podataka s Pythonom. Knjižnica je također korisna za čišćenje, provjeru valjanosti i pripremu podataka za analizu ili strojno učenje.

Odvojite vrijeme da ga svladate definitivno vam olakšava život kao znanstvenika podataka i itekako je vrijedno truda. Stoga slobodno pokupite sve funkcije koje možete nositi.

20 Python funkcija koje biste trebali znati

Python Standard Library sadrži mnoge funkcije koje će vam pomoći u vašim programskim zadacima. Saznajte o najkorisnijima i izradite robusniji kod.

Pročitajte dalje

UdioCvrkutE-mail
Povezane teme
  • Programiranje
  • Piton
  • Programiranje
  • baza podataka
O autoru
Idowu Omisola (Objavljeno 123 članaka)

Idowu je strastven za sve pametne tehnologije i produktivnost. U slobodno vrijeme igra se s kodiranjem i prelazi na šahovsku ploču kad mu je dosadno, ali voli se s vremena na vrijeme otrgnuti od rutine. Njegova strast da ljudima pokaže put oko moderne tehnologije motivira ga da piše više.

Više od Idowua Omisole

Pretplatite se na naše obavijesti

Pridružite se našem biltenu za tehničke savjete, recenzije, besplatne e-knjige i ekskluzivne ponude!

Kliknite ovdje za pretplatu