Da biste analizirali skup podataka, prvo morate razumjeti podatke. Ponekad možda nemate prethodnog znanja o skupu podataka, što vas sprječava da izvučete maksimum iz njega. Kao analitičar podataka, možete koristiti istraživačku analizu podataka (EDA) da steknete znanje o svom skupu podataka prije dubinske analize.

Eksploratorna analiza podataka (EDA) istražuje skup podataka kako bi se došlo do značajnih uvida. Proces izvođenja EDA uključuje upite o informacijama o strukturi i sadržaju skupa podataka.

Instaliranje Gota paketa

Gota paket je najpopularniji za Analiza podataka u Go; to je kao Python Pandas paket ali za Go. Paket Gota sadrži mnoge metode za analizu skupova podataka i čitanje JSON, CSV i HTML formata.

Pokrenite ovu naredbu na svom terminalu u direktoriju gdje ste inicijalizirali datoteku Go modula:

ići dobiti -u github.com/ići-gota/gota

Naredba će instalirati Gotu u lokalni direktorij, spreman za uvoz paketa kako biste ga koristili.

Baš kao i Pandas, Gota podržava serije i podatkovne okvire. Postoje dva pod-paketa u paketu Gota: serija i paket dataframe. Možete uvesti jedan ili oba, ovisno o vašim potrebama.

instagram viewer

uvoz (
"github.com/ići-gota/gota/serija"
"github.com/ići-gota/gota/dataframe"
)

Čitanje skupa podataka pomoću Gota paketa

Možete koristiti bilo koju CSV datoteku koju želite, ali sljedeći primjeri prikazuju rezultate iz skup podataka Kaggle, koji sadrži podatke o cijenama prijenosnih računala.

Gota vam omogućuje čitanje formata datoteka CSV, JSON i HTML za stvaranje podatkovnih okvira pomoću Pročitajte CSV, ReadJSON, i ReadHTML metode. Evo kako učitavate CSV datoteku u objekt podatkovnog okvira:

datoteka, pogreška := os. Otvori("/put/do/csv-datoteke.csv")

ako pogriješiti != nula {
fmt. Println("pogreška pri otvaranju datoteke")
}

dataFrame := podatkovni okvir. ReadCSV(datoteka)
fmt. Println (dataFrame)

Možete koristiti Otvorena metoda os paket za otvaranje CSV datoteke. Metoda ReadCSV čita objekt datoteke i vraća objekt okvira podataka.

Kada ispisujete ovaj objekt, izlaz je u tabličnom formatu. Objektom okvira podataka možete dalje manipulirati korištenjem različitih metoda koje Gota nudi.

Objekt će ispisati samo neke od stupaca ako skup podataka ima više od postavljene vrijednosti.

Dohvaćanje dimenzije skupa podataka

Dimenzije podatkovnog okvira su broj redaka i stupaca koje sadrži. Ove dimenzije možete dohvatiti pomoću Dims metoda objekta okvira podataka.

var redovi, stupci = dataFrame. Dims()

Zamijenite jednu od varijabli podvlakom da dohvatite samo drugu dimenziju. Također možete postaviti upit o broju redaka i stupaca pojedinačno, koristeći Nrow i Ncol metode.

var redovi = dataFrame. Nrow()
var stupci = dataFrame. Ncol()

Dohvaćanje tipova podataka stupaca

Morat ćete znati kompozitne vrste podataka u stupcima skupa podataka da biste ga analizirali. Možete ih dohvatiti pomoću Vrste metoda vašeg objekta podatkovnog okvira:

var vrste = dataFrame. Vrste()
fmt. Println (vrste)

Metoda Vrste vraća isječak koji sadrži tipove podataka stupca:

Dohvaćanje naziva stupaca

Trebat će vam nazivi stupaca za odabir određenih stupaca za operacije. Možete koristiti Imena način da ih dohvatite.

var Imena stupaca := okvir podataka. Imena()
fmt. Println (nazivi stupaca)

Metoda Names vraća isječak naziva stupaca.

Provjera nedostajućih vrijednosti

Možda imate skup podataka koji sadrži nulte ili nenumeričke vrijednosti. Takve vrijednosti možete provjeriti pomoću HasNaN i IsNaN metode niza objekata:

aCol := DataFrame. Col("display_size")
var hasNull = aCol. HasNaN()
var nijeBroj = aCol. IsNaN()

HasNan provjerava sadrži li stupac null elemente. IsNaN vraća odsječak Booleovih vrijednosti koje predstavljaju je li svaka vrijednost u stupcu broj.

Izvođenje deskriptivne statističke analize

Deskriptivna statistička analiza pomaže vam razumjeti distribuciju brojčanih stupaca. Koristiti Opisati možete generirati deskriptivnu statističku analizu svog skupa podataka:

opis := dataFrame. Opisati()
fmt. Println (opis)

Metoda Describe vraća metrike kao što su srednja vrijednost, standardna devijacija i maksimalne vrijednosti stupaca u skupu podataka. Sažima ih u tabelarnom obliku.

Također možete biti konkretni i usredotočiti se na stupce i mjerne podatke tako da odaberete određeni stupac, a zatim postavite upit za mjerni podatak koji želite. Prvo biste trebali dohvatiti niz koji predstavlja određeni stupac, a zatim koristiti njegove metode na sljedeći način:

aCol := DataFrame. Col("display_size")
var srednja vrijednost = aCol. srednje ()
var medijan = aCol. Medijan()
var minimum = aCol. min()
var standardna devijacija = aCol. StdDev()
var maksimum = aCol. Max()
var kvantili25 = aKol. Kvantil (25.0)

Ove metode odražavaju rezultate deskriptivne statističke analize koju Describe izvodi.

Dohvaćanje elemenata u stupcu

Jedan od posljednjih zadataka koje ćete htjeti obaviti jest provjeriti vrijednosti u stupcu radi općeg pregleda. Možete koristiti Zapisi metoda za pregled vrijednosti stupca.

aCol := DataFrame. Kol("brand")
fmt. Println (aCol. Zapisi())

Ova metoda vraća isječak nizova koji sadrže vrijednosti u vašem odabranom stupcu:

Izvoz Gota Dataframea u datoteku

Ako odlučite ići dalje i koristiti paket Gota za potpunu analizu podataka, morat ćete podatke spremiti u datoteke. Možete koristiti Napiši CSV i Napiši JSON metode podatkovnog okvira za izvoz datoteka. Metode uzimaju datoteku koju ćete izraditi pomoću os paketa Stvoriti metoda.

Evo kako možete izvesti podatkovni okvir pomoću paketa Gota.

dataFrame := podatkovni okvir. ReadCSV(datoteka)
izlazna datoteka, pogreška := os. Izradi("output.csv")

ako pogriješiti != nula {
log. Fatalno (greška)
}

pogreška = dataFrame. WriteCSV(outputFile)

ako pogriješiti != nula {
log. Fatalln("Došlo je do pogreške pri pisanju sadržaja podatkovnog okvira u datoteku")
}

The dataFrame varijabla je prikaz podatkovnog okvira. Kada koristite Stvoriti metoda os paket, stvara novu, praznu datoteku s navedenim nazivom i vraća datoteku. Metoda WriteCSV preuzima instancu datoteke i vraća pogrešku ili nula ako nema greške.

Eksplorativna analiza podataka je važna

Razumijevanje podataka i skupova podataka ključno je za analitičare podataka i stručnjake za strojno učenje. To je kritična operacija u njihovom radnom ciklusu, a istraživačka analiza podataka jedna je od tehnika koju koriste da to postignu.

Gota paket ima više. Možete ga koristiti za razne funkcije prepucavanja podataka na isti način na koji biste koristili biblioteku Python Pandas za analizu podataka. Međutim, Gota ne podržava toliko funkcionalnosti kao Pandas.