Nedostatak podataka često je jedan od glavnih zastoja u većini projekata znanosti o podacima. Međutim, znati kako prikupiti podatke za bilo koji projekt u koji se želite upustiti važna je vještina koju trebate steći kao znanstvenik podataka.

Znanstvenici podataka i inženjeri strojnog učenja sada koriste moderne tehnike prikupljanja podataka kako bi prikupili više podataka za algoritme obuke. Ako planirate započeti svoj prvi projekt znanosti ili podataka o strojnom učenju, morate biti u mogućnosti dobiti i podatke.

Kako si možete olakšati postupak? Pogledajmo neke moderne tehnike koje možete koristiti za prikupljanje podataka.

Zašto vam treba više podataka za vaš projekt znanosti o podacima

Algoritmi strojnog učenja ovise o podacima kako bi postali precizniji, precizniji i predviđajući. Ovi se algoritmi uvježbavaju pomoću skupova podataka. Proces treninga pomalo je poput podučavanja mališana imenu predmeta po prvi puta, a zatim mu omogućuje da ga prepoznaju sami kad ga sljedeći put vide.

instagram viewer

Ljudskim bićima treba samo nekoliko primjera za prepoznavanje novog predmeta. To nije slučaj za stroj, jer su mu potrebne stotine ili tisuće sličnih primjera da bi se upoznao s objektom.

Ovi primjeri ili predmeti obuke trebaju biti u obliku podataka. Namjenski algoritam strojnog učenja zatim prolazi kroz taj niz podataka koji se naziva set treninga - i saznaje više o njemu kako bi postao precizniji.

To znači da ako ne dostavite dovoljno podataka za vježbanje algoritma, možda nećete dobiti pravi rezultat na kraju projekta jer stroj nema dovoljno podataka za učenje.

Dakle, potrebno je dobiti odgovarajuće podatke kako biste poboljšali točnost rezultata. Pogledajmo neke moderne strategije koje možete upotrijebiti da biste to postigli u nastavku.

1. Izvlačenje podataka izravno s web stranice

Web struganje automatiziran je način za dobivanje podataka s weba. U svom najosnovnijem obliku, struganje weba može uključivati ​​kopiranje i lijepljenje elemenata na web mjestu u lokalnu datoteku.

Međutim, struganje weba također uključuje pisanje posebnih skripti ili korištenje namjenskih alata za izravno struganje podataka s web stranice. To bi također moglo uključivati ​​dublje prikupljanje podataka korištenjem Sučelja za aplikacijsko programiranje (API-ji) poput Serpstack-a.

Izvucite korisne podatke iz rezultata pretraživanja pomoću Serpstack API-ja

Pomoću API-ja za serpstack lako možete prikupiti informacije sa stranica s rezultatima Googlea i drugih tražilica.

Iako neki ljudi vjeruju da bi struganje s weba moglo dovesti do gubitka intelektualnog vlasništva, to se može dogoditi samo kada ljudi to učine zlonamjerno. Web struganje je legalno i pomaže tvrtkama da donesu bolje odluke prikupljanjem javnih podataka o svojim kupcima i konkurentima.

Povezano: Što je struganje putem weba? Kako prikupiti podatke s web stranica

Na primjer, možete napisati skriptu za prikupljanje podataka iz internetskih trgovina radi usporedbe cijena i dostupnosti. Iako je možda malo tehničko, neovisne medije poput audio datoteka i slika možete prikupljati i putem weba.

Pogledajte donji primjer primjera koda da biste na brzinu vidjeli web struganje s Pythonom krasna supa4 Biblioteka HTML raščlanjivača.

iz bs4 uvoza BeautifulSoup
from urllib.request uvoz urlopen
url = "Ovdje unesite puni URL ciljane web stranice"
targetPage = urlopen (url)
htmlReader = targetPage.read (). decode ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
ispis (webData.get_text ())

Prije pokretanja primjera koda, morat ćete instalirati knjižnicu. Stvorite virtualno okruženje iz naredbenog retka i instalirajte knjižnicu pokretanjem pip instalirati beautifulsoup4.

2. Putem web obrazaca

Također možete koristiti mrežne obrasce za prikupljanje podataka. To je najkorisnije kada imate ciljnu skupinu ljudi od kojih želite prikupiti podatke.

Nedostatak slanja web obrazaca je taj što možda nećete prikupiti onoliko podataka koliko želite. Prilično je zgodno za male projekte znanosti ili poduke, ali možda ćete naići na ograničenja koja pokušavaju dosegnuti velik broj anonimnih ljudi.

Iako postoje usluge internetskog prikupljanja podataka koje se plaćaju, one se ne preporučuju pojedincima, jer su uglavnom preskupe - osim ako vam ne smeta što malo novca potrošiti na projekt.

Postoje razni web obrasci za prikupljanje podataka od ljudi. Jedan od njih su Google obrasci kojima možete pristupiti odlaskom na forms.google.com. Možeš koristite Google obrasce za prikupljanje podataka za kontakt, demografski podaci i drugi osobni podaci.

Jednom kada stvorite obrazac, sve što trebate jest poslati vezu ciljanoj publici putem pošte, SMS-a ili bilo kojim drugim dostupnim sredstvima.

Međutim, Google obrasci samo su jedan primjer popularnih web obrazaca. Postoji mnogo alternativa koje rade i izvrsne poslove prikupljanja podataka.

Podatke možete prikupljati i putem prodajnih mjesta na društvenim mrežama kao što su Facebook, LinkedIn, Instagram i Twitter. Dobivanje podataka s društvenih mreža malo je tehničko od bilo koje druge metode. Potpuno je automatiziran i uključuje upotrebu različitih API alata.

Iz društvenih medija može biti teško izvući podatke jer su relativno neorganizirani i ima ih ogromna količina. Ako se pravilno organizira, ova vrsta skupa podataka može biti korisna u projektima znanosti o znanosti koji uključuju mrežnu analizu osjećaja, analizu tržišnih trendova i mrežno brendiranje.

Na primjer, Twitter je primjer izvora podataka na društvenim mrežama gdje možete prikupiti veliku količinu podataka tweepy Python API paket, koji možete instalirati s pip instalirati tweepy naredba.

Za osnovni primjer, blok koda za izdvajanje Twitter-ovih tweetova s ​​početne stranice izgleda ovako:

uvoz tweepy
uvoz re
myAuth = tweepy. OAuthHandler (ovdje zalijepite ključ_potrošača, ovdje zalijepite ključ_potrošača)
auth.set_access_token (ovdje zalijepite access_token, ovdje zalijepite access_token_secret)
autentifikacija = tweepy. API (myAuth)
target_tweet = api.home_timeline ()
za ciljeve u target_tweet:
ispis (targets.text)

Možete posjetiti docs.tweepy.org web mjesto za pristup tweepy dokumentaciju za više detalja o tome kako ga koristiti. Da biste koristili Twitterov API, trebate se prijaviti za račun programera tako da odete na developer.twitter.com web stranica.

Facebook je još jedna moćna platforma za društvene medije za prikupljanje podataka. Koristi posebnu API krajnju točku koja se naziva Facebook Graph API. Ovaj API omogućuje programerima prikupljanje podataka o ponašanju određenih korisnika na Facebook platformi. Dokumentaciji Facebook Graph API možete pristupiti na developers.facebook.com da biste saznali više o tome.

Detaljno objašnjenje prikupljanja podataka na društvenim mrežama pomoću API-a izvan je dosega ovog članka. Ako ste zainteresirani za saznati više, možete pogledati dokumentaciju svake platforme za detaljno znanje o njima.

Osim pisanja skripti za povezivanje s krajnjom točkom API-ja, podaci o društvenim mrežama prikupljaju alate nezavisnih proizvođača poput Stručnjak za struganje a dostupni su i mnogi drugi. Međutim, većina ovih web alata ima svoju cijenu.

4. Prikupljanje postojećih skupova podataka iz službenih izvora

Već postojeće skupove podataka možete prikupiti i iz mjerodavnih izvora. Ova metoda uključuje posjećivanje službenih banaka podataka i preuzimanje provjerenih skupova podataka iz njih. Za razliku od struganja po webu i drugih opcija, ova je opcija brža i ne zahtijeva malo ili nimalo tehničkog znanja.

Skupovi podataka o ovim vrstama izvora obično su dostupni u CSV, JSON, HTML ili Excel formatima. Neki primjeri mjerodavnih izvora podataka su Svjetska banka, UNdatai nekoliko drugih.

Neki izvori podataka mogu trenutne podatke učiniti privatnima kako bi spriječili javnost da im pristupi. Međutim, njihove su arhive često dostupne za preuzimanje.

Više službenih izvora podataka za vaš projekt strojnog učenja

Ovaj popis trebao bi vam dati dobru polaznu točku za dobivanje različitih vrsta podataka s kojima možete raditi u svojim projektima.

  • EU portal za otvorene podatke
  • Kaggle skupovi podataka
  • Google pretraživanje skupa podataka
  • Data Hub
  • Registar otvorenih podataka na AWS-u
  • Europska vladina agencija - podaci i karte
  • Microsoft Research Open Data
  • Strašno javno spremište skupova podataka na GitHubu
  • Podaci. Vlada: Dom otvorenih podataka američke vlade

Mnogo je više izvora od ovog, a pažljivo pretraživanje nagrađivat će vas podacima savršenim za vaše vlastite projekte znanosti o podacima.

Kombinirajte ove moderne tehnike za bolje rezultate

Prikupljanje podataka može biti zamorno kada su dostupni alati za zadatak ograničeni ili ih je teško razumjeti. Iako starije i konvencionalne metode još uvijek dobro funkcioniraju i u nekim su slučajevima neizbježne, moderne su metode brže i pouzdanije.

Međutim, umjesto da se oslanjate na jednu metodu, kombinacija ovih modernih načina prikupljanja podataka može donijeti bolje rezultate.

E-mail
5 Softverski alati za analizu podataka koje možete brzo naučiti

Želite li se baviti analitikom podataka? Evo nekoliko alata koje biste trebali naučiti.

Povezane teme
  • Programiranje
  • Piton
  • Veliki podaci
  • Strojno učenje
  • Prikupljanje podataka
  • Analiza podataka
O autoru
Idowu Omisola (Objavljeno 45 članaka)

Idowu je zaljubljen u sve pametne tehnologije i produktivnost. U slobodno vrijeme igra se s kodiranjem i prebacuje se na šahovsku ploču kad mu je dosadno, ali također voli kad-tad odvojiti se od rutine. Njegova strast da ljudima pokaže put oko moderne tehnologije motivira ga da piše više.

Više od Idowu Omisole

Pretplatite se na naše obavijesti

Pridružite se našem biltenu za tehničke savjete, recenzije, besplatne e-knjige i ekskluzivne ponude!

Još jedan korak…!

Potvrdite svoju e-adresu u e-pošti koju smo vam upravo poslali.

.