Oglas

Što biste rekli kad bih vam rekao da imate na raspolaganju alat za istraživanje revolucionarnih i zemljanih? Pa, znaš, i pokazat ću ti kako.

Vlade, akademske institucije i neprofitne istraživačke organizacije objavljuju javne tablice pune podataka. Bez da itko koristi ove podatke, njegova prava vrijednost nikada neće biti poznata. Nažalost, malo ljudi ima uvid, vještine ili alate za uzimanje podataka i uspostavljanje zanimljivih korelacija između naizgled nepovezanih informacija.

pozadina

Mnogo istraživanja koja radim na svom vlastitom blogu uključuju kopanje onoga što je poznato kao nevidljivi web 12 najboljih pretraživača za istraživanje nevidljivog webaGoogle ili Bing ne mogu sve pretraživati. Da biste istražili nevidljivi web, trebate koristiti ove posebne tražilice. Čitaj više , za otkrivanje podataka koji su objavljeni u javnosti, ali skriveni od tražilice Pet najnaprednijih pretraživača na webu Čitaj više unutar internetske baze podataka. Ovo je duboka mreža TorSearch želi biti Google za dubinski web

instagram viewer
Tor je skrivena usluga i dio Deep Weba. TorSearch nova je anonimna tražilica koju njezin osnivač Chris MacNaughton želi napraviti „Googleom od Tor“. Čitaj više i to je puna vrijednih podataka. Vrlo često nailazim na web stranice koje su samo napunjene nekim od najcjenjenijih podataka o temama koje vode raspon od popisnih podataka do epidemioloških studija o rijetkim bolestima. Stalno imam nove ideje kako pokušati i povezati te različite izvore podataka koristeći razne alate - a jedan od najcjenjenijih alata koji sam pronašao je Web Query u Microsoftu Excel.

Pronalaženje zanimljivih korelacija podataka

Ono što ću vam danas pokazati je primjer kako možete koristiti Excelove web upite za povlačenje podataka iz različitih web stranica i crtajte ih jedan prema drugome kako bi pretražili moguće korelacije između podaci.

Način za započinjanje vježbe poput ove je izraditi zanimljivu hipotezu. Na primjer - da zadržim stvari ovdje - nasumično ću postulirati one skočne stope autizma u Sjedinjenim Državama uzrokovane ili cijepljenjem cjepivom ili sve većom prisutnošću elektromagnetskih polja u i oko djece, poput stanica telefone. To je luda hipoteza koju ćete naći na većini web mjesta teorije zavjere, ali to je ono što čini ovu zabavu. Pa započnimo, zar ne?

Prvo otvorite Excel, prijeđite na stavku izbornika podataka i pronađite ikonu "s weba" na vrpci izbornika.

web-upit-excel1

Ovo ćete koristiti za uvoz različitih tablica podataka s mnogih web lokacija koje su ih objavile.

Uvoz web podataka u Excel

Dakle, u davna vremena trebali biste pokušati kopirati podatke iz te tablice na web stranicu, zalijepiti ih u Excel, a zatim se baviti svim ludim problemima oblikovanja koji su uključeni u to. Totalna gnjavaža, a puno puta samo ne vrijedi glavobolju. Pa, s Excel web upitima tih dana nema. Naravno, prije nego što možete uvesti podatke, morat ćete se Googleom kretati po webu kako biste pronašli potrebne podatke u formatu tablice. U mom slučaju pronašao sam web mjesto koja je objavila statistiku Odjela za obrazovanje o broju učenika američke javne škole za koje je identificirano da imaju autizam. Lijep stol u kojem su bili brojevi od 1994. sve do 2006. godine.

Dakle, samo kliknite "From Web", zalijepite URL web stranice u polje adrese upita, a zatim se pomaknite prema dolje dok ne vidite žutu strelicu pored tablice s podacima koje želite uvesti.

web-upit-excel2

Kliknite strelicu tako da postane zelena kvačica.

web-upit-excel3

Na kraju, recite Excelu u koje polje želite zalijepiti podatke tablice u novu proračunsku tablicu.

web-upit-excel4

Zatim - Voila! Podaci se automatski prelijevaju izravno u vašu proračunsku tablicu.

web-upit-excel5
Dakle, s trendom stope autizma u javnim školama od 1996. do 2006. godine, vrijeme je da se krene u potragu za trendovima cijepljenja i upotrebe mobitela.

Srećom, brzo sam pronašao trendove za pretplatnike mobitela u SAD-u od 1985. do 2012. godine. Izvrsni podaci za ovu studiju. Ponovno sam upotrijebio alat Excel Web Query za uvoz te tablice.

web-upit-excel6

Uvezao sam taj stol u čist, novi lim. Tada sam otkrio trendove cijepljenja za postotak školske djece cijepljene protiv različitih bolesti. Uvezio sam tu tablicu pomoću alata Web Query u treći list. I na kraju, imao sam tri lista s tri tablice ispunjene naizgled nepovezanim podacima koje sam otkrio na Internetu.

web-upit-excel8

Sljedeći korak je korištenje Excela za analizu podataka i pokušavanje identificiranja korelacija. Tu se pojavljuje jedan od mojih najdražih alata za analizu podataka - PivotTable.

Analiza podataka u Excelu s PivotTable-om

Najbolje je izraditi svoj okretni stol na potpuno novom, praznom listu. Želite koristiti čarobnjaka za ono što ćete raditi. Za omogućavanje PivotTable čarobnjaka u Excelu morate pritisnuti Alt-D istovremeno dok se ne pojavi prozor s obavijestima. Zatim pustite te gumbe i pritisnite tipku "P". Tada ćete vidjeti čarobnjaka kako se pojavljuje.

web-upit-excel10

U prvom prozoru čarobnjaka želite odabrati "Višestruki rasponi konsolidacije", što vam omogućuje odabir podataka s svih listova koje ste uveli. Na taj način možete objediniti sve naizgled nepovezane podatke u jedan moćan okretni stol. U nekim će slučajevima možda trebati masirati neke podatke. Na primjer, morao sam popraviti polje "Godina" u tablici autizma, tako da je umjesto "umjesto" pokazivao "1994" "1994-95" - što ga je bolje uskladilo s tablicama na ostalim listovima, koje su također imale osnovnu godinu polje.

web-upit-excel11

To zajedničko polje između podataka je ono što vam je potrebno kako biste isprobali i povezali podatke, pa to imajte na umu kada lovite svoje podatke na web.

Jednom kada je stožerna tabela završena i u svakoj tablici dobijete sve različite vrijednosti podataka, vrijeme je da napravite vizualnu analizu kako biste vidjeli postoji li očita veza koja iskače iz vas.

Vizualizacija podataka je ključna

Imati gomilu brojeva u tablici odlično je ako ste ekonomist, ali najbrži i najlakši način da imate taj "aha!" trenutak kada pokušavate pronaći veze poput igle u hrpi sijena, je putem karata i grafovi. Jednom kada postavite PivotChart sa svim skupovima podataka koje ste prikupili, vrijeme je da napravite svoj grafikon. Obično se najbolji grafikon najbolje ponaša, ali to ovisi o podacima. Postoje slučajevi kada bar-grafikon djeluje puno bolje. Pokušajte shvatiti kakve podatke gledate i koje usporedbe oblika najbolje rade.

U ovom slučaju gledam na podatke tijekom vremena, tako da je linijski graf zaista najbolji način da se vide trendovi tijekom godina. Izračunavanje stope autizma (zeleno) prema smanjenim stopama cijepljenja (tamnoplava), cjepiva protiv kozice (svijetloplava) i upotreba mobitela (ljubičasta) iznenada se pojavila neobična korelacija u ovom uzorku podataka koji sam reproducirao s.

web-upit-excel12

Čudno da je trend korištenja mobitela od 1994. do 2006. gotovo savršeno odgovarao porastu stope autizma u istom razdoblju. Iako je obrazac bio potpuno neočekivan, savršen je primjer kako povezivanje zanimljivih podataka može otkriti fascinantne poteze - pruža vam veći uvid i motivaciju za daljnje napredovanje i traženje dodatnih podataka koji bi vas mogli dodatno ojačati hipoteza.

Jedna takva korelacija ne dokazuje ništa. Postoji puno trendova koji se vremenom razvijaju - uzorak bi mogao biti slučajnost, ali to bi mogao biti i važan trag u vašoj trajnoj potrazi za više podataka na Internetu. Srećom, imate moćan alat koji se zove Excel Web Queries, koji će olakšati taj zadatak.

Fotografski kredit: Kevin Dooley preko photopincc

Ryan je diplomirao elektrotehniku. Radio je 13 godina u inženjerstvu automatizacije, 5 godina u IT-u, a sada je Apps inženjer. Bivši glavni urednik MakeUseOfa, govorio je na nacionalnim konferencijama o vizualizaciji podataka i bio je prikazan na nacionalnoj televiziji i radiju.