Jeste li znali da je moguće izvući podatke s web stranice pomoću Google tablica? Evo kako to možete učiniti.

Web scraping je moćna tehnika za izvlačenje informacija s web stranica i njihovu automatsku analizu. Iako to možete učiniti ručno, to može biti naporan i dugotrajan zadatak. Alati za struganje weba čine proces bržim i učinkovitijim, a istovremeno koštaju manje.

Zanimljivo je da Google Sheets ima potencijal biti vaš alat za web scrapping na jednom mjestu, zahvaljujući funkciji IMPORTXML. Pomoću IMPORTXML-a možete jednostavno izvući podatke s web-stranica i koristiti ih za analizu, izvješćivanje ili bilo koje druge zadatke temeljene na podacima.

Funkcija IMPORTXML u Google tablicama

Google tablice pružaju ugrađenu funkciju pod nazivom IMPORTXML, koja vam omogućuje uvoz podataka iz web formata kao što su XML, HTML, RSS i CSV. Ova funkcija može promijeniti pravila igre ako želite prikupljati podatke s web stranica bez pribjegavanja složenom kodiranju.

Evo osnovne sintakse IMPORTXML-a:

=IMPORTXML(url, xpath_query)
instagram viewer
  • url: URL web-stranice s koje želite izgrebati podatke.
  • xpath_query: XPath upit koji definira podatke koje želite izdvojiti.

XPath (XML Path Language) je jezik koji se koristi za navigaciju XML dokumentima, uključujući HTML—omogućuje vam da odredite lokaciju podataka unutar HTML strukture. Razumijevanje XPath upita bitno je za pravilno korištenje IMPORTXML-a.

Razumijevanje XPatha

XPath nudi različite funkcije i izraze za navigaciju i filtriranje podataka unutar HTML dokumenta. Sveobuhvatni vodič za XML i XPath je izvan opsega ovog članka, pa ćemo se zadovoljiti nekim bitnim XPath konceptima:

  • Odabir elementa: Možete odabrati elemente pomoću / i // za označavanje staza. Na primjer, /html/body/div odabire sve div elemente u tijelu dokumenta.
  • Odabir atributa: Za odabir atributa, možete koristiti @. Na primjer, //@href odabire sve href atribute na stranici.
  • Filtri predikata: Možete filtrirati elemente pomoću predikata u uglatim zagradama ([ ]). Na primjer, /div[@class="container"] odabire sve div elemente s klasom spremnik.
  • Funkcije: XPath pruža razne funkcije kao što su sadrži (), počinje sa(), i tekst() za izvođenje određenih radnji poput provjere sadržaja teksta ili vrijednosti atributa.

Kako izdvojiti XPath s web stranice

Do sada znate sintaksu IMPORTXML, znate URL web stranice i znate koji element želite izdvojiti. Ali kako dobiti XPath elementa?

Ne morate znati strukturu web stranice napamet da biste izdvojili podatke s IMPORTXML-a. Zapravo, svaki preglednik ima izvrstan alat koji vam omogućuje trenutno kopiranje XPatha bilo kojeg elementa.

Alat Inspect Element omogućuje izdvajanje XPatha iz elemenata web stranice. Evo kako:

  1. Dođite do web-stranice koju želite skrapirati pomoću željenog web-preglednika.
  2. Pronađite element koji želite ostrugati.
  3. Kliknite desnom tipkom miša na element.
  4. Izaberi Pregledajte element iz izbornika desnog klika. Vaš će preglednik otvoriti ploču koja prikazuje HTML kod web stranice. Relevantni HTML element bit će istaknut u kodu.
  5. Na ploči Inspect Element desnom tipkom miša kliknite označeni element u HTML kodu.
  6. Klik Kopiraj XPath da kopirate XPath adresu elementa u svoj međuspremnik.

Sada kada imate sve što vam je potrebno, vrijeme je da vidite IMPORTXML na djelu i iskoristite neke veze.

Možete koristiti IMPORTXML za struganje svih vrsta podataka s web stranica. To uključuje poveznice, videozapise, slike i gotovo sve elemente web stranice. Veze su jedan od najistaknutijih elemenata u web analizi, a možete naučiti mnogo o web stranici samo analizom stranica na koje vodi.

IMPORTXML vam omogućuje brzo struganje veza u Google tablicama i njihovu daljnju analizu pomoću različitih funkcija koje Google tablice nude.

Za struganje svih veza s web-stranice možete upotrijebiti sljedeću formulu:

=IMPORTXML(url, "//a/@href") 

Ovaj XPath upit odabire sve href atributi od a elemenata, učinkovito izvlačeći sve veze na stranici.

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a/@href")

Gornja formula briše sve veze u članku na Wikipediji.

Dobro je unijeti URL web-stranice u zasebnu ćeliju i zatim uputiti na tu ćeliju. To će spriječiti da vaša formula postane predugačka i nezgrapna. Isto možete učiniti s XPath upitom.

2. Struganje svih tekstova veza

Da biste izdvojili tekst veza zajedno s njihovim URL-ovima, možete koristiti:

=IMPORTXML(url, "//a") 

Ovaj upit odabire sve elemente, a iz rezultata možete izdvojiti tekst veze i URL-ove.

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a")

Gornja formula dobiva tekstove veza u istom članku na Wikipediji.

Ponekad ćete možda morati izgrebati određene veze na temelju kriterija. Na primjer, mogli biste biti zainteresirani za izdvajanje veza koje sadrže određenu ključnu riječ ili veza koje se nalaze u određenom dijelu stranice.

S odgovarajućim poznavanjem XPatha, možete točno odrediti bilo koji element koji tražite.

Za struganje poveznica koje sadrže određenu ključnu riječ, možete upotrijebiti funkciju contains() XPath:

=IMPORTXML(url, "//a[contains(@href, 'keyword')]/@href") 

Ovaj upit odabire href atribute elemenata gdje href sadrži navedenu ključnu riječ.

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a[contains(@href, 'record')]/@href")

Gornja formula struže sve veze koje sadrže zapis riječi u svom tekstu unutar oglednog članka na Wikipediji.

Za struganje veza s određenog odjeljka stranice, možete odrediti XPath odjeljka. Na primjer:

=IMPORTXML(url, "//div[@class='section']//a/@href") 

Ovaj upit odabire href atribute elemenata unutar div elemenata s klasom "odjeljak".

Slično, formula u nastavku odabire sve veze unutar div klase koje imaju klasu mw-content-container:

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//div[@class='mw-content-container']//a/@href")

Vrijedno je napomenuti da IMPORTXML možete koristiti za više od web struganja. Obitelj funkcija IMPORT možete koristiti za uvoz tablica podataka s web stranica u Google tablice.

Iako Google tablice i Excel dijele većinu svojih funkcija, obitelj funkcija IMPORT jedinstvena je za Google tablice. Morat ćete razmotriti druge metode uvoz podataka s web stranica u Excel.

Pojednostavite Web Scraping s Google tablicama

Web scraping s Google tablicama i funkcijom IMPORTXML svestran je i pristupačan način prikupljanja podataka s web stranica.

Savladavanjem XPatha i razumijevanjem kako stvoriti učinkovite upite, možete otključati puni potencijal IMPORTXML-a i steći vrijedne uvide iz web resursa. Dakle, počnite analizirati i podignite svoju web analizu na višu razinu!