Web struganje uključuje prikupljanje podataka u obliku podataka s web stranica ili stranica. Iako vaš možda nije svjestan čin, i vi ste strugali internet na ovaj ili onaj način dok ste prikupljali informacije. Ali to je obično suptilno.

Web struganje ili struganje zaslona obično je svrhovit čin, a profesionalci automatiziraju dizajn kako bi dobili ogromne podatke. Bilo ručnim kopiranjem tekstova na web mjestu, korištenjem namjenskih alata ili pisanjem skripti za struganje weba, web strugači ponekad jako udaraju na web mjestu postavljanjem više zahtjeva odjednom.

No, dok mnoge tvrtke sada iskorištavanjem mrežnih struganja pokreću konkurentsku prednost, je li to zapravo legalno?

Koje web stranice trebate i ne biste trebali strugati?

Internet je skup podataka koji ljudima omogućuje pristup starim podacima i podacima u stvarnom vremenu. Web struganje ili struganje zaslona postoji već neko vrijeme. Ali koliko biste ga trebali koristiti i koje web stranice možete strugati?

Neke su web stranice stroge prema alatima za indeksiranje ili strugalicama zaslona i u potpunosti ih blokiraju. Stoga je očito očito da ne biste trebali strugati takve web stranice. Ali ljudi to i dalje čine.

instagram viewer

Nažalost, takve web stranice gotovo ništa ne mogu učiniti da to zaustave, osim krpanja rupa.

Prije nego što stružete web stranicu, idealno bi bilo provjeriti dopušta li to indeksiranje ili ne. To obično možete saznati provjerom datoteke robots.txt na web mjestu. To možete učiniti tako da upišete "[URL web mjesta] /robots.txt".

Robots.txt obično postavlja pravila za različite alate za indeksiranje ili korisničke agente. Međutim, ova se pravila razlikuju, ovisno o web mjestu koje je uključeno. Iako neke web stranice dopuštaju indeksiranje na svim stranicama, neke određuju stranice na koje bot može indeksirati, a neke izravno blokiraju indeksiranje.

Web stranica koja blokira indeksiranje svih korisničkih agenata obično postavlja sljedeća pravila:

korisnički agent: *
Zabraniti: /

Datoteka robots.txt koja svim botovima blokira indeksiranje određenih direktorija ili stranica obično izgleda ovako:

korisnički agent: *
Zabraniti: / URL na stranicu 1
Zabraniti: / URL na stranicu 2

Ako robots.txt ne zabrani stranicu koju želite indeksirati, vjerojatno je možete strugati. U suprotnom, trebali biste se povući ili zatražiti suglasnost administratora. Oni vam mogu odobriti pristup.

Uz to, neke web stranice izričito navode dopuštaju li indeksiranje u svojim uvjetima korištenja. Neki to čak navode i na vrhu svog robots.txt. Uvijek to provjerite i da biste bili sigurni da radite ispravno.

Kako se zlostavlja mrežno struganje

Dakle, ako ste primili neželjenu e-poštu ili SMS s web lokacija ili ljudi kojima nikada niste dostavili svoje osobne podatke, onda ste vjerojatno negdje izgrebani. I uglavnom, to je putem jedne od vaših ručica na društvenim mrežama.

Usprkos tome, struganje weba ponekad je više od pukog prikupljanja podataka koji se pružaju na prednji kraj. Ako se zlonamjerno koristi, to može dovesti do curenja osobnih i povjerljivih podataka.

Iako se većina platformi društvenih medija mrzi na to, indeksirajući botovi i dalje pristupaju profilima ljudi, a njihovi podaci o kontaktima propuštaju se i stružu.

Na primjer, Facebook je navodno imao ranjivosti koje su u prošlosti propuštale kontaktne podatke korisnika, iako ih korisnici drže privatnima.

Slično tome, LinkedIn je nedavno pretrpio sigurnosnu povredu koja je rezultirala curenjem osobnih podataka koji pripadaju preko 500 milijuna računa. Zbog toga je ta ranjivost rezultirala dijeljenjem mnogih adresa e-pošte i telefonskih brojeva bez pristanka vlasnika profila.

Je li nezakonito strugati web stranicu?

Nikada nije zaključen o zakonitosti struganja s weba. Umjesto toga, fokus je na tome kako indeksiranje radi od slučaja do slučaja i što koriste prikupljene podatke da bi postigli.

Dakle, umjesto zaključivanja o njegovoj zakonitosti, struganje je, kad se radi zlonamjerno, protuzakonito. Ali ako se učini razborito, to nije nezakonito.

No, kako se i očekivalo, čini se da postoji stroža politika o struganju i korištenju podataka s društvenih mreža jer je privatnost korisnika toliko važna. Međutim, sve se još uvijek svodi na to kako ljudi stružu podatke.

The Zakon o Internetu i društvenim medijima analizirao je slučaj hiQ Labs, tvrtke za struganje podataka koja je pobijedila u parnici protiv LinkedIna 2019. godine nakon što je pokušala blokirati hiQ Labs u struganju javno dostupnih podataka korisnika LinkedIna.

Uz hiQ Labs koji tvrde da Zakon o računalnoj prijevari i zlostavljanju (CFAA) zabranjuje samo neovlašteni pristup, presuda je potvrdila da su podaci LinkedIna javno dostupni, pa ih je bilo tko strugao jer su pristupačan.

Osim toga, hiQ Labs samo je iskorištene podatke koristio za pružanje analitičkih rješenja tvrtkama - tako da mogu donositi bolje odluke o zapošljavanju.

Suprotno tome, Facebook je nedavno tužio programere proširenja za Chrome koji su strugali profile korisnika Facebooka bez njihovog pristanka.

Slično tome, a stranicu copycat tužio je Facebook za struganje podataka o profilu nekoliko korisnika Instagrama, a zatim njihovo korištenje za stvaranje klonova. Prema tom izvješću, Facebook je potom otišao dalje tražeći trajnu sudsku zabranu protiv počinitelja.

Ovo je nekoliko slučajeva kada su ljudi možda ilegalno koristili struganje po webu. Spomenute tvrtke prikupljale su podatke korisnika Facebooka lažno, bez pristanka svojih korisnika. Dakle, krši pravila privatnosti.

Dakle, iako bi struganje weba moglo frustrirati web stranicu s koje dobiva podatke, niti jedno opće pravilo trenutno ne sprječava ljude da dobiju ono što žele, sve dok ne krše internetske zakone izravno.

Je li struganje weba sinonim za hakiranje?

Postoji nekoliko mitova oko struganja weba. Jedno od njih je uvjerenje da struganje web stranice znači da ste je hakirali. Iako hakiranje na kraju može dovesti do struganja podataka, tvrdnja da sam pojam znači hakiranje web stranice nije istinita.

Web struganje može uključivati ​​upotrebu namjenski alati za puzanje ili struganje, Sučelja za programsko programiranje (API-ji) ili skripte za struganje weba za dobivanje podataka s web mjesta. Za razliku od hakiranja, on niti kompromitira web stranicu koju struže niti narušava iskustvo svojih korisnika.

Povezano: Što je struganje s weba? Kako prikupiti podatke s web stranica

Dakle, iako hakiranje uključuje neovlašteni pristup, obično u bazu podataka web mjesta, struganje weba cilja samo podatke koji su već vidljivi na prednjoj strani. Iako se ljudi mogu zlonamjerno služiti mrežom, to još uvijek nije sinonim za hakiranje.

Uz to, za razliku od struganja s weba, namjerno i neetično hakiranje je nezakonito.

Koji su pozitivni elementi struganja s weba?

Web struganje ima mnogo pozitivnih strana, pa čak i neke tehnološke tvrtke sada nude svoje podatke putem API-ja. Te informacije obično nisu dovoljne za procjenu poslovnih trendova i donošenje odluka.

Tako tvrtke sada dobivaju više podataka struganjem weba radi poboljšanja prakse i povećanja prodaje. Uz to, znanstvenici podataka napajaju algoritme strojnog učenja podacima prikupljenim struganjem zaslona.

Takvi podaci mogu biti slike koje se koriste za prepoznavanje slika, obični tekstovi za analizu raspoloženja ili izravni podaci o proizvodu za analizu tržišne inteligencije i ponašanja potrošača.

Povezano: Jedinstveni načini za dobivanje skupova podataka za vaš projekt strojnog učenja

Stoga je struganje s interneta još korisnije jer ako imate pristup informacijama koje vaš konkurent nema, možete ih pobijediti.

Iako se neke web stranice mršte na mrežne strugače, neke, čak i usluge e-trgovine, nije briga hoćete li strugati njihove podatke ili ne. Web divovi poput eBaya i Salesforcea započeli su svoj API 2000. godine, nudeći programerima prvi put pristup javnim podacima.

Trebate li zapravo strugati po webu?

Utvrdili smo da struganje weba nije nezakonito kada se radi na pravi način. Ali ono što radite s podacima koje stružete također je zabrinjavajuće. Umjesto da to zloupotrijebite, upotrijebite ga da biste izvukli više uvida koji pomažu vama i drugima da donose utemeljene odluke.

Međutim, struganje weba kao vještina omogućuje vam pristup velikim dijelovima internetskih podataka, koji mogu pomoći vama ili vašoj tvrtki da ostanete iznad poslovne niše. Kao znanstvenik podataka, čak proširuje vaš opseg i poboljšava vaše kodiranje i tehničke vještine.

Na primjer, Python je jedan od programskih jezika koji vam pomaže da lako ostružete web stranicu pomoću svoje biblioteke Beautiful Soup ili okvira Scrapy.

E-mail
Ostružite web stranicu ovim lijepim tutorialom za Python juhu

Zanima vas struganje s weba? Evo kako pomoću biblioteke Beautiful Soup Python možete strugati web mjesto za sadržaj i još mnogo toga.

Pročitajte Dalje

Povezane teme
  • Sigurnost
  • Programiranje
  • Sigurnost na mreži
  • Web struganje
O autoru
Idowu Omisola (71 članak objavljen)

Idowu je strastven prema bilo čemu pametnom techu i produktivnosti. U slobodno vrijeme igra se s kodiranjem i prebacuje se na šahovsku ploču kad mu je dosadno, ali također voli kad-tad odvojiti se od rutine. Njegova strast da ljudima pokaže put oko moderne tehnologije motivira ga da piše više.

Više od Idowu Omisole

Pretplatite se na naše obavijesti

Pridružite se našem biltenu za tehničke savjete, recenzije, besplatne e-knjige i ekskluzivne ponude!

Još jedan korak…!

Potvrdite svoju e-adresu u e-pošti koju smo vam upravo poslali.

.