GPTBot vjerojatno nije ono što mislite.

Ključni zahvati

  • OpenAI-jev GPTBot je alat za indeksiranje weba dizajniran za prikupljanje podataka s javnih web stranica, koji se zatim koriste za obuku i poboljšanje AI modela kao što su GPT-4 i ChatGPT.
  • Neka od najvećih web mjesta na internetu blokiraju GPTBot jer pristupa sadržaju zaštićenom autorskim pravima i koristi ga bez dopuštenja ili naknade kreatorima.
  • Iako web-mjesta mogu koristiti alate poput robots.txt da pokušaju blokirati GPTBot, nema jamstava da će se OpenAI pridržavati, dajući im kontrolu nad pristupom podacima zaštićenim autorskim pravima.

U kolovozu 2023. OpenAI, AI moćnik zaslužan za razvoj ChatGPT-a, najavio je GPTBot, alat za indeksiranje weba dizajniran za kretanje webom i prikupljanje podataka.

Nedugo nakon te objave, neke od najvećih web stranica na internetu blokirale su botu pristup njihovoj web stranici. Ali zašto? Što je OpenAI-jev GPTBot? Zašto ga se velike web stranice boje i zašto ga pokušavaju blokirati?

Što je OpenAI-jev GPTBot?

instagram viewer

GPTBot je alat za indeksiranje weba koji je stvorio OpenAI za pretraživanje interneta i prikupljanje informacija za OpenAI-jeve razvojne ciljeve umjetne inteligencije. Programiran je za indeksiranje javnih web stranica i slanje podataka natrag na poslužitelje OpenAI-ja. OpenAI zatim koristi te podatke za obuku i poboljšanje svojih AI modela, s ciljem izgradnje sve naprednijih sustava umjetne inteligencije. Za izradu sofisticiranih AI modela kao što je GPT-4 ili njegovih podređenih proizvoda kao što je ChatGPT, alati za indeksiranje weba gotovo su neophodni.

Uvježbavanje modela umjetne inteligencije zahtijeva ogromnu količinu podataka, a jedan od najučinkovitijih načina za prikupljanje tih podataka je uvođenje alata poput web indeksiranja. Alati za indeksiranje mogu sustavno pregledavati web, slijediti veze za indeksiranje velikih količina web stranica i izdvajati ključne podatke poput teksta, slika i metapodataka koji odgovaraju unaprijed definiranom uzorku.

Ti se podaci zatim mogu strukturirati i unijeti u modele umjetne inteligencije kako bi se uvježbale njihove sposobnosti obrade prirodnog jezika ili sposobnosti generiranja slika ili ih uvježbali za druge zadatke umjetne inteligencije. Drugim riječima, alati za indeksiranje weba prikupljaju podatke koji alatima kao što su ChatGPT ili DALL-E omogućuju da rade ono što rade.

Web pretraživači nisu novi koncept. Vjerojatno postoje milijuni njih koji indeksiraju milijarde web stranica dostupnih na internetu danas. A postoje barem od ranih 90-ih. GPTBot je samo jedan od takvih pretraživača u vlasništvu OpenAI-ja. Dakle, što uzrokuje kontroverzu oko ovog alata za indeksiranje weba?

Zašto velike tehnološke stranice blokiraju GPTBot?

Prema Business Insider, neke od najvećih web stranica na internetu aktivno blokiraju OpenAI-jev alat za indeksiranje na svojim web stranicama. Dakle, ako je krajnji cilj GPTBota unaprijediti razvoj umjetne inteligencije, zašto su neke od najvećih web stranica na internetu, od kojih su neke na ovaj ili onaj način imale koristi od umjetne inteligencije, protiv toga?

Pa, evo u čemu je stvar. Od ponovnog uspona generativnih AI tehnologija 2022., vode se brojne rasprave o pravu AI tvrtki na gotovo bez ograničenja koristiti podatke s interneta, od kojih je značajan dio zakonski zaštićen autorsko pravo. Nema jasnih zakona koji uređuju kako te tvrtke prikupljaju i koriste podatke za vlastitu korist.

Dakle, u osnovi, alati za indeksiranje kao što je GPTBot indeksiraju web, grabe kreativne radove ljudi u obliku teksta, slika ili drugih oblika medija, te ga koristiti u komercijalne svrhe bez dobivanja bilo kakvog dopuštenja, licenciranja ili davanja naknade izvorniku kreatori.

Tamo je divlji zapad, a AI tvrtke grabe sve čega se dočepaju. Velike web stranice poput Quore, CNN-a, New York Timesa, Business Insidera i Amazona nisu baš zadovoljne što sadržaj zaštićen autorskim pravima prikupljaju ovi alati za indeksiranje, tako da OpenAI može od toga izvući financijsku korist trošak.

Zbog toga ove stranice koriste "robots.txt", desetljećima staru metodu za blokiranje web indeksiranja. Prema OpenAI, GPTBot će se pridržavati uputa za indeksiranje ili izbjegavanje indeksiranja web stranica na temelju pravila ugrađenih u robots.txt, malu tekstualnu datoteku koja govori web pretraživačima kako se ponašati na web mjestu. Ako imate vlastitu web stranicu i voljeli biste spriječiti GPTBota da prigrabi vaše podatke, evo kako možete blokirajte OpenAI-jeve alate za indeksiranje u struganju vaše web stranice.

Mogu li web stranice stvarno zaustaviti GPTBot?

Iako su alati za indeksiranje kao što je GPTBot neophodni za prikupljanje ogromne količine podataka potrebnih za trenirati napredne AI sustave, postoje opravdani nedoumice oko autorskih prava i poštene upotrebe koje ne mogu biti ignorirani.

Naravno, postoje jednostavni alati poput robots.txt koji se mogu koristiti za zaštitu od ovoga, ali hoće li GPTBot poslušati upute u ovoj datoteci u potpunosti je na OpenAI-jevom nahođenju. Ne postoje nikakva jamstva da će to učiniti, a ne postoji niti nepogrešiv način da se odmah utvrdi jesu li to učinili. U borbi da se GPTBot drži podalje od podataka zaštićenih autorskim pravima, OpenAI drži asove, barem za sada.