Zabrinuti ste zbog AI chatbota koji traže sadržaj na vašoj web stranici? Srećom, možete ih spriječiti u tome. Evo kako.

Kako stvari stoje, AI chatbotovi imaju besplatnu licencu za struganje vaše web stranice i korištenje njezinog sadržaja bez vašeg dopuštenja. Zabrinuti ste da će vam takvi alati skraćivati ​​sadržaj?

Dobra vijest je da možete spriječiti AI alate da pristupe vašoj web stranici, ali postoje neka upozorenja. Ovdje ćemo vam pokazati kako blokirati robote pomoću datoteke robots.txt za vašu web stranicu, plus prednosti i nedostatke toga.

Kako AI Chatbotovi pristupaju vašem web sadržaju?

AI chatbotovi treniraju se pomoću više skupova podataka, od kojih su neki otvorenog koda i javno dostupni. Na primjer, GPT3 je obučen pomoću pet skupova podataka, prema istraživački rad koji je objavio OpenAI:

  1. Uobičajeno puzanje (60% težine u treningu)
  2. WebText2 (22% težine u treningu)
  3. Knjige1 (8% težine u treningu)
  4. Knjige2 (8% težine u treningu)
  5. Wikipedia (3% težine u treningu)

Common Crawl uključuje petabajte (tisuće TB) podataka s web stranica prikupljenih od 2008., slično kao što Googleov algoritam pretraživanja indeksira web sadržaj. WebText2 je skup podataka koji je stvorio OpenAI, a sadrži otprilike 45 milijuna web stranica povezanih s objavama na Redditu s najmanje tri glasa za.

instagram viewer

Dakle, u slučaju ChatGPT-a, AI bot ne pristupa i ne indeksira izravno vaše web-stranice – barem ne još. Iako, OpenAI-jev najava web preglednika s hostom ChatGPT izazvao je zabrinutost da bi se to moglo promijeniti.

U međuvremenu, vlasnici web stranica trebali bi pripaziti na druge AI chatbotove jer ih sve više izlazi na tržište. Bard je još jedno veliko ime u tom području, ao njemu se jako malo zna skupovi podataka koji se koriste za njegovo treniranje. Očito, znamo da Googleovi roboti za pretraživanje neprestano pretražuju web-stranice, ali to ne znači nužno da Bard ima pristup istim podacima.

Zašto su neki vlasnici web stranica zabrinuti?

Najveća briga za vlasnike web stranica je da AI botovi kao što su ChatGPT, Bard i Bing Chat obezvrijeđuju njihov sadržaj. AI botovi koriste postojeći sadržaj za generiranje svojih odgovora, ali također smanjuju potrebu korisnika za pristupom izvornom izvoru. Umjesto da korisnici posjećuju web stranice kako bi pristupili informacijama, mogu jednostavno natjerati Google ili Bing da generiraju sažetak informacija koje su im potrebne.

Kada je riječ o AI chatbotovima u pretraživanju, velika briga za vlasnike web stranica je gubitak prometa. U slučaju Barda, AI bot rijetko uključuje citate u svoje generativne odgovore, govoreći korisnicima s kojih stranica dobiva informacije.

Dakle, osim zamjene posjeta web stranici odgovorima umjetne inteligencije, Bard uklanja gotovo svaku mogućnost da izvorna web stranica ostvari promet – čak i ako korisnik želi više informacija. Bing Chat, s druge strane, češće povezuje s izvorima informacija.

Drugim riječima, trenutna flota generativnih AI alata jesu korištenjem rada kreatora sadržaja sustavno nadomjestiti potrebu za kreatorima sadržaja. U konačnici, morate pitati kakav poticaj ovo ostavlja vlasnicima web stranica za nastavak objavljivanja sadržaja. I, u produžetku, što se događa s AI botovima kada web stranice prestanu objavljivati ​​sadržaj na koji se oslanjaju kako bi funkcionirale?

Kako blokirati AI robote s vaše web stranice

Ako ne želite da AI botovi koriste vaš web-sadržaj, možete im blokirati pristup vašoj web-lokaciji pomoću roboti.txt datoteka. Nažalost, morate blokirati svakog pojedinog bota i navesti ih imenom.

Na primjer, bot Common Crawl-a zove se CCBot i možete ga blokirati dodavanjem sljedećeg koda u datoteku robots.txt:

Korisnički agent: CCBot
Zabrani: /

Ovo će blokirati Common Crawl da indeksira vašu web stranicu u budućnosti, ali neće ukloniti podatke koji su već prikupljeni iz prethodnih indeksiranja.

Ako ste zabrinuti zbog novih dodataka ChatGPT-a koji pristupaju vašem web sadržaju, OpenAI je već objavio upute za blokiranje njegovog bota. U ovom slučaju, ChatGPT-ov bot se zove ChatGPT-User i možete ga blokirati dodavanjem sljedećeg koda u vašu datoteku robots.txt:

Korisnički agent: ChatGPT-korisnik
Zabrani: /

Međutim, potpuno je drugi problem blokiranje AI robota tražilice da indeksiraju vaš sadržaj. Budući da je Google vrlo tajnovit u vezi s podacima o obuci koje koristi, nemoguće je identificirati koje ćete botove morati blokirati i hoće li uopće poštovati naredbe u vašem roboti.txt datoteku (mnogi alati za indeksiranje nemaju).

Koliko je ova metoda učinkovita?

Blokiranje AI botova u vašem roboti.txt datoteka je najučinkovitija metoda koja je trenutno dostupna, ali nije posebno pouzdana.

Prvi problem je taj što morate navesti svakog bota kojeg želite blokirati, ali tko može pratiti svaki AI bot koji dolazi na tržište? Sljedeći problem su naredbe u vašem roboti.txt datoteka su neobvezne upute. Iako Common Crawl, ChatGPT i mnogi drugi botovi poštuju ove naredbe, mnogi botovi to ne čine.

Drugo veliko upozorenje je da možete samo blokirati AI botove da budu izvršavali indeksiranje. Ne možete ukloniti podatke iz prethodnih indeksiranja ili slati zahtjeve tvrtkama kao što je OpenAI za brisanje svih vaših podataka.

Nažalost, ne postoji jednostavan način za blokiranje pristupa svim AI botovima vašoj web stranici, a ručno blokiranje svakog pojedinačnog bota gotovo je nemoguće. Čak i ako ste u korak s najnovijim AI botovima koji lutaju webom, nema jamstva da će se svi pridržavati naredbi u vašem roboti.txt datoteka.

Pravo pitanje ovdje je jesu li rezultati vrijedni truda, a kratak odgovor je (gotovo sigurno) ne.

Postoje i potencijalni nedostaci blokiranja AI botova s ​​vaše web stranice. Najviše od svega, nećete moći prikupiti smislene podatke da biste dokazali koriste li alati poput Barda vašoj marketinškoj strategiji pretraživanja ili štete.

Da, možete pretpostaviti da je nedostatak citata štetan, ali samo nagađate ako vam nedostaju podaci jer ste AI botovima blokirali pristup vašem sadržaju. Bila je slična priča kada je Google prvi put predstavljen istaknuti isječci tražiti.

Za relevantne upite, Google prikazuje isječak sadržaja s web stranica na stranici s rezultatima, odgovarajući na pitanje korisnika. To znači da korisnici ne moraju kliknuti na web mjesto kako bi dobili odgovor koji traže. To je izazvalo paniku među vlasnicima web stranica i SEO stručnjacima koji se oslanjaju na generiranje prometa iz upita za pretraživanje.

Međutim, vrsta upita koji pokreću istaknute isječke općenito su pretraživanja niske vrijednosti poput "što je X" ili "kakvo je vrijeme u New Yorku". Svatko tko želi detaljne informacije ili sveobuhvatno izvješće o vremenskoj prognozi i dalje će kliknuti, a oni koji ne žele nikad nisu bili toliko vrijedni.

Možda ćete otkriti da je slična priča s generativnim AI alatima, ali trebat će vam podaci da to dokažete.

Ne srljajte ni u što

Vlasnici web stranica i izdavači razumljivo su zabrinuti zbog AI tehnologije i frustrirani idejom da botovi koriste njihov sadržaj za generiranje trenutnih odgovora. Međutim, ovo nije vrijeme za brzanje u protuofenzivu. AI tehnologija je polje koje se brzo razvija i stvari će se nastaviti razvijati velikom brzinom. Iskoristite ovu priliku da vidite kako se stvari odvijaju i analizirajte potencijalne prijetnje i prilike koje AI donosi na stol.

Trenutačni sustav oslanjanja na rad kreatora sadržaja da ih zamijeni nije održiv. Bilo da tvrtke poput Googlea i OpenAI promijene svoj pristup ili vlade uvedu nove propise, nešto se mora dati. Istodobno, negativne implikacije AI chatbota na stvaranje sadržaja postaju sve očitije, što vlasnici web stranica i kreatori sadržaja mogu iskoristiti u svoju korist.