Oglas
Ako ti pokrenuti web mjesto 10 načina za stvaranje male i jednostavne web stranice bez pretjeranog sučeljaWordPress može biti višak. Kao što dokazuju ove izvrsne usluge, WordPress nije krajnji kraj svih web stranica. Ako želite jednostavnija rješenja, možete izabrati razne. Čitaj više , vjerojatno ste čuli za datoteku robots.txt (ili "standard za izuzeće robota"). Bez obzira na to imate li ili ne, vrijeme je da saznate o tome, jer je ova jednostavna tekstualna datoteka presudan dio vaše web lokacije. Možda se čini beznačajno, ali mogli biste se iznenaditi koliko je to važno.
Pogledajmo što je datoteka robots.txt, što radi i kako je ispravno postaviti za svoju web lokaciju.
Što je datoteka robots.txt?
Da biste shvatili kako datoteka robots.txt funkcionira, morate znati malo o tražilicama Kako funkcioniraju tražilice?Google je mnogima Internet. To je vjerojatno najvažniji izum otkad Internet. I dok su se tražilice od tada dosta promijenile, temeljni su principi i dalje isti. Čitaj više
. Kratka verzija je da šalju „puglere“, koji su programi koji pretražuju internet informacijama. Potom pohranjuju neke od tih podataka kako bi ih kasnije mogli usmjeriti.Ti alati za indeksiranje, poznati i kao "botovi" ili "pauci", pronalaze stranice s milijardi web mjesta. Tražilice im daju upute gdje krenuti, ali pojedine web stranice mogu komunicirati s botovima i reći im koje stranice trebaju gledati.
Većinu vremena zapravo rade suprotno i govore im koje stranice čine ne treba biti gledan. Pojave kao što su administrativne stranice, pomoćni portali, stranice s kategorijama i oznake i ostale stvari koje vlasnici web lokacija ne žele prikazati na tražilicama. Ove su stranice i dalje vidljive korisnicima i dostupne su svima koji imaju dozvolu (što je često svima).
Ali govoreći tim paukovima da ne indeksiraju neke stranice, datoteka robots.txt svima čini uslugu. Ako ste na tražilici pretraživali "MakeUseOf", želite li da se naše administrativne stranice pojave visoko na ljestvici? Ne. To nikome ne bi koristilo, pa kažemo tražilicama da ih ne prikazuju. Također se može koristiti za tražilice da ne provjeravaju stranice koje im mogu pomoći u klasificiranju vaše web stranice u rezultatima pretraživanja.
Ukratko, robots.txt govori web alatima za indeksiranje što treba učiniti.
Mogu li pauci zanemariti robots.txt?
Zanemaruju li paukci ikad robots.txt datoteke? Da. Zapravo, mnogi alati za indeksiranje čini ignoriraj to. Međutim, općenito ovi alati nisu sa uglednih tražilica. Oni su od neželjene pošte, kombajna za e-poštu i ostale vrste automatiziranih botova Kako izraditi osnovni web pretraživač za povlačenje informacija s web mjestaJeste li ikada željeli zabilježiti podatke s web stranice? Evo kako napisati alat za indeksiranje kako biste se kretali po web mjestu i izdvojili ono što vam treba. Čitaj više koji lutaju internetom. Važno je to imati na umu - upotreba standarda za izuzimanje robota kako bi se reklo da se drže dalje nije učinkovita sigurnosna mjera. Zapravo, neki roboti mogu početak sa stranicama koje im kažete da ne idu.
No tražilice će raditi kao što kaže datoteka robots.txt sve dok je ispravno oblikovana.
Kako napisati datoteku robots.txt
Postoji nekoliko različitih dijelova koji idu u standardnu datoteku za izuzeće robota. Ovdje ću ih podijeliti pojedinačno.
Izjava o korisničkom agentu
Prije nego što botu kažete koje stranice ga ne bi trebao gledati, morate odrediti s kojim bot razgovarate. Većinu vremena upotrebljavat ćete jednostavnu deklaraciju koja znači "svi roboti". To izgleda ovako:
Korisnički agent: *
Zvezdica stoji za "sve robota". Međutim, mogli biste odrediti stranice za određene botove. Da biste to učinili, morat ćete znati ime robota za koji postavljate smjernice. To bi moglo izgledati ovako:
Korisnički agent: Googlebot. [popis stranica koje se ne mogu indeksirati] Korisnički agent: Googlebot-Image / 1.0. [popis stranica koje se ne mogu indeksirati] Korisnički agent: Bingbot. [popis stranica koje se ne mogu indeksirati]
I tako dalje. Ako otkrijete robota da uopće ne želite pregledavati web lokaciju, to možete i odrediti.
Da biste pronašli imena korisničkih agenata, pogledajte useragentstring.com [No Longer Available].
Onemogućavanje stranica
Ovo je glavni dio datoteke za izuzimanje robota. Jednostavnom deklaracijom poručujete robotu ili grupi botova da ne indeksiraju određene stranice. Sintaksa je laka. Evo kako onemogućiti pristup svemu u "admin" direktoriju vaše web lokacije:
Onemogući: / admin /
Ta linija bi sprečavala botove da ne pretražuju vašite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html i sve ostalo što spada pod administracijski direktorij.
Da biste onemogućili jednu stranicu, samo je navedite u retku zabrane:
Onemogući: /public/exception.html
Stranica "iznimka" se ne povlači, ali sve ostalo u mapi "javno" bit će.
Da biste uključili više direktorija ili stranica, samo ih navedite na sljedećim retcima:
Onemogući: / privatno / Onemogući: / admin / Onemogući: / cgi-bin / Onemogući: / temp /
Ta će se četiri retka primijeniti na god korisničkog agenta koji ste naveli na vrhu odjeljka.
Ako želite spriječiti botove da gledaju bilo koju stranicu na vašoj web lokaciji, upotrijebite ovo:
Onemogući: /
Postavljanje različitih standarda za Botove
Kao što smo vidjeli gore, možete odrediti određene stranice za različite botove. Kombinirajući prethodna dva elementa, evo kako to izgleda:
Korisnički agent: googlebot. Onemogući: / admin / Onemogući: / private / User-agent: bingbot. Onemogući: / admin / Onemogući: / privatno / Onemogući: / tajno /
Odjeljci "admin" i "private" bit će nevidljivi na Googleu i Bingu, ali Google će vidjeti "tajnu" mapu, dok Bing neće.
Možete specificirati opća pravila za sve botove korištenjem korisničkog agenta zvjezdica, a zatim dati i posebne upute za botove u narednim odjeljcima.
Stavljajući sve zajedno
Uz prethodno znanje, možete napisati cijelu datoteku robots.txt. Samo zapalite svoj omiljeni uređivač teksta (mi smo navijači Sublimea 11 Savjeti za uzvišeni tekst za produktivnost i brži tijek radaSublime Text je svestran uređivač teksta i zlatni standard za mnoge programere. Naši se savjeti usredotočuju na učinkovito kodiranje, ali općeniti korisnici cijenit će prečace na tipkovnici. Čitaj više ovdje) i počnite javljati robotima da znaju da nisu dobrodošli u određenim dijelovima vaše web lokacije.
Ako želite vidjeti primjer datoteke robots.txt, samo se uputite na bilo koju web lokaciju i dodajte "/robots.txt" na kraj. Evo dijela datoteke robots.txt Giant Bicycles:
Kao što vidite, postoji nekoliko stranica koje se ne žele prikazivati na tražilicama. Uključili su i nekoliko stvari o kojima još nismo razgovarali. Pogledajmo što još možete napraviti u datoteci za izuzimanje robota.
Lociranje vašeg Sitemapa
Ako vaša datoteka robots.txt kaže botovima gdje ne krenuti, tvoj sitemap čini suprotno Kako stvoriti XML Sitemap u 4 jednostavna korakaPostoje dvije vrste sitemapova - HTML stranica ili XML datoteka. HTML Sitemap je jedna stranica koja posjetiteljima prikazuje sve stranice na web mjestu i obično ima veze na one ... Čitaj više i pomaže im da pronađu ono što traže. I dok tražilice vjerojatno već znaju gdje je vaš sitemap, ne boli ih opet obavijestiti.
Deklaracija za lokaciju Sitemapa je jednostavna:
Sitemap: [URL web-lokacije]
To je to.
U našoj vlastitoj datoteci robots.txt izgleda ovako:
Sitemap: //www.makeuseof.com/sitemap_index.xml
To je sve.
Postavljanje kašnjenja indeksiranja
Direktiva za odlaganje indeksiranja govori određenim tražilicama koliko često mogu indeksirati stranicu na vašoj web lokaciji. Mjeri se u sekundi, iako neke tražilice to različito tumače. Neki vide odgodu puzanja od 5 kao što im govori da pričekaju pet sekundi nakon svakog indeksiranja kako bi pokrenuli sljedeću. Drugi to tumače kao upute za samo indeksiranje jedne stranice na svakih pet sekundi.
Zašto biste rekli alatu da se ne puzi što je više moguće? Do sačuvati propusnost 4 načina Windows 10 troši propusnost vašeg internetaOtpada li Windows 10 na vašu internetsku širinu? Evo kako provjeriti i što možete učiniti da to zaustavite. Čitaj više . Ako se vaš poslužitelj bori da ne bude u korak s prometom, možda biste trebali pokrenuti kašnjenje indeksiranja. Općenito, većina ljudi se ne mora brinuti zbog toga. Velike web lokacije s velikim prometom možda će htjeti malo eksperimentirati.
Evo kako postavljate odgodu indeksiranja od osam sekundi:
Kašnjenje puzanja: 8
To je to. Neće se sve tražilice pridržavati vaše direktive. Ali, ne smeta pitati. Kao i ako onemogućite stranice, možete postaviti različita kašnjenja indeksiranja za određene tražilice.
Prijenos datoteke robots.txt
Nakon što postavite sve upute u svojoj datoteci, možete je prenijeti na svoju web lokaciju. Provjerite je li riječ o običnoj tekstnoj datoteci i ima li naziv robots.txt. Zatim ga prenesite na svoju web lokaciju kako bi se mogao pronaći na vašite.com/robots.txt.
Ako koristite a sustav upravljanja sadržajem 10 najpopularnijih sustava za upravljanje sadržajem na mrežiDani ručno kodiranih HTML stranica i savladavanja CSS-a odavno su prošli. Instalirajte sustav za upravljanje sadržajem (CMS) i za nekoliko minuta možete imati web mjesto koje ćete dijeliti sa svijetom. Čitaj više poput WordPressa, vjerovatno je neki specifičan način da to trebate ići. Budući da se razlikuje u svakom sustavu za upravljanje sadržajem, morat ćete se obratiti dokumentaciji za svoj sustav.
Neki sustavi mogu imati internetska sučelja i za prijenos vaše datoteke. Za njih jednostavno kopirajte i zalijepite datoteku koju ste stvorili u prethodnim koracima.
Ne zaboravite ažurirati svoju datoteku
Posljednji savjet koji ću vam dati je da povremeno pregledate vašu datoteku za izuzeće robota. Vaša se web stranica mijenja i možda ćete trebati napraviti neka podešavanja. Ako primijetite čudnu promjenu u prometu svoje tražilice, dobro je provjeriti i datoteku. Također je moguće da se standardna nota u budućnosti može promijeniti. Kao i sve ostalo na vašoj web lokaciji, vrijedi je provjeriti na svakom mjestu.
Koje stranice isključujete indeksere na vašoj web lokaciji? Jeste li primijetili bilo kakvu razliku u prometu tražilice? Podijelite svoje savjete i komentare u nastavku!
Dann je sadržajna strategija i marketinški savjetnik koji pomaže tvrtkama da generiraju potražnju i vode. Također, na dannalbright.com piše blogove o marketingu strategije i sadržaja.