Čo je hostiteľská smernica. Ako upraviť súbor txt robots

  • 26.08.2019

Vydali sme novú knihu „Marketing obsahu sociálnych médií: Ako sa dostať do hlavy predplatiteľov a prinútiť ich, aby si zamilovali vašu značku.“

Prihlásiť sa na odber

Robots.txt je textový súbor, ktorý obsahuje informácie pre prehľadávače, ktoré pomáhajú indexovať portálové stránky.


Viac videí na našom kanáli - naučte sa internetový marketing so SEMANTICOU

Predstavte si, že ste na honbe za pokladom na ostrove. Máš mapu. Trasa je tam vyznačená: „Priblížte sa k veľkému pňu. Z nej urobte 10 krokov na východ, potom sa dostaňte k útesu. Odbočte doprava, nájdite jaskyňu."

Toto sú pokyny. Po nich nasledujete trasu a nájdete poklad. Vyhľadávací robot tiež funguje približne rovnakým spôsobom, keď začne indexovať web alebo stránku. Nájde súbor robots.txt. Číta, ktoré stránky by sa mali indexovať a ktoré nie. A podľa týchto príkazov obíde portál a pridá jeho stránky do indexu.

Na čo slúži robots.txt?

Začnú navštevovať stránky a indexovať stránky po nahratí stránky na hosting a zaregistrovaní DNS. Robia svoju prácu bez ohľadu na to, či máte nejaké technické súbory alebo nie. Roboty vyhľadávačom naznačujú, že pri prehľadávaní webovej stránky musia brať do úvahy parametre, ktoré sa na nej nachádzajú.

Neprítomnosť súboru robots.txt môže viesť k problémom s rýchlosťou prehľadávania stránky a k výskytu odpadu v indexe. Nesprávna konfigurácia súboru je spojená s vylúčením dôležitých častí zdroja z indexu a prítomnosťou nepotrebných stránok vo výsledkoch vyhľadávania.

To všetko vedie k problémom s propagáciou.

Pozrime sa bližšie na to, aké pokyny obsahuje tento súbor a ako ovplyvňujú správanie robota na vašom webe.

Ako vytvoriť súbor robots.txt

Najprv skontrolujte, či máte tento súbor.

Zadajte adresu stránky do panela s adresou prehliadača a názov súboru cez lomku, napríklad https://www.xxxxx.ru/robots.txt

Ak je súbor prítomný, na obrazovke sa zobrazí zoznam jeho parametrov.

Ak súbor neexistuje:

  1. Súbor sa vytvorí v obyčajnom textovom editore, ako je Poznámkový blok alebo Poznámkový blok ++.
  2. Musíte nastaviť názov robota, príponu.txt. Zadajte údaje v súlade s akceptovanými štandardmi formátovania.
  3. Chyby môžete skontrolovať pomocou služieb, ako je webmaster Yandex. Tam musíte vybrať položku "Analyze robots.txt" v časti "Nástroje" a postupovať podľa pokynov.
  4. Keď je súbor pripravený, nahrajte ho do koreňového adresára lokality.

Pravidlá prispôsobenia

Vyhľadávače majú viac ako jedného robota. Niektoré roboty indexujú iba textový obsah, niektoré iba grafický obsah. A samotné vyhľadávače môžu mať rôzne schémy fungovania prehľadávačov. Toto je potrebné vziať do úvahy pri zostavovaní súboru.

Niektorí z nich môžu ignorovať niektoré pravidlá, napríklad GoogleBot nereaguje na informácie o tom, ktoré zrkadlo stránky sa považuje za hlavné. Ale vo všeobecnosti vnímajú a riadia sa súborom.

Syntax súboru

Parametre dokumentu: meno robota (bota) "User-agent", príkazy: povolenie "Povoliť" a zákaz "Zakázať".

Teraz existujú dva kľúčové vyhľadávacie nástroje: Yandex a Google, pri zostavovaní stránky je dôležité vziať do úvahy požiadavky oboch.

Formát na vytváranie záznamov je nasledujúci, všimnite si požadované medzery a prázdne riadky.

Direktíva používateľského agenta

Robot hľadá položky, ktoré začínajú User-agent, musia obsahovať označenie mena vyhľadávacieho robota. Ak nie je zadaný, prístup robotov sa považuje za neobmedzený.

Zakázať a povoliť smernice

Ak potrebujete zakázať indexovanie v súbore robots.txt, použite možnosť Disallow. S jeho pomocou obmedzujú prístup robota na stránku alebo do niektorých sekcií.

Ak robots.txt neobsahuje ani jednu direktívu „Disallow“, má sa za to, že indexovanie celej stránky je povolené. Zvyčajne sa zákazy píšu za každým robotom zvlášť.

Všetky informácie za znakom # sú komentáre a nie sú strojovo čitateľné.

Povoliť sa používa na povolenie prístupu.

Symbol hviezdičky znamená, že sa vzťahuje na všetky: User-agent: *.

Táto možnosť naopak znamená úplný zákaz indexovania pre každého.

Zabrániť prezeraniu celého obsahu konkrétneho priečinka adresára

Ak chcete zablokovať jeden súbor, musíte zadať jeho absolútnu cestu


Smernice Sitemap, Host

Pre Yandex je obvyklé uviesť, ktoré zrkadlo chcete označiť ako hlavné. A Google, ako si pamätáme, to ignoruje. Ak neexistujú žiadne zrkadlá, len opravte, ako si myslíte, že je správne napísať názov vašej webovej stránky s alebo bez www.

Smernica o čistých parametroch

Môže sa použiť, ak adresy URL webových stránok obsahujú premenné parametre, ktoré neovplyvňujú ich obsah (môžu to byť ID používateľov, referrery).

Napríklad v adrese stránky „ref“ definuje zdroj návštevnosti, t.j. označuje, odkiaľ návštevník prišiel na stránku. Stránka bude rovnaká pre všetkých používateľov.

Robot môže byť na to nasmerovaný a nebude sťahovať duplicitné informácie. Tým sa zníži zaťaženie servera.

Smernica o oneskorenom prehľadávaní

S pomocou môžete určiť, s akou frekvenciou bude robot načítavať stránky na analýzu. Tento príkaz sa používa, keď je server preťažený a označuje, že proces obchádzania je potrebné urýchliť.

chyby v súbore robots.txt

  1. Súbor sa nenachádza v koreňovom adresári. Robot to nebude hľadať hlbšie a nebude to brať do úvahy.
  2. Písmená v názve musia byť malé latinské.
    Chyba v názve, občas im chýba písmeno S na konci a píšu robot.
  3. V súbore robots.txt nemôžete použiť znaky cyriliky. Ak potrebujete zadať doménu v ruštine, použite formát v špeciálnom kódovaní Punycode.
  4. Toto je metóda na konverziu názvov domén na sekvenciu znakov ASCII. Na tento účel môžete použiť špeciálne prevodníky.

Toto kódovanie vyzerá takto:
website.rf = xn--80aswg.xn--p1ai

Ďalšie informácie o tom, čo sa má zatvoriť v súbore robots txt a o nastaveniach v súlade s požiadavkami vyhľadávacích nástrojov Google a Yandex, nájdete v referenčných dokumentoch. Rôzne cm môžu mať tiež svoje vlastné charakteristiky, to by sa malo vziať do úvahy.

Súbor robots.txt je jedným z najdôležitejších pri optimalizácii akejkoľvek webovej stránky. Jeho absencia môže viesť k vysokej záťaži stránky vyhľadávacími robotmi a pomalému indexovaniu a preindexovaniu a nesprávne nastavenie môže viesť k tomu, že stránka úplne zmizne z vyhľadávania alebo jednoducho nebude indexovaná. Preto sa nebude hľadať v Yandex, Google a iných vyhľadávačoch. Poďme sa pozrieť na všetky nuansy správneho nastavenia robots.txt.

Najprv krátke video, ktoré vám poskytne všeobecnú predstavu o tom, čo je súbor robots.txt.

Ako robots.txt ovplyvňuje indexovanie stránok

Vyhľadávacie roboty budú indexovať vašu stránku bez ohľadu na prítomnosť súboru robots.txt. Ak takýto súbor existuje, potom sa roboti môžu riadiť pravidlami, ktoré sú v tomto súbore zapísané. Zároveň môžu niektoré roboty ignorovať určité pravidlá alebo niektoré pravidlá môžu byť špecifické len pre niektorých robotov. GoogleBot najmä nepoužíva direktívy Host a Crawl-Delay, YandexNews nedávno začal ignorovať direktívu Crawl-Delay a YandexDirect a YandexVideoParser ignorujú všeobecnejšie direktívy robotov (ale riadia sa tými, ktoré sú pre nich špeciálne špecifikované).

Viac o výnimkách:
Výnimky Yandex
Robot Exception Standard (Wikipedia)

Maximálnu záťaž na stránke vytvárajú roboty, ktoré sťahujú obsah z vašej stránky. Zadaním toho, čo sa má indexovať a čo ignorovať, ako aj v akých časových intervaloch sťahovať, teda môžete na jednej strane výrazne znížiť zaťaženie stránky robotmi a na druhej strane urýchliť sťahovanie proces zákazom obchádzania nepotrebných stránok .

Medzi takéto nepotrebné stránky patria ajax, skripty json zodpovedné za vyskakovacie formuláre, bannery, výstup captcha atď., objednávkové formuláre a nákupný košík so všetkými krokmi nákupu, funkcia vyhľadávania, osobný účet, panel správcu.

Pre väčšinu robotov je tiež žiaduce zakázať indexovanie všetkých JS a CSS. Ale pre GoogleBot a Yandex musia byť takéto súbory ponechané na indexovanie, pretože ich používajú vyhľadávacie nástroje na analýzu výhodnosti stránky a jej hodnotenia (dôkaz Google, dôkaz Yandex).

príkazy súboru robots.txt

Smernice sú pravidlá pre roboty. Existuje špecifikácia W3C z 30. januára 1994 a rozšírený štandard z roku 1996. Nie všetky vyhľadávače a roboty však podporujú určité smernice. V tomto ohľade bude pre nás užitočnejšie poznať nie štandard, ale to, ako sa hlavní roboti riadia určitými smernicami.

Pozrime sa na to pekne po poriadku.

user-agent

Toto je najdôležitejšia smernica, ktorá určuje, pre ktoré roboty sa pravidlá riadia.

Pre všetky roboty:
User-agent: *

Pre konkrétneho robota:
Používateľský agent: GoogleBot

Upozorňujeme, že v súbore robots.txt sa nerozlišujú malé a veľké písmená. Tie. Užívateľský agent pre Google môže byť rovnako dobre napísaný takto:
používateľský agent: googlebot

Nižšie je uvedená tabuľka hlavných používateľských agentov rôznych vyhľadávacích nástrojov.

Bot Funkcia
Google
Googlebot Hlavný indexovací robot Google
Novinky o Googlebotovi Google News
Obrázok robota Googlebot Obrázky Google
Googlebot Video video
Mediálni partneri – Google
mediálnych partnerov Google Adsense, Google Mobile Adsense
AdsBot-Google kontrola kvality vstupnej stránky
AdsBot-Google-Mobile-Apps Google Robot pre aplikácie
Yandex
YandexBot Hlavný indexovací robot Yandex
YandexImages Yandex.Images
YandexVideo Yandex.Video
YandexMedia multimediálne dáta
YandexBlogs robot na vyhľadávanie blogov
YandexAddurl robot pristupujúci na stránku, keď je pridaná prostredníctvom formulára „Pridať URL“.
YandexFavicons robot, ktorý indexuje ikony stránok (favicony)
YandexDirect Yandex.Direct
YandexMetrika Yandex.Metrica
YandexCatalog Yandex.Katalóg
YandexNews Yandex.News
YandexImageResizer robot mobilných služieb
Bing
bingbot hlavný indexovací robot Bing
Yahoo!
Slurp hlavný indexovací robot Yahoo!
Mail.Ru
Mail.Ru hlavný indexovací robot Mail.Ru
Rambler
StackRambler Predtým hlavný indexovací robot Rambler. Od 23. júna 2011 však Rambler prestáva podporovať svoj vlastný vyhľadávací nástroj a teraz vo svojich službách používa technológiu Yandex. Už nie je relevantné.

Zakázať a povoliť

Disallow zatvorí stránky a sekcie lokality z indexovania.
Povoliť vynútene otvorí stránky a sekcie lokality na indexovanie.

Ale tu nie je všetko také jednoduché.

Najprv musíte poznať ďalšie operátory a pochopiť, ako sa používajú - sú to *, $ a #.

* je ľubovoľný počet znakov vrátane ich absencie. Zároveň nemôžete umiestniť hviezdičku na koniec riadku, rozumie sa, že je tam predvolene.
$ - označuje, že znak pred ním musí byť posledný.
# - komentár, všetko za týmto znakom v riadku robot neberie do úvahy.

Príklady použitia:

Disallow: *?s=
Disallow: /category/$

Po druhé, musíte pochopiť, ako sa vykonávajú vnorené pravidlá.
Pamätajte, že poradie, v ktorom sú smernice napísané, nie je dôležité. Dedenie pravidiel, ktoré sa otvárajú alebo zatvárajú z indexovania, je určené tým, ktoré adresáre sú špecifikované. Vezmime si príklad.

Povoliť: *.css
Disallow: /template/

http://site.ru/template/ - zatvorené z indexovania
http://site.ru/template/style.css - zatvorené z indexovania
http://site.ru/style.css - otvorené na indexovanie
http://site.ru/theme/style.css - otvorené na indexovanie

Ak chcete, aby boli všetky súbory .css otvorené na indexovanie, budete to musieť dodatočne zaregistrovať pre každý zo zatvorených priečinkov. V našom prípade:

Povoliť: *.css
Povoliť: /template/*.css
Disallow: /template/

Poradie smerníc opäť nie je dôležité.

Sitemap

Smernica na určenie cesty k súboru Sitemap XML. Adresa URL sa zapisuje rovnakým spôsobom ako v paneli s adresou.

Napríklad,

Sitemap: http://site.ru/sitemap.xml

Direktíva Sitemap je špecifikovaná kdekoľvek v súbore robots.txt bez toho, aby bola viazaná na konkrétneho user-agenta. Môžete zadať viacero pravidiel mapy webu.

Hostiteľ

Smernica na určenie hlavného zrkadla stránky (vo väčšine prípadov: s www alebo bez www). Upozorňujeme, že hlavné zrkadlo je označené BEZ http://, ale S https://. V prípade potreby je uvedený aj port.
Smernicu podporujú iba roboty Yandex a Mail.Ru. Iné roboty, najmä GoogleBot, nebudú brať príkaz do úvahy. Hostiteľ je zaregistrovaný iba raz!

Príklad 1:
Hostiteľ: site.ru

Príklad 2:
Hostiteľ: https://site.ru

Crawl-oneskorenie

Smernica pre nastavenie časového intervalu medzi sťahovaním stránok robotom. Podporované robotmi Yandex, Mail.Ru, Bing, Yahoo. Hodnotu je možné nastaviť v celých alebo zlomkových jednotkách (oddeľovač - bodka), čas v sekundách.

Príklad 1:
Oneskorenie indexového prehľadávania: 3

Príklad 2:
Oneskorenie indexového prehľadávania: 0,5

Ak má stránka malé zaťaženie, nie je potrebné nastavovať takéto pravidlo. Ak však indexovanie stránok robotom vedie k tomu, že stránka prekračuje limity alebo dochádza k značnému zaťaženiu až výpadkom servera, potom táto smernica pomôže znížiť zaťaženie.

Čím vyššia hodnota, tým menej stránok robot stiahne v jednej relácii. Optimálna hodnota sa určuje individuálne pre každú lokalitu. Je lepšie začať s nie príliš veľkými hodnotami - 0,1, 0,2, 0,5 - a postupne ich zvyšovať. Pre roboty vyhľadávacích nástrojov, ktoré sú menej dôležité pre výsledky propagácie, ako sú Mail.Ru, Bing a Yahoo, môžete spočiatku nastaviť vyššie hodnoty ako pre roboty Yandex.

Čistý param

Toto pravidlo informuje prehľadávač, že adresy URL so špecifikovanými parametrami by sa nemali indexovať. Pravidlo má dva argumenty: parameter a URL sekcie. Smernicu podporuje Yandex.

Clean-param: author_id http://site.ru/articles/

Clean-param: author_id&sid http://site.ru/articles/

Clean-Param: utm_source&utm_medium&utm_campaign

Ďalšie možnosti

V rozšírenej špecifikácii robots.txt nájdete aj parametre Request-rate a Visit-time. V súčasnosti ich však popredné vyhľadávače nepodporujú.

Význam smerníc:
Požiadavka: 1/5 - načítajte maximálne jednu stranu za päť sekúnd
Čas návštevy: 0600-0845 – Stránky načítavajte iba medzi 6:00 a 8:45 GMT.

Zatvára sa súbor robots.txt

Ak potrebujete nakonfigurovať svoju stránku tak, aby ju NEindexovali vyhľadávacie roboty, musíte napísať nasledujúce smernice:

User-agent: *
zakázať: /

Uistite sa, že tieto smernice sú napísané na testovacích stránkach vašej lokality.

Správne nastavenie súboru robots.txt

Pre Rusko a krajiny SNŠ, kde je podiel Yandexu hmatateľný, by mali byť smernice napísané pre všetky roboty a samostatne pre Yandex a Google.

Ak chcete správne nakonfigurovať súbor robots.txt, použite nasledujúci algoritmus:

  1. Zatvorte panel správcu lokality z indexovania
  2. Zatvorte osobný účet, autorizáciu, registráciu z indexovania
  3. Zatvorte košík, objednávkové formuláre, údaje o doručení a objednávke z indexovania
  4. Zatvorte indexovanie ajax, skripty json
  5. Zatvorte priečinok cgi z indexovania
  6. Zatvorte doplnky, témy, js, css z indexovania pre všetky roboty okrem Yandex a Google
  7. Zatvorte funkciu vyhľadávania z indexovania
  8. Zatvorte sekcie služieb z indexovania, ktoré nemajú žiadnu hodnotu pre stránku vo vyhľadávaní (chyba 404, zoznam autorov)
  9. Zatvorte technické duplikáty stránok z indexovania, ako aj stránky, na ktorých je všetok obsah duplikovaný v tej či onej forme z iných stránok (kalendáre, archívy, RSS)
  10. Zatvorte indexové stránky pomocou možností filtrovania, triedenia a porovnávania
  11. Zastavte indexovanie stránok pomocou značiek UTM a parametrov relácie
  12. Skontrolujte, čo indexujú Yandex a Google pomocou parametra „site:“ (do vyhľadávacieho panela zadajte „site:site.ru“). Ak sú vo vyhľadávaní stránky, ktoré je tiež potrebné zatvoriť z indexovania, pridajte ich do súboru robots.txt
  13. Zadajte súbor Sitemap a hostiteľa
  14. V prípade potreby napíšte Crawl-Delay a Clean-Param
  15. Skontrolujte správnosť súboru robots.txt pomocou nástrojov Google a Yandex (popísané nižšie)
  16. Po 2 týždňoch znova skontrolujte, či sa v SERP nenachádzajú nové stránky, ktoré by sa nemali indexovať. V prípade potreby zopakujte vyššie uvedené kroky.

príklad súboru robots.txt

# Príklad súboru robots.txt na nastavenie hypotetickej stránky https://site.ru User-agent: * Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: * /?s= Disallow : *sort= Disallow: *view= Disallow: *utm= Crawl-Delay: 5 User-agent: GoogleBot Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow : */?s = Disallow: *sort= Disallow: *view= Disallow: *utm= Povoliť: /plugins/*.css Povoliť: /plugins/*.js Povoliť: /plugins/*.png Povoliť: /plugins/ *.jpg Allow: /plugins/*.gif User-agent: Yandex Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: */?s= Disallow: *sort= Disallow: *view= Povoliť: /plugins/*.css Povoliť: /plugins/*.js Povoliť: /plugins/*.png Povoliť: /plugins/*.jpg Povoliť: /plugins/*.gif Clean-Param: utm_source&utm_medium&utm_campaign Indexové prehľadávanie- Oneskorenie: 0,5 Sitemap: https://site.ru/sitemap.xml Hostiteľ: https://site.ru

Ako pridať a kde je robots.txt

Po vytvorení súboru robots.txt ho musíte umiestniť na vašu stránku na site.ru/robots.txt – t.j. v koreňovom adresári. Prehľadávač vždy pristupuje k súboru na adrese URL /robots.txt

Ako skontrolovať súbor robots.txt

Kontrola robots.txt sa vykonáva na nasledujúcich odkazoch:

  • V Yandex.Webmaster — na karte Nástroje>Robots.txt analýza
  • IN Google Search Console- na karte Skenovať > nástroj na kontrolu súboru robots.txt

Bežné chyby v súbore robots.txt

Na konci článku uvediem niekoľko typických chýb súboru robots.txt.

  • Chýba súbor robots.txt
  • v súbore robots.txt je stránka uzavretá pred indexovaním (Zakázať: /)
  • spis obsahuje len najzákladnejšie smernice, chýba podrobné štúdium spisu
  • indexovanie stránok so značkami UTM a ID relácií v súbore nie je blokované
  • súbor obsahuje iba smernice
    Povoliť: *.css
    Povoliť: *.js
    Povoliť: *.png
    Povoliť: *.jpg
    Povoliť: *.gif
    zatiaľ čo súbory css, js, png, jpg, gif sú uzavreté inými direktívami v mnohých adresároch
  • Hostiteľská smernica je napísaná viackrát
  • Hostiteľ nešpecifikuje protokol https
  • cesta k súboru Sitemap je nesprávna alebo je zadaný nesprávny protokol alebo zrkadlo lokality

P.S.

P.S.2

Užitočné video od spoločnosti Yandex (Pozor! Niektoré odporúčania sú vhodné iba pre Yandex).

Každý blog na to dáva svoju vlastnú odpoveď. Preto sú nováčikovia v propagácii vyhľadávania často zmätení, napríklad takto:

Aký druh robotov ti ex ti?

Súbor robots.txt alebo indexový súbor- obyčajný textový dokument v kódovaní UTF-8 platný pre protokoly http, https a FTP. Súbor dáva odporúčania vyhľadávacím robotom: ktoré stránky/súbory by sa mali prehľadávať. Ak súbor obsahuje znaky nie v UTF-8, ale v inom kódovaní, vyhľadávacie roboty ich nemusia správne spracovať. Pravidlá uvedené v súbore robots.txt sú platné len pre hostiteľa, protokol a číslo portu, kde sa súbor nachádza.

Súbor musí byť umiestnený v koreňovom adresári ako obyčajný textový dokument a musí byť dostupný na: https://site.com.ua/robots.txt.

V iných súboroch je zvykom označovať BOM (Byte Order Mark). Toto je znak Unicode, ktorý sa používa na určenie poradia v bajtoch pri čítaní informácií. Jeho kódový symbol je U+FEFF. Na začiatku súboru robots.txt sa značka poradia bajtov ignoruje.

Google stanovil limit na veľkosť súboru robots.txt – nemal by vážiť viac ako 500 KB.

Dobre, ak vás zaujímajú technické detaily, súbor robots.txt je popis Backus-Naur Form (BNF). Toto používa pravidlá RFC 822.

Pri spracovaní pravidiel v súbore robots.txt dostanú vyhľadávacie roboty jednu z troch inštrukcií:

  • čiastočný prístup: k dispozícii je skenovanie jednotlivých prvkov stránky;
  • plný prístup: môžete skenovať všetko;
  • úplný zákaz: robot nemôže nič skenovať.

Pri skenovaní súboru robots.txt dostanú roboty nasledujúce odpovede:

  • 2xx- skenovanie bolo úspešné;
  • 3xx- prehľadávač nasleduje presmerovanie, kým nedostane ďalšiu odpoveď. Najčastejšie má robot päť pokusov na získanie inej odpovede ako 3xx, potom sa zaznamená chyba 404;
  • 4xx- vyhľadávací robot verí, že je možné prehľadávať celý obsah stránky;
  • 5xx- sú vyhodnotené ako dočasné chyby servera, kontrola je úplne vypnutá. Robot bude pristupovať k súboru, kým nedostane ďalšiu odpoveď. Vyhľadávací robot Google dokáže určiť, či je správne alebo nesprávne nakonfigurovaný tak, aby vracal odpovede na chýbajúce stránky lokality, teda ak namiesto chyby 404 stránka vráti odpoveď 5xx , v tomto prípade bude stránka spracovaná s kódom odpovede 404.

Zatiaľ nie je známe, ako sa spracováva súbor robots.txt, ktorý nie je dostupný kvôli problémom servera s prístupom na internet.

Prečo potrebujete súbor robots.txt

Napríklad niekedy by roboti nemali navštíviť:

  • stránky s osobnými informáciami používateľov na stránke;
  • stránky s rôznymi formami zasielania informácií;
  • zrkadlové stránky;
  • stránky s výsledkami vyhľadávania.

Dôležité: aj keď je stránka v súbore robots.txt, existuje šanca, že sa zobrazí vo výsledkoch vyhľadávania, ak sa na stránke alebo niekde na externom zdroji nájde odkaz na ňu.

Takto vidia roboty vyhľadávačov stránku so súborom robots.txt a bez neho:

Bez robots.txt sa do výsledkov vyhľadávania môžu dostať informácie, ktoré by mali byť skryté pred zvedavými očami, a tým budete trpieť vy aj stránka.

Takto vidí robot vyhľadávacieho nástroja súbor robots.txt:

Google našiel na stránke súbor robots.txt a našiel pravidlá, podľa ktorých by sa stránky webu mali prehľadávať

Ako vytvoriť súbor robots.txt

Pomocou programu Poznámkový blok, Poznámkový blok, Sublime alebo akýmkoľvek iným textovým editorom.

User-agent - vizitka pre roboty

User-agent – ​​pravidlo o tom, ktoré roboty potrebujú vidieť pokyny popísané v súbore robots.txt. V súčasnosti je známych 302 vyhľadávacích robotov

Hovorí, že pravidlá špecifikujeme v súbore robots.txt pre všetky vyhľadávacie roboty.

Pre Google je hlavným robotom Googlebot. Ak chceme vziať do úvahy iba to, záznam v súbore bude takýto:

V tomto prípade budú všetky ostatné roboty indexovo prehľadávať obsah na základe ich pokynov na spracovanie prázdneho súboru robots.txt.

Pre Yandex je hlavným robotom... Yandex:

Ďalšie špeciálne roboty:

  • Novinky o Googlebotovi- hľadať novinky;
  • Mediálni partneri – Google- pre službu AdSense;
  • AdsBot-Google— na kontrolu kvality vstupnej stránky;
  • YandexImages— Indexer Yandex.Pictures;
  • Obrázok robota Googlebot- pre obrázky;
  • YandexMetrika— robot Yandex.Metrica;
  • YandexMedia- robot, ktorý indexuje multimediálne údaje;
  • YaDirectFetcher— Yandex.Direct robot;
  • Googlebot Video- pre video;
  • Googlebot pre mobil- pre mobilnú verziu;
  • YandexDirectDyn— robot na vytváranie dynamických bannerov;
  • YandexBlogs- robot na vyhľadávanie blogov, ktorý indexuje príspevky a komentáre;
  • YandexMarket— robot Yandex.Market;
  • YandexNews— robot Yandex.News;
  • YandexDirect— sťahuje informácie o obsahu partnerských stránok Reklamnej siete s cieľom objasniť ich predmet pre výber relevantnej reklamy;
  • YandexPagechecker— validátor mikrodát;
  • YandexCalendar— Robot Yandex.Calendar.

Zakázať - umiestňujeme "tehly"

Mal by sa použiť, ak je stránka v procese vylepšovania a nechcete, aby sa vo výsledkoch vyhľadávania zobrazovala v aktuálnom stave.

Toto pravidlo je dôležité odstrániť hneď, ako bude stránka pripravená na zobrazenie používateľom. Bohužiaľ na to mnohí webmasteri zabúdajú.

Príklad. Ako napísať pravidlo Disallow, ktoré robotom poradí, aby si neprezerali obsah priečinka /priečinok/:

Tento riadok zabraňuje indexovaniu všetkých súborov s príponou .gif

Povoliť - priame roboty

Povoliť umožňuje skenovať akýkoľvek súbor/smernicu/stránku. Povedzme, že je potrebné, aby roboty mohli prezerať iba stránky, ktoré začínajú /katalógom, a zatvoriť všetok ostatný obsah. V tomto prípade je predpísaná nasledujúca kombinácia:

Pravidlá Povoliť a Zakázať sú zoradené podľa dĺžky predpony URL (od najnižšej po najdlhšiu) a aplikujú sa postupne. Ak sa stránke zhoduje viac ako jedno pravidlo, robot vyberie posledné pravidlo v zoradenom zozname.

Hostiteľ - vyberte zrkadlo stránky

Hostiteľ je jedným z povinných pravidiel pre súbor robots.txt; hovorí robotovi Yandex, ktoré zo zrkadiel stránok by sa malo brať do úvahy pri indexovaní.

Site mirror – presná alebo takmer presná kópia stránky, dostupná na rôznych adresách.

Robot nebude zmätený pri hľadaní zrkadiel stránok a pochopí, že hlavné zrkadlo je špecifikované v súbore robots.txt. Adresa lokality je uvedená bez predpony „http://“, ale ak lokalita funguje na protokole HTTPS, predpona „https://“ musí byť uvedená.

Ako napísať toto pravidlo:

Príklad súboru robots.txt, ak stránka funguje na protokole HTTPS:

Sitemap - mapa stránok pre zdravotníctvo

Sitemap hovorí robotom, že všetky adresy URL stránok potrebné na indexovanie sa nachádzajú na http://site.ua/sitemap.xml. Pri každom prehľadávaní sa robot pozrie na to, aké zmeny boli vykonané v tomto súbore a rýchlo obnoví informácie o lokalite v databázach vyhľadávačov.

Crawl-delay - stopky pre slabé servery

Crawl-delay - parameter, pomocou ktorého môžete nastaviť obdobie, po ktorom sa budú stránky webu načítavať. Toto pravidlo je relevantné, ak máte slabý server. V tomto prípade sú možné veľké oneskorenia, keď vyhľadávacie roboty pristupujú na stránky lokality. Tento parameter sa meria v sekundách.

Clean-param - Duplicate Content Hunter

Clean-param pomáha vysporiadať sa s parametrami get, aby sa predišlo duplicitnému obsahu, ktorý môže byť dostupný na rôznych dynamických adresách URL (s otáznikmi). Takéto adresy sa objavia, ak má stránka odlišné triedenie, ID relácie atď.

Povedzme, že stránka je dostupná na adresách:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

V tomto prípade bude súbor robots.txt vyzerať takto:

Tu ref označuje, odkiaľ odkaz pochádza, takže je napísaný úplne na začiatku a až potom sa uvádza zvyšok adresy.

Pred prechodom na referenčný súbor však existuje niekoľko ďalších znakov, o ktorých musíte vedieť, keď píšete súbor robots.txt.

Symboly v súbore robots.txt

Hlavné znaky súboru sú "/, *, $, #".

Cez lomka "/" ukazujeme, čo chceme skryť pred odhalením robotmi. Ak je napríklad v pravidle Disallow jedna lomka, zakážeme indexové prehľadávanie celého webu. Pomocou dvoch lomítok môžete zakázať skenovanie konkrétneho adresára, napríklad: /katalóg/.

Takýto záznam hovorí, že zakazujeme skenovať celý obsah adresára katalógu, ale ak napíšeme /catalog, zakážeme všetky odkazy na stránke, ktoré začínajú /katalóg.

hviezdička "*" znamená akúkoľvek sekvenciu znakov v súbore. Umiestňuje sa za každým pravidlom.

Tento záznam hovorí, že všetky roboty by nemali indexovať žiadne súbory .gif v priečinku /catalog/

znak dolára «$» obmedzuje rozsah znaku hviezdičky. Ak chcete zakázať celý obsah priečinka katalógu, ale nemôžete zakázať adresy URL, ktoré obsahujú /catalog, záznam v indexovom súbore bude:

Hash „#“ používa sa na komentáre, ktoré správca webu zanechá sebe alebo iným webmasterom. Robot ich nebude brať do úvahy pri skenovaní stránky.

Napríklad:

Ako vyzerá ideálny súbor robots.txt?

Súbor otvorí obsah lokality na indexovanie, zaregistruje sa hostiteľ a určí sa mapa lokality, čo umožní vyhľadávačom vždy vidieť adresy, ktoré by sa mali indexovať. Pravidlá pre Yandex sú napísané samostatne, pretože nie všetky roboty rozumejú inštrukciám hostiteľa.

Neponáhľajte sa však skopírovaním obsahu súboru pre seba - pre každú stránku musia byť napísané jedinečné pravidlá, ktoré závisia od typu stránky a CMS. preto sa oplatí pamätať na všetky pravidlá pri vypĺňaní súboru robots.txt.

Ako skontrolovať súbor robots.txt

Ak chcete vedieť, či ste súbor robots.txt vyplnili správne, skontrolujte si ho v nástrojoch správcu webu Google a Yandex. Stačí zadať zdrojový kód súboru robots.txt do formulára na odkaze a špecifikovať stránku, ktorú chcete skontrolovať.

Ako nevyplniť súbor robots.txt

Pri vypĺňaní indexového súboru často dochádza k nepríjemným chybám, ktoré sú spojené s obyčajnou nepozornosťou či zbrklosťou. O niečo nižšie je tabuľka chýb, s ktorými som sa v praxi stretol.

2. Zápis viacerých priečinkov/adresárov do jedného príkazu Disallow:

Takýto záznam môže zmiasť vyhľadávacích robotov, nemusia pochopiť, čo presne by nemali indexovať: buď prvý priečinok, alebo posledný, takže každé pravidlo musíte napísať samostatne.

3. Treba zavolať samotný súbor iba robots.txt, nie Robots.txt, ROBOTS.TXT alebo iné.

4. Pravidlo User-agent nemôžete nechať prázdne - musíte povedať, ktorý robot má brať do úvahy pravidlá uvedené v súbore.

5. Ďalšie znaky v súbore (lomky, hviezdičky).

6. Pridanie stránok do súboru, ktoré by nemali byť v indexe.

Neštandardné použitie súboru robots.txt

Okrem priamych funkcií sa indexový súbor môže stať platformou pre kreativitu a spôsobom, ako nájsť nových zamestnancov.

Toto je stránka, kde samotný robots.txt je malá stránka s pracovnými prvkami a dokonca aj reklamnou jednotkou.

Ako platformu na vyhľadávanie špecialistov súbor využívajú najmä SEO agentúry. A kto iný môže vedieť o jeho existencii? :)

A Google má špeciálny súbor humans.txt, aby ste nepripustili pomyslenie na diskrimináciu špecialistov z kože a mäsa.

závery

Pomocou Robots.txt môžete nastaviť pokyny pre vyhľadávacích robotov, inzerovať seba, svoju značku, hľadať špecialistov. Toto je skvelé pole na experimentovanie. Hlavná vec je pamätať na správne vyplnenie súboru a typické chyby.

Pravidlá, sú to smernice, sú to aj pokyny súboru robots.txt:

  1. User-agent – ​​pravidlo o tom, ktoré roboty potrebujú zobraziť pokyny popísané v súbore robots.txt.
  2. Disallow vydá odporúčanie o tom, aký druh informácií by sa nemal skenovať.
  3. Mapa stránok informuje roboty, že všetky adresy URL stránok potrebné na indexovanie sa nachádzajú na adrese http://site.ua/sitemap.xml.
  4. Hostiteľ povie robotovi Yandex, ktoré zo zrkadiel stránok by sa malo brať do úvahy pri indexovaní.
  5. Povoliť umožňuje skenovať akýkoľvek súbor/smernicu/stránku.

Znaky pri kompilácii robots.txt:

  1. Znak dolára „$“ obmedzuje rozsah znaku hviezdičky.
  2. Pomocou lomky „/“ označujeme, že sa chceme skryť pred detekciou robotmi.
  3. Hviezdička „*“ znamená ľubovoľnú postupnosť znakov v súbore. Umiestňuje sa za každým pravidlom.
  4. Znak hash "#" sa používa na označenie komentárov, ktoré webmaster píše pre seba alebo pre iných webmasterov.

Použite indexový súbor rozumne – a stránka bude vždy vo výsledkoch vyhľadávania.

Zdravím vás, milí čitatelia blogu Pingo SEO. V tomto článku chcem predstaviť svoju predstavu o tom, ako správne zostaviť súbor robots.txt pre web. Svojho času mi veľmi vadilo, že informácie na internete o tejto problematike sú dosť útržkovité. Kvôli tomu som musel preliezť veľké množstvo zdrojov, neustále filtrovať opakujúce sa informácie a izolovať nové.

Preto sa tu pokúsim odpovedať na väčšinu otázok, počnúc definíciou a končiac príkladmi skutočných problémov riešených týmto nástrojom. Ak na niečo zabudnem - odhláste sa v komentároch k tomu - problém prešetrím a materiál doplním.

Robots.txt - čo to je, prečo je to potrebné a kde žije?

Najprv teda vzdelávací program pre tých, ktorým je táto téma úplne neznáma.

Robots.txt – textový súbor obsahujúci pokyny na indexovanie stránky pre roboty vyhľadávacích nástrojov. V tomto súbore môže webmaster definovať parametre indexovania svojej stránky ako pre všetkých robotov naraz, tak aj pre každý vyhľadávač zvlášť (napríklad pre Google).

Kde sa nachádza súbor robots.txt? Nachádza sa v koreňovom priečinku stránky FTP av skutočnosti je to bežný dokument vo formáte txt, ktorý je možné upravovať pomocou ľubovoľného textového editora (osobne preferujem Notepad ++). Obsah súboru robots je možné zobraziť zadaním http://www.your-site.ru/robots.txt do panela s adresou prehliadača. Ak, samozrejme, existuje.

Ako vytvoriť súbor robots.txt pre webovú stránku? Stačí vytvoriť obyčajný textový súbor s týmto názvom a nahrať ho na stránku. O tom, ako ho správne nakonfigurovať a zostaviť, sa bude diskutovať nižšie.

Štruktúra a správna konfigurácia súboru robots.txt

Ako by mal vyzerať správny súbor txt robots pre webovú stránku? Štruktúru možno opísať takto:

1. Direktíva User-agent

Čo napísať do tejto sekcie? Táto smernica určuje, pre ktorý robot sú pokyny uvedené nižšie. Ak sú napríklad určené pre všetky roboty, postačuje nasledujúca konštrukcia:

V syntaxi súboru robots.txt je znak „*“ ekvivalentom frázy „čokoľvek“. Ak potrebujete nastaviť pokyny pre konkrétny vyhľadávací nástroj alebo robot, jeho názov sa napíše namiesto hviezdičky z predchádzajúceho príkladu, napríklad:

Používateľský agent: YandexBot

Každý vyhľadávací nástroj má celý súbor robotov, ktorí vykonávajú určité funkcie. Sú popísané roboty vyhľadávacích nástrojov Yandex. Vo všeobecnosti platí nasledovné:

  • Yandex - označenie robotov Yandex.
  • GoogleBot je hlavný indexovací robot.
  • MSNBot je hlavný indexovací bot Bingu.
  • Aport - Aportské roboty.
  • Mail.Ru - roboty PS Mail.

Ak existuje smernica pre konkrétny vyhľadávací nástroj alebo robot, potom sa všeobecné ignorujú.

2. Povoliť smernicu

Umožňuje jednotlivé stránky sekcie, ak bola, povedzme, predtým úplne zatvorená z indexovania. Napríklad:

User-agent: *
zakázať: /
Povoliť: /open-page.html

V tomto príklade zakazujeme indexovanie celej lokality okrem stránky poni.html

Táto smernica do určitej miery slúži na označenie výnimiek z pravidiel špecifikovaných smernicou Disallow. Ak takéto situácie nenastanú, potom sa smernica nemusí použiť vôbec. Nedovoľuje vám otvoriť stránku na indexovanie, ako si mnohí ľudia myslia, pretože ak neexistuje zákaz ako Disallow: /, potom je štandardne otvorený.

2. Disallow direktíva

Je opakom direktívy Allow a zatvára jednotlivé stránky, sekcie alebo celý web z indexovania. Je analogický s tagom noindex. Napríklad:

User-agent: *
Disallow: /closed-page.html

3. Hostiteľská smernica

Používa sa iba pre Yandex a ukazuje na hlavné zrkadlo stránky. Vyzerá to takto.

Hlavné zrkadlo bez www:

Hlavné zrkadlo z www:

Hostiteľ: www.site.ru

Stránka na https:

Hostiteľ: https://site.ru

Hostiteľskú direktívu nemôžete zapísať do súboru dvakrát. Ak sa to stalo kvôli nejakej chybe, potom sa spracuje smernica, ktorá príde ako prvá, a druhá sa ignoruje.

4. Smernica o mapách stránok

Používa sa na zadanie cesty k súboru Sitemap XML sitemap.xml (ak existuje). Syntax je nasledovná:

Mapa stránok: http://www.site.ru/sitemap.xml

5. Smernica o čistých parametroch

Používa sa na zatváranie stránok s parametrami, ktoré môžu byť duplicitné z indexovania. Veľmi užitočná smernica podľa mňa, ktorá odreže parametrický chvost URL adries a ponechá len chrbticu, čo je pôvodná adresa stránky.

Tento problém je bežný najmä pri práci s katalógmi a internetovými obchodmi.

Povedzme, že máme stránku:

http://www.site.ru/index.php

A táto stránka v procese práce môže získať klony zobrazenia.

http://www.site.ru/index.php?option=com_user_view=remind
http://www.site.ru/index.php?option=com_user_view=reset
http://www.site.ru/index.php?option=com_user_view=login

Aby sme sa zbavili všetkých možných variantov tohto spamu, stačí špecifikovať nasledujúcu konštrukciu:

Clean-param: option/index.php

Syntax z príkladu, myslím, je jasná:

Clean-param: # špecifikujte smernicu
možnosť # zadajte možnosť spamovania
/index.php # špecifikujte chrbticu adresy URL s parametrom spam

Ak existuje niekoľko parametrov, jednoducho ich uvedieme pomocou znaku ampersand (&):

http://www.site.ru/index.php?option=com_user_view=remind&size=big # url s dvoma parametrami
Clean-param: option&big /index.php # dva parametre zadané s ampersandom

Príklad je vzatý jednoducho a vysvetľuje samotnú podstatu. Zvlášť by som chcel poďakovať tomuto parametru pri práci s CMS Bitrix.

Smernica o oneskorenom prehľadávaní

Umožňuje vám nastaviť časový limit na načítanie stránok webu robotom Yandex. Používa sa, keď je server silne zaťažený, v ktorom jednoducho nemá čas rýchlo vydať obsah. Podľa mňa ide o anachronizmus, s ktorým sa už nepočíta a ktorý sa nedá použiť.

Oneskorenie indexového prehľadávania: 3,5 # 3,5 sekundy časový limit

Syntax

  • # - používa sa na písanie komentárov:
  • User-agent: * Direktíva # sa vzťahuje na všetky roboty

  • * - znamená ľubovoľnú postupnosť znakov, čo znamená:
  • Disallow: /page* # disallow všetky stránky začínajúce stranou

    Disallow: /*page # zakáže všetky stránky končiace na stránku

    Disallow: /cgi-bin/*.aspx # zakáže všetky stránky aspx v priečinku cgi-bin

  • $ - skrátenie pravidla, antipód znamienka hviezdičky:
  • Disallow: /page$ # sa zatvorí iba /page, nie /page.html alebo pageline.html

Vzorový súbor robots.txt

Aby sme upevnili pochopenie štruktúry a pravidiel opísaných vyššie, predstavujeme štandardný súbor robots txt pre CMS Data Life Engine.

User-agent: * # direktívy sú pre všetky vyhľadávače
Disallow: /engine/go.php # zakázať jednotlivé sekcie a stránky
Disallow: /engine/download.php #
Disallow: /user/ #
Disallow: /newposts/ #
Disallow: /*subaction=userinfo # zatvorte stránky s individuálnymi parametrami
Disallow: /*subaction=newposts #
Disallow: /*do=lastcomments #
Disallow: /*do=feedback #
Disallow: /*do=register #
Disallow: /*do=stratené heslo #
Hostiteľ: www.site # zadajte zrkadlo hlavnej stránky
Sitemap: https://site/sitemap.xml # zadajte cestu k súboru sitemap
User-agent: Aport # špecifikuje smer pravidiel na PS Aport
Disallow: / # Predpokladajme, že s nimi nechceme byť priateľmi

Skontrolujte súbor robots.txt

Ako skontrolovať správnosť súboru robots? Štandardnou možnosťou je validátor Yandex - http://webmaster.yandex.ru/robots.xml. Zadajte cestu k súboru robots alebo ihneď vložte jeho obsah do textového poľa. Zadáme zoznam adries URL, ktoré chceme skontrolovať – sú zatvorené alebo otvorené podľa daných smerníc – kliknite na „Skontrolovať“ a voila! Zisk.

Zobrazí sa stav stránky – či je otvorená na indexovanie alebo zatvorená. Ak je zatvorený, potom je označený akým pravidlom. Ak chcete povoliť indexovanie takejto stránky, musíte upraviť pravidlo, na ktoré poukazuje validátor. Ak sú v súbore syntaktické chyby, validátor to tiež oznámi.

generátor robots.txt – online tvorba

Ak nemáte túžbu alebo čas študovať syntax, ale je potrebné zatvoriť spamové stránky lokality, môžete použiť akýkoľvek bezplatný online generátor, ktorý vám umožní vytvoriť súbor robots txt pre web pomocou niekoľkých kliknutia. Potom už len stačí stiahnuť súbor a nahrať ho na vašu stránku. Pri práci s ním stačí zaškrtnúť zrejmé nastavenia, ako aj označiť stránky, ktoré chcete zatvoriť z indexovania. Generátor urobí zvyšok za vás.

Pripravené súbory pre populárny CMS

Súbor Robots.txt pre web na 1C Bitrix

User Agent: *
Disallow: /bitrix/
Zakázať: /osobné/
Disallow: /upload/
Disallow: /*login*
Disallow: /*auth*
Disallow: /*hľadať
Disallow: /*?sort=
Disallow: /*gclid=
Disallow: /*register=
Disallow: /*?per_count=
Disallow: /*zabudnuté_heslo=
Disallow: /*change_password=
Disallow: /*logout=
Disallow: /*back_url_admin=
Disallow: /*print=
Disallow: /*backurl=
Disallow: /*BACKURL=
Disallow: /*back_url=
Disallow: /*BACK_URL=
Disallow: /*ADD2BASKET
Disallow: /*ADD_TO_COMPARE_LIST
Disallow: /*DELETE_FROM_COMPARE_LIST
Disallow: /*akcia=KÚPIŤ
Disallow: /*set_filter=y
Disallow: /*?mode=matrix
Disallow: /*?mode=listitems
Disallow: /*openstat
Disallow: /*from=adwords
Disallow: /*utm_source
Hostiteľ: www.site.ru

Robots.txt pre DataLife Engine (DLE)

User-agent: *
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /engine/classes/highslide/
Disallow: /user/
Disallow: /tags/
Disallow: /newposts/
Disallow: /statistics.html
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=stratené heslo
Disallow: /*do=addnews
Disallow: /*do=stats
Disallow: /*do=pm
Disallow: /*do=search
Hostiteľ: www.site.ru
Mapa stránok: http://www.site.ru/sitemap.xml

Robots.txt pre Joomla

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /zahŕňa/
Disallow: /installation/
Disallow: /jazyk/
Disallow: /knižnice/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /šablóny/
Disallow: /tmp/
Disallow: /xmlrpc/
Nepovoliť: *tlač
Disallow: /*utm_source
Disallow: /*mailto*
Disallow: /*start*
Disallow: /*feed*
Disallow: /*hľadať*
Disallow: /*users*
Hostiteľ: www.site.ru
Mapa stránok: http://www.site.ru/sitemap.xml

Robots.txt pre Wordpress

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */trackback
Disallow: */feed
Disallow: /wp-login.php
Disallow: /wp-register.php
Hostiteľ: www.site.ru
Mapa stránok: http://www.site.ru/sitemap.xml

Robots.txt pre Ucoz

User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informátor/
Disallow: /mchat
Disallow: /search
Disallow: /shop/order/
Disallow: /?ssid=
Disallow: /google
zakázať: /

Jednou z fáz optimalizácie stránok pre vyhľadávače je vytvorenie súboru robots.txt. Pomocou tohto súboru môžete zabrániť niektorým alebo všetkým vyhľadávacím robotom v indexovaní vašej lokality alebo jej určitých častí, ktoré nie sú určené na indexovanie. Predovšetkým môžete zakázať indexovanie duplicitného obsahu, ako sú napríklad tlačové verzie stránok.

Pred indexovaním sa vyhľadávacie roboty vždy odvolávajú na súbor robots.txt v koreňovom adresári vašej lokality, napríklad http://site.ru/robots.txt, aby vedeli, ktoré časti lokality robot nemá povolené. indexovať. Ale aj keď sa nechystáte nič zakázať, tento súbor sa odporúča vytvoriť.

Ako môžete vidieť podľa prípony robots.txt, toto je textový súbor. Na vytvorenie alebo úpravu tohto súboru je lepšie použiť najjednoduchšie textové editory, ako je Poznámkový blok (Notepad). robots.txt musí byť umiestnený v koreňovom adresári stránky a má svoj vlastný formát, ktorému sa budeme venovať nižšie.

Formát súboru Robots.txt

Súbor robots.txt musí obsahovať aspoň dve povinné položky. Najprv prichádza smernica User-agent, ktorá určuje, ktorý prehľadávač by sa mal riadiť pokynmi uvedenými nižšie. Hodnota môže byť názov robota (googlebot, Yandex, StackRambler) alebo symbol *, ak oslovujete všetkých robotov naraz. Napríklad:

Používateľský agent: googlebot

Názov robota nájdete na webovej stránke príslušného vyhľadávača. Ďalej musí byť jeden alebo viac príkazov Disallow. Tieto príkazy hovoria robotovi, ktoré súbory a priečinky nie je dovolené indexovať. Napríklad nasledujúce riadky zabraňujú robotom indexovať súbor feedback.php a adresár cgi-bin:

Disallow: /feedback.php Disallow: /cgi-bin/

Môžete tiež použiť iba začiatočné znaky súborov alebo priečinkov. Riadok Disallow: /forum zakazuje indexovanie všetkých súborov a priečinkov v koreňovom adresári lokality, ktorej názov začína na forum, napríklad súbor http://site.ru/forum.php a http://site.ru priečinok /forum/ s celým jeho obsahom. Ak je pole Disallow prázdne, znamená to, že robot môže indexovať všetky stránky. Ak je hodnota Disallow symbol /, znamená to, že nie je povolené indexovať celú stránku.

Pre každé pole User-agent musí existovať aspoň jedno pole Disallow. To znamená, že ak nechcete nič zakázať pre indexovanie, súbor robots.txt by mal obsahovať nasledujúce položky:

User-agent: * Disallow:

Dodatočné smernice

Okrem regulárnych výrazov, Yandex a Google umožňujú použitie direktívy Allow, ktorá je opakom Disallow, to znamená, že určuje, ktoré stránky môžu byť indexované. V nasledujúcom príklade má Yandex zakázané indexovať všetko okrem adries stránok začínajúcich na /articles:

User-agent: Yandex Povoliť: /články Disallow: /

V tomto príklade musí byť smernica Allow napísaná pred Disallow, inak to Yandex pochopí ako úplný zákaz indexovania stránok. Prázdna direktíva Allow tiež úplne zakáže indexovanie stránok:

User-agent: Yandex Povoliť:

sa rovná

User-agent: Yandex Disallow: /

Neštandardné smernice je potrebné špecifikovať len pre tie vyhľadávače, ktoré ich podporujú. V opačnom prípade môže robot, ktorý nerozumie tomuto záznamu, nesprávne spracovať tento záznam alebo celý súbor robots.txt. Viac informácií o dodatočných pokynoch a vo všeobecnosti o chápaní príkazov súboru robots.txt jednotlivým robotom nájdete na webovej stránke príslušného vyhľadávača.

Regulárne výrazy v súbore robots.txt

Väčšina vyhľadávacích nástrojov berie do úvahy iba explicitne špecifikované názvy súborov a priečinkov, existujú však aj pokročilejšie vyhľadávacie nástroje. Googlebot a Yandexbot podporujú používanie jednoduchých regulárnych výrazov v súbore robots.txt, čo výrazne znižuje množstvo práce pre správcov webu. Napríklad nasledujúce príkazy zabránia robotovi Googlebot v indexovaní všetkých súborov s príponou .pdf:

Používateľský agent: googlebot Disallow: *.pdf$

Vo vyššie uvedenom príklade je symbol * ľubovoľná postupnosť znakov a $ označuje koniec odkazu.

User-agent: Yandex Povoliť: /articles/*.html$ Disallow: /

Vyššie uvedené smernice umožňujú Yandexu indexovať iba súbory v priečinku /articles/ s príponou „.html“. Všetko ostatné je pre indexovanie zakázané.

mapa lokality

Umiestnenie súboru XML sitemap môžete zadať v súbore robots.txt:

User-agent: googlebot Disallow: Sitemap: http://site.ru/sitemap.xml

Ak máte na lokalite veľmi veľký počet stránok a museli ste mapu lokality rozdeliť na časti, potom musíte zadať všetky časti mapy v súbore robots.txt:

User-agent: Yandex Disallow: Sitemap: http://mysite.ru/my_sitemaps1.xml Sitemap: http://mysite.ru/my_sitemaps2.xml

Zrkadlá stránok

Ako viete, na tú istú stránku je zvyčajne možné pristupovať na dvoch adresách: s www aj bez nej. Pre vyhľadávacieho robota sú site.ru a www.site.ru odlišné stránky, ale s rovnakým obsahom. Nazývajú sa zrkadlá.

Vzhľadom na to, že stránky lokality majú prepojenia s www aj bez, váhu stránok možno rozdeliť medzi www.site.ru a site.ru. Aby sa tomu zabránilo, vyhľadávací nástroj musí špecifikovať hlavné zrkadlo stránky. V dôsledku „zlepenia“ bude všetka váha patriť jednému hlavnému zrkadlu a stránka bude môcť zaujať vyššiu pozíciu vo výsledkoch vyhľadávania.

Hlavné zrkadlo pre Yandex môžete zadať priamo v súbore robots.txt pomocou príkazu Host:

User-agent: Yandex Disallow: /feedback.php Disallow: /cgi-bin/ Hostiteľ: www.site.ru

Po nalepení bude zrkadlo www.site.ru vlastniť celú váhu a vo výsledkoch vyhľadávania bude zaujímať vyššiu pozíciu. A site.ru nebude vôbec indexovaný vyhľadávacím nástrojom.

Pre iné vyhľadávacie nástroje je výber hlavného zrkadla trvalé presmerovanie na strane servera (kód 301) z ďalších zrkadiel na hlavné. To sa vykonáva pomocou súboru .htaccess a modulu mod_rewrite. Za týmto účelom umiestnime súbor .htaccess do koreňového adresára lokality a napíšeme tam nasledovné:

RewriteEngine On Options +FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1

V dôsledku toho budú všetky požiadavky z lokality site.ru smerovať na adresu www.site.ru, t. j. lokalita site.ru/page1.php bude presmerovaná na adresu www.site.ru/page1.php.

Metóda presmerovania bude fungovať pre všetky vyhľadávače a prehliadače, ale stále sa odporúča pridať smernicu Host do súboru robots.txt pre Yandex.

Komentáre v súbore robots.txt

Do súboru robots.txt môžete pridať aj komentáre – začínajú sa symbolom # a končia riadkom. Je žiaduce písať komentáre na samostatný riadok, ale je lepšie ich vôbec nepoužívať.

Príklad použitia komentárov:

User-agent: StackRambler Disallow: /garbage/ # nič užitočné v tomto priečinku Disallow: /doc.xhtml # aj na tejto stránke # a všetky komentáre v tomto súbore sú tiež zbytočné

Vzorové súbory robots.txt

1. Všetkým robotom umožňujeme indexovať všetky dokumenty lokality:

User-agent: * Disallow:
User-agent: * Disallow: /

3. Robotovi vyhľadávacieho nástroja Google zakazujeme indexovať súbor feedback.php a obsah adresára cgi-bin:

User-agent: googlebot Disallow: /cgi-bin/ Disallow: /feedback.php

4. Všetkým robotom umožňujeme indexovať celú stránku a robotom vyhľadávacieho nástroja Yandex zakazujeme indexovať súbor feedback.php a obsah adresára cgi-bin:

User-agent: Yandex Disallow: /cgi-bin/ Disallow: /feedback.php Hostiteľ: www.site.ru User-agent: * Disallow:

5. Všetkým robotom umožňujeme indexovať celú stránku a robotu Yandex umožňujeme indexovať iba časť stránky, ktorá je preň určená:

User-agent: Yandex Allow: /yandex Disallow: / Host: www.site.ru User-agent: * Disallow:

Prázdne riadky oddeľujú limity pre rôzne roboty. Každý blok obmedzení musí začínať riadkom s poľom User-Agent označujúcim robota, na ktorého sa vzťahujú tieto pravidlá indexovania stránok.

Bežné chyby

Je potrebné vziať do úvahy, že prázdny riadok v súbore robots.txt je oddeľovačom medzi dvoma záznamami pre rôznych robotov. Taktiež nemôžete zadať viacero príkazov na rovnakom riadku. Pri zakázaní indexovania súboru správcovia webu často vynechávajú / pred názvom súboru.

Do súboru robots.txt nie je potrebné vkladať zákaz indexovania stránky pre rôzne programy, ktoré sú určené na úplné stiahnutie stránky, napríklad TeleportPro. Sťahovatelia ani prehliadače sa na tento súbor nikdy nepozerajú a neriadia sa pokynmi v ňom napísanými. Je určený výhradne pre vyhľadávače. Tiež by ste nemali blokovať oblasť správcu svojho webu v súbore robots.txt, pretože ak naň nikde nie je odkaz, nebude indexovaný. Umiestnenie admin panelu prezradíte len ľuďom, ktorí by o ňom nemali vedieť. Je tiež potrebné pripomenúť, že príliš veľký súbor robots.txt môže vyhľadávač ignorovať. Ak máte príliš veľa stránok, ktoré nie sú určené na indexovanie, potom je lepšie ich zo stránky jednoducho odstrániť alebo presunúť do samostatného adresára a indexovanie tohto adresára zakázať.

Kontrola chýb v súbore robots.txt

Nezabudnite skontrolovať, ako vyhľadávacie nástroje rozumejú vášmu súboru robots. Na kontrolu Google môžete použiť Nástroje správcu webu Google. Ak chcete vedieť, ako Yandex rozumie vášmu súboru robots.txt, môžete použiť službu Yandex.Webmaster. To vám umožní včas opraviť chyby. Aj na stránkach týchto služieb nájdete odporúčania na zostavenie súboru robots.txt a množstvo ďalších užitočných informácií.

Kopírovanie článku je zakázané.