Stiahnite si Roboty TXT pre Yandex. Odporúčania pre konfiguráciu súborov Roboty TXT. Príklady použitia zakázané a umožňujú smernice v Robots.tcht

  • 12.04.2019

V tomto prípade potrebujete pokyny pre prácu, vyhľadávače nie sú výnimkou z pravidiel, preto a vynájdené Špeciálny súbor. oprávnený robots.txt. Tento súbor musí ležať v koreňovom priečinku vašej stránky, alebo to môže byť virtuálne, ale uistite sa, že sa otvoríte na požiadanie: www.vashsayt.ru / Robots.txt

Vyhľadávače sa už dlho naučili rozlíšiť potrebné súbory HTML, z interných súborov skriptov vášho systému CMS, presnejšie, sa naučili rozpoznať odkazy na obsahové články a všetky druhy koša. Preto mnohí webmasteri už zabudli robiť roboty pre svoje stránky a myslieť si, že všetko bude tak dobré. Áno, majú pravdu o 99%, pretože ak vaše stránky nemá tento súbor, vyhľadávače sú v ich hľadaní obsahu neobmedzené, ale nuansy sa vyskytujú nad chybami, ktoré si môžete vopred starať.

Ak máte akékoľvek problémy s týmto súborom na stránke, napíšte komentáre k tomuto článku a rýchlo vám pomôžem v tomto, úplne zadarmo. Veľmi často webmasteri robia malé chyby, ktoré prináša stránku zlý indexáciaalebo dokonca výnimka z indexu.

Čo je potrebné robots.txt

Súbor Robots.txt je vytvorený na konfiguráciu správnej stránky indexovania do vyhľadávačov. To znamená, že obsahuje pravidlá povolení a zákazov určitých ciest vašej stránky alebo typu obsahu. Ale to nie je všeliek. Všetko pravidlá v súbore robotov nie sú pokyny Presne nasledovať, ale len odporúčanie pre vyhľadávače. Napríklad Google, píše:

Môžete použiť súbor Robots.txt na skrytie stránky z výsledkov vyhľadávania Google. Iné stránky sa na to môžu vzťahovať, a bude to stále indexované.

Hľadať roboty sami sa rozhodnú, čo indexovať, a čo nie je, a ako sa správať na stránke. Každý vyhľadávač má svoje vlastné úlohy a ich funkcie. Ako keby sme nechceli, týmto spôsobom nelepí.

Je však jeden trik, ktorý sa netýka priamo subjektov tohto článku. Úplne zakázať index robotov a zobraziť stránku výsledky vyhľadávaniaMusíte napísať:

Návrat do robotov. Podľa pravidiel v tomto súbore môžete zatvoriť alebo povoliť prístup k nasledujúcim typom súborov:

  • Non-GROF súbory. V podstate je to súbory HTML, na ktorých všetky informácie obsahujú. Môžete uzavrieť duplikáty stránok alebo stránky, ktoré nenesú žiadne užitočné informácie (stránky stránky, stránky kalendára, stránky s archívmi, stránky s profilmi atď.).
  • Grafické súbory. Ak chcete zobrazené obrázky stránky, ktoré sa nezobrazujú vo vyhľadávaní, môžete ho zaregistrovať v súbore Roboty.
  • Zdrojové súbory. Aj s robotmi môžete blokovať indexáciu rôzne skripty, CSS štýly a iné ľahké zdroje. Nestojí za to blokovanie zdrojov, ktoré sú zodpovedné za vizuálnu časť stránky pre návštevníkov (napríklad, ak zavriete stránku CSS a JS, ktoré sú odstránené krásne bloky Alebo stola, to nebude vidieť vyhľadávací robot a prisahá na ňu).

Vizuálne ukázať, ako roboti fungujú, pozrite sa na obrázok nižšie:

Hľadať robot, na základe stránky sa pozerá na pravidlá indexovania, potom začína indexovať na odporúčanie súboru.
V závislosti od nastavení pravidiel vyhľadávač vie, že je možné indexovať a čo nie je.

S inpaxom súborov Robots.txt

Ak chcete napísať pravidlá na vyhľadávače v súbore robotov, smernice sa používajú s rôznymi parametrami, s ktorými roboty nasledujú. Začnime s prvým a pravdepodobne najdôležitejšou smernicou:

Dr. User-Agent

Užívateľský agenta - Touto smernicou uvediete názov robota, ktorý odporúča odporúčania v súbore. Tieto roboty sú oficiálne vo svete internetu - 302 kusov. Samozrejme, môžete zaregistrovať pravidlá pre každého samostatne, ale ak nemáte čas na to, len zaregistrujte:

Používateľský agent: *

* -V tento príklad znamená "všetko". Tí. Váš súbor Robots.txt musí začať s "pre koho je" Súbor je určený. Aby sa neobťažoval nad všetkými menami robotov, zaregistrujte sa "Star" v smernici o užívateľsky agent.

Dám vám podrobné zoznamy robotov populárnych vyhľadávačov:

Google - GoogleBot. - Hlavný robot

Zvyšok robotov Google

GoogleBot-News. - Novinky Hľadať robot
GoogleBot-Image. - Obrázky robota
GoogleBot-Video. - Robot Video
GoogleBot-Mobile. - Mobilná verzia Robot
AdsBot-Google - Robot Skontrolujte cieľovú stránku kvality
MediaPartners-Google - adsense service robot

Yandex - Yandexbot. - Hlavný indexovací robot;

Zvyšok robotov Yandexu

D Expozície zakazujú a umožňujú

Zakázať. - Najzákladnejšie pravidlo v robotoch, používa túto smernicu, ktorú zakazujete index určité miesta vašej stránky. Smernica je písaná takto:

Zakázať:

Veľmi často môžete pozorovať zakázanú smernicu: prázdne, t.j. Údajne hovoriť robotom, že na stránke nie je zakázané, index, čo chcete. Buď opatrný! Ak dáte / v zakázaní, úplne zatvoríte stránku na indexovanie.

Preto, najdražšia verzia Robots.txt, ktorá "umožňuje indexáciu celého miesta pre všetky vyhľadávače" vyzerá takto:

Užívateľ-agenta: * Zakázať:

Ak neviete, čo písať v Robots.txt, ale niekde o ňom počuli, stačí skopírovať kód vyššie, uložiť ho do súboru s názvom Robots.txt a stiahnuť ho do koreňa vašej stránky. Alebo nevytvárajte nič, pretože a bez nej, roboti budú indexovať všetko na vašich stránkach. Alebo si prečítajte článok na koniec, a pochopíte, čo sa má zavrieť na stránke, a čo nie je.

Podľa pravidiel robotov sa musí vyžadovať zakázaná smernica.

Táto smernica môže byť zakázaná oba priečinok aj samostatný súbor.

Ak chceš vypnúť priečinok Mali by ste napísať:

Zakázať: / Papka /

Ak chceš zakázať konkrétny súbor:

Zakázať: /images/img.jpg.

Ak chceš vypnite určité typy súborov:

Zakázať: /*.png

Pravidelné výrazy Nie je podporované mnohými vyhľadávačmi. Google podporuje.

Povoliť. - povolená smernica v Robots.txt. To umožňuje robotovi indexovať špecifickú cestu alebo súbor v zakázaní adresára. Donedávna bola použitá iba Yandex. Služba Google s týmto a tiež začala používať. Napríklad:

Povoliť: / Obsah zakázať: /

tieto smernice zakazujú index celý obsah obsahu okrem priečinka obsahu. Alebo tu sú stále populárne smernice v poslednej dobe:

Povoliť: / THEMPLATE, .JS Povoliť: / THEMPLATE, CHSS DISPALLOW: / THEMPLATE

tieto hodnoty povolené indexovať všetky súbory CSS a JS na stránke.Ale zakázať index všetko v priečinku so šablónou. Naposledy rok Google Veľmi poslali listy webmasters takéhoto obsahu:

GoogleBot nemôže pristupovať k súborom CSS a JS na stránke

A príslušný komentár: Na svojich stránkach sme našli problém, ktorý môže zasahovať do skenovania. Robot GoogleBot nemôže spracovať kód Javascript a / alebo CSS súbory z dôvodu obmedzení v súbore Robots.txt. Tieto údaje sú potrebné na vyhodnotenie práce stránky. Preto, ak bude prístup k zdrojom zablokovaný, môže zhoršiť pozície vašich stránok vo vyhľadávaní..

Ak pridáte dve smernice, ktoré sú napísané v poslednom kóde vo vašich robots.txt, potom tieto správy nevidete z Google.

A používanie špeciálnych symbolov v Robots.txt

Teraz o príznakoch v smerniciach. Hlavné znamenia (špecialisti) v zakazovaní alebo povolení /, *, $

Preposlať Slash "/"

Slash je veľmi klamlivý v Robots.txt. Sledoval som niekoľko desiatok časov zaujímavej situácie, keď bola pridaná neznalosť v Robots.txt:

User-Agent: * Zakázať: /

Pretože si prečítali o štruktúre stránky niekde a skopírujú ho na stránke. Ale v tomto prípade ste zakázať indexáciu celého miesta.Aby ste zakázali indexáciu katalógu, so všetkými indexidmi, ktoré je potrebné nainštalovať / na konci. Ak ste napríklad zaregistrovať zakázať: / SEO, potom absolútne všetky odkazy na vašich stránkach, v ktorých je SEO Word - nebudú indexované. Hoci to bude priečinok / SEO /, aj keď to bude kategória / SEO-Tool /, aj keď to bude článok /seo-best-of--best-soft.html, to všetko nebudú indexované .

Pozrite sa pozorne pre všetkých / Vo vašich robots.txt

Vždy na konci adresárov. Ak si dáte / v zakázaní, zakazujete indexáciu celého stránky, ale ak neopustíte / nepoviníte, môžete tiež vypnúť indexáciu celého miesta. / - V istom zmysle to znamená "všetko, čo nasleduje po smernici".

O hviezdach * v robots.txt

Špeciálny mixér * znamená akúkoľvek (vrátane prázdnej) sledu znakov. Môžete ho použiť kdekoľvek roboty podľa príkladu:

User-Agent: * DOPLOW: / dapaska/*.aspx zakázať: / * staré

Zakazuje všetky súbory s rozšírením ASPX v adresári Papka tiež zakazuje nielen / starý priečinok, ale aj smernicu / Papku / Staré. Vyrazené? Takže neodporúčam zmeniť symbol * vo vašich robotoch.

Predvolené B. Pravidlá indexovania a zákazu robots.txt stojí za to * na všetkých smerniciach!

O špeciálnej móle vo výške $

Špeciálna kosačka $ v robotoch ukončí činnosť špeciálneho symbolu *. Napríklad:

Zakázať: / menu $

Toto pravidlo zakazuje "/ menu", ale nezakazuje '/menu.html', t.j. Súbor zakazuje len smernicu / menu vyhľadávačov a nemôžete vypnúť všetky súbory s menu Word v adrese URL.

D irephen hostiteľa.

Hostiteľské pravidlo funguje len v Yandex, takže nie je povinnýDefinuje hlavnú doménu zrkadiel stránok, ak existujú. Máte napríklad doménu dom.com, ale aj nasledujúce domény sú tiež počítané a nakonfigurované: dom2.com, dom3, com, dom4.com a s nimi je presmerovaním na hlavnej doméne dom.com

Tak, že YANDEX je rýchlejší

Hostiteľ: Site

Ak vaše stránky nemá žiadne zrkadlá, nemôžete predpísať toto pravidlo. Ale najprv skontrolujte svoje stránky podľa IP adresy, je možné a vaša hlavná stránka sa otvára, a mali by ste zaregistrovať hlavné zrkadlo. Alebo možno niekto kopíroval všetky informácie z vašich stránok a urobil presnú kópiu, vstup do robots.txt, ak by bola tiež ukradnutá, pomôže vám s tým.

Záznam hostiteľa musí byť sám a v prípade potreby s predpísaným prístavom. (HOST: Stránka: 8080)

Vytekanie

Táto smernica bola vytvorená s cieľom odstrániť schopnosť načítať na váš server. Hľadať roboty môžu súčasne vykonávať stovky požiadaviek na vaše stránky a ak je váš server slabý, môže spôsobiť menšie zlyhania. Takže sa to nestane, vynašiel pravidlo pre Roboty-oneskorenia - to je minimálne obdobie medzi prevzatím stránky vašej stránky. Štandardná hodnota Pre túto smernicu sa odporúča, aby 2 sekundy. V robotoch to vyzerá takto:

Oneskorenie prehľadávania: 2

Táto smernica pracuje pre Yandex. V spoločnosti Google môžete nastaviť frekvenciu skenovania v paneli webmasterov, v časti Nastavenia lokality, v pravom hornom rohu s "Gear".

D irekiv Clean-Param

Tento parameter je tiež len pre Yandex. Ak adresy stránok stránok obsahujú dynamické parametre, ktoré nemajú vplyv na ich obsah (napríklad: Identifikátory relácie, používatelia, referere atď.), Môžete ich opísať pomocou smernice Clean-Param.

Robot Yandex pomocou týchto informácií opakovane neopakuje duplicitné informácie. Preto zvýši účinnosť bypassu, ktorá sa zvýši, zaťaženie servera sa zníži.
Na stránke sú napríklad stránky:

www.site.com/some_dir/get_book.pl?ref\u003dsite_1&book_id\u003d123

Parameter ref. Používa sa len na sledovanie, z ktorého zdroja bola vykonaná žiadosť a nezmení obsah, na všetkých troch adresách sa zobrazí rovnaká stránka s knihou book_id \u003d 123. Potom, ak zadáte smernicu takto: \\ t

User-Agent: Yandex Disallow: Clean-Param: ref /some_dir/get_book.pl

robot Yandex bude riadiť všetky adresy stránky na jednu:
www.site.com/some_dir/get_book.pl?ref\u003dsite_1&book_id\u003d123,
Ak je stránka dostupná na stránke bez parametrov:
www.site.com/some_dir/get_book.pl?book_id\u003d123
To všetko bude znížené, keď bude indexovaný robotom. Ďalšie stránky vašej stránky urobia častejšie, pretože nie je potrebné aktualizovať stránky:
www.site.com/some_dir/get_book.pl?ref\u003dsite_2&book_id\u003d123.
www.site.com/some_dir/get_book.pl?ref\u003dsite_3&book_id\u003d123.

# Pre adresy formulára: www.site1.com/forum/showthread.php?s\u003d681498B96489498B9648949605&t\u003d8243 www.site1.com/forum/showthread.php?s\u003d1e71c4427317A117A&T\u003d8243 # Robots.txt bude obsahovať: User- Agent: Yandex Disallow: Clean-Param: s /forum/showthread.php

D Sitemap Icre

Touto smernicou, jednoducho zadajte umiestnenie vášho Sitemap.xml. Robot si to pamätá, "ďakujem" Povedzte vám, "a neustále ho analyzuje na daný spôsob. Vyzerá to takto:

Sitemap: http: //syt/sitemap.xml

A teraz sa pozrime na všeobecné otázky, ktoré vznikajú pri príprave robotov. Na internete je veľa takýchto tém, takže budeme analyzovať najdôležitejšie a najčastejšie.

N robots.txt

Veľmi, ale v tomto slove "správny", pretože pre jednu stránku na jednej CMS bude správne, a na inom CMS vydá chyby. "Správne nakonfigurované" pre každú stránku jednotlivca. V Robots.txt musíte zatvoriť časti a tie súbory, ktoré nepotrebujú používateľom a nenesú žiadnu hodnotu pre vyhľadávače. Najjednoduchšie a najpodrobnejšie voľby robots.txt

Užívateľsky agenta: * DOPALLOW: Sitemap: http: //syt/sitemap.xml Užívateľsky agenta: Yandex Disallow: Host: Site.com

Tento súbor má takéto pravidlá: Nastavenia pre zákané pravidlá pre všetky vyhľadávače (užívateľsky agent: *), indexácia celého stránky je plne vyriešená ("DISPLOWLOW:" alebo môžete určiť "Povoliť: /"), hostiteľa Zrkadlo je indikované pre Yandex (Host: Site.ncom) a umiestnenie vášho Sitemap.xml (Sitemap :.

R obs.txt for wordpress

Opäť, mnoho otázok, jedna stránka môže byť online obchody, ďalší blog, tretie - pristátie, štvrtá - webová stránka spoločnosti spoločnosti a všetko môže byť Cms wordpress A pravidlá pre robotov budú úplne odlišné. Tu je môj robots.txt pre tento blog:

User-Agent: * Povoliť: / WP-Content / Uploads / Povoliť: / WP-Cast / Update.js $ Povoliť: / WP-CastTent / * .cs $ Povoliť: /wp-incconclus/2.jser povolenie: / WP-Zahŕňa / *. CSS $ Disallow: /wp-login.php Disalow: /wp-register.php Disalow: / XMLRPC.php Disalow: / Wemplate.html DISCALLOW: / WP-admin Disallow: / WP-obsahuje zakázané: / Obsah WP DOSTALLOW: / Kategória: / Archív zakázaný: * / Trackback / Disallow: * / Feed / Disalow: /?

Existuje veľa nastavení, pozrime sa na nich spolu.

Povoliť v WordPress. Prvý umožňujúci pravidlá pre obsah, ktorý používatelia potrebujú (sú obrázky v priečinku Uploads) a Roboty (to je CSS a JS na zobrazenie stránok). Je to pre CSS a JS, že spoločnosť Google často prisahá, takže sme ich opustili. Mohli by ste použiť metódu všetkých súborov jednoducho vložením "/*.cssss slebo", ale zakazuje reťazec týchto priečinkov, kde sú súbory ležiace - neumožnilo ich používať na indexovanie, takže som musel zaregistrovať cestu prevodový priečinok úplne.

Povoliť vždy poukazuje na cestu zakázanú v zakázaní obsahu. Ak máte niečo, čo nie je zakázané, nestojí za to predpísať Povoliť, údajne si myslíte, že vám daj push na vyhľadávače, ako "dobre, na tom istom, tu je adresa URL, index rýchlejšie." Takže to nebude fungovať.

Zakázať v wordpress. Zakázať CMS WP potrebuje veľa. Mnoho rôznych plug-inov, mnoho rôznych nastavení a tém, banda skriptov a rôznych strán, ktoré nenesú žiadne užitočné informácie. Ale išiel som ďalej a úplne zakázal index všetko na mojom blogu, s výnimkou článkov sami (vstupy) a stránky (o autorovi, službách). Zavrel som aj blogovú kategóriu, otvorím, keď sú optimalizované pre požiadavky a keď sa objaví textový opis pre každú z nich, ale teraz je to len duplikát palcov záznamov, že vyhľadávače nie sú potrebné.

Štandardné smernice Host a Sitemap. Iba to bolo potrebné vydržať hostiteľa samostatne pre Yandex, ale o tom sa neobťažoval. Tu je pravdepodobne dokončiť s robots.txt pre WP.

Do AK Vytvoriť robots.txt

Nie je to také ťažké, ako sa zdá na prvý pohľad. Máte dosť na to, aby ste si podnikli pravidelný notebook (poznámkový blok) a kopíroval údaje na vaše stránky na nastaveniach z tohto článku. Ale ak je to pre vás ťažké, existujú zdroje na internete, ktorý vám umožní generovať roboty pre vaše stránky:

Nikto nepovedal viac o vašich robotoch.txt, ako sú tieto kamaráty. Koniec koncov, je to pre nich, že vytvoríte svoj "zakázaný súbor".

Teraz povedzme o niektorých menších chybách, ktoré môžu byť v robotoch.

  • « Prázdny riadok "- Je neprijateľné, aby ste urobili prázdny reťazec v smernici o používateľských agentoch.
  • Pre konflikt medzi dvoma smernica S predponami rovnakej priority dĺžky je uvedená smernica Povoliť..
  • Pre každý súbor robots.txt je spracovaný iba jedna hostiteľská smernica. Ak sú v súbore uvedené niekoľko smerníc, robot používa prvý.
  • Smernica Čistý parameter Je to križovatka, takže môže byť špecifikovaná kdekoľvek v súbore Robots.txt. Ak sú smernice indikované niekoľkými, všetky budú brané do úvahy robot.
  • Six Yandex Robots nesledujú Robots.txt pravidlá (YadirectFetcher, YandexCalendar, YandexDirect, YandexdirectDyn, YandexmobileBot, YandexAccessibilityBot). Ak chcete zakázať IT indexovanie na stránke, mali by ste vykonať samostatný parametre používateľa pre každého z nich.
  • Smernica o užívateľskom agenteMali by byť vždy napísané vyššie pre zákaznícku smernicu.
  • Jeden riadok pre jeden adresár. Nemôžete napísať veľa adresárov na rovnakom riadku.
  • Názov súboru Mali by to byť: robots.txt. Žiadne robots.txt, robots.txt, a tak ďalej. Len malé písmená v názve.
  • V smernici hostiteľ. Mali by ste napísať cestu do domény bez http a bez scén. Nesprávne: Hostiteľ: http://www.site.ru/, správny: Hostiteľ: www.site.ru
  • Pri použití stránky Secure Protocol https v smernici hostiteľ. (Pre Robot Yandex) musíte presne špecifikovať s protokolom, takže hostiteľom: https://www.site.ru

Tento článok bude aktualizovaný ako zvýšenie zaujímavé otázky a nuansy.

S tebou bol, lenivý stav.

Sitemap, výrazne zjednodušuje indexáciu vášho blogu. Mapa stránok musí byť povinná pre každú stránku a blog. Ale aj na každej stránke a blogu by mali byť súbor roboty.tXT.. Súbor Robots.txt obsahuje súbor pokynov pre vyhľadávanie robotov. Môžeme povedať - pravidlá pre správanie hľadania robotov na vašom blogu. Rovnako ako v tomto súbore obsahuje cestu na mapu stránok vášho blogu. A v skutočnosti, so správnym zostaveným súborom Robots.txt, vyhľadávacie robot netráti drahocenný čas na vyhľadávanie mapy stránok a indexovať nie sú potrebné súbory.

Čo je súbor Robots.txt?

robots.txt - Toto je textový súbor, môže byť vytvorený v obvyklých "notebooku", ktorý sa nachádza v koreňovom blogu, ktorý obsahuje pokyny pre vyhľadávacie roboty.

Tieto pokyny obmedzujú vyhľadávacie roboty z náhodného indexácie všetkých súborov vášho Boha a zameriavajú sa na tieto stránky na indexovanie týchto stránok, ktoré by mali byť prístupné do vydávania vyhľadávania.

Pomocou tohto súboru môžete zabrániť indexu súboru programu WordPress Engine. Alebo, povedzte, tajná časť vášho blogu. Môžete zadať cestu k vášmu blogu a hlavnému zrkadlu vášho blogu. Tu mám na mysli svoje doménové meno www a bez www.

Indexácia stránok s robots.txt a bez

Tento screenshot je jasne indikovaný, ako súbor Robots.txt zakazuje indexovanie určitých priečinkov na stránke. Bez súboru je na vašich stránkach k dispozícii robot.

Hlavné smernice súboru Robots.txt

Aby ste sa zaoberali pokynmi, ktoré obsahujú súbor Robots.txt, musíte sa vysporiadať s hlavnými veliteľmi (smernice).

Užívateľský agenta - Tento príkaz označuje prístup k robotom na vaše stránky. Pomocou tejto smernice môžete vytvoriť pokyny individuálne pre každý robot.

User-Agent: Yandex - pravidlá pre robota Yandex

Používateľský agent: * - pravidlá pre všetkých robotov

Zakázať a povoliť - Smernice o zákaze a povolení. Pomocou smernice zakázania je indexovanie zakázané a povolené povolenie.

Príklad zákazu:

Používateľský agent: *

Zakázať: / - zákaz na celú stránku.

User-Agent: Yandex

Zakázať: / Admin - Zákaz robota Yandex na stránky ležiace v priečinku administrátora.

Príklad povolenia:

Používateľský agent: *

Povoliť: / Foto

Zakázať: / - zákaz všetkých stránok, okrem stránok priečinka fotografie.

Poznámka! Zakázať smernicu: Bez parametra umožňuje všetko a Povoliť smernicu: bez parametra zakazuje všetko. A umožniť smernice bez zakázania by nemali byť.

Mapa - Určuje cestu k mape lokality v XML formáte.

Sitemap: https: //syt/sitemap.xml.gz

Sitemap: https: //syt/sitemap.xml

Hostiteľ. - Smernica určuje hlavné zrkadlo vášho blogu. Predpokladá sa, že táto smernica je predpísaná len pre Roboty YANDEX. Táto smernica by mala byť špecifikovaná na samom konci súboru Robots.txt.

User-Agent: Yandex

Zakázať: / WP-zahŕňa

Hostiteľ: Site

Poznámka! Adresa hlavného zrkadla je indikovaná bez špecifikovania protokolu pre prenos hypertextu (http: //).

Ako vytvoriť robots.txt

Teraz, keď sme sa stretli s hlavnými príkazmi súboru Robots.txt, môžete začať vytvárať náš súbor. Aby ste vytvorili vlastný súbor robots.txt s vašimi individuálnymi nastaveniami, musíte poznať štruktúru vášho blogu.

Budeme sa pozrieť na vytvorenie štandardného (universal) robots.txt súboru pre blog na WordPress. Vždy ho môžete dopĺňať pomocou nastavení.

Pokračujte. Potrebujeme obvyklý "notebook", ktorý je v každom operačný systém Windows. Alebo textedit v Macos.

Otvorte nový dokument a vložte tieto príkazy:

User-Agent: * Disallow: Sitemap: https: //sitemap.xml.gz Mapa stránok: https: //sitemap.xml Užívateľsky agenta: YANDEX DOPALLOW: /wp-login.php zakázané: / wp-registrovať .php zakázať: / CGI-Bin Disallow: / WP-admin Disallow: / WP-obsahuje Disalow: /xmlrpc.php Disalow: / WP-Content / Pluginy zakázať: / WP-Content / Cache Disalow: / WP-Content / Témy zakázané: / WP -Content / Jazyky zakázané: / Kategória / * / * Disallow: / Trackback Disallow: * / Trackback Disallow: * / * / Trackback Disallow: / TAG / DOPALLOW: / DOPLOW: * / * / * / * / * DOSTALLOW: * / FEED DOSTALLOW: / * / Krmivo zakázané: / *? * Zakázať: /? S \u003d Host: Site

Nezabudnite nahradiť parametre SATEMAP a Smernice hostiteľa na vlastnú päsť.

DÔLEŽITÉ! Pri písaní príkazov je povolený len jeden priestor. Medzi smernicou a parametrom. V žiadnom prípade nerobte medzery po parametri alebo práve tam, kde padli.

Príklad: Zakázať:<пробел>/ Krmivo /

Tento príklad súborov Robots.txt je univerzálny a je vhodný pre akýkoľvek blog na WordPress s CNC adresy URL. O tom, čo sa čítať CNC. Ak ste nenašli CNC, odporúčam odstrániť zakázané: / *? * DOPLNOVANIE: /? S \u003d z navrhovaného súboru

Načítanie súboru Robots.txt na server

Najlepší spôsob, ako pre tento druh manipulácie je FTP pripojenie. Informácie o konfigurácii FTP pripojenia pre TOTOLCOMMANDER READ. Alebo môžete použiť správca súborov Na vašom hostingu.

používam Ftp zlúčenina Na totolcommander.

Sieť\u003e Pripojuje s FTP serverom.

Vyberte požadované pripojenie a kliknite na tlačidlo Pripojiť.

Otvorte root blogu a skopírujte náš súbor Robots.txt stlačením klávesu F5.

Kopírovanie Robots.txt na server

Teraz váš súbor Robots.txt vykoná funkciu správne. Ale stále odporúčam vykonávať robots.txt analýzu, aby sa ubezpečil, že nie sú žiadne chyby.

Ak to chcete urobiť, musíte sa prihlásiť do skrinky Yandex alebo Google Webmaster. Zvážte príklad Yandexu. Tu môžete analyzovať aj bez potvrdenia práva na stránku. Máte dostatok poštovej schránky na Yandex.

Otvorte skriňu Yandex.vebmaster.

Na hlavnej stránke kabinetu webmasteru otvorte odkaz "Kontrolaroboty.tXT ".

Pre analýzu budete musieť zadať adresu URL vášho blogu a kliknite na tlačidlo " Stiahnuť ▼ roboty.txt z lokality." Akonáhle je súbor načítaný kliknutím na tlačidlo "Kontrola".

Nedostatok výstražných záznamov označuje správnosť vytvorenia súboru Robots.txt.

Výsledok bude prezentovaný. Tam, kde je jasné a pochopenie, ktoré materiály môžu zobraziť roboty vyhľadávania a ktoré sú zakázané.

Robots.txt File Analysis Anasiss

Tu môžete vykonať zmeny Robots.txt a experimentujte až do výsledku, ktorý potrebujete. Ale pamätajte, súbor umiestnený na blogu sa nezmení. Ak to chcete urobiť, potrebujete tu výsledok, ktorý ste tu získali, aby ste skopírovali do notebooku, uložte ako robots.txt a skopírujte blog na vás.

Mimochodom, ak sa zaujímate, ako súbor robots.txt vyzerá ako na niečí blogu, môžete to vidieť s ľahkosťou. Ak to chcete urobiť, musíte pridať /roobots.txt na adresu stránky

https: //syt/robots.txt.

Teraz je vaše robots.txt pripravený. A nezabudnite, že neuskutoční vytvorenie súboru Robots.txt v dlhom boxe, indexácia vášho blogu bude závisieť od neho.

Ak chcete vytvoriť správne robots.txt a zároveň je presvedčený, že do vyhľadávacieho indexu je možné len potrebné stránky, to je možné vykonať a automaticky pomocou plug-in.

Mám na tom všetko. Želám vám veľa úspechov. Ak ste otázky alebo doplnky, písať v komentári.

Uvidíme sa čoskoro.

S pozdravom, Maxim Zaitsev.

Prihlásiť sa na odber nových článkov!

Robots.txt pre stránku je indexový textový súbor v kódovaní UTF-8.

Index bol nazývaný, pretože je predpísané odporúčania pre vyhľadávacie roboty - ktoré stránky musia byť naskenované a ktoré nie je potrebné.

Ak je kódovanie súborov odlišné od UTF-8, vyhľadávacie roboty môžu nesprávne vnímať informácie v ňom.

Súbor je platný pre protokoly HTTP, HTTPS, FTP a tiež má "Power" len v hostiteľovi / Protocol / port číslo, na ktorom sa nachádza.

Kde je robots.txt na stránke?

Súbor Robots.txt môže mať iba jedno miesto - koreňový adresár na hosting. Vyzerá to takto: http://vash-site.xyz/robots.txt

Roboty TXT Smernice súborov pre stránku

Požadované komponenty súboru Robots.txt pre stránku sú pravidlo zakázané a inštrukcie používateľa. Existujú sekundárne pravidlá.

Zakázať pravidlo

Disallow je pravidlo, ktorými vyhľadáva robot hlási informácie o tom, ktoré stránky skenovanie nemá zmysel. A bezprostredne niekoľko špecifických príkladov uplatňovania tohto pravidla:

Príklad 1 - Povolené index celú stránku:

Príklad 2 - Úplne zakázanie indexácie lokality:

V tomto prípade to bude zbytočné. Použitie tohto príkladu je relevantné, ak je miesto "zatvorené" na zjemnenie (napríklad nesprávne funkcie). V tomto prípade stránka vo výsledkoch vyhľadávania nie je miestom, takže je to potrebné prostredníctvom súboru robotov TXT, aby sa uzavreli od indexácie. Samozrejme, po dokončení stránky by sa mal odstrániť zákaz indexovania, ale zabudli na to.

Príklad 6 - ako v robotoch txt, v blízkosti indexovacích súborov špecifického rozšírenia (v tomto prípade - .gif):

Asterisk pred .GIF $ hlási, že názov súboru môže byť ľubovoľný, a označenie $ uvádza koniec riadku. Tí. Takáto "maska" zakazuje skenovanie vôbec všetky súbory GIF.

Povoliť pravidlo v robotoch txt

Povoliť pravidlo robí všetko až do opaku - umožňuje indexovanie súboru / priečinka / stránky.

A okamžite špecifický príklad:

Už vieme, že s pomocou zakázania smernice: / môžeme zatvoriť stránku indexovacie roboty. TXT. Zároveň máme pravidlo Povoliť: / Katalóg, ktorý umožňuje skenovanie priečinka / katalógu. Z tohto dôvodu, kombinácia týchto dvoch pravidiel vyhľadávacích robotov bude vnímaná ako "je zakázaná skenovať stránku, s výnimkou priečinka / katalógu"

Triedenie pravidiel a povolenie a zakázať smernice, aby sa zvýšila dĺžka prefixu URL a používa sa postupne. Ak je niekoľko pravidiel vhodných pre tú istú stránku, potom sa robot zvolí posledný vhodný zo zoznamu.

Zvážte 2 situácie s oboma pravidlami, ktoré sa navzájom odporujú - jedno pravidlo zakazuje indexovacie priečinky / obsah a druhý umožňuje.

V tomto prípade bude prioritou smernice o povolení, pretože Je pod zoznamom:

Tu však prioritou je zakázaná smernica z tých istých dôvodov (pod zoznamom):

User-Agent v robotoch txt

Používateľom je pravidlo, ktoré je "odvolanie" na vyhľadávací robot, hovoria, "zoznam odporúčaní špecificky pre vás" (mimochodom, zoznamy v Robots.txt môže byť trochu - pre rôzne vyhľadávacie roboty z Google a Yandexu ).

Napríklad v tomto prípade hovoríme "Hej, GoogleBot, choďte sem, tu pre vás špeciálne vyškolený zoznam odporúčaní", a on je taký "ok, najmä pre mňa - to znamená špeciálne pre mňa" a iné zoznamy Skenovanie.

Správne roboty txt pre Google (GoogleBot)

Približne ten istý príbeh s vyhľadávaním BOT YANDEX. Spustenie dopredu, zoznam odporúčaní pre Yandex takmer v 100% prípadov sa mierne líši od zoznamu pre iné vyhľadávacie roboty (ako - budeme rozprávať o niečo neskôr). Ale podstata toho istého: "Hej, Yandex, pre vás samostatný zoznam" - "OK, teraz budem študovať."

Tí. Ak to isté robots.txt má 3 zoznam s užívateľom-agent: *, User-Agent: GoogleBot a užívateľsky agenta: Yandex, to znamená, že jeden je "jeden pre všetkých", s výnimkou GoogleBot a Yandex, t. Pre nich existujú "osobné" zoznamy.

Mapa

Sitemap Pravidlo je umiestnenie súboru s stránkou karty XML, ktorá obsahuje adresy všetkých stránok, ktoré sú povinné na skenovanie. Spravidla sa zadaná adresa typu http://site.ua/sitemap.xml.

Tí. Zakaždým, keď vyhľadávajúci robot zobrazí mapu stránok pre vzhľad nových adries a potom prejdite na ďalšie skenovanie, aby sa obnovili informácie o stránke v databázach vyhľadávačov.

Pravidlo Mapa stránok musí byť napísané v Robots.txt takto:

Smernica.

Povinné je aj priesečnícky hostiteľská smernica v súbore Robots.txt. Je nevyhnutné, aby sa Hľadaný robot Yandex - informoval, ktorý z zrkadiel zrkadiel je potrebné vziať do úvahy pri indexovaní. Preto je pre Yandex vytvorený samostatný zoznam pravidiel, pretože Google a zostávajúce vyhľadávače nerozumejú smernicu o hostiteľovi. Preto, ak má vaše stránky kópie alebo si môžete otvoriť v rôznych adries URL, pridajte hostiteľskú smernicu do súboru robotov TXT na stránky stránok správne indexované.

"Miestne zrkadlo" sa nazýva buď presná alebo takmer presná "kópia" stránky, ktorá je k dispozícii na inej adrese.

Adresa hlavného zrkadla musí byť uvedená takto: \\ t

Pre http - hostiteľa: Site.ua alebo Host: http://site.ua (t.j. http: // píše na Will)

Pre https - hostiteľské stránky: https://site.ua (t.j. https: // predpísané povinné)

Príklad Smernica o hostiteľovi v robotoch TXT pre stránku na protokole HTTPS:

Plaziť sa.

Na rozdiel od tých predchádzajúcich, parameter oneskorenia prehľadávania už nie je povinný. Hlavnou úlohou je zobraziť vyhľadávací robot, pre koľko sekúnd sa stránky načítavajú. Zvyčajne sa použije, ak používate slabé servery. Relevantné len pre Yandex.

Čistý parameter.

Pomocou smernice Clean-Param môžete riešiť parametre GET, takže obsah nie je duplikovaný, pretože Rovnaký obsah je k dispozícii na rôznych dynamických odkazoch (to sú tie s otáznikmi). Dynamické odkazy môžu byť generované podľa miesta pri použití rôzne triedenieUplatňujú sa identifikátory relácií atď.

Napríklad rovnaký obsah môže byť dostupný v troch adries:

www.site.com/catalog/get_phone.ua?ref\u003dpage_1&phone_id\u003d1

www.site.com/catalog/get_phone.ua?ref\u003dpage_2&phone_id\u003d1

www.site.com/catalog/get_phone.ua?ref\u003dpage_3&phone_id\u003d1

V tomto prípade je smernica Clean-Param vypracovaná takto:

Tí. Po hrubom hrubom čreve je atribút REF predpísaný zdrojom odkazu, a to len potom jeho "chvost" (v tomto prípade - /catalog/get_phone.ua).

Najčastejšie otázky

Ako zakázať indexovanie v Robots.txt?

Na tieto účely sa vynájdené pravidlo: t.j. Skopírujte odkaz na dokument / súbor, ktorý chcete zatvoriť z indexácie, vložte ho po hrubom čreve:

Zakázať: http://your-site.xyz/privance.html

Zakázať: http://your-site.xyz/foord.doc.

Zakázať: http://your-site.xyz/barcode.jpg.

A potom odstráňte túto adresu domény (v tomto prípade, musíte túto časť odstrániť - http://your-site.xyz). Po odstránení zostaneme presne to, čo by malo zostať:

Zakázať: /priVance.html.

Zakázať: /foord.doc.

Zakázať: /barcode.jpg.

No, ak chcete zatvoriť všetky súbory so špecifickým rozšírením z indexovania, pravidlá budú vyzerať takto:

Zakázať: /*.html.

Zakázať: /*.doc.

Zakázať: /*.jpg.

Ako zadať hlavné zrkadlo v Robots.txt?

Na tieto účely je vynájdená smernica o hostiteľovi. Tí. Ak adresy http://your-site.xyz a http://yoursite.com sú "zrkadlá" na rovnakej lokalite, potom jeden z nich musí byť špecifikovaný v smernici o hostiteľovi. Nech je hlavné zrkadlo http://your-site.xyz. V tomto prípade budú správne možnosti nasledujúce:

Ak stránka funguje na protokole HTTPS, potom musíte urobiť len:

User-Agent: Yandex

Zakázať: /priVance.html.

Zakázať: /foord.doc.

Zakázať: /barcode.jpg.

Hostiteľ: https://your-site.xyz.

Ak stránka funguje na protokole HTTP, obe z nasledujúcich možností budú správne:

User-Agent: Yandex

Zakázať: /priVance.html.

Zakázať: /foord.doc.

Zakázať: /barcode.jpg.

Hostiteľ: http:///your-site.xyz.

User-Agent: Yandex

Zakázať: /priVance.html.

Zakázať: /foord.doc.

Zakázať: /barcode.jpg.

Hostiteľ: Your-Site.xyz.

Treba však pripomenúť, že smernica o hostiteľovi je odporúčanie, a nie pravidlo. Tí. Je možné, že jedna doména bude zadaná v hostiteľovi, a Yandex bude zvážiť druhé zrkadlo, ak sú príslušné nastavenia zadané na paneli webmasterov.

Najjednoduchší príklad správne robots.txt

V tomto formulári môžu byť súbor Robots.txt umiestnený takmer na akomkoľvek mieste (s najmenšími úpravami).

Pozrime sa teraz, čo je tam.

  1. Tu sú 2 zoznam pravidiel - jeden "osobne" pre Yandex, druhý - pre všetky ostatné vyhľadávacie roboty.
  2. Pravidlo zakázania: prázdne, čo znamená, že na skenovanie nie sú žiadne zákazy.
  3. Smernica hostiteľa je prítomná v zozname YANDEX s indikáciou hlavného zrkadla, ako aj odkaz na mapu lokality.

Ale ... to neznamená, že je potrebné urobiť robots.txt týmto spôsobom. Pravidlá musia byť napísané striktne individuálne pre každú stránku. Napríklad nie je zmysel indexovať "Technické" stránky (prihlasovacie stránky vstupné stránky alebo testovacie stránky, ktoré fungujú nový dizajn lokality atď.). Mimochodom, závisieť od použitia CMS.

ZATVORENÉ Z INDEXINGOVEJ STRÁNKY - Čo vyzerá Robots.txt?

Ihneď dávame hotový kód, ktorý umožní zakázať indexovanie stránky bez ohľadu na CMS:

Ako zadať hlavné zrkadlo pre stránku na stránke HTTPS Robots.txt?

Veľmi jednoduché:

Hostiteľ: https://your-site.xyz.

DÔLEŽITÉ !!! Pre stránky HTTPS musí protokol nevyhnutne špecifikovať!

Najčastejšie chyby v Robots.txt

Najmä pre vás, pripravili sme výber najčastejších chýb povolených v Robots.txt. Takmer všetky tieto chyby kombinujú jeden - sú povolené nepozornosťou.

1. Unavené pokyny:

Správna možnosť:

2. Do jedného zakázaného sa vkladá banda priečinkov:

V takomto zázname sa robot môže zmiasť. Aký priečinok nemôže byť indexovaný? Najprv? Posledný? Alebo všetci? Alebo ako? Alebo čo? Jeden priečinok \u003d jedno zakázané pravidlo a nič iné.

3. Názov súboru je povolený len jeden - robots.txt a všetky písmená sú malé. Názvy Robots.txt, Robots.txt atď. nepovolené.

4. Pravidlo používateľa je zakázané ponechať prázdne. Buď zadajte názov vyhľadávacieho robota (napríklad pre Yandex), alebo dať hviezdičku (pre všetkých ostatných).

5. Odpady v súbore (extra lomky, hviezdičky atď.).

6. Pridanie úplných adries skrytých stránok do úplného adresára a niekedy aj bez pravidla zakázania.

Zle:

http://mega-site.academy/srot.html

Je tiež nesprávne:

Zakázať: http://mega-site.academy/srot.html

Správny:

Zakázať: /serot.html.

Online Kontrola súboru Robots.txt

Existuje niekoľko spôsobov, ako skontrolovať súbor Robots.txt pre dodržiavanie štandardného štandardu.

Metóda 1. Zaregistrujte sa do panelov webových sprievodcov Yandex a Google. Jediný mínus - musíte vykopať, na riešenie funkčnosti. Vykonajú sa nasledujúce zmeny a hotový súbor sa vykonáva na hosting.

Metodifikácia 2. Použite online služby:

Https://services.sl-team.ru/other/robots/

Https://technicalseo.com/seo-tools/robots-txt /

Http://toolss.seochat.com/tools/robots-txt-Validator/

Takže, Robots.txt je vytvorený. Zostáva len skontrolovať na chybách. Najlepšie je použitie pre tieto nástroje, ktoré ponúkajú samotné vyhľadávače.

Webmasters Google WEOGO (vyhľadávacia konzola Google): Ideme na účet, ak sa stránka nebráni v ňom - \u200b\u200bPotvrďte, potom prejdite na Skenovanie -\u003e Robots.txt Striekovací nástroj.

Tu môžete:

  • okamžite zistite všetky chyby a potenciálne problémy
  • ihneď "na mieste" na zmenu a doplnenie a kontrola chýb opäť (tak, aby sa spustil súbor do stránok 20 krát)
  • skontrolujte správnosť zákazov a povolení indexovania stránok.

Je to analóg predchádzajúcej, okrem:

  • povolenie sa nevyžaduje;
  • potvrdenie práv na stránku nie je potrebné;
  • k dispozícii je masívna kontrola stránok prístupnosti;
  • môžete sa uistiť, že YANDEX sú správne vnímané všetky pravidlá.

Pripravené riešenia pre najobľúbenejšie CMS

Správny robots.txt for wordpress

Zakázať: / CGI-Bin # Classic Ganre

Zakázať: /? # Akékoľvek parametre požiadavky na hlavnom

Zakázať: / WP- # Všetky WP súbory: / WP-JSON /, / WP-zahŕňa, / WP-Content / Plugins

Zakázať: *? S \u003d # Hľadať

Zakázať: * & S \u003d # Hľadať

Zakázať: / Vyhľadávanie # Hľadať

DOSTALLOW: *? ATACTISTICE_ID \u003d # Investičná stránka. Vlastne, na to presmerovanie ...

Zakázať: * / krmivo. Všetky fids

Zakázať: * / RSS # RSS FID

Zakázať: * / Vložiť # All Vložiť

Zakázať: * / Strana / # Všetky druhy stránok

Povoliť: * / Uploads # Otvorené Uploads

Povoliť: /*/*.js # vnútri / wp- (/ * / - pre prioritu)

Povoliť: /*/*.css # Inside / WP- (/ * / - pre prioritu)

Povoliť: /wp-*.png # obrázky v pluginoch, priečinok cache atď.

Povoliť: /wp-s.jpg # obrázky v pluginoch, priečinok cache atď.

Povoliť: /wp-*.jpeg # obrázky v pluginoch, priečinka cache atď.

Povoliť: /wp-s.gif # obrázky v pluginoch, priečinka cache atď.

Povoliť: /wp- ro.svg # obrázky v pluginoch, priečinok cache atď.

Povoliť: /wp-s.pdf # súbory v pluginoch, priečinok cache atď.

#DISLOW: / WP / # Keď je WP nainštalovaný v podadresár WP

Sitemap: http://site.ru/sitemap2.xml # ešte jeden súbor

#Sitemap: http://site.ru/sitemap.xml.gz # komprimovaná verzia (.gz)

Hostiteľ: www.site.ru # pre Yandex a Mail.ru. (križovatka)

# Verzia Kód: 1.0

# Nezabudnite zmeniť `SEQUEST.RU` na vašej stránke.

Analyzujme kódovací kód Roboty TXT pre WordPress CMS:

Tu uvádzame, že všetky pravidlá sú relevantné pre všetky vyhľadávacie roboty (s výnimkou tých, pre ktorých sú kompilované "osobné" zoznamy). Ak je zoznam zostavený pre nejaký konkrétny robot, potom * zmeny názvu robota:

User-Agent: Yandex

User-Agent: GoogleBot

Povoliť: * / Uploads

Tu vedome dávame dobré indexovať odkazy, ktoré obsahujú / nahrávajú. V tomto prípade je toto pravidlo povinné, pretože Motor WordPress má adresár / wp-obsah / odovzdávanie (v ktorých obrázky môžu dobre obsahovať, alebo iný "otvorený" obsah), ktorého indexovanie je zakázané zakázané: / WP. Preto pomocou Povoliť: * / Uploads, urobíme výnimku z zakázania: / WP-.

Zvyšok jednoducho ísť na indexovanie:

Zakázať: / CGI-bin - zákaz indexovania skriptov

Zakázať: / Feed - zákaz skenovania RSS FIDD

Zakázať: / Trackback - Ban Notification Scan

Zakázať :? s \u003d alebo zakázať: *? S \u003d - zákaz indexovania stránky internej stránky stránky

Zakázať: * / Strana / - Zákaz indexovania všetkých typov strán

Sitemap Pravidlo: http://site.ru/sitemap.xml Určuje cestu Yandex Robot do súboru s kartou XML. Cesta musí byť úplne zaregistrovaná. Ak viac súborov je niekoľko pravidiel Sitemap (1 súboru \u003d 1 pravidlo).

V hostiteľovi: Site.ru Row, sme špecificky predpísali hlavné zrkadlo stránky. To je indikované, aby zostávajúce zrkadlá indexovali rovnaké. Prázdny reťazec pred hostiteľom: je povinný.

Kde sú roboty txt wordpress, budete pravdepodobne poznať - pretože v iných CMS, tento súbor musí byť v koreňovom adresári stránky.

Súbor robots.txt pre joomla

Joomla - takmer najobľúbenejší motor v webmasteri, pretože Napriek najširším príležitostiam a mnohým hotovým riešeniam je dodávaný zadarmo. Avšak, pravidelné robots.txt vždy dáva zmysel opraviť, pretože Pre indexovanie, príliš veľa "odpadu" otvorené, ale obrázky sú zatvorené (toto je zlé).

Takto vyzerá správne robots.txt for joomla:

Zakázať: / Administrator /

Zakázať: / cache /

Zakázať: / Komponenty /

Zakázať: / Images /

Zakázať: / zahŕňa /

Zakázať: / Inštalácia /

Zakázať: / Jazyk /

Zakázať: / Layouts /

Zakázať: / Knižnice /

Zakázať: / Logs /

Zakázať: / Media /

Zakázať: / Moduly /

Zakázať: / plugins /

Zakázať: / Šablóny /

robots.txt Wix.

Platforma Wix automaticky generuje súbory Robots.txt osobne pre každú stránku Wix. Tí. Pridáte /robots.txt do vašej domény (napríklad: www.domain.com/robots.txt) a môžete bezpečne preskúmať obsah súboru Robots.txt, ktorý je na vašich stránkach.

Upraviť Robots.txt je nemožné. Avšak, pomocou NOINEX, môžete zavrieť niektoré špecifické stránky z indexovania.

robots.txt pre OpenCart.

Štandardné Robots.txt Súbor pre OPENCART:

Zakázať: / * Route \u003d účet /

Zakázať: / * Route \u003d Affiliate /

Zakázať: / * Route \u003d Checkout /

Zakázať: / Admin

Zakázať: / Katalóg

Zakázať: / Download

Zakázať: / Export

Zakázať: / System

Zakázať: / *? Triediť \u003d

Zakázať: / * & Sort \u003d

Zakázať: / *? Objednať \u003d

Zakázať: / * & COUNT \u003d

Zakázať: / *? Limit \u003d

Zakázať: / * a limit \u003d

Zakázať: / *? Filter_name \u003d

Zakázať: / * & Filter_name \u003d

Zakázať: / *? Filter_sub_category \u003d

Zakázať: / * & Filter_sub_Category \u003d

Zakázať: / *? Filter_description \u003d

Zakázať: / * & Filter_Description \u003d

Zakázať: / *? Sledovanie \u003d

Zakázať: / * & Sledovanie \u003d

Zakázať: / *? Page \u003d

Zakázať: / * a strana \u003d

Zakázať: / Zoznam želaní

Zakázať: / Prihlásenie

User-Agent: Yandex

Zakázať: / * Route \u003d účet /

Zakázať: / * Route \u003d Affiliate /

Zakázať: / * Route \u003d Checkout /

Zakázať: / * Route \u003d Product / Hľadať

Zakázať: /index.php?Route\u003dPRODUCT/PRODUCTICKÉHO PRIPOJENIAMI.

Zakázať: / Admin

Zakázať: / Katalóg

Zakázať: / Download

Zakázať: / Export

Zakázať: / System

Zakázať: / *? Triediť \u003d

Zakázať: / * & Sort \u003d

Zakázať: / *? Objednať \u003d

Zakázať: / * & COUNT \u003d

Zakázať: / *? Limit \u003d

Zakázať: / * a limit \u003d

Zakázať: / *? Sledovanie \u003d

Zakázať: / * & Sledovanie \u003d

Zakázať: / * Route \u003d Product / Hľadať

Zakázať: / *? Page \u003d

Zakázať: / * a strana \u003d

Clean-Param: Sledovanie

CLEAN-Param: Filter_name

Clean-Param: Filter_sub_Kategórie

Clean-Param: Filter_Description

Zakázať: / Zoznam želaní

Zakázať: / Prihlásenie

Zakázať: /index.php?Route\u003dproducts/manufacturer.

Zakázať: /index.php?Route\u003dproduct/compare.

Zakázať: /index.php?Route\u003dproducts/category.

Hostiteľ: Vash_Domen.

Sitemap: http: // Vash_Domen / ASITEMAP.xml

robots.txt pre Bitrix (Bitrix)

1. Priečinky / Bitrix a / CGI-BIN by mali byť zatvorené, pretože Toto je čisto technické "odpadky", ktoré nie je potrebné svietiť vo výsledkoch vyhľadávania.

Zakázať: / Bitrix

Zakázať: / CGI-bin

2. Priečinok vyhľadávania tiež nepredstavuje žiadne záujmové alebo vyhľadávače. Áno, a nikto nemusí tvoriť dvojité. Preto ho tiež zavrieme.

DISTALOW: / Hľadať

Zakázať: / Auth

Zakázať: /Auth.php.

4. Materiály na tlač (napríklad faktúru za platbu) Neexistuje tiež zmysel svietiť vo výsledkoch vyhľadávania. Zavrieť.

Zakázať: / *? Print \u003d

Zakázať: / * & Print \u003d

5. Jedným z najvýznamnejších výhod bitrixu je, že opravuje celú históriu stránky - Kto je pri prihlásení, ktorý pri zmene hesla a iných dôverných informácií, ktorých únik nie je povolený. Preto blízko:

Zakázať: / * Register \u003d ÁNO

Zakázať: / * Zabudli ste heslo \u003d ÁNO

Zakázať: / * Zmeniť_password \u003d ÁNO

Zakázať: / * Login \u003d Áno

Zakázať: / * Odhlásiť \u003d ÁNO

Zakázať: / * Auth \u003d YES

6. Spätné adresy buď nemá zmysel indexovať. Tieto adresy môžu byť vytvorené napríklad pri prezeraní fotoalbumu, keď prvý list "dopredu" a potom "späť". Počas týchto momentov v paneli s adresou sa môže objaviť niečo ako vec húb:? Späť_url_ \u003d% 2fbitrix% 2F% 2F. Hodnota takýchto adries je nula, takže ich tiež zatvárajú od indexovania. No, ako bonus - zbaviť sa potenciálnych "štvorhry" vo výsledkoch vyhľadávania.

Zakázať: / * BackRl \u003d *

Zakázať: / * Back_url \u003d *

Zakázať: / * Back_url \u003d *

Zakázať: / * Back_url_admin \u003d *

7. Priečinok / Upload musí byť uzavretý prísne kvôli okolnostiam. Ak sa na stránkach nachádzajú fotografie a videá, nie je potrebné ho skryť, tak, aby sa nerešpektoval dodatočná doprava. Ak je niečo dôverné, jednoznačne zatvorené:

Zakázať: / Upload

Ready Robots.txt Súbor pre Bitrix:

Povoliť: /search/map.php.

Povoliť: / Bitrix / šablóny /

Zakázať: * / index.php

Zakázať: / * akcia \u003d

Zakázať: / * Print \u003d

Zakázať: / * / galéria / * objednávka \u003d

Zakázať: / * / Hľadať /

Zakázať: / * / Slide_show /

Zakázať: / *? Utm_source \u003d

Zakázať: / * add_to_compare_list

Zakázať: / * Arrfilter \u003d

Zakázať: / * Auth \u003d

Zakázať: / * back_url_admin \u003d

Zakázať: / * back_url \u003d

Zakázať: / * back_url \u003d

Zakázať: / * BackRl \u003d

Zakázať: / * Bitrix _ * \u003d

Zakázať: / * bitrix_include_areas \u003d

Zakázať: / * Building_directory \u003d

Zakázať: / * bxajaxid \u003d

Zakázať: / * Zmeniť_password \u003d

Zakázať: / * clear_cache_session \u003d

Zakázať: / * clear_cache \u003d

Zakázať: / * počet \u003d

Zakázať: / * kurz_id \u003d

Zakázať: / * Zabudli ste heslo \u003d

Zakázať: /*index.phpر

Zakázať: / * Prihlásenie \u003d

Zakázať: / * Odhlásiť \u003d

Zakázať: / * Moderná oprava / $

Zakázať: / * mul_mode \u003d

Zakázať: / * objednávky_by

Zakázať: / * Page_Name \u003d

DISPANY: / * Page_NAME \u003d detail_slide_show

Zakázať: / * Page_Name \u003d Hľadať

Zakázať: / * Page_Name \u003d User_Post

Zakázať: / * Pagen_

Zakázať: / * Print_Course \u003d

Zakázať: / * Print \u003d

Zakázať: / * Register \u003d

Zakázať: / * Register \u003d ÁNO

Zakázať: / * SET_FILTER \u003d

Zakázať: / * Show_all \u003d

Zakázať: / * show_include_exec_time \u003d

Zakázať: / * show_page_exec_time \u003d

Zakázať: / * show_sql_stat \u003d

Zakázať: / * Showall_

Zakázať: / * Triediť \u003d

Zakázať: / * sphrase_id \u003d

Zakázať: / * Tagy \u003d

Zakázať: /Access.log.

Zakázať: / Admin

Zakázať: /Auth.php.

Zakázať: / Bitrix

Zakázať: / Bitrix /

Zakázať: / CGI-bin

Zakázať: / Club / $

Zakázať: / Club / Forum / Hľadať /

Zakázať: / Club / Gallery / Tagy /

Zakázať: / Club / Group / Search /

Zakázať: / Club / Log /

Zakázať: / Klub / správy /

Zakázať: / Club / search /

Zakázať: /Communications/blog/search.php.

Zakázať: / Komunikácia / Fórum / Hľadať /

Zakázať: / Komunikácia / Fórum / Užívateľ /

Zakázať: / Obsah / Board / My /

Zakázať: / obsah / odkazy / môj /

Zakázať: / Chyba

Zakázať: / E-Store / Affiliates /

Zakázať: /e-store/paid/detail.php.

Zakázať: / Príklady / Download / Download_Private /

Zakázať: / Príklady / My-komponenty /

Zakázať: / zahŕňajú

Zakázať: / Osobné

DISTALOW: / Hľadať

Zakázať: / Upload

Zakázať: / * / * element_code \u003d

Zakázať: / * / * sekcia_code \u003d

Zakázať: / * / * iblock_code

Zakázať: / * / * element_id \u003d

Zakázať: / * / * cresket_id \u003d

Zakázať: / * / * iblock_id \u003d

Zakázať: / * / * kód \u003d

Zakázať: / * / * ID \u003d

Zakázať: / * / * iblock_external_id \u003d

Zakázať: / * / * cresket_code_path \u003d

Zakázať: / * / * External_id \u003d

Zakázať: / * / * iBlock_TYPE_ID \u003d

Zakázať: / * / * Site_dir \u003d

Zakázať: / * / * server_name \u003d

Sitemap: http://site.ru/sitemap_index.xml

Sitemap: http://site.ru/sitemap.xml

robots.txt pre modx a modx revo

CMS MODX REVO nie je tiež zbavený dvojitého problému. Avšak, to nie je tak zhoršené ako v bitrixe. Teraz o jej rozhodnutí.

  1. Zapnite CNC v nastaveniach lokality.
  2. v blízkosti indexácie:

Zakázať: /index.php # pretože Toto je dvojnásobok hlavnej stránky stránky

Zakázať: / *? # Akonáhle problém vyriešite s dvojitými pre všetky stránky

Ready Robots.txt Súbor pre MODX a MODX REVO:

Zakázať: / *? Id \u003d

Zakázať: / Aktíva

Zakázať: / Aktíva / cache

Zakázať: / Aktíva / Komponenty

Zakázať: / Aktíva / DOCS

Zakázať: / Aktíva / Export

Zakázať: / Aktíva / Import

Zakázať: / Aktíva / Moduly

Zakázať: / Aktíva / Pluginy

Zakázať: / Aktíva / úryvky

Zakázať: / Konektory

Zakázať: /index.php.

Zakázať: / Inštalovať

Zakázať: / Manager

Zakázať: / Profil

DISTALOW: / Hľadať

Sitemap: http://site.ru/sitemap.xml

závery

Bez preháňania je možné súbor Robots.txt nazývaný "Sprievodca pre vyhľadávanie Roboty Yandex a Google" (Samozrejme, ak je kompilovaný správne). Ak chýba súbor robotov txt, potom musí byť vytvorený a stiahnutý do hostingu vašej stránky. Pravidlá zakázania je opísané vyššie v tomto článku a môžete sa bezpečne používať na vlastné účely.

Opäť sumarizujeme pravidlá / smernice / pokyny pre robots.txt:

  1. Užívateľsky agenta - označuje, čo presne vyhľadávací robot vytvorí zoznam pravidiel.
  2. Zakázať - "Odporúčam, aby to nebolo indexované."
  3. Sitemap - označuje umiestnenie mapy stránky XML so všetkými adresami URL, ktoré je potrebné indexovať. Vo väčšine prípadov sa karta nachádza na adrese http: // [your_set] /sitemap.xml.
  4. Crawl-oneskorenie - smernica, ktorá označuje obdobie (v sekundách), prostredníctvom ktorého sa stránka stránky stiahne.
  5. Host - zobrazuje hlavné zrkadlo YANDEX.
  6. Povoliť - "Odporúčam to indexovať, napriek tomu, že je v rozpore s jedným z zakázaných predpisov."
  7. Clean-Param - pomáha v boji proti parametrom Získaniu, sa používa na zníženie rizík-duplikát.

Značky pri kreslení robots.txt:

  1. Značka "$" pre "Asterisk" je "obmedzovač".
  2. Po zmesi "/" je uvedený názov súboru / priečinka / rozšírenia, ktorý chcete skryť (v prípade zakázania) alebo otvoriť (v prípade povolenia) na indexovanie.
  3. Značka "*" je označená "ľubovoľným počtom všetkých znakov".
  4. Znamenie "#" je oddelené žiadnymi komentármi alebo poznámkami, ktoré zanechal VEB MASTER pre seba, alebo pre niekoho iného. Hľadať roboty nečítajú ich.

Podrobné pokyny na vytvorenie súboru Robots.txt pre stránku. Robots.txt je jedným z potrebných aspektov plnohodnotného postihnutia optimalizácia pre vyhľadávače Miesto. Pozorovanie podmienok príslušného používania tohto súboru, môžete dosiahnuť určitý pozitívny vplyv na stránku. Pre väčšinu PS je možné špecifikovať rôzne pokyny. Ktoré označujú vyhľadávanie bot potrebné obmedzenia alebo povolenia na skenovanie stránok, adresárov alebo oddielov stránky.

Obsah článku:

Súbor robots.txt - základná definícia

Robots.txt - má určité výnimočné normy pre vyhľadávače (roboty), ktoré boli prijaté v januári 1944. Pravidlá tohto súboru dobrovoľne sledujú najbežnejšie PS. Súbor sa môže skladať z jedného alebo viacerých pravidiel, z ktorých každý blokuje alebo umožňuje vyhľadávacieho robota prístupu k určitým cestám na stránke.

V predvolenom nastavení tento súbor nie je na stránke - čo dáva každému plnému povoleniu na index obsahu stránky. Takéto povolenie môže viesť k indexu vyhľadávačov dôležitých technických stránok stránky, ktoré by tam nemali byť.

Čo je potrebné robots.txt na stránke - jeho vplyv na propagáciu vo vyhľadávačoch

Robots.txt je najvyšší faktor optimalizácia pre vyhľadávače. Vďaka správnemu predpísanému súboru pravidiel pre vyhľadávacie roboti môžete dosiahnuť určité zvýšenie stránky poradie stránok vo vyhľadávaní. Čo dáva takéto pokyny:

  1. Zamknuté indexujte určité stránky, oddiely, adresár stránok.
  2. Vylúčenie stránok neobsahujúceho užitočného obsahu.
  3. Vylúčenie listov stránok a tak ďalej.

Pre väčšinu stránok, takéto obmedzenia na indexovanie sú jednoducho potrebné pre malé plno-lane voliteľné. Niektoré smernice sa však musia pridať do každej lokality. Napríklad zákazy indexácie:

  1. Registračné stránky, zadanie správy, obnovy hesla.
  2. Technické katalógy.
  3. RSS - Stránky.
  4. ReplyTocom a iné veci.

Ako vytvoriť správny robors.txt sa

Ťažkosti pri vytváraní súborov Robots.txt nemôže mať ani začiatočníkov. Stačí nasledovať určitú sekvenciu akcií:

  1. Robots.txt je textový dokument a vytvorený akýmkoľvek dostupným textovým editorom.
  2. Predĺženie súboru sa musí vyžadovať .txt.
  3. Názov je nevyhnutne robotmi.
  4. Na jednej stránke je povolené len jeden takýto súbor.
  5. Nachádza sa len v koreňovom adresári stránky.

Musíte použiť obyčajný textový editor (NOTEPAD ako alternatíva). Vytvorte formát dokumentu .txt a meno Roboty. Potom uložte a preneste tento dokument pomocou FTP klienta v koreňovom adresári stránky. Toto sú hlavné opatrenia, ktoré je potrebné vykonať.

Vytvorenie Robots.txt pomocou online služieb

Táto metóda je najjednoduchšia a najrýchlejšia, vhodná pre tých, ktorí sa bojí vytvoriť robots.txt alebo jednoducho lenivý. Služby, ktoré ponúkajú vytvorenie tohto súboru, sú obrovským množstvom. Treba však zvážiť niektoré nuansy týkajúce sa tejto metódy. Napríklad:

  1. Je potrebné vziať do úvahy vopred, čo presne chcete zákaz, alebo povoliť agent.
  2. Povinné Kontrola hotového súboru pred stiahnutím na stránku.
  3. Buďte opatrní, pretože nesprávne vytvorený súbor Robots.txt Online povedie k poľutovaniahodnej situácii. Teda vyhľadávanie môže získať, technické a iné stránky stránok, ktoré by nemali byť v priori.

To isté je lepšie tráviť čas a úsilie na vytvorenie správneho používateľa robota. Je teda možné obnoviť jasne rozumnú štruktúru zákazov a povolení zodpovedajúceho miesta.

Úprava a správny súbor Robots.txt Syntax

Po úspešnom stvorení Robots.txt je možné pokojne upravovať a zmeniť, ako budete používať. To by malo brať do úvahy niektoré pravidlá a kompetentná syntax. Po nejakom čase opakovane zmeníte tento súbor. Nezabudnite, ale po úpravách budete musieť tento súbor nahrať na stránku. Aktualizácia jeho obsahu pre vyhľadávanie roboty.

Napíšte robots.txt je veľmi jednoduchý, dôvodom je to pomerne jednoduchá konštrukčná štruktúra tohto súboru. Hlavná vec pri písaní pravidiel, použite striktne definovanú syntax. Tieto pravidlá sa dobrovoľne sledujú, takmer všetky hlavné PS. Tu je zoznam niektorých pravidiel, aby ste sa vyhli väčšine chýb v súbore Robots.txt:

  1. Jeden riadok by nemal byť viac ako jedna špecifikovaná smernica.
  2. Každé pravidlo začína novým riadkom.
  3. Vylúčil medzeru na začiatku riadku.
  4. Prípustné pripomienky za symbolom #.
  5. Prázdne roboty sa budú považovať za úplné povolenie na index.
  6. Názov tohto súboru je možné len v prípustnom formáte "Robots".
  7. Veľkosť súboru by nemala prekročiť 32kb.
  8. V povolení a zakázaní smerníc je prípustné len jedno pravidlo. Prázdna hodnota po povolení: alebo zakázať: ekvivalentné úplnému rozlíšeniu.
  9. Všetky pravidlá musia byť napísané v malých prípadoch.
  10. Súbor musí byť vždy k dispozícii.
  11. Prázdny riadok po uvedených pravidlách označuje úplný koniec pravidiel smernice o používateľovi agenta.
  12. Odporúča sa zaregistrovať pravidlá, každý PS samostatne.
  13. Ak je pravidlo adresár stránok, potom určite položte lomku (/) predtým, ako začne.
  14. Citáty v reťazci alebo v pravidle by nemali byť.
  15. Je potrebné zohľadniť prísnu štruktúru pravidiel zodpovedajúcich vašej stránke.
  16. Robots.txt musí byť minimalizovaný a jasne zobrazovať prenášaný význam.

Kompetentná konfigurácia súborov Robots.txt - Správne príkazy písania

Ak chcete získať pozitívny výsledok pri používaní robotov, musíte ho správne konfigurovať. Všetky hlavné príkazy tohto súboru s pokynmi, sledujte najväčšie vyhľadávanie systémy Google a Yandex. Zostávajúci PS môže ignorovať niektoré pokyny. Ako urobiť robots.txt najcitlivejšie väčšinové vyhľadávače? Tu je potrebné pochopiť základné pravidlá pre prácu s týmto súborom uvedeným vyššie.
Zvážte hlavné tímy:

Používateľský agent: *- Pokyny sa budú týkať absolútne všetkých súborov PS. Je tiež možné špecifikovať určité vyhľadávače samostatne napríklad: User-Agent: GoogleBot a užívateľsky agent: YANDEXBOT. Pravidlá pre dôležité PS sú teda správne určené.

Zakázať:- Plne zakazuje obtok a indexovanie (stránky, adresár alebo súbory).

Povoliť:- Úplne povoľuje obtok a indexovanie (stránky, adresár alebo súbory).

CLEAN-Param:- Je potrebné odstrániť stránky stránok s dynamickým obsahom. Vďaka tomuto pravidlu sa môžete zbaviť duplicitného obsahu na stránke.

Oneskorenie prehľadávania:- pravidlo označuje časový interval potenciálnych dokumentov na vyloženie dokumentov z lokality. Umožňuje výrazne znížiť zaťaženie na serveri. Napríklad: "Prechádzanie-oneskorenie: 5" - povie, že P-Robus, že sťahovanie dokumentov z lokality je možné častejšie ako raz za 5 sekúnd.

Hostiteľ: your_sait.ru.- zodpovedné za hlavné zrkadlo stránky. V tejto smernici musíte zaregistrovať prioritnú verziu stránky.

Sitemap: http: //vash_site.ru/sitemap.xml- Ako by ste mohli uhádnuť túto smernicu naznačujú, že p-topánok o dostupnosti sitemap na stránke.

# - Umožňuje vám zanechať komentáre. Môžete komentovať, až po podpísaní mriežky. Môžete ho umiestniť v novej linke a pokračovanie smernice. Všetky tieto možnosti budú ignorované zo strany robotov, keď manuálny prechod.

Príklady robots.txs pre všetky základné systémy na správu obsahu (CMS)

Ak chcete kopírovať pokyny, musíte kliknúť na tlačidlo s výzvou.

WordPress (WP)

Používateľský agent: *

Povoliť: / WP-Content / Uploads /

Zakázať: /wp-login.php.

Zakázať: /wp-register.php.

Zakázať: /xmlrpc.php.

Zakázať: /template.html.

Zakázať: / WP-admin

Zakázať: / WP-zahŕňa

Zakázať: / obsah WP

Zakázať: / Kategória

Zakázať: / Archív

Zakázať: * / Trackback /

Zakázať: * / Krmivo /

Zakázať: * / Komentáre /

Zakázať: /?

Hostiteľ: Site.ru.
»


Hostcms.

Používateľský agent: *

Zakázať: CAPTCHA.PHP.

Zakázať: download_file.php.

Hostiteľ: Site.ru.
Sitemap: http://site.ru/sitemap.xml

Joomla

Používateľský agent: *

Zakázať: / Administrator /

Zakázať: / cache /

Zakázať: / Komponenty /

Zakázať: / Images /

Zakázať: / zahŕňa /

Zakázať: / Inštalácia /

Zakázať: / Jazyk /

Zakázať: / Knižnice /

Zakázať: / Media /

Zakázať: / Moduly /

Zakázať: / plugins /

Zakázať: / Šablóny /

Zakázať: / XMLRPC /

Hostiteľ: Site.ru.
Sitemap: http://site.ru/sitemap.xml

Joomla 3.

Používateľský agent: *

Zakázať: / Administrator /

Zakázať: / cache /

Zakázať: / zahŕňa /

Zakázať: / Inštalácia /

Zakázať: / Jazyk /

Zakázať: / Knižnice /

Zakázať: / Media /

Zakázať: / Moduly /

Zakázať: / plugins /

Zakázať: / Šablóny /

Zakázať: / XMLRPC /

Modx evo.

Používateľský agent: *

Zakázať: / Aktíva / cache /

Zakázať: / Aktíva / DOCS /

Zakázať: / Aktíva / Export /

Zakázať: / Aktíva / Import /

Zakázať: / Aktíva / moduly /

Zakázať: / Aktíva / Pluginy /

Zakázať: / Aktíva / úryvky /

Zakázať: / Inštalovať /

Zakázať: / Manager /

Zakázať: /index.php.

Hostiteľ: VASH_SAIT.RU (alebo www.vash_sait.ru)
Sitemap: http: // Cesta k vášmu formátu XML

Netcat.

Používateľský agent: *

Zakázať: / Inštalovať /

Zakázať: / Odkazy /

Zakázať: / NetCAT /

Zakázať: / NetCAT_FILES /

Zakázať: /*.swf.

Hostiteľ: VASH_SAIT.RU (alebo www.vash_sait.ru)
Sitemap: http: // Cesta k vášmu formátu XML

Moda

Používateľský agent: *

Zakázať: / Aktíva / cache /

Zakázať: / Aktíva / DOCS /

Zakázať: / Aktíva / Export /

Zakázať: / Aktíva / Import /

Zakázať: / Aktíva / moduly /

Zakázať: / Aktíva / Pluginy /

Zakázať: / Aktíva / úryvky /

Zakázať: / Inštalovať /

Zakázať: / Manager /

Hostiteľ: Site.ru.
Sitemap: http://site.ru/sitemap.xml

OPENCART.

Používateľský agent: *

Zakázať: / * Route \u003d účet /

Zakázať: / * Route \u003d Affiliate /

Zakázať: / * Route \u003d Checkout /

Zakázať: / * Route \u003d Product / Hľadať

Zakázať: /index.php?Route\u003dPRODUCT/PRODUCTICKÉHO PRIPOJENIAMI.

Zakázať: / Admin

Zakázať: / Katalóg

Zakázať: / Download

Zakázať: / Export

Zakázať: / System

Zakázať: / *? Triediť \u003d

Zakázať: / * & Sort \u003d

Zakázať: / *? Objednať \u003d

Zakázať: / * & COUNT \u003d

Zakázať: / *? Limit \u003d

Zakázať: / * a limit \u003d

Zakázať: / *? Filter_name \u003d

Zakázať: / * & Filter_name \u003d

Zakázať: / *? Filter_sub_category \u003d

Zakázať: / * & Filter_sub_Category \u003d

Zakázať: / *? Filter_description \u003d

Zakázať: / * & Filter_Description \u003d

Zakázať: / *? Sledovanie \u003d

Zakázať: / * & Sledovanie \u003d

Zakázať: / *? Page \u003d

Zakázať: / * a strana \u003d

Zakázať: / Zoznam želaní

Zakázať: / Prihlásenie

Zakázať: /index.php?Route\u003dproducts/manufacturer.

Zakázať: /index.php?Route\u003dproduct/compare.

Zakázať: /index.php?Route\u003dproducts/category.

Hostiteľ: VASH_SAIT.RU (alebo www.vash_sait.ru)

Uma

Používateľský agent: *

Zakázať: / Emarket / addtoCompare

Zakázať: / Emarket / Basket

Zakázať: /go_out.php.

Zakázať: / Images

Zakázať: / Images / LISTE

Zakázať: / Images / NTC

Zakázať: / súbory

Zakázať: / Užívatelia

Zakázať: / Admin

DISTALOW: / Hľadať

Zakázať: / Install-Temp

Zakázať: / Install-Static

Zakázať: / Install-libs

Hostiteľ: VASH_SAIT.RU (alebo www.vash_sait.ru)
Sitemap: http: // Cesta k vášmu formátu XML

Amiro.cms.

Používateľský agent: *

Zakázať: / Admin

Zakázať: / _admin /

Zakázať: / Členovia

DISTALOW: / Hľadať

Zakázať: / Prihlásiť sa

Zakázať: / Užívatelia

Zakázať: / * Offset \u003d 0

Zakázať: / * Forum_ext \u003d

Zakázať: / * _ Print_version \u003d

Zakázať: / * Action \u003d Export_rss

Zakázať: / * Akcia \u003d Hľadať

Zakázať: / * Akcia \u003d view_Posts

Zakázať: / * Display_form \u003d

Hostiteľ: Site.ru.
Sitemap: http://site.ru/sitemap.xm.

Bitrix.

Používateľský agent: *

Zakázať: /*index.phpر

Zakázať: / Bitrix /

Zakázať: / Auth

Zakázať: / Osobné /

Zakázať: / Upload /

DISTALOW: / Hľadať /

Zakázať: / * / Hľadať /

Zakázať: / * / Slide_show /

Zakázať: / * / galéria / * objednávka \u003d *

Zakázať: / *? Print \u003d

Zakázať: / * & Print \u003d

Zakázať: / * Register \u003d

Zakázať: / * Zabudli ste heslo \u003d

Zakázať: / * Zmeniť_password \u003d

Zakázať: / * Prihlásenie \u003d

Zakázať: / * Odhlásiť \u003d

Zakázať: / * Auth \u003d

Zakázať: / *? Akcia \u003d

Zakázať: / * Akcia \u003d add_to_compare_list

Zakázať: / * Akcia \u003d delete_from_compare_list

Zakázať: / * Action \u003d Add2Basket

Zakázať: / * Akcia \u003d KÚPIŤ

Zakázať: / * Bitrix _ * \u003d

Zakázať: / * BackRl \u003d *

Zakázať: / * BackRl \u003d *

Zakázať: / * Back_url \u003d *

Zakázať: / * Back_url \u003d *

Zakázať: / * Back_url_admin \u003d *

Zakázať: / * Print_course \u003d y

Zakázať: / * kurz_id \u003d

Zakázať: / *? Kurz_id \u003d

Zakázať: / *? Pagen

Zakázať: / * Pagen_1 \u003d

Zakázať: / * Pagen_2 \u003d

Zakázať: / * Pagen_3 \u003d

Zakázať: / * Pagen_4 \u003d

Zakázať: / * Pagen_5 \u003d

Zakázať: / * Pagen_6 \u003d

Zakázať: / * Pagen_7 \u003d

Zakázať: / * Page_Name \u003d Hľadať

Zakázať: / * Page_Name \u003d User_Post

DISPANY: / * Page_NAME \u003d detail_slide_show

Zakázať: / * Showall

Zakázať: / * Show_all \u003d

Hostiteľ: VASH_SAIT.RU (alebo www.vash_sait.ru)
Sitemap: http: // Cesta k vášmu formátu XML

Drupal.

Používateľský agent: *

Zakázať: / databáza /

Zakázať: / zahŕňa /

Zakázať: / misc /

Zakázať: / Moduly /

Zakázať: / Stránky /

Zakázať: / Témy /

Zakázať: / Skripty /

Zakázať: / Aktualizácie /

Zakázať: / Profily /

Zakázať: / Profil

Zakázať: / Profil / *

Zakázať: /xmlrpc.php.

Zakázať: /cron.php.

Zakázať: /update.php.

Zakázať: /install.php.

Zakázať: /index.php.

Zakázať: / admin /

Zakázať: / Komentár / Odpovedať /

Zakázať: / Kontakt /

Zakázať: / Odhlásenie /

DISTALOW: / Hľadať /

Zakázať: / Užívateľ / Register /

Zakázať: / Užívateľ / heslo /

Zakázať: * Register *

Zakázať: * Prihlásenie *

Zakázať: / Top-Hodnotenie

Zakázať: / Správy /

Zakázať: / Kniha / Export /

Zakázať: / user2Userpoints /

Zakázať: / myuserpoints /

Zakázať: / Taguadelic /

Zakázať: / Referral /

Zakázať: / agregátor /

Zakázať: / Súbory / PIN /

Zakázať: / Vaše hlasy

Zakázať: / Komentáre / Nedávne

Zakázať: / * / Edit /

Zakázať: / * / Delete /

Zakázať: / * / Export / HTML /

Zakázať: / Taxonómia / Termín / * / $

Zakázať: / * / Upraviť $

Zakázať: / * / Obrys $

Zakázať: / * / Revízie $

Zakázať: / * / Kontakt $

Zakázať: / * downloadpipe

Zakázať: / Uzol $

Zakázať: / Uzol / * / Track $

Zakázať: / *? Page \u003d 0

Zakázať: / * Sekcia

Zakázať: / * Objednať

Zakázať: / *? Triediť *

Zakázať: / * & Sort *

Zakázať: / * hlasovanie

Zakázať: / * Kalendár

Zakázať: /*index.php.

Hostiteľ: VASH_SAIT.RU (alebo www.vash_sait.ru)
Sitemap: http: // Cesta k vášmu formátu XML

Ako skontrolovať Robots.txt pomocou služby Google alebo Yandex

Ako sa nepodarí skontrolovať tento súbor, sú potrebné len webmastermi Google alebo Yandex. Čo zase výrazne uľahčuje vyhľadávanie chýb.

Google Webmaster - Vyberte "Skenovať" v ľavom menu a potom kartu "Robots.txt súbor overenie". Potom v spodnom riadku sa objavil systém Windows pridať názov súboru. Potom kliknite na "CHECK" a zistite, ako váš robot vidí BOT Google.

Webmaster Yandex. - V ľavom menu vyberte "Nástroje" a "Robots.txt". Potom v okne, ktoré sa zobrazí, jednoducho kliknite na tlačidlo "Skontrolovať".

Stojí za zmienku, že online validatory na kontrolu tohto súboru veľa. Hovoril som o najprístupnejšom, čo je vždy po ruke.

Záver

Napíšte jeden dokonalý robotov pre všetky stránky sú nemožné. Dôvodom je samotné lokality, z ktorých niektoré sú vyrobené ručne, zatiaľ čo iné sa nachádzajú na rôznych CMS. Absolútne všetky stránky majú inú adresár štruktúry a iné veci. Takže každý webmaster je jednoducho povinný vytvoriť si vlastné jedinečný súbor Pravidlá pre p-roboty. Takýto súbor bude zodpovedný za vaše priority a nedovolí vyhľadávanie dôverných informácií. Vďaka tomu bude v indexe kvalitný obsah bez nadbytočného odpadu.

Robots.txt je textový súbor, ktorý obsahuje parametre indexovania stránok pre roboty vyhľadávačov.

Ako nastaviť robots.txt

  1. Vytvorte súbor s názvom Robots.txt v texte editor a. Vyplňte ho pomocou nižšie uvedených pokynov.
  2. Skontrolujte súbor v službe Yandex.weebmMaster (Analýza Robots.txt v ponuke).
  3. Nahrajte súbor na vaše stránky "s root adresár.

Smernica o používateľských agentoch

Robot Yandex podporuje štandard vylúčenia robotov so zvýšenými schopnosťami opísanými nižšie.

Práca Yandex Robot je založená na zasadnutiach: pre každú reláciu je tu bazén stránok pre robota na stiahnutie.

Relácia začína sťahovaním súborov Robots.txt. Ak súbor chýba, nie je textový súbor, alebo požiadavka robota "s vráti stav HTTP iný ako 200 ok, Robot predpokladá, že má neobmedzený prístup k dokumentom stránok.

V súbore Robots.txt, robot sa kontroluje záznamy začínajúce užívateľom-agentom: a hľadá buď podklady YANDEX (PRÍPADUJE "T HTD) ALEBO *. Ak je detektívny užívateľský agent: YANDEX, smernice pre používateľa -Agent: * sú ignorované. Ak užívateľsky agent: Yandex a užívateľsky agenta: * Struny sa nenašli, robot sa považuje za neobmedzený prístup.

Môžete zadať samostatné smernice pre nasledujúce Roboty YANDEX:

  • Yandexbot - Hlavný indexovací robot.
  • YANDEXDIRECTION - Stiahnite si informácie o obsahu na stránke Yandex Reklamné sieťové stránky pre výber relevantných reklám. Interpretuje Robots.txt špeciálnym spôsobom.
  • "YandexdirectDyn" - generuje dynamické bannery. Interpretuje Robots.txt špeciálnym spôsobom.
  • Yandexmedia - Indexy Multimediálne údaje.
  • Yandeximages - Odinštiktor.
  • YadirectFetcher - Robot. Interpretuje Robots.txt špeciálnym spôsobom.
  • YANDEXBLOGS - BLOG HĽADAŤ BLOG HĽADAŤ ROBOT. Indexuje príspevky a komentáre.
  • Yandexnews - Yandex.News Robot.
  • Yandexpagechecker -.
  • Yandexmetrika - Robot.
  • Yandexmarket - Theandex.market Robot.
  • YandexCalendar - Yandex.calendar Yandex.calendar Robot.

Ak existujú smernice pre konkrétny robot, smernice User-Agent: Yahoo a užívateľ-Agent: * AREN "T použité.

User-Agent: Yandexbot # bude používať len hlavným indexovaním Robot zakázať: / * ID \u003d užívateľ-agent: Yandex # bude používať všetky Roboty YANDEX DOPLYL: / * SID \u003d #EXCEPT pre hlavné indexovanie Robot užívateľsky agenta : * # Vyhral "t nebude použité spoločnosťou Yandex Robots zakázať: / CGI-bin

Zakázať a povoliť smernice

Zakázať robotickému prístupu k vašej stránke alebo určitých častiach, použite smernicu o zakázaní.

User-Agent: Yandexdisallow: / # Bloky Prístup k celej stránke užívateľsky agenta: Yandexdisallow: / CGI-bin # začínajúce "/ CGI-bin"

Podľa štandardu vám Shald vložíte prázdny riadok pred každým smernicu o používateľov.

# Znak označuje komentár. Všetko po tomto charaktere sa neberie do úvahy až po tento znak.

Použite smernicu Povoliť, aby sa robota umožnilo prístup k konkrétnym častiam lokality alebo celej lokality.

User-Agent: Yandex Povoliť: / CGI-Bin zakázať: / # Zakázanie sťahovania čokoľvek okrem stránok # začínajúcich "/ CGI-BIN"

Poznámka. Prázdne linky prestávky AREN "T povolené medzi užívateľom, zakázať a umožniť smernice.

Kombinácie smerníc.

Povolené a zakázané smernice z príslušného bloku užívateľsky agenta sú zoradené podľa dĺžky URL predpony (z najkratších až po najdlhšie) a aplikované v poriadku. Ak niekoľko smerníc zodpovedá konkrétnej stránke stránky, robot vyberie posledný v triedenom zozname. Týmto spôsobom poradie smerníc v súbore Robots.txt nemá vplyv na spôsob, akým robot používam. Príklady:

# Source Robots.txt: User-Agent: YANDEX Povoliť: / Katalóg zakázanie: / # Zoradené Robots.txt: User-Agent: YANDEX DOPLNENIE: / Povoliť: / Katalóg # Umožňuje sťahovanie stránok # začínajúce "/ katalóg" # zdroj Robots.txt: User-Agent: Yandex Allo Disallow: / Katalóg # Zoradené Robots.txt: User-Agent: YANDEX Povoliť: / DOPALLOW: / Katalóg Povoliť: / Katalóg / Auto # Zakázanie sťahovania stránok začínajúcich na "/ katalóg", # Ale umožňuje sťahovanie stránok začínajúcich "/ katalógu / auto".

Povoliť a nečistiť priamymi parametrami

Ak sú smernice don "t obsahujú parametre, robot spracováva údaje ako nasledovné:

User-Agent: Yandex Disallow: # Rovnako ako dovoliť: / User-Agent: Yandex All: # nie je braný do úvahy Robot

Pomocou sekových charakteristík * a $

Môžete použiť špeciálne znaky * a $ na nastavenie pravidelných výrazov pri zadávaní ciest pre smernice umožňujúce a zakázať. Znak * označuje akúkoľvek sekvenciu znakov (alebo žiadny). PRÍKLADY:

User-Agent: Yandex Disallow: /cgi-bin/*.aspx # Profits "/ cigi-bin/example.aspx" # a "/ cigi-bin/private/test.aspx" zakázať: / * Private # zakázané / Súkromné \u200b\u200b", # a" / CGI-bin / súkromné \u200b\u200b"

Znak $.

V predvolenom nastavení je znak * pripojený na koniec každého pravidla opísaného v súbore Robots.txt. Príklad:

User-Agent: Yandex Disallow: / CGI-BIN * # Blokuje prístup k stránok # začínajúce "/ CGI-bin" zakázané: / CGI-bin # to isté

Ak chcete zrušiť * Na konci pravidla použite znak $, napríklad:

User-Agent: YANDEX DOSTALLOW: / Príklad $ # zakazuje "/ príklad", #, ale umožňuje "/example.html" User-Agent: YANDEX DOSTALLOW: / Príklad # zakazuje "/ príklad", # a "/example.html "$ Charakter to nie je zakázaný * na konci, to je: užívateľ-agent: YANDEX DOSTALLOW: / Príklad $ # zakazuje len" / príklad "zakázať: / príklad * $ # presne to isté ako" zakázať: / príklad " # Zakazuje /example.html a / príklad

Smernica Sitemap

Ak použijete súbor Sitemap na opis vašej stránky štruktúry, uveďte cestu k súboru ako parametre Smernica SiteMap (ak máte viacero súborov, uveďte všetky cesty). Príklad:

User-Agent: Yandex All: / Sitemap: https://example.com/site_structure/my_sitemaps1.xml sitemap: https://example.com/site_structure/my_sitemaps2.xml

Smernica je priesečník, čo znamená, že robot používa bez ohľadu na jeho umiestnenie v Robots.txt.

Robot si pamätá cestu k vášmu súboru, spracováva vaše údaje a používa výsledky počas nasledujúcej návštevy vašej stránky.

Smernica o oneskorení prehľadávania

Ak je server preťažený a nie je možné spracovať požiadavky na prevzatie, použite smernicu o oddialení prehľadávania. Môžete zadať minimálny interval (v sekundách) pre vyhľadávací robot čakať po prevzatí jednej stránky, pred začatím sťahovania.

Na zachovanie kompatibility z robotov, ktoré sa môžu odchýliť od štandardu pri spracovaní Robots.txt, pridajte smernicu o rande-oneskorení do skupiny, ktorá začína s vstupom užívateľom agenta hneď po zakázaní a povolenia smerníc.

Robot Yandex vyhľadávania podporuje fráľovzové hodnoty pre oneskorenie prehľadávania, ako napríklad "0,5". To neznamená, že vyhľadávací robot pristupí k vašej stránke každú polovicu, ale môže urýchliť spracovanie lokality.

User-Agent: Yandex Crawl-oneskorenie: 2 # Nastaví 2-second Timeout User-Agent: * DOPALLOW: / Hľadať Crawl-oneskorenie: 4.5 # Nastaví 4,5-druhý časový limit

Smernica o čistom dokumente

Ak vaše adresy stránok obsahuje dynamické parametre, ktoré neovplyvňujú obsah (napríklad identifikátory relácií, užívateľov, referers, a tak ďalej), môžete ich opísať pomocou smernice Clean-Param.

Robot Yandex používajú tieto informácie, aby sa zabránilo opätovnému načítaniu duplicitných informácií. To efektívne zlepšuje robot a znižuje zaťaženie servera.

Vaša stránka obsahuje napríklad nasledujúce stránky:

Www.example.com/some_dir/get_book.pl?ref\u003dsite_1&book_id\u003d123 www.example.com/some_dir/get_book.pl?ref\u003dsite_2&book_id\u003d123 www.example.com/some_dir/get_book.pl?ref\u003dsite_3&book_id\u003d 123.

Parameter ref sa používa len na sledovanie, ktoré zdroje bola žiadosť odoslaná. To nezmení book_id \u003d 123 knihy. Kniha book_id \u003d 123. Potom, ak uvádzate smernicu nasledujúcim spôsobom:

User-Agent: Yandex Disallow: Clean-Param: ref /some_dir/get_book.pl

robot Yandex sa zbieha všetko Obrázky stránky do jedného:

Www.example.com/some_dir/get_book.pl?ref\u003dsite_1&book_id\u003d123,

Ak je stránka bez parametrov dostupná na stránke:

Www.example.com/some_dir/get_book.pl?book_id\u003d123.

všetky ostatné adresy URL sa s ním nahrádzajú po tom, ako ho robot indexuje. Ďalšie stránky vašej stránky sa budú prehĺbiť častejšie, pretože nie je potrebné aktualizovať stránky:

Www.example.com/some_dir/get_book.pl?ref\u003dsite_2&book_id\u003d123 www.example.com/some_dir/get_book.pl?ref\u003dsite_3&book_id\u003d123

Smernica Syntax

CLEAR-Param: P0 [& P1 & P2 & .. & PN]

V prvom poli uveďte parametre, ktoré musia byť ignorované, oddelené a znakom. V druhom poli označte predponu cesty pre stránky, na ktoré by sa malo vzťahovať pravidlo.

Prefix môže obsahovať regulárny výraz vo formáte podobný tomu, ktorý sa používa v súbore Robots.txt, ale niektoré obmedzenia: Môžete použiť iba znaky A-ZA-Z0-9 .- / * _. Avšak, * je interpretovaný rovnakým spôsobom ako v Robots.txt. A * je vždy implicitne pripojený ku koncu predpony. Napríklad:

Clean-Param: s /forum/showthread.php

znamená, že parameter S sa neberie do úvahy pre všetky adresy URL, ktoré začínajú s /forum/showthread.php. Druhé pole je nepovinné av tomto prípade sa pravidlo vzťahuje na všetky stránky na stránke. Je to citlivé na veľkosť písmen. Maximálna dĺžka pravidla je 500 znakov. Napríklad:

Clean-Param: ABC /FORMUM/SHOWTHREAD.PHP CLEAR-Param: Sid & Sorude /forum/2.php Clean-Param: SometreThash & inaltrash

Ďalšie príklady.

#for adries ako: www.example1.com/forum/showthread.php? s \u003d 681498B9648949605 & T \u003d 8243 www.example1.com/forum/showthread.php?s\u003d1e71c4427317A117A&T\u003d8243 # Robots.txt bude obsahovať nasledovné: User- Agent: Yandex Disallow: Clean-Param: s /forum/showthread.php #for adries ako: www.example2.com/index.php? Page \u003d 1 & SORT \u003d 3A & SID \u003d 2564127EBDEC301C607E5DF www.example2.com/ index.php? Page \u003d 1 & SORT \u003d 3A & SID \u003d 974017D76AE # Robots.txt bude obsahovať nasledovné: User-Agent: Yandex Disallow: Clean-Param: Sid /index.php #AF Existuje niekoľko z týchto parametrov: www .example1.com / Forum_old / showthread.php? S \u003d 681498605 & T \u003d 8243 & Ref \u003d 1311 www.example1.com/forum_new/showthread.php?s\u003d1e71c417A&t\u003d8243&ref\u003d9896 # Robots.txt bude obsahovať: User-Agent: Yandex Disallow: Clean-Param: S & Ref / Forum * / showthread.php #if Parameter sa používa vo viacerých skriptoch: www.example1.com/forum/showthread.php? S \u003d 681498B9648949605 & T \u003d 8243 www.example1.com/forum/index.php?s\u003d1e71C4427317117A&T\u003d8243 # Robots.txt bude kon. Tain Nasledujúci: User-Agent: Yandex Disallow: Clean-Param: s /forum/index.php Clean-Param: s /forum/showthread.php

Pomocou cyrilických znakov.

Použitie cyrilickej abecedy nie je povolené v súboroch Robots.txt a hlavičiek servera HTTP.

Pre názvy domén použite Punycode. Pre aktuálnu štruktúru stránok použite rovnaké kódovanie ako ten, ktorý sa používa pre aktuálnu štruktúru stránok

Príklad súboru Robots.txt:

#Incorrect: User-Agent: Yandex Disallow: / Sitemap Basket: Site.RF / Sitemap.xml #correct: User-Agent: Yandex Disallow: /% D0% BA% D0% BE% D1% 80% D0% B7% D0 % B8% D0% BD% D0% B0 SATEMAP: http: //xn-80aswg.xn-p1ai/sitemap.xml

ĎALŠIE INFORMÁCIE.

Robot Yandex podporuje iba smernice Robots.txt uvedené na tejto stránke. Vyššie opísané pravidlá spracovania súborov predstavujú rozšírenie základného štandardu. Iné roboty môžu interpretovať obsah Robots.txt iným spôsobom.

Výsledky pri používaní formátu rozšírených Robots.txt sa môžu líšiť od výsledkov, ktoré používajú základný štandard, najmä:

User-Agent: / # bez rozšírení Všetko bolo zakázané, pretože "Povoliť: /" bol ignorovaný, # s podporovanými rozšíreniami, všetko je povolené užívateľom-agent: YANDEX DOPALLOW: / Súkromné \u200b\u200b* HTML # bez rozšírení, "/ Súkromné \u200b\u200b* HTML" Zakázané, # s rozšírením podporované, "/ Súkromné \u200b\u200b* HTML", # /private/test.html "," /Private/html/test.aspx ", a tak ďalej sú zakázané, ako aj užívateľský agent: YANDEX DOPALLOW: / Súkromné \u200b\u200b$ # Worthout rozšírenia podporované, "/ súkromné \u200b\u200b$" a "/ súkromný $ test", a tak ďalej boli zakázané, # s rozšírením podporované, len "/ súkromné" je zakázané užívateľsky agent: * zakázať: / # bez podporovaných rozšírení , Kvôli chýbajúcej líniovej prestávke, # "User-Agent: Yandex" by bol ignorovaný # Výsledok by bol "zakázaný: /", ale Robot Yandex Robot # analyzuje reťazce založené na "užívateľom-agent:" Substring. # V tomto prípade je výsledok pre Robot Yandex "Povoliť: /" User-Agent: * Disallow: / # Komentár1 ... # Comment2 ... # Comment3 ... užívateľom agenta: Yandex Povoliť: / # Rovnaké Ako v predchádzajúcom príklade (pozri vyššie)

Príklady pomocou rozšíreného formátu Robots.txt:

User-Agent: Yandex Povoliť: / Archív zakázaný: / # umožňuje všetko, čo obsahuje "/ archív"; Zvyšok je zakázaný užívateľ-agent: Yandex Povoliť: /obsolete/private.com.html # umožňuje html súbory # v "/ zastarané / súkromné \u200b\u200b/ ... cesta" zakázať: /c.phpا # probibits všetko "* .php "on-mailisallow: / * / súkromné \u200b\u200b/ #" zakazuje všetky substy obsahujúce # "/ súkromné \u200b\u200b/", ale Umožnenie vyššie neguje # Časť zákazu zakázať: /*/old/*.ziper # zakazuje všetko "* , ZIP "Súbory obsahujúce #" / starý / "v ceste užívateľsky agenta: Yandex Disallow: /Add.php?* Disallow # zakazuje všetko" add.php? " Skripty s možnosťou "User"

Pri vytváraní súboru Robots.txt by ste mali mať na pamäti, že robot umiestni rozumnú limit na jeho veľkosť. Ak veľkosť súboru presahuje 32 kB, robot sa predpokladá, že všetko, čo znamená, že je interpretovaný rovnakým spôsobom ako:

User-Agent: Yandex zakázaný:

Podobne Robots.txt sa predpokladá, že umožní všetko, ak by to mohlo byť stiahnuté (napríklad, ak hlavičky HTTP nie sú správne nastavené alebo sa vráti 404, ktorý nebol nájdený stav).

Výnimky.

Počet robotov Yandexu stiahnite webové dokumenty na iné účely ako indexovanie. Aby sa zabránilo neúmyselnému zablokovaniu vlastníkov stránok, môžu ignorovať smernice Robots.txt určené pre náhodných robotov (užívateľ-agent: *).

Okrem toho roboty môžu ignorovať niektoré roboty.txt obmedzenia pre určité stránky, ak tam je argument medzi "Yandex" a vlastníkmi týchto stránok.

Pozornosť. Ak takýto robot stiahne dokument, že hlavná Robot Yandex môže "t prístup, tento dokument nebude nikdy indexovaný a vyhral" t nájdete vo výsledkoch vyhľadávania.

Yandex Robots, ktorí nesledujú spoločné zakázané smernice v Robots.txt:

  • YadirectFetcher stiahne reklamné stránky stránky na kontrolu ich dostupnosti a obsahu. Toto je potrebné pre umiestnenie reklám do výsledkov vyhľadávania YANDEX a na partnerských stránkach. Pri prehrávaní stránky, robot nie. Použite súbor Robots.txt a ignoruje smernice nastavené.
  • YandexCalendar pravidelne stiahne súbory kalendára podľa požiadaviek používateľov. Tieto súbory sa často nachádzajú v adresároch zakázaných z indexovania.
  • YANDEXDIRETE Stiahnite informácie o obsahu stránok Yandex Reklamná sieť stránok, aby ste identifikovali svoje kategórie tém, aby zodpovedali príslušnej reklame.
  • YandexdirectDyn je robot, ktorý generuje dynamické bannery.
  • YandexmobileBot stiahne dokumenty na určenie, či je vhodný ich usporiadanie pre mobil Zariadenia.
  • YandexAccessibilityBot na stiahnutie stránky na kontrolu ich prístupnosti pre používateľov.
  • Yandexscreenshotbot má snímku obrazovky stránky.
  • Yandexmetrika je robot.
  • Yandexvideoparser je indexer.
  • Yandexsearchshop. pravidelne stiahnite katalógy produktov v yml súboroch podľa požiadaviek používateľov. Tieto súbory sú často umiestnené v adresároch zakázaných pre indexovanie.

Aby ste zabránili tomuto správaniu, môžete obmedziť prístup týchto robotov na niektoré stránky alebo celé stránky pomocou smerníc Robots.txt, napríklad:

User-Agent: YandexCalendar Disalow: / User-Agent: YandexmobileBot Disallow: /private/*.txt