Duplicitný obsah: dôvody a riešenia. Programy a online služby na vyhľadávanie interných a externých duplikátov obsahu podľa fragmentov textu. Parametre adresy URL používané na sledovanie a triedenie

  • 26.05.2019

Duplicitný obsah je jedným z hlavných problémov nízkeho hodnotenia vo vyhľadávačoch. Tento problém je spôsobený prítomnosťou stránok, ktoré sú úplne alebo čiastočne identické. Prirodzene, pre vyhľadávače je prítomnosť stránok s odpadom na webe vážnym problémom, pretože na ich spracovanie musíte minúť výkon servera. Pre vyhľadávače nemá zmysel plytvať fyzickými zdrojmi indexovaním takéhoto zbytočného obsahu. Preto s takýmito stránkami zápasia, ukladajú im filter alebo podceňujú hodnotenie, čo vedie k nízkym pozíciám na propagované dopyty.

Duplikáty a SEO

Prítomnosť duplicitných stránok na lokalite vedie k nasledovnému:

  • Na tieto zbytočné stránky je nastriekaná užitočná sila odkazu.
  • Duplicitná stránka po ďalšej aktualizácii premiestni cieľovú stránku a stratí pozíciu.
  • Duplicitný obsah znižuje jedinečnosť všetkých stránok, na ktorých je hosťovaný.
  • Keďže vyhľadávač s takýmito stránkami bojuje a odstraňuje ich z vyhľadávania – môže vylúčiť aj propagovanú stránku.

Duplicitná klasifikácia a riešenia na ich odstránenie

Duplikáty môžu byť úplné a čiastočné. Úplné duplikáty sú vtedy, keď sú stránky úplne identické. Čiastočné duplikáty sú teda vtedy, keď sa stránky úplne nezhodujú. Úplné duplikáty sú odstránené pomocou súboru robots.txt a nastavením presmerovaní 301. Čiastočné duplikáty sa eliminujú vykonaním potrebných úprav na stránke.

Tu je zoznam kontrolných zoznamov, ktoré musíte prejsť, aby ste identifikovali a vyriešili problém duplikátov:

  • Vyhľadajte duplikáty hlavnej stránky webu. Napríklad môžu existovať nasledujúce možnosti domovskej stránky: http://www.domen.com/, http://www.domen.com/index.php, http://www.domen.com, http: / / domen.com /, https://www.domen.com/, http://www.domen.com/index.html. Ako vidíte, existuje veľa možností, ale optimálna možnosť je http://www.domen.com/. Na odstránenie zostávajúcich kópií hlavnej stránky sa používa presmerovanie 301 a uzavretie v súbore robots.txt (v prípade konštrukcií ako https://www.domen.com/.
  • Kontrola základného (zlaté pravidlo SEO) - Každá stránka by mala byť prístupná iba z jednej adresy URL. Adresy sa nesmú líšiť takto: http://www.domen.com/stranica1/stranica2/ a http://www.domen.com/stranica2/stranica1/.
  • Kontrola prítomnosti premenných v adrese URL. V adrese stránky by nemali byť. Chybou je napríklad generovanie adries URL ako: http://www.domen.ru/index.php?dir=4567&id=515. Nasledujúca možnosť adresy URL bude správna: http://www.domen.ru/dir/4567/id/515.
  • Kontrola prítomnosti identifikátorov relácie v adresách URL. Napríklad adresy URL ako http://www.domen.ru/dir/4567/id/515.php?PHPSESSID=3451 nie sú povolené. Takéto adresy URL obsahujú nekonečný počet kópií každej stránky. Preto je potrebné zatvoriť všetky ID relácie v súbore robots.txt.

1. Úvod do problematiky

V súčasnosti je problém duplicity informácií na internete čoraz naliehavejší. Najčastejšie sa toto duplikovanie deje zámerne, v rozpore s autorskými právami. Útočníci používajú obsah chránený autorskými právami na zapĺňanie svojich vlastných stránok, aby pre seba získali zisk.

Takáto duplikácia informácií zhoršuje výsledky vyhľadávačov, v dôsledku čoho tieto aktívne bojujú proti tomuto javu. Ak totiž používateľ dostane na požiadanie 10 identických dokumentov („rovnakosť“ určuje používateľ podľa), sotva to prispeje k popularite vyhľadávača. Pred niekoľkými rokmi bola táto situácia pozorovaná v Rambleri, v dôsledku čoho vyhľadávací nástroj stratil časť svojho hodnotenia. Rambler však momentálne duplikáty filtruje a skrýva.

Malo by sa tiež poznamenať, že duplicitný obsah upcháva index vyhľadávacieho nástroja, takže je pre neho ťažšie poskytnúť používateľovi rýchle odpovede. Všetky dokumenty musia byť zároveň pravidelne indexované a objavenie sa nových dokumentov s neoriginálnym obsahom jednoznačne ubližuje rýchlosti indexovania.

2. Teória na definíciu "fuzzy duplikátov"

a. Čo je to "fuzzy záber"

Najprv sa musíte rozhodnúť o terminológii. V tejto veci stále neexistuje konsenzus, a preto je táto terminológia založená jednoducho na zdravom rozume.

Duplikát (duplikát) webového dokumentu- presná kópia webového dokumentu. „Fuzzy duplikát“ webového dokumentu- webový dokument, čiastočne zmenený v obsahovej časti a/alebo v časti formátovania (použitie iných html tagov na dizajn stránky).

„Duplicitný webový dokument“ budeme interpretovať len z pohľadu vyhľadávača, nie používateľa. Za takýto fenomén preto nebudeme považovať „copywriting“, t.j. prepisovanie textu špeciálne pre vyhľadávače pomocou rôznych slov, ale so zachovaním všeobecného významu. Takýto text pre vyhľadávač bude vždy originálny, pretože počítače stále nedokážu rozlíšiť význam textu.

Existuje niekoľko základných metód na zisťovanie duplikátov.

b. Metóda opisných slov

Táto metóda funguje podľa nasledujúceho princípu.

Najprv sa vytvorí malá vzorka (asi 2000-3000 slov). Vzorka musí spĺňať tieto podmienky:

S jeho pomocou môžete úplne opísať takmer akýkoľvek dokument v sieti.
- popis dokumentu by nemal byť nadbytočný

Na vytvorenie vzorky teda musíte vyradiť slová, ktoré sú najviac a najmenej používané, t.j. neberú do úvahy stop slová a rôzne úzko tematické pojmy. Vo vzorke nie sú zahrnuté ani prídavné mená, pretože v ruskom jazyku nenesú sémantickú záťaž.

Ďalej sa každý dokument porovnáva so vzorkou a vypočíta sa vektor, ktorého rozmer sa rovná počtu slov vo vzorke. Vektorové komponenty môžu nadobúdať dve hodnoty - 0 alebo 1. 0 - ak sa slová z výberu nenachádzajú v dokumente, 1 - ak sa slovo vyskytuje v dokumente. Potom sa dokumenty skontrolujú na duplicitu porovnaním ich vektorov.

Yandex používa tento algoritmus na detekciu fuzzy duplikátov.

c. Metóda šindľov

Metóda šindľov je nasledovná. Pre všetky podreťazce analyzovaného textu sa vypočíta "kontrolný súčet". Kontrolný súčet (alebo "podpis") je jedinečné číslo priradené nejakému textu a/alebo funkcii na jeho výpočet. Funkcia výpočtu kontrolného súčtu môže slúžiť viacerým účelom: napríklad „nerozbitný“ (minimalizuje pravdepodobnosť, že pôvodný text bude možné nájsť podľa hodnoty kontrolného súčtu) alebo „neopakovateľný“ (minimalizuje pravdepodobnosť, že dva rôzne texty môžu mať rovnaké kontrolný súčet)- Elektronický žurnál "Spamtest" č. 27.

Bežne sa používajú nasledujúce algoritmy na výpočet kontrolných súčtov: fnv, md5, crc. Po výpočte kontrolných súčtov sa z výsledného súboru zostaví náhodná vzorka. Pomocou tohto vzoru je možné dokument porovnať s inými dokumentmi, pre ktoré je vzorka tiež predbežne vypočítaná.

Táto metóda výpočtu je pomerne náročná na zdroje a možno ju obísť miernou zmenou textu, pretože pásový opar v prvom rade závisí od vzdialenosti medzi slovami.

Teraz sa metóda šindľov vyvinula na algoritmus „supershingle“, ktorý vyžaduje obmedzený súbor kontrolných súčtov. Experimenty na ROMIP viedli k nasledujúcim výsledkom – 84 šindľov, 6 superšindľov po 14 šindľoch. Texty sa považujú za zhodné, ak sa zhodujú aspoň dva zo 6 superšindľov.

Úradníci opakovane uviedli, že Yandex nie je recenzentom a nebude proti nemu bojovať problém krádeže obsahu v sieti.

Tu je oficiálna odpoveď A. Sadovského:

... keď sa nájde duplikát, vyhľadávanie Yandex sa pokúsi určiť pôvodný dokument. Existujúce algoritmy sú, samozrejme, nedokonalé a pracujeme na ich zlepšení. Čo sa týka právnej úpravy, vyhľadávače zatiaľ nevedia identifikovať autorstvo textu. V prípade, že je obsah „tyrenny“ odstránený zo siete (napríklad v dôsledku konania držiteľa autorských práv), Yandex ho tiež odstráni z databázy, keď ho robot prehľadáva. Tento proces je možné urýchliť použitím formulára http://webmaster.yandex.ru/delurl.xml

Teraz zvážme, čo je „duplicitný dokument“ pre Yandex? Autor ponúka nasledujúci výklad. (Ak sa vám text nižšie zdal známy, nemyslite si to zle, autor sa ešte nedávno pokúsil aktívne diskutovať o tomto probléme na fórach)))

Existujú dva typy duplikátov: fuzzy duplikáty a úplné duplikáty.

„Fuzzy Duplicates“ závisí od úryvku, t.j. sú v skutočnosti určené požiadavkou užívateľa. Deje sa to nasledujúcim spôsobom.

1. Používateľ zadá požiadavku.
2. Yandex vypočíta relevantnosť stránok vzhľadom na požiadavku a zoradí stránky, ale zatiaľ to používateľovi neukáže.
3. Ďalej Yandex porovnáva úryvky vybratých dokumentov, aby určil duplikáty (prípadne sa úryvky porovnávajú pomocou šindľovej metódy).
4. Nakoniec vydáva filtrované výsledky, pričom odstraňuje niektoré duplikáty (nie je jasné, na akom základe zostali určité dokumenty; vyberie sa možno najrelevantnejší dokument a do výsledkov vyhľadávania sú zahrnuté najmenej podobné dokumenty; možno len referenčný dokument zohráva úlohu.prostredie lokality).

Existenciu filtra tohto typu nepriamo dokazujú slová Sadovského (príspevok č. 9) a skutočnosť, že výstup s rôznymi nastaveniami vyhľadávania (konkrétne počet zobrazených fragmentov s dopytovanými slovami) je odlišný.

S nastaveniami „zobraziť nie viac ako 5 fragmentov“ je v SERP viac stránok ako s nastavením „zobraziť nie viac ako 1 fragment“. Skúsme dotaz „V & druhej & kapitole & abstrakt & venovaný & praxi & marketing & aktivity & organizácia & na & príklad & server & duks“ (dotaz je nastavený bez úvodzoviek!) – v prvom prípade (zobrazenie 1 fragment v úryvku) vo výsledku 21 miest, v druhom (5 fragmentov) - 27 miest.

Všetko je tu logické – pri zobrazení jednej pasáže v úryvku sú úryvky podobnejšie ako pri zobrazení 5 pasáží v úryvku. Napríklad v druhom prípade je úryvok druhého webu odlišný od úryvkov prvého a tretieho webu.

Teraz sa poďme zaoberať „úplnými duplikátmi“. Autor sa domnieva, že takéto duplikáty sú zistené v čase indexovania stránky. Je to pohodlné, pretože vám to okamžite umožňuje odrezať odpadky a nepridávať duplicitné informácie do databázy vyhľadávača.

Metódou identifikácie duplikátov je „metóda opisného slova“ (o ktorej sa hovorí vyššie).

Stránky identifikované ako úplné duplikáty sa vyhodia z databázy. Často sa to stáva na stránkach jedného webu (napríklad katalóg produktov, keď je v navigačnej časti oveľa menej zmysluplných informácií ako slová). Nie je známe, akým princípom Yandex vyhodí určité duplikáty, s najväčšou pravdepodobnosťou v dôsledku kombinácie znakov, ako sú: dočasné faktory, „hodnotenie zdrojov“, dôvera v zdroj atď.

Ako Yandex určuje primárny zdroj v prípade zistenia „fuzzy duplikátov“ a určuje ho? Skúsme na to prísť...

Po prvé, poďme zdôrazniť faktory, ktoré môžu naznačovať pôvodný zdroj obsahu ...

Dátum vytvorenia dokumentu
- relevantnosť dokumentu pre žiadosť
- "dôvera v zdroj" (napríklad najviac zo všetkého môžete dôverovať zdrojom, ktoré majú dobrú pozíciu v katalógu Yandex a vysokú návštevnosť)
- prepojenie medzi duplikátmi (ak napríklad všetky duplikáty odkazujú na rovnaký dokument - je to pôvodný zdroj)

Skúsme malý experiment. Vezmite stránku href = http: // zoom.cnews.ru/ru/publication/index.php?art_id80=1523 a frázu „Dizajn Lumix FZ50 je podobný jeho 8-megapixelovému predchodcovi FZ30.“ Je zrejmé, že toto je originál. Teraz sa pozrime, kto ešte používa text článku: nastavme dotaz pomocou parametra rd = 0. Bez rd sú uvedené iba lokality # 1 a # 5.

Charakteristiky stránok sú nasledovné (všimnite si, že odkazujú iba na prvú stránku, ostatné nemajú žiadne spätné odkazy):

Stanitsa TCI Katalógový nadpis PR PR stránky
zoom.cnews.ru/ru/publication/index.php?art_id80=15233800 Áno6 4
www.neograd.ru/firsttimers/howtofind_1/panasonic/test_panasonic_fz50170 Áno5 0
www.apitcomp.ru/analytic/genre3/page637700 Áno4 0
www.toplist.ru/card/35859110 nie3 0
foto-focus.ru/forum/showthread.php?mode=hybrid&t=3160 nie1 0
nmp4.ru/index.php?act=Print&client=printer&f=223&t=33230 nie0 0
www.media.nrd.ru/index.php?showtopic=3323&st=10040 nie0 0
www.ledshop.ru/cgi-bin/nph-proxy.cgi/010110A/http/zoom.cnews.ru/ru/publication/index.php=3fart_id80=3d15230 nie0 0

Upozorňujeme, že úryvky sú rovnaké pre všetky stránky.

Na prvý pohľad je úplne nejasné, prečo Yandex vyfiltroval všetky stránky okrem piatej. Stránka zjavne nie je v očiach Yandexu smerodajná. Logickejšie by bolo opustiť stránku zo stránky www.apitcomp.ru vo výsledkoch vyhľadávania - stránka je smerodajnejšia, alebo opustiť stránky z fór (pozícia 6 a 7).

Podobne skontrolujeme stránku http://www.3dnews.ru/digital/lumix_fz50/ a frázu „V našej dobe, keď kupujúci túžia po dobrých vlastnostiach.“ Stránky, ktoré sú zobrazené bez rd = 0, sú zvýraznené tučným písmom, pôvodný zdroj je zvýraznený červenou farbou, ktorá je mimochodom filtrovaná!

StránkaTCIYACALSLPPRPR stránky
saturn-plus.ru/ 70 Áno54 20349 3 3
saturn.24online.ru/0 nie1 1 0 0
www.3dnews.ru/digital/lumix_fz50/print 11000 Áno0 0 6 2
fotomag.com.ua/handbook14.html400 Áno0 0 4 0
Deshevshe.net.ua/ua/review-73/4.html80 nie0 0 4 0
Ephotolink.ru/?mod=articles&act=show&sort=date&page=91400 Áno0 0 4 1
mobil-up.com/tsifra/foto/novoe_pokolenie_ultrazumov_ot_panasonic.html0 nie0 0 0 0
uaport.net/UAit/?CGIQUERY=0&lang=RUS&cli=1&dtb=146&... 4300 Áno0 0 6 0
www.velc.ru/podderjka/stati/lumix_fz50/120 Áno0 0 3 0
Ephotolink.tkat.ru/?mod=articles&id_article=2100710 nie0 0 3 0
www.ru-coding.com/rss.php?p=501130 Áno0 0 3 0
www.toprunet.com/article.php?id=6388200 nie0 0 3 0
www.dphotographer.com.ua/camera/from/2/90 nie0 0 4 0
www.asmedia.ru/news/id8242.html400 nie0 0 3 0
www.mega-bit.ru/obzor/read/?id=70 40 nie0 0 3 0
www.audiovideophoto.ru/panasonic1.html0 nie0 0 0 0
www.foto-piter.ru/news/2006/12/01/127/10 nie0 0 2 0
www.megastoke.com/item951928/panasonic-lumix-dmc-fz50.html20 nie0 0 1 0
www.novoe.nnov.ru/articles/?parent_id=330 nie0 0 0 0
iwy.com.ua/top.php?p=3260 nie0 0 0 0
www.5-uglov.ru/articles_view.php?id_news=122290 Áno0 0 3 0
www.techhome.ru/catalog/photo/article_17112.html950 Áno0 0 5 3
www.panasonic-spb.ru/articles_view.php?id_news=12220 nie0 0 1 0
new-articles.ru/page_215.html40 nie0 0 3 0
www.ekvator-hifi.ru/articles_view.php?id_news=122210 nie0 0 1 0
shop.key.ru/shop/goods/36608/230 nie3 18 4 0
www.pc-shop.kz/index.php?g_id=1711 nie0 0 3 0
Portalink.ru/portal/ecamera/infoat_15269.htm 110 nie0 0 3 3
www.rusdoc.ru/articles/13085/1100 Áno3 13 5 1
www.docs.com.ru/articles.php?p=509220 nie0 0 4 0
e-libed.ru/a31/0 nie1 17 0 0
dvdlink.ru/portal/Ecamera/infoat_15269.htm140 nie0 0 3 0
www.articlesearch.ru/a3b856d85.html0 nie0 0 0 0
www.bestarticles.ru/a31/0 nie1 5 2 0
www.temu.ru/a31/0 nie0 0 2 0

LP - odkazujúce stránky, LS - odkazujúce stránky, Page PR - PR stránky, PR - PR hlavnej stránky webu.

Podobný obrázok - kritériá filtrovania sú úplne nejasné. Ak sa však pozriete na úryvky, uvidíme, že stránky na stránkach uaport.net, www.megastoke.ru, portalink.ru majú úryvky mierne odlišné od úryvkov iných stránok, a preto prvá a tretia stránka nie sú filtrované.

Čo môžem povedať na záver? V prvom rade, samozrejme, musíte ešte veľa experimentovať a analyzovať, ale už teraz je jasné, že rozhodnutie filtrovať „fuzzy duplikáty“ je založené na analýze mnohých faktorov, z ktorých hlavným je originalita úryvku .

4. Google a duplicitný obsah

Google sa snaží poskytovať webovým stránkam čerstvý a jedinečný obsah na základe požiadaviek používateľov.

Google je presvedčený, že používatelia nechcú vidieť duplikáty vo výsledkoch vyhľadávania, preto sú takéto dokumenty skryté vo výsledkoch návrhov. Ak chce používateľ stále vidieť duplikáty (napríklad ide o správcu webu, ktorý chce zistiť, kto kradne obsah z jeho stránky), musí na koniec URL pridať parameter „& filter = 0“.

Google verí, že identifikácia autora obsahu pomôže zlepšiť vyhľadávanie. Poznamenáva však, že také metódy určovania pôvodného zdroja, ako je stanovenie dátumu vytvorenia dokumentu alebo registrácia obsahu autormi v špeciálnych službách, nie sú účinné. Google sa zatiaľ zameriava najmä na autoritu zdroja a počet prichádzajúcich odkazov. Preto je celkom možná situácia, keď si nejaký známy zdroj požičal článok, napríklad zo špecializovaného zdroja, potom sa väčšina dozvedela o článku zo známeho zdroja a umiestnila naň odkazy; nakoniec Google identifikuje slávnu stránku ako primárny zdroj ...

V prípade duplicitného obsahu na tej istej stránke (napríklad pôvodnej stránky a tlačenej stránky) Google nabáda správcov webu, aby aktívne používali súbor robots.txt. Navrhuje sa tiež upustiť od používania identifikátorov relácie, pretože to môže viesť aj k duplicitnému obsahu. Tie. vyhľadávací nástroj môže indexovať rovnakú stránku, ale s inou adresou URL s inou hodnotou parametra sessid.

5. S čím experimentovať a ako to najlepšie urobiť

Takže sme prišli na hlavné body problému duplicitného obsahu. Princípy filtra (najmä Yandex) sú pomerne jednoduché, ale je dosť ťažké presne určiť, ako sa berú do úvahy rôzne faktory.

Celkový počet, ktorý je potrebné overiť experimentálne:

Ako sa filtrujú duplikáty v čase vydania? Podľa akého princípu?
- Metóda "opisných slov" - ako sa tvorí vzorka slov a ako sa porovnávajú vektory?
- Podľa akého princípu sa vyhadzujú „úplné duplikáty“?

Môžete navrhnúť nasledujúcu možnosť:

Vytvárame jednu stránku s originálnym obsahom. Poďme to trochu spamovať, aby sa to indexovalo. Ďalej vytvorte niekoľko klonov (duplikátov). Klony sa dajú robiť rôznymi spôsobmi: zamiešať slová pôvodného zdroja, prepísať, zobrať samostatné odseky. Klony môžu byť umiestnené ako na samostatných stránkach (na bežnom a bežnom hostingu), tak aj na interných stránkach stránok. Klony môžete čiastočne prevalcovať. Potom výsledok špekulatívne vyhodnotíme a vyvodíme závery.
- Vyššie popísanou metódou je možné určiť princípy, podľa ktorých sa filtrujú „fuzzy duplikáty“, t.j. jednoduchou analýzou filtrovaných stránok.

6. Ďalšie čítanie

Duplicitný obsah alebo len duplikáty sú stránky na vašom webe, ktoré sa úplne (vyčistite duplikáty) alebo čiastočne (fuzzy duplikáty) navzájom zhodujú, ale každá z nich má svoju vlastnú adresu URL. Jedna stránka môže mať jeden alebo niekoľko duplikátov.

Ako sa na stránke objaví duplicitný obsah?

Existuje niekoľko dôvodov pre tvrdé a neostré zábery. Jasné duplikáty môžu vzniknúť z nasledujúcich dôvodov:

  1. Zobrazujú sa kvôli CMS stránky. Napríklad pri použití replytocom vo WordPress sa pri pridávaní nových komentárov automaticky vytvoria nové stránky, ktoré sa líšia iba adresou URL.
  2. V dôsledku chýb správcu webu.
  3. Kvôli zmenám v štruktúre stránky. Napríklad pri vkladaní aktualizovanej šablóny s novými adresami URL.
  4. Sú vytvorené vlastníkom stránky pre určité funkcie. Napríklad stránky s tlačovými verziami textu.

Nejasné duplikáty sa na vašich stránkach môžu objaviť z nasledujúcich dôvodov:

Prečo duplicitný obsah poškodzuje stránku?
  1. Negatívne ovplyvňuje hodnotenie vo vyhľadávačoch. Vyhľadávacie roboty majú negatívny postoj k duplicitnému obsahu a môžu znížiť svoje pozície vo výsledkoch vyhľadávania z dôvodu nedostatku jedinečnosti, a teda užitočnosti pre klienta. Nemá zmysel čítať to isté na rôznych stránkach webu.
  2. Môže nahradiť skutočne relevantné stránky. Robot sa môže rozhodnúť vydať duplicitnú stránku, ak považuje jej obsah za relevantnejší pre dopyt. Zároveň sú dvojité ukazovatele faktorov správania a / alebo množstva odkazov spravidla nižšie ako ukazovatele stránky, ktorú zámerne propagujete. To znamená, že záber sa zobrazí na najhorších pozíciách.
  3. Vedie k strate prirodzených väzieb. Keď používateľ vytvorí odkaz nie na prototyp, ale na duplikát.
  4. Prispieva k nesprávnemu rozloženiu váhy interného spojenia. Duplikáty preberajú časť váhy propagovaných stránok, čo tiež bráni propagácii vo vyhľadávačoch.
Ako skontrolovať, či máte duplikáty alebo nie?

Existuje niekoľko spôsobov, ako zistiť, či stránky lokality majú alebo nemajú duplikáty.


Našli ste duplikáty? Čítame, ako ich neutralizovať:
  1. 301. presmerovanie Táto metóda sa považuje za najspoľahlivejší spôsob, ako sa zbaviť zbytočných duplikátov na vašom webe. Podstatou metódy je presmerovanie vyhľadávacieho robota z duplicitnej stránky na hlavnú. Robot teda preskočí dvojku a pracuje len s požadovanou stránkou webu. Postupom času, po nastavení 301. presmerovania, sa duplicitné stránky zlepia a vypustia z indexu.
  2. Tag ... Tu vyhľadávaču uvádzame, ktorú stránku máme hlavnú, určenú na indexovanie. Aby ste to dosiahli, musíte pri každom zábere zadať špeciálny kód pre vyhľadávacieho robota. , ktorý bude obsahovať adresu hlavnej stránky. Aby sa takáto práca nevykonávala ručne, existujú špeciálne doplnky.
  3. Zakázať v súbore robots.txt... Súbor robots.txt je akýmsi pokynom pre vyhľadávacieho robota, ktorý naznačuje, ktoré stránky by sa mali indexovať a ktoré nie. Smernica Disallow sa používa na zákaz indexovania a boj proti duplikátom. Tu, rovnako ako pri nastavovaní presmerovania 301, je dôležité správne zaregistrovať zákaz.
Ako odstrániť duplikáty z indexu vyhľadávacieho nástroja?

Pokiaľ ide o Yandex, nezávisle odstráni duplikáty z indexu, ak je súbor robots.txt správne nakonfigurovaný. Ale pre Google je potrebné zaregistrovať pravidlá v záložke "URL parametre" cez Google Webmaster.

Ak máte problémy s kontrolou a odstraňovaním duplicitného obsahu, vždy sa môžete obrátiť na našich špecialistov. Nájdeme všetky podozrivé prvky, nastavíme presmerovanie 301, robots.txt, rel = "canonical" a nastavíme nastavenia v Google. Vo všeobecnosti vykonáme všetku prácu, aby vaša stránka fungovala efektívne.

Duplicitný obsah možno rozdeliť na tri veľké kategórie: presný duplikát, kde dve adresy URL majú úplne identický obsah, obsah s malými rozdielmi(poradie návrhov, mierne odlišné obrázky atď.) a duplikáty viacerých domén kde na mnohých doménach existuje presná alebo mierne upravená kópia.

Existujú dva súvisiace koncepty, ktoré Google nepovažuje za duplicitný obsah, ale ktoré často mätú vydavateľov a neskúsených SEO:

  • tenký obsah - ako už bolo uvedené, ide o stránky s veľmi malým obsahom. Príkladom je množina stránok na základe zoznamu adries organizácie, ktorý má 5 000 adries, ale každá stránka obsahuje iba jednu adresu – len niekoľko riadkov;
  • krájanie obsahu táto kategória zahŕňa stránky, ktoré sa od seba mierne líšia. Predstavte si webovú stránku, ktorá predáva topánky Nike Air Max vo veľkostiach 37, 37,5, 38, 38,5, 39, ... 46. Ak má web samostatnú stránku pre každú veľkosť topánok, rozdiel medzi všetkými týmito stránkami bude zanedbateľné. Google nazýva podobný efekt tenké krájanie.

Google nemá rád tenký obsah ani tenké krájanie. Ktorýkoľvek z týchto efektov môže byť detekovaný algoritmom "Panda". . Nie je jasné, ako presne Bing rozlišuje medzi duplicitným obsahom, tenkým obsahom a krájaním obsahu, ale je jasné, že vydavatelia by sa mali vyhýbať vytváraniu týchto typov stránok.

Duplicitný obsah je možné získať z mnohých dôvodov, vrátane licencovania obsahu vašej stránky, chýb v architektúre stránok v dôsledku systému správy obsahu, ktorý nie je optimalizovaný pre vyhľadávače, alebo v dôsledku plagiátorstva. Za posledných päť rokov začali šíritelia spamu s kritickým obsahom preberať obsah z legitímnych zdrojov, preskupovať slová prostredníctvom množstva zložitých procesov a výsledný text umiestňovať na svoje stránky, aby prilákali podrobné vyhľadávania a zobrazovali kontextovú reklamu, ako aj pre iné nečestné účely.

Preto dnes žijeme vo svete „problémov s duplicitným obsahom“ a „trestov za duplicitný obsah“. Tu je niekoľko definícií, ktoré budú užitočné pre našu diskusiu.

  • Jedinečný obsah napísané človekom, úplne odlišné od akejkoľvek inej kombinácie písmen, symbolov a slov na World Wide Web, ktoré nie je ovplyvnené počítačovými algoritmami na spracovanie textu (ako sú nástroje na odosielanie spammerov pomocou Markovových reťazcov).
  • Fragmenty - ide o malé časti obsahu (napríklad úvodzovky), ktoré sa skopírujú a znova použijú. Pre vyhľadávače nie sú takmer nikdy problémom, najmä ak sú zahrnuté vo väčšom dokumente s množstvom unikátneho obsahu.
  • pásový opar - vyhľadávače hľadajú relatívne malé segmenty fráz (päť až šesť slov) na iných stránkach World Wide Web. Ak dva dokumenty zdieľajú príliš veľa šindľov, vyhľadávače môžu tieto dokumenty interpretovať ako duplicitný obsah.
  • Problémy s duplicitným obsahom - táto fráza sa zvyčajne používa na označenie duplicitného obsahu, za ktorý môže byť stránka penalizovaná. Takýto obsah je jednoducho kópiou existujúcej stránky, ktorá núti vyhľadávač vybrať si, ktorú verziu v indexe zobrazí (ide o tzv. duplicitný filter obsahu).
  • Filter duplicitného obsahu - situácia, keď vyhľadávací nástroj odstráni podobný obsah z výsledkov vyhľadávania, aby používateľovi poskytol lepšie výsledky.
  • Pokuta za duplicitný obsah - tresty (penalty) sa uplatňujú zriedkavo a len v zjavných situáciách. Vyhľadávače môžu znížiť hodnotenie alebo zakázať zvyšok stránok webu, dokonca môžu zakázať celý web.

Dôsledky duplicitného obsahu

Za predpokladu, že váš duplicitný obsah je výsledkom neškodného prehliadnutia zo strany vašich vývojárov, vyhľadávací nástroj pravdepodobne odfiltruje všetky duplicitné stránky okrem jednej, pretože na stránkach s výsledkami vyhľadávania chce zobraziť iba jednu verziu tohto obsahu. V niektorých prípadoch môže vyhľadávací nástroj filtrovať výsledky pred ich zaradením do indexu a v iných prípadoch môže stránku prijať do indexu a filtrovať ju už pri príprave výsledkov vyhľadávania v reakcii na konkrétny dopyt. V tomto druhom prípade môže byť stránka filtrovaná ako odpoveď na niektoré špecifické dopyty a nie filtrovaná pre iné.

Používatelia chcú vidieť rozmanitosť výsledkov (nie stále rovnaké výsledky). Vyhľadávače sa preto snažia odfiltrovať duplicitný obsah, čo má nasledujúce dôsledky:

  • robot vyhľadávacieho nástroja prichádza na stránku s určitým odhadom zobrazenia, vyjadreným počtom stránok, ktoré plánuje zobraziť v každej konkrétnej relácii. Zakaždým, keď sa dostane na duplicitnú stránku, ktorú je potrebné odfiltrovať z výsledkov vyhľadávania, necháte robota premrhať časť svojho rozpočtu. To znamená, že sa bude zobrazovať menej vašich „dobrých“ stránok a bude to mať za následok, že menej stránok bude zahrnutých do indexu vyhľadávacieho nástroja;
  • Aj keď sa vyhľadávače pokúšajú odfiltrovať duplicitný obsah, odkazy na stránky s duplicitným obsahom im stále prinášajú šťavu z odkazov. Preto môžu duplicitné stránky získať hodnotenie PageRank alebo šťavu z odkazov, a keďže im to nepomôže pri hodnotení, tento zdroj sa plytvá;
  • žiadny z vyhľadávacích nástrojov neposkytol jasné vysvetlenie toho, ako ich algoritmus vyberá, ktorú verziu stránky zobrazí. Inými slovami, ak nájde tri kópie rovnakého obsahu, ktoré dve z nich odfiltruje? Ktorý sa ukáže? Závisí to od vyhľadávacieho dopytu? Výsledkom je, že vyhľadávací nástroj môže zobraziť nesprávnu verziu, ktorú chcete.

Zatiaľ čo niektorí optimalizátori môžu argumentovať niektorými bodmi tu načrtnutými, celková štruktúra je do značnej miery nesporná. Na hraniciach tohto modelu však existuje niekoľko problémov.

Vaša lokalita má napríklad skupinu stránok produktov, ako aj verzie týchto stránok na tlač. Vyhľadávač si môže zvoliť, že vo svojich výsledkoch zobrazí presne tlačovú verziu. Niekedy sa to stáva a môže sa to stať aj vtedy, keď má tlačová stránka menej odkazov a má nižšie hodnotenie ako hlavná stránka produktu.

Ak chcete túto situáciu napraviť, musíte použiť atribút odkazu rel = ”canonical” na všetky duplicitné verzie stránky, aby ste označili hlavnú verziu.

Druhá možnosť môže nastať, keď svoj obsah syndikujete (umožníte opätovnú tlač obsahu) tretím stranám. Problém je v tom, že vyhľadávací nástroj môže vypustiť váš originál z výsledkov vyhľadávania a uprednostniť verziu, ktorú používa osoba, ktorá pretlačila váš článok. Existujú tri možné riešenia tohto problému:

  • nechajte vydavateľa vášho článku nastaviť spätný odkaz na pôvodný článok na vašej stránke s atribútom rel = „canonical“. Vyhľadávacím nástrojom to oznámi, že vaša kópia stránky je originál a všetky odkazy smerujúce na združenú stránku budú pripísané vašej pôvodnej stránke;
  • požiadajte svojho distribučného partnera, aby zakryl svoju kópiu atribútom noindex. V tomto prípade duplicitný obsah vyhľadávací nástroj jednoducho nezaindexuje. Okrem toho, akékoľvek odkazy v tomto obsahu na vašu lokalitu vám budú naďalej delegovať právomoc;
  • nechajte svojho partnera prepojiť späť na pôvodnú stránku na vašom webe. Vyhľadávače to zvyčajne interpretujú správne a zdôrazňujú vašu verziu obsahu. Treba však poznamenať, že sa vyskytli prípady, keď spoločnosť Google omylom pripísala obsah stránke, ktorá ho znova zverejnila, najmä ak má táto stránka oveľa väčšiu autoritu a dôveryhodnosť ako skutočný pôvodca obsahu.

Ako vyhľadávače rozpoznajú duplicitný obsah?

Proces hľadania duplicitného obsahu na World Wide Web pre nástroj Google ilustrujeme na príkladoch. V príkladoch znázornených na obr. 1-4 sú urobené tri predpoklady:

  • stránka s textom je stránka obsahujúca duplicitný obsah (a nielen jeho fragment, ako je znázornené na obrázkoch);
  • všetky stránky s duplicitným obsahom sú v rôznych doménach;
  • kroky uvedené nižšie boli zjednodušené, aby bol proces čo najjednoduchší a najpriamejší. Toto určite nie je presný popis toho, ako Google funguje, ale vyjadruje význam.

Ryža. 1

Ryža. 2

Ryža. 3

Ryža. 4

Existuje niekoľko faktov o duplicitnom obsahu, ktoré si zaslúžia osobitnú zmienku, pretože môžu zmiasť správcu webu, ktorý je novým problémom s duplicitným obsahom. Zvážme tieto faktory.

  • Umiestnenie duplicitného obsahu - ak je všetok tento obsah na mojej stránke, je duplicitný? Áno, pretože duplicitný obsah sa môže objaviť na tej istej lokalite aj na rôznych lokalitách.
  • Percento duplicitného obsahu - aké percento stránky musí byť duplikované, aby sa kvalifikovalo na filtrovanie duplicitného obsahu? Žiaľ, vyhľadávače tieto informácie nikdy nezverejňujú, pretože by to poškodilo ich schopnosť zabrániť samotnému problému.
  • Dá sa takmer s istotou tvrdiť, že toto percento sa u všetkých motorov neustále mení a pri identifikácii duplicitného obsahu nejde len o priame porovnanie. Pointa je, že stránky nemusia byť identické, aby sa mohli považovať za duplikáty.
  • Pomer kódu a textu -Čo ak je náš kód veľmi veľký, ale na stránke je málo jedinečných prvkov HTML? Myslel by si Google, že všetky stránky sú navzájom duplikáty? nie Vyhľadávače sa nestarajú o váš kód, ale o obsah vašich stránok. Veľkosť kódu sa stáva problémom až vtedy, keď je nadmerná.
  • Pomer prvkov navigácie a jedinečného obsahu - všetky stránky na mojom webe majú veľkú navigačnú lištu, veľa hlavičiek a pätiek, ale veľmi málo obsahu. Považuje Google všetky tieto stránky za duplicitné? nie Google (rovnako ako Yahoo! a Bing) počíta položky navigácie ešte predtým, ako vyhodnotí duplicitné stránky. Sú veľmi dobre oboznámení s rozložením webových stránok a chápu, že je úplne normálne mať konzistentné štruktúry na všetkých stránkach (alebo na mnohých). Venujú pozornosť jedinečným častiam stránok a zvyšok takmer úplne ignorujú.
  • Licencovaný obsah -Čo ak sa chcem vyhnúť problémom s duplicitným obsahom, ale mám obsah z iných webových zdrojov, na poskytovanie ktorých návštevníkom mám licenciu? Použite metanázov kódu = „roboty“ content = „noindex, sledujte“. Umiestnite ho do hlavičky svojej stránky a vyhľadávacie nástroje budú vedieť, že tento obsah nie je pre nich. Toto je najlepší postup, pretože ľudia budú môcť navštívte túto stránku a vytvorte odkaz na ňu a odkazy na tejto stránke si zachovajú svoju hodnotu.

Ďalšou možnosťou je získať výhradné práva na vlastníctvo a publikovanie tohto obsahu.

Identifikácia a odstránenie porušení autorských práv

Jedným z najlepších spôsobov sledovania duplicitných stránok je použitie CopyScape (copyscape.com), ktoré vám umožní okamžite zobraziť stránky na World Wide Web, ktoré používajú váš obsah. Nerobte si starosti, ak sú stránky týchto lokalít v podindexe alebo majú výrazne nižšie hodnotenie ako vaše – ak by sa nejaká veľká, autoritatívna a obsahovo bohatá doména pokúsila bojovať proti všetkým kópiám svojho materiálu na World Wide Web, potrebujú aspoň dvoch zamestnancov na plný úväzok. Našťastie vyhľadávače takýmto stránkam dôverujú, a preto ich uznávajú ako pôvodné zdroje.

Na druhej strane, ak máte relatívne novú stránku alebo stránku s malým počtom prichádzajúcich odkazov a plagiátori sa neustále umiestňujú vyššie ako vy (alebo vám nejaká výkonná stránka kradne prácu), existuje niekoľko vecí, ktoré môžete urobiť. Jednou z možností je poslať vydavateľovi žiadosť o odstránenie obsahu porušujúceho autorské práva. V niektorých prípadoch si vydavateľ jednoducho nebol vedomý porušenia autorských práv. Ďalšou možnosťou je napísať poskytovateľovi hostingu. Hostingové spoločnosti môžu byť potenciálne zodpovedné za organizáciu duplicitného obsahu, takže na takéto požiadavky často reagujú rýchlo. Len sa uistite, že ste pripravení poskytnúť čo najviac dokumentácie na preukázanie priradenia obsahu.

Ďalšou možnosťou je odoslať žiadosť o porušenie autorských práv (DMCA) spoločnosti Google, Yahoo! a Bing. Rovnakú žiadosť by ste mali poslať aj spoločnosti, ktorá prevádzkuje webovú stránku porušovateľa.

Druhou možnosťou je podať žalobu na stránku, ktorá porušila pravidlá, alebo sa jej vyhrážať. Ak má webová stránka, ktorá zverejňuje vašu prácu, vlastníka vo vašej krajine, potom je to pravdepodobne najchytrejší prvý krok. Môžete začať s neformálnejšou konverzáciou a požiadať o odstránenie obsahu ešte pred odoslaním formálneho listu od právnika, pretože môže trvať mesiace, kým zákon DMCA nadobudne platnosť. Ak vám však neodpovedajú, nemáte dôvod odkladať vážnejšie kroky.

DCMA.com je veľmi efektívna a lacná možnosť pre tento proces.

Fakt fajn situácia

Predchádzajúce príklady ukazujú, ako fungujú filtre duplicitného obsahu, nejde však o sankcie, hoci v praktickom zmysle je efekt rovnaký ako u sankcií – hodnotenie vašej stránky klesá. Sú však situácie, kedy sa môže objaviť skutočná pokuta. Napríklad stránky zhromažďujúce obsah to riskujú, najmä ak samotná stránka pridáva málo jedinečného obsahu. V takom prípade môže byť stránka skutočne pokutovaná.

Dá sa to vyriešiť iba znížením počtu duplicitných stránok dostupných pre vyhľadávač. To sa dosiahne ich odstránením, pridaním kanonického atribútu k duplikátom, atribútu noindex k samotným stránkam alebo pridaním značného množstva jedinečného obsahu.

Príkladom obsahu, ktorý môže byť často odfiltrovaný, je „Tenká“ partnerská stránka.Často sa to označuje ako stránka, ktorá propaguje predaj produktov iných ľudí s cieľom získať provízie, ale neposkytuje nové informácie. Takáto stránka by mohla dostávať popisy od výrobcu tovaru a jednoducho tieto popisy reprodukovať spolu s odkazom na partnera, aby zarobila peniaze na „kliknutiach“ alebo nákupoch.

Problém nastáva, keď má predajca tisíce partnerov používajúcich rovnaký obsah – a inžinieri vyhľadávačov dostali od používateľov údaje, že (z ich pohľadu) takéto stránky nepridávajú do ich indexov nič hodnotné. Vyhľadávače sa preto snažia takéto stránky odfiltrovať alebo dokonca vylúčiť zo svojich indexov. Affiliate modely využívajú mnohé stránky, no poskytujú aj bohatý nový obsah, takže väčšinou nemajú problém. Vyhľadávače zasiahnu iba vtedy, keď existuje duplicitný obsah a nedostatok jedinečného cenného materiálu.

Ako sa vyhnúť duplicitnému obsahu na vašej stránke?

Ako sme už uviedli, duplicitný obsah možno vytvoriť mnohými spôsobmi. Vnútorná duplikácia materiálu vyžaduje špecifickú taktiku na dosiahnutie najlepších výsledkov optimalizácie. V mnohých prípadoch sú duplicitné stránky stránky, ktoré nemajú žiadnu hodnotu ani pre používateľov, ani pre vyhľadávače. Ak áno, skúste problém úplne vyriešiť. Vylaďte svoju implementáciu tak, aby na každú stránku odkazovala iba jedna adresa URL. Vykonajte tiež 301. presmerovanie pre staré adresy URL na zostávajúce adresy URL , pomôcť vyhľadávacím nástrojom vidieť vaše zmeny čo najrýchlejšie a zachovať šťavu z odkazov, ktorú mali odstránené stránky.

Ak to nie je možné, existuje veľa ďalších možností. . Nasleduje súhrn najjednoduchších riešení pre širokú škálu scenárov:

  • použite súbor robots.txt na blokovanie prehľadávania pavúkov vyhľadávacích nástrojov na duplicitných verziách vašich webových stránok;
  • použite prvok rel = "canonical" - toto je druhé riešenie (najlepšie) na odstránenie duplicitných stránok;
  • použitie KÓD dať náznak VYHĽADÁVANIE motory neindexujú duplicitné stránky.

Upozorňujeme však, že ak na zamedzenie zobrazenia stránky používate súbor robots.txt, atribút noindex alebo nofollow na samotnej stránke nedáva zmysel. Keďže pavúk nemôže čítať túto stránku, nikdy neuvidí atribúty noindex alebo nofollow. S ohľadom na tieto nástroje sa pozrime na niektoré konkrétne situácie duplicitného obsahu.

    HTTPS stránky - ak používate SSL (šifrovaná výmena medzi prehliadačom a webovým serverom, ktorá sa často používa na elektronický obchod), potom má vaša stránka stránky začínajúce HTTPS: (namiesto HTTP :). Problém nastáva, keď odkazy na vašich HTTPS stránkach smerujú na iné stránky na lokalite pomocou relatívnych a nie absolútnych odkazov (takže napríklad odkaz na vašu domovskú stránku sa zmení na https: //www.yourdomain.com namiesto http: / / www.yourdomain.com).

    Ak má vaša stránka takýto problém, môžete ho vyriešiť pomocou prvku rel = „canonical“ alebo presmerovaní 3001. Alternatívnym riešením je zmeniť odkazy na absolútne: http: //www.yourdomain.com/content.html namiesto / contenthtml), čo zároveň trochu skomplikuje život tým, ktorí vám kradnú váš obsah.

  • Redakčné systémy vytvárajúce duplicitný obsah - niekedy je na lokalite veľa verzií rovnakých stránok. Je to spôsobené obmedzeniami v niektorých systémoch na správu obsahu, ktoré riešia rovnaký obsah viacerými adresami URL. Zvyčajne ide o úplne zbytočnú duplicitu, ktorá nemá pre používateľov žiadnu hodnotu a najlepším riešením je duplicitné stránky odstrániť a pre vymazané stránky urobiť 301 presmerovanie na zostávajúce stránky. Ak sa vám to nepodarí, skúste iné metódy (uvedené na začiatku tohto článku).
  • Stránky na tlač alebo veľa možností triedenia - mnohé lokality ponúkajú tlačiteľné stránky, ktoré používateľovi prezentujú rovnaký obsah vo formáte priateľskom k tlačiarni. Niektoré stránky elektronického obchodu ponúkajú zoznamy svojich produktov s mnohými možnými triedeniami (veľkosť, farba, značka a cena). Tieto stránky majú hodnotu pre používateľa, ale nemajú žiadnu hodnotu pre vyhľadávače, a preto sa im budú javiť ako duplicitný obsah. V takejto situácii musíte buď použiť jednu z možností uvedených skôr na tomto blogu, alebo nastaviť hárok CSS na tlač (ako je popísané v príspevku yoast.com/added-print-css-style-sheet/ na stránke Yoast stránky).
  • Duplicitný obsah na blogoch a archivačných systémoch- blogy sú zaujímavou variáciou na problém duplicitného obsahu. Blogový príspevok sa môže zobraziť na niekoľkých rôznych stránkach: na domovskej stránke blogu, na stránke s trvalými odkazmi pre daný príspevok, na archívnych stránkach a na stránkach kategórií. Každá kópia príspevku je duplikátom zvyšku. Je veľmi zriedkavé, že vydavatelia zápasia s otázkou, či majú príspevok na domovskej stránke blogu aj na stránke s trvalým odkazom. A zdá sa, že vyhľadávacie nástroje odvádzajú pri riešení tohto problému celkom dobrú prácu. Môže však mať zmysel zobrazovať na stránkach kategórií a archívov iba úryvky príspevkov.
  • Používateľom vytvorený duplicitný obsah (opakované príspevky atď.) - mnohé lokality implementujú štruktúry na prijímanie obsahu vytváraného používateľmi, ako sú blogy, fóra alebo nástenky. Môžu to byť skvelé spôsoby, ako vytvoriť množstvo obsahu za veľmi nízke náklady. Problém je v tom, že používateľ môže súčasne publikovať rovnaký obsah na vašom webe a na niekoľkých ďalších weboch, čo vedie k výskytu duplicitného obsahu. Je ťažké to kontrolovať, ale na zmiernenie problému možno zvážiť nasledujúce:
    • musíte mať jasné pravidlá, ktoré používateľov upozornia, že obsah, ktorý posielajú na vašu stránku, musí byť jedinečný a nemôže byť umiestnený na iných stránkach. Samozrejme, je to ťažké dosiahnuť, ale pomôže vám to pochopiť vaše očakávania;
    • implementujte svoje fórum jedinečným spôsobom, ktorý si bude vyžadovať iný obsah. Okrem štandardných polí na zadávanie údajov pridajte niekoľko jedinečných polí (odlišných od iných stránok), ktoré budú užitočné pre návštevníkov vašej stránky.

Duplicitný obsah je čiastočne alebo úplne rovnaký text, obrázky a iné obsahové prvky lokality, dostupné na rôznych adresách stránok (URL). Prítomnosť duplikátov môže výrazne skomplikovať optimalizáciu stránky pre vyhľadávače.

Podľa odborníkov je duplicitný obsah najčastejšou internou optimalizačnou chybou, ktorá sa vyskytuje na každom druhom webovom zdroji.

Ako skontrolovať, či sú na vašom webe duplikáty a ako sa ich zbaviť? O tom vám povieme v novom čísle nášho newslettera.

Aké sú duplikáty

Duplikáty sú jasné a nezreteľné (alebo úplné a neúplné).

Jasné zábery - kopírovať stránky s presne rovnakým obsahom, obsahom metaznačky Popis a nadpisom, dostupnými na rôznych adresách. Pôvodná stránka môže mať napríklad nasledujúce duplikáty:

  • zrkadlo s alebo bez WWW;
  • stránky s rôznymi príponami (.html, .htm, index.php, parameter GET "? a = b" atď.);
  • verzia pre tlač;
  • verzia pre RSS;
  • predchádzajúca forma adresy URL po zmene motora;
  • atď.

Fuzzy berie -čiastočne identický obsah na rôznych adresách URL.

Príklady takýchto duplikátov zahŕňajú nasledujúce možnosti:

  • karty rovnakého druhu tovaru s duplicitným alebo chýbajúcim popisom;
  • oznamy o článkoch, novinkách, tovaroch v rôznych rubrikách, na stránkach štítkov a stránkovaní;
  • archívy dátumov v blogoch;
  • stránky, kde komplexné bloky objemovo prevyšujú hlavný obsah;
  • strany s odlišným textom, ale rovnakým názvom a popisom.

Prečo sú duplikáty nebezpečné pre propagáciu

1. Je ťažké indexovať stránku (a definíciu hlavnej stránky)

Kvôli duplikátom sa počet stránok v základni vyhľadávača môže niekoľkonásobne zvýšiť, niektoré stránky nemusia byť indexované, pretože vyhľadávaciemu robotu je pridelená pevná kvóta na počet stránok na obídenie stránky.

Definícia hlavnej stránky, ktorá bude zahrnutá do výsledkov vyhľadávania, sa stáva zložitejšou: výber robota sa nemusí zhodovať s výberom správcu webu.

2. Hlavná stránka vo výsledkoch vyhľadávania môže byť nahradená duplikátom

Ak duplikát získa dobré metriky návštevnosti a správania, pri ďalšej aktualizácii môže nahradiť hlavnú (propagovanú) stránku vo výsledkoch vyhľadávania. Zároveň sa pozície vo vyhľadávaní „prepadnú“, pretože duplikát nebude mať žiadnu popularitu odkazu.

3. Strata externých odkazov na hlavnú stránku

4. Riziko pádu pod PS filter

Yandex aj Google zápasia s nejedinečným obsahom, a preto môžu na „upchatú“ stránku použiť filtre AGS a Panda.

5. Strata významných stránok v indexe

Neúplné duplikáty (stránky kategórií, novinky, produktové karty a pod.) pre svoju nízku jedinečnosť majú šancu sa do indexu vyhľadávača vôbec nedostať. Môže sa to stať napríklad pri časti kariet produktov, ktoré vyhľadávací algoritmus považuje za duplikáty.

Ako nájsť a odstrániť duplikáty na stránke

Ako vlastník stránok, dokonca aj bez špeciálnych znalostí a zručností, môžete nezávisle nájsť duplikáty na svojom zdroji. Nižšie sú uvedené pokyny na vyhľadanie a odstránenie duplicitného obsahu.

Vyhľadajte úplné zábery

Najrýchlejší spôsob, ako nájsť úplné duplikáty na stránke, je sledovať zhodu značiek Title a Description. Môžete na to použiť panel správcu webu Google alebo službu Xenu, ktorá je obľúbená medzi optimalizátormi. Vyhľadávanie sa vykonáva medzi indexovanými stránkami.

Nevýhody: nie všetky duplikáty môžu byť (a mali by byť) odstránené (napríklad verzie stránok s reklamnými štítkami); namáhavá práca, ktorá pri veľkom počte strán zaberie veľa času. Nevylučuje výskyt nových záberov. Váha s duplikátmi sa neprenáša na hlavnú stránku.

  • Plusy: nevyžaduje žiadne špeciálne programovacie schopnosti.

6. Hotové riešenia pre populárne CMS

Vývojári populárnych CMS poskytli množstvo riešení, ako zabrániť duplikáciám. Zároveň pri práci s motorom musia správcovia webu starostlivo nastaviť nastavenia. Ak ste niečo vynechali a stále sa objavujú duplikáty, nikdy nie je neskoro všetko opraviť a odstrániť kópie. Prehľadné návody ako konfigurovať engine a používať SEO pluginy nájdete na špecializovaných blogoch a fórach pre WordPress, Joomla, Drupal, Bitrix, ale aj ďalšie široko prezentované CMS.

Užitočné SEO pluginy na riešenie duplikátov:

  • WordPress: Všetko v jednom balíku SEO, Clearfy;
  • Drupal: globálne presmerovanie, názov stránky;
  • Joomla: Canonical Links All in One, JL No Dubles.

7. Bojujte na úrovni motora

Univerzálnym riešením pre širokú škálu CMS je zabrániť výskytu nových duplikátov na úrovni motora. Je potrebné nastaviť podmienku, pri ktorej bude CMS pri spracovaní adresných odkazov rozlišovať „dobré“ od „zlých“ a v riadku prehliadača zobrazí len tie, ktoré povoľuje pravidlo. Vyhnete sa tak vytvoreniu synonymných stránok (so znamienkom „/“ a bez neho, s nepotrebnou koncovkou.html, parametrami GET atď.), ale nechráni to pred duplikátmi, ak nie sú názov a popis pre stránky jedinečné.

Ak chcete implementovať túto metódu do súboru .htaccess, musíte zahrnúť nasledujúce pravidlo:

RewriteEngine na RewriteCond% (REQUEST_FILENAME)! -D RewriteCond% (REQUEST_FILENAME)! -F RewriteRule ^ (. *) $ Index.php

Okrem toho by ste mali vykonať potrebné kontroly v samotnom motore.

Metóda je veľmi zložitá a vyžaduje kontaktovanie špecialistov na vývoj.

  • Nevýhody: extrémne vysoký stupeň obtiažnosti.
  • Výhody: Zabraňuje zobrazovaniu stránok so synonymami.

Nájdenie neúplných trvá

1. Vyhľadávame pomocou správcu webu Google alebo služby Xenu

Algoritmus akcií v týchto službách je úplne rovnaký ako pri vyhľadávaní úplných duplikátov. Jediný rozdiel je v tom, že medzi nájdenými duplikátmi je potrebné vybrať tie stránky, ktoré majú rovnaký názov a/alebo popis, ale úplne odlišný obsah.

Ako výsledok vyhľadávania Google sme našli skupinu neúplných duplikátov (obr. 2).

Ryža. 2. Úplne iné novinky s duplicitnými metaúdajmi

2. Vyhľadávame vo vyhľadávacom paneli Yandex alebo Google

Stránky s čiastočne podobným obsahom, ale odlišnými metadátami nemožno pomocou vyššie uvedenej metódy zistiť. V tomto prípade budete musieť pracovať manuálne.

Najprv podmienečne zvýraznite rizikové zóny:

  • slabý obsah (bloky typu end-to-end presahujú objemom hlavný text stránky);
  • skopírovaný obsah (popisy podobných produktov);
  • prienik obsahu (oznamy, nadpisy / podadresáre, filtre, triedenie).

Vyberte viacero stránok z každej skupiny.

Pre názornú ilustráciu príkladu sme použili jednu z produktových kariet na stránke predajne nábytku, ktorá bola auditovaná v našej sekcii „Odbornosť“. Pravdepodobnosť, že sa tu objavia duplikáty, je pomerne vysoká, pretože na kartách prevládajú obrázky a komplexné bloky a jedinečný obsah je minimalizovaný.

Vo vyhľadávacom paneli Google uvádzame časť textu z popisu produktu v úvodzovkách a doménu lokality s operátorom site: (obr. 3).