Yinelenen İçerik: Nedenler ve Çözümler. Metin parçalarına göre içeriğin dahili ve harici kopyalarını aramak için programlar ve çevrimiçi hizmetler. İzleme ve sıralama için kullanılan URL parametreleri

  • 26.05.2019

Yinelenen içerik, düşük web sitesi sıralamasının ana sorunlarından biridir. arama motorları Ah. Bu sorun, sitede birbiriyle tamamen veya kısmen aynı olan sayfaların bulunmasından kaynaklanmaktadır. Doğal olarak, arama motorları için sitede çöp sayfaların bulunması ciddi problem, çünkü bunların işlenmesi için sunucu kapasitelerini harcamanız gerekir. Arama motorlarının bu tür yararsız içerikleri indeksleyerek fiziksel kaynakları boşa harcamasının bir anlamı yoktur. Bu nedenle, bu tür sitelere bir filtre uygulayarak savaşırlar veya sıralamada onları küçümserler, bu da terfi sorguları için düşük konumlara yol açar.

Yineleme ve SEO

Sitede yinelenen sayfaların varlığı, aşağıdakilere yol açar:

  • Yararlı bağlantı suyu bu işe yaramaz sayfalarda israf edilir.
  • Sonraki güncellemenin yerini aldıktan sonra yinelenen sayfa Açılış sayfası ve o yer kaybediyor.
  • Yinelenen içerik, yerleştirildiği tüm sayfaların benzersizliğini azaltır.
  • Arama motoru bu tür sayfalarla uğraşırken, onları aramadan kaldırırken, tanıtılan sayfayı da hariç tutabilir.

Yinelenenlerin sınıflandırılması ve bunları ortadan kaldırmak için çözümler

Kopyalar tam veya kısmi olabilir. Tam kopyalar, sayfaların tamamen aynı olduğu zamandır. Buna göre, kısmi kopyalar, sayfaların tam olarak eşleşmediği zamandır. Tam kopyalar, robots.txt ve 301 yönlendirme ayarı aracılığıyla ortadan kaldırılır. Sitede gerekli düzenlemeler yapılarak kısmi kopyalar elenir.

İşte yineleme sorununu belirlemek ve çözmek için geçmeniz gereken kontrol listelerinin bir listesi:

  • Yinelenenleri ara ana sayfa alan. Örneğin, ana sayfanın şu varyantları olabilir: http://www.domen.com/, http://www.domen.com/index.php, http://www.domen.com, http ://domen.com/, https://www.domen.com/, http://www.domen.com/index.html. Gördüğünüz gibi birçok seçenek var ama en iyi seçenek http://www.domen.com/. Ana sayfanın kalan kopyalarını ortadan kaldırmak için robots.txt dosyasında 301 yönlendirme ve kapatma kullanılır (https://www.domen.com/ gibi yapılarda.
  • Temeli kontrol etmek (SEO'nun altın kuralı) - her sayfa yalnızca bir adreste mevcut olmalıdır. Adresleri değiştiremezsiniz Aşağıdaki şekilde: http://www.domen.com/stranica1/stranica2/ ve http://www.domen.com/stranica2/stranica1/.
  • URL'deki değişkenlerin varlığını kontrol etme. Onlar, sayfanın adresinde olmamalıdır. Örneğin, http://www.domen.ru/index.php?dir=4567&id=515 gibi url'ler oluşturmak bir hatadır. doğru olacak sonraki seçenek URL: http://www.domen.ru/dir/4567/id/515.
  • URL'lerde oturum tanımlayıcılarının varlığının kontrol edilmesi. Örneğin, http://www.domen.ru/dir/4567/id/515.php?PHPSESSID=3451 gibi URL'lere izin verilmez. Bu tür URL'ler, her sayfanın sonsuz sayıda kopyasını içerir. Bu nedenle, robots.txt'deki tüm oturum tanımlayıcılarını kapatmak gerekir.

1. Soruna giriş

Şu anda, İnternette bilgi çoğaltma sorunu giderek daha akut hale geliyor. Çoğu zaman, bu tür çoğaltma, telif hakkını ihlal ederek kasıtlı olarak yapılır. Saldırganlar, kendilerine fayda sağlamak için kendi sitelerini doldurmak için telif hakkıyla korunan içeriği kullanır.

Bu tür bilgi tekrarı, arama motorlarının yayınlanmasını kötüleştirir, bunun sonucunda ikincisi bu fenomenle aktif olarak mücadele eder. Gerçekten de, kullanıcı istek üzerine 10 alırsa özdeş belgeler(“aynılık” kullanıcı tarafından ' tarafından tanımlanır), bu arama motorunun popülaritesine pek katkıda bulunmaz. Birkaç yıl önce, bu durum Rambler'de gözlendi ve bunun sonucunda arama motorunun derecelendirmesinin bir kısmını kaybetti. Ancak, şimdi Rambler kopyaları filtreler ve gizler.

Ayrıca içeriğin tekrarlanmasının arama motoru dizinini tıkadığı, kullanıcıya hızlı yanıt vermenin zorlaştığı da unutulmamalıdır. Aynı zamanda, tüm belgelerin düzenli olarak indekslenmesi gerekir ve orijinal olmayan içeriğe sahip yeni belgelerin ortaya çıkması, indeksleme hızına açıkça zarar verir.

2. "Bulanık kopyalar" tanımı için teori

a. "Bulanık çift" nedir

İlk önce terminolojiye karar vermelisiniz. oybirliği ile görüş bu konuda henüz yok ve bu nedenle bu terminoloji sağduyudan uzak duruyor.

Bir web belgesinin çoğaltılması (kopyalanması)Tam kopya web belgesi. Bir web belgesinin "bulanık kopyası"– içerik ve/veya biçimlendirme açısından kısmen değiştirilmiş bir web belgesi (diğer html etiketleri sayfa düzeni için).

"Yinelenen web belgesini" kullanıcı açısından değil, yalnızca arama motorunun bakış açısından yorumlayacağız. Bu nedenle, "metin yazarlığı" gibi bir fenomeni, yani. metni özellikle arama motorları için başka kelimeler kullanarak yeniden yazmak, ancak korumak sağduyu. Arama motoru için böyle bir metin her zaman orijinal olacaktır, çünkü. Bilgisayarlar hala metnin anlamını ayırt edemiyor.

Yinelenenleri belirlemek için birkaç temel yöntem vardır.

B. "Tanımlayıcı kelimeler" yöntemi

Bu yöntem aşağıdaki prensibe göre çalışır.

Önce küçük (yaklaşık 2000-3000 kelime) bir örnek oluşturulur. Numune aşağıdaki koşulları sağlamalıdır:

Yardımı ile ağdaki hemen hemen her belgeyi tam olarak tanımlayabilirsiniz.
- belgenin açıklaması gereksiz olmamalıdır

Bu nedenle, bir örnek oluşturmak için en çok ve en az yaygın olan kelimeleri, yani. durak kelimeleri ve çeşitli dar tematik terimleri dikkate almayın. Ayrıca, Rusça'da anlamsal bir yük taşımadıkları için sıfatlar örneğe girmez.

Daha sonra, her belge numune ile karşılaştırılır ve boyutu numunedeki kelime sayısına eşit olan bir vektör hesaplanır. Vektör bileşenleri iki değer alabilir - 0 veya 1. 0 - örnekteki kelime belgede değilse, 1 - kelime belgede bulunursa. Daha sonra, vektörleri eşleştirilerek dokümanlar mükerrerlik açısından kontrol edilir.

Bu algoritmaya göre Yandex, bulanık kopyalar.

C. zona yöntemi

Çakıl yöntemi aşağıdaki gibidir. Analiz edilen metnin tüm alt dizileri için bir "sağlama toplamı" hesaplanır. Bir sağlama toplamı (veya "imza"), bazı metne ve/veya onu hesaplamak için bir işleve atanan benzersiz bir sayıdır. Hesaplama işlevi sağlama toplamı birkaç hedefi takip edebilir: örneğin, "kırılmazlık" (sağlama toplamının değerinin orijinal metinle eşleşmesi için kullanılma olasılığını en aza indirir) veya "tekrarlanamazlık" (iki farklı metnin aynı sağlama toplamına sahip olma olasılığını en aza indirir) - elektronik dergi"Spam testi" hayır. 27.

Sağlama toplamlarını hesaplamak için aşağıdaki algoritmalar yaygın olarak kullanılır: fnv, md5, crc. Sağlama toplamları hesaplandıktan sonra, elde edilen kümeden rastgele bir örnek oluşturulur. Bu örneğe dayanarak, belge, örneğin önceden hesaplandığı diğer belgelerle karşılaştırılabilir.

Bu hesaplama yöntemi oldukça kaynak gerektirir ve metni biraz değiştirerek atlanabilir, çünkü her şeyden önce zona kelimeler arasındaki mesafeye bağlıdır.

Şimdi shingle yöntemi, sınırlı bir sağlama toplamına mal olan "süper shingle" algoritmasına dönüşmüştür. ROMIP'deki deneyler şu sonuçlara yol açtı - 84 zona, 6 süper zona ve her biri 14 zona. 6 süper shingle'dan en az ikisi eşleşirse metinlerin eşleştiği kabul edilir.

Yetkililer defalarca Yandex'in bir yorumcu olmadığını ve savaşmayacağını belirtti. çevrimiçi içerik hırsızlığı sorunu.

İşte A. Sadovsky'nin resmi cevabı:

... Yandex arama, kopyaları algıladığında orijinal belgeyi belirlemeye çalışır. Mevcut algoritmalar elbette kusurludurlar ve onları geliştirmek için çalışıyoruz. Yasal düzenleme ile ilgili olarak, arama motorları metnin yazarlığını henüz belirleyememektedir. Sahte içeriğin ağdan kaldırılması durumunda (örneğin, telif hakkı sahibinin eylemlerinin bir sonucu olarak), Yandex de robot tarafından atlandığı için veri tabanından kaldıracaktır. Bu işlem, http://webmaster.yandex.ru/delurl.xml formu kullanılarak hızlandırılabilir.

Şimdi düşünün, Yandex için “yinelenen belge” nedir? Yazar aşağıdaki yorumu sunar. (Aşağıdaki metin size tanıdık geldiyse, o zaman kötü düşünmeyin, yazar çok uzun zaman önce aktif olarak tartışmaya çalıştı. bu sorun forumlarda

İki tür kopya vardır: "bulanık kopyalar" ve "tam kopyalar".

"Bulanık Kopyalar" snippet'e bağlıdır, yani. kullanıcının gerçek isteği tarafından belirlenir. Aşağıdaki şekilde gerçekleşir.

1. Kullanıcı bir istek belirler.
2. Yandex, sitelerin sorguyla alaka düzeyini hesaplar ve siteleri sıralar, ancak henüz kullanıcıya göstermez.
3. Ardından, Yandex, kopyaları belirlemek için seçilen belgelerin parçacıklarını karşılaştırır (belki parçacıklar, zona yöntemi kullanılarak karşılaştırılır).
4. Son olarak, bazı kopyaları kaldırarak filtrelenmiş bir çıktı üretir (belirli belgelerin hangi temelde kaldığı açık değildir; belki en alakalı belge seçilir ve ona en az benzeyen belgeler onunla çıktıya girer; belki sadece referans bir rol oynar) site ortamı).

Bu tür bir filtrenin varlığı, Sadovski'nin sözleriyle (post # 9) dolaylı olarak kanıtlanmıştır. çeşitli ayarlar arama (özellikle, sorgu sözcükleriyle birlikte görüntülenen parçaların sayısı) farklıdır.

"5 parçadan fazla gösterme" ayarlarıyla, arama sonuçlarında "1 parçadan fazla gösterme" ayarlarından daha fazla site var. "Özetin & ikinci & bölümünde & bölümünde & & pratik & pazarlama & faaliyetler & organizasyon & on & örnek & sunucu & dux" sorgusunu deneyelim (sorgu tırnak işaretleri olmadan belirtilmiştir!) - ilk durumda ( snippet'te 1 parça) çıktı 21 sitesinde, ikinci (5 parça) - 27 sitede göster.

Buradaki her şey mantıklıdır - bir pasajda bir pasaj görüntülerken, pasajlar bir pasajda 5 pasaj görüntülerken olduğundan daha benzerdir. Örneğin, ikinci durumda, ikinci sitenin snippet'i, birinci ve üçüncü sitelerin snippet'lerinden farklıdır.

Şimdi "tam kopyalar" ile ilgilenelim. Yazar, bu tür kopyaların sayfa indeksleme sırasında belirlendiğine inanmaktadır. Bu kullanışlıdır, çünkü hemen çöpü kesmenize ve arama motoru veritabanına yinelenen bilgiler eklemenize izin vermez.

Yinelenenleri tespit etme yöntemi "açıklayıcı sözcükler yöntemidir" (yukarıda tartışılmıştır).

Tam kopya olarak tanımlanan sayfalar veritabanından atılır. Bu genellikle bir sitenin sayfalarında olur (örneğin, bir ürün kataloğu, anlamlı bilgi gezinme bölümündeki kelimelerden çok daha az). Yandex'in bunları veya bu kopyaları hangi ilkeye göre attığı, büyük olasılıkla, geçici faktörler, “kaynak derecelendirmesi”, kaynağa güven vb. Gibi işaretlerin bir kombinasyonu ile bilinmemektedir.

Yandex, "bulanık kopyaların" tespiti durumunda orijinal kaynağı nasıl belirler ve bunu belirler mi? Hadi anlamaya çalışalım...

Öncelikle içeriğin orijinal kaynağını gösterebilecek faktörleri öne çıkarıyoruz...

Belge oluşturma tarihi
- belgenin sorguyla alaka düzeyi
- "kaynağa güven" (örneğin, Yandex Kataloğu'nda iyi bir konuma sahip kaynaklara güvenebilirsiniz ve yüksek katılım)
- kopyalar arasında bağlantı kurma (örneğin, tüm kopyalar aynı belgeye atıfta bulunuyorsa, orijinal kaynaktır)

Küçük bir deney yapalım. href=http://zoom.cnews.ru/ru/publication/index.php?art_id80=1523 sayfasını ve "Lumix FZ50'nin tasarımı, 8 megapiksellik selefi FZ30'a benzer" ifadesini ele alalım. Açıkçası bu orijinal. Şimdi makalenin metnini başka kimlerin kullandığını görelim: rd=0 parametresini kullanarak bir sorgu oluşturalım. Sayıda rd olmadan, sadece 1 ve 5 numaralı site.

Sitelerin özellikleri aşağıdaki gibidir (yalnızca ilk sayfaya bağlantı verdiklerini, geri kalanların geri bağlantılarının olmadığını unutmayın):

köy TİK Katalog kategorisi halkla ilişkiler halkla ilişkiler sayfaları
zoom.cnews.ru/ru/publication/index.php?art_id80=15233800 Evet6 4
www.neograd.ru/firsttimers/howtofind_1/panasonic/test_panasonic_fz50170 Evet5 0
www.apitcomp.ru/analytic/genre3/page637700 Evet4 0
www.toplist.ru/card/35859110 Değil3 0
foto-focus.ru/forum/showthread.php?mode=hybrid&t=3160 Değil1 0
nmp4.ru/index.php?act=Print&client=printer&f=223&t=33230 Değil0 0
www.media.nrd.ru/index.php?showtopic=3323&st=10040 Değil0 0
www.ledshop.ru/cgi-bin/nph-proxy.cgi/010110A/http/zoom.cnews.ru/ru/publication/index.php=3fart_id80=3d15230 Değil0 0

Tüm siteler için snippet'lerin aynı olduğunu unutmayın.

İlk bakışta Yandex'in beşinci site dışındaki tüm siteleri neden filtrelediği tamamen açık değil. Site açıkça Yandex'in gözünde yetkili değil. Sayfayı arama sonuçlarında www.apitcomp.ru sitesinden bırakmak daha mantıklı olacaktır - site daha yetkilidir veya sayfaları forumlardan terk eder (konum 6 ve 7).

Benzer şekilde, http://www.3dnews.ru/digital/lumix_fz50/ sayfasını ve "Zamanımızda, susamış alıcılar olduğunda" ifadesini kontrol edeceğiz. iyi performans". Kalın, rd=0 olmadan gösterilen sitelerdir, kırmızı, bu arada filtrelenmiş orijinal kaynaktır!

SayfaTİKYAÇALSLPhalkla ilişkilerSayfaPR
satürn-plus.ru/ 70 Evet54 20349 3 3
saturn.24online.ru/0 Değil1 1 0 0
www.3dnews.ru/digital/lumix_fz50/print 11000 Evet0 0 6 2
www.fotomag.com.ua/handbook14.html400 Evet0 0 4 0
deshevshe.net.ua/ua/review-73/4.html80 Değil0 0 4 0
ephotolink.ru/?mod=articles&act=show&sort=date&page=91400 Evet0 0 4 1
mobil-up.com/tsifra/foto/novoe_pokolenie_ultrazumov_ot_panasonic.html0 Değil0 0 0 0
uaport.net/UAit/?CGIQUERY=0&lang=RUS&cli=1&dtb=146&… 4300 Evet0 0 6 0
www.velc.ru/podderjka/stati/lumix_fz50/120 Evet0 0 3 0
ephotolink.tkat.ru/?mod=articles&id_article=2100710 Değil0 0 3 0
www.ru-coding.com/rss.php?p=501130 Evet0 0 3 0
www.toprunet.com/article.php?id=6388200 Değil0 0 3 0
www.dphotoshop.com.ua/camera/from/2/90 Değil0 0 4 0
www.asmedia.ru/news/id8242.html400 Değil0 0 3 0
www.mega-bit.ru/obzor/read/?id=70 40 Değil0 0 3 0
www.audiovideophoto.ru/panasonic1.html0 Değil0 0 0 0
www.foto-piter.ru/news/2006/12/01/127/10 Değil0 0 2 0
www.megastoke.ru/item951928/panasonic-lumix-dmc-fz50.html20 Değil0 0 1 0
www.novoe.nnov.ru/articles/?parent_id=330 Değil0 0 0 0
iwy.com.ua/top.php?p=3260 Değil0 0 0 0
www.5-uglov.ru/articles_view.php?id_news=122290 Evet0 0 3 0
www.techhome.ru/catalog/photo/article_17112.html950 Evet0 0 5 3
www.panasonic-spb.ru/articles_view.php?id_news=12220 Değil0 0 1 0
new-articles.ru/page_215.html40 Değil0 0 3 0
www.ekvator-hifi.ru/articles_view.php?id_news=122210 Değil0 0 1 0
shop.key.ru/shop/goods/36608/230 Değil3 18 4 0
www.pc-shop.kz/index.php?g_id=1711 Değil0 0 3 0
Portalink.ru/portal/ecamera/infoat_15269.htm 110 Değil0 0 3 3
www.rusdoc.ru/articles/13085/1100 Evet3 13 5 1
www.docs.com.ru/articles.php?p=509220 Değil0 0 4 0
e-libed.ru/a31/0 Değil1 17 0 0
dvdlink.ru/portal/Ecamera/infoat_15269.htm140 Değil0 0 3 0
www.articlesearch.ru/a3b856d85.html0 Değil0 0 0 0
www.bestarticles.ru/a31/0 Değil1 5 2 0
www.temu.ru/a31/0 Değil0 0 2 0

LP - yönlendiren sayfalar, LS - yönlendiren siteler, Sayfa PR - PR sayfaları, sitenin ana sayfasının PR - PR.

Benzer bir resim - filtreleme kriterleri tamamen belirsiz. Ancak, snippet'lere bakarsak, uaport.net, www.megastoke.ru, portalink.ru sitelerindeki sayfaların diğer sitelerin snippet'lerinden biraz farklı snippet'lere sahip olduğunu ve bu nedenle birinci ve üçüncü sitelerin olduğunu göreceğiz. filtrelenmemiş.

Sonunda ne demeli? Her şeyden önce, elbette, hala çok fazla denemeniz ve analiz etmeniz gerekiyor, ancak "bulanık kopyaları" filtreleme kararının, ana kısmı snippet'in orijinalliği olan birçok faktörün analizine dayandığı zaten açık. .

4. Google ve yinelenen içerik

Google, siteleri yalnızca yeni ve benzersiz içerikle kullanıcı isteklerine göndermeye çalışır.

Google, kullanıcıların arama sonuçlarında yinelenenleri görmek istemediğini düşünür, bu nedenle bu belgeler öneri sonuçlarında gizlenir. Kullanıcı yine de kopyaları görmek istiyorsa (örneğin, bu, sitesinden kimin içerik çaldığını bulmak isteyen bir web yöneticisi), URL'nin sonuna "&filter=0" parametresini eklemelidir.

Google, içeriğin yazarını tanımlamanın aramayı iyileştirmeye yardımcı olacağına inanmaktadır. Bununla birlikte, bir belgenin oluşturulma tarihini sabitleme veya yazarlar tarafından içeriğin kayıt altına alınması gibi kaynak belirleme yöntemlerinin Özel servis etkili değiller. Şimdiye kadar Google, çoğunlukla kaynağın yetkisine ve gelen bağlantıların sayısına odaklandı. Bu nedenle, iyi bilinen bir kaynak bir makaleyi, örneğin özel bir kaynaktan ödünç aldığında, çoğunluğun makaleyi ondan öğrendiği bir durum oldukça mümkündür. bilinen kaynak ve ona bağlantılar koyun; sonunda Google, bilinen siteyi orijinal kaynak olarak belirleyecektir...

Aynı sitede yinelenen içerik olması durumunda (örneğin, orijinal sayfa ve yazdırılan sayfa), Google, web yöneticilerinin robots.txt dosyasını aktif olarak kullanmasını önerir. Ayrıca, yinelenen içeriğe yol açabileceğinden, oturum tanımlayıcılarını kullanmayı bırakmanız da önerilir. Onlar. Arama motoru aynı sayfayı dizine ekleyebilir, ancak farklı bir url ile sessid parametresinin farklı bir değeri ile.

5. Neyi deneyebileceğiniz ve bunu en iyi nasıl yapabileceğiniz

Böylece, içeriğin çoğaltılması sorununun ana noktalarını öğrendik. Filtrenin ilkeleri (özellikle Yandex) oldukça basittir, ancak çeşitli faktörlerin nasıl dikkate alındığını tam olarak belirlemek oldukça zordur.

Toplamda, deneysel olarak kontrol edilmesi gerekenler:

Kopyalar, düzenleme sırasında nasıl filtrelenir? Hangi prensibe göre?
- "Tanımlayıcı kelimeler" yöntemi - kelime örnekleri nasıl oluşturulur ve vektörler nasıl karşılaştırılır?
- "Tam kopyalar" hangi ilkeye göre atılır?

Aşağıdakileri önerebilirsiniz:

Orijinal içerikli bir site oluşturuyoruz. Dizine eklenmesi için biraz spam yapın. Ardından, belirli sayıda klon (yinelenen) oluştururuz. Klonlar çeşitli şekillerde yapılabilir: orijinal kaynağın kelimelerini karıştırın, yeniden yazın, ayrı paragraflar alın. Klonlar hem ayrı sitelere yerleştirilebilir (normal ve düzenli barındırma) ve üzerinde iç sayfalar Siteler. Klonları kısmen spam yapabilirsiniz. Ardından sonucu spekülatif olarak değerlendirir ve sonuçlar çıkarırız.
- Yukarıda açıklanan yöntemi kullanarak "bulanık kopyaların" filtrelenme ilkelerini belirleyebilirsiniz, yani. sadece filtrelenmiş siteleri analiz ederek.

6. Ek okuma

Yinelenen içerik veya yalnızca yinelenenler, sitenizdeki birbiriyle tamamen (açıkça yinelenenler) veya kısmen (belirsiz yinelenenler) aynı olan ancak her sayfanın farklı bir URL'si olan sayfalardır. Bir sayfada bir veya daha fazla kopya olabilir.

Yinelenen içerik sitede nasıl görünür?

Hem net hem de bulanık çekimler için birkaç neden vardır. Aşağıdaki nedenlerle net kopyalar oluşabilir:

  1. Sitenin CMS'si nedeniyle görünürler. Örneğin, WordPress'te answertocom'u kullanmak, yeni yorumlar eklerken, yalnızca URL'de farklılık gösteren otomatik olarak yeni sayfalar oluşturur.
  2. Web yöneticisi hatalarının bir sonucu olarak.
  3. Site yapısındaki değişikliklerden dolayı. Örneğin, yeni URL'lerle güncellenmiş bir şablon uygularken.
  4. Site sahibi tarafından yapılmıştır belirli işlevler. Örneğin, yazdırılabilir metin sürümleri olan sayfalar.

Sitenizdeki bulanık kopyalar aşağıdaki nedenlerle görünebilir:

Yinelenen içerik siteye neden zararlıdır?
  1. Arama sonuçlarındaki tanıtımı olumsuz etkiler. Arama robotları, yinelenen içeriğe karşı olumsuz bir tutuma sahiptir ve benzersizlik eksikliği ve dolayısıyla müşteri için kullanışlılığı nedeniyle arama sonuçlarındaki konumları düşürebilir. Aynısını okumak anlamsız farklı sayfalar alan.
  2. Gerçekten alakalı sayfaları değiştirebilir. Robot, içeriğinin sorguyla daha alakalı olduğunu düşünürse yinelenen bir sayfa yayınlamayı seçebilir. Aynı zamanda, çiftin kural olarak göstergeleri vardır. davranışsal faktörler ve/veya bağlantı kütlesi bilerek tanıtımını yaptığınız sayfanınkinden daha düşük. Ve bu, çiftin en kötü pozisyonlarda gösterileceği anlamına gelir.
  3. Doğal bağlantıların kaybına yol açar. Kullanıcı bir prototipe değil, bir kopyaya bağlantı kurduğunda.
  4. Dahili link ağırlığının yanlış dağılımına katkıda bulunur. Yinelenenler, tanıtılan sayfaların ağırlığının bir kısmını üstlenir ve bu da arama motorlarında tanıtımı engeller.
Kopyalarınız olup olmadığı nasıl kontrol edilir?

Site sayfalarının kopyaları olup olmadığını öğrenmenin birkaç yolu vardır.


Kopyaları buldunuz mu? Onları nasıl etkisiz hale getireceğimizi okuyoruz:
  1. 301 yönlendirmesi Bu yöntem, sitenizdeki gereksiz kopyalardan kurtulurken en güvenilir olarak kabul edilir. Yöntemin özü, arama robotunu kopya sayfadan ana sayfaya yönlendirmektir. Böylece robot ikiliyi atlar ve yalnızca istenen sayfa alan. Zamanla, bir 301 yönlendirmesi ayarladıktan sonra, yinelenen sayfalar birbirine yapışır ve dizinden düşer.
  2. Etiket . Burada arama motoruna indeksleme için ana sayfaya sahip olduğumuzu söylüyoruz. Bunu yapmak için, her çekimde girmeniz gerekir özel kod arama robotu için , ana sayfanın adresini içerecektir. Bu tür işleri manuel olarak yapmamak için özel eklentiler bulunmaktadır.
  3. robots.txt dosyasında izin verme. robots.txt dosyası, bir arama robotu için hangi sayfaların dizine eklenmesi ve hangilerinin dizine eklenmesi gerektiğini belirten bir tür talimattır. İndekslemeyi yasaklamak ve kopyalara karşı mücadele etmek için şunu kullanın: izin verme yönergesi. Burada da bir 301 yönlendirmesi kurarken yasağı doğru yazmak önemlidir.
Arama motoru dizininden kopyalar nasıl kaldırılır?

Yandex'e gelince, kopyaları bağımsız olarak dizinden kaldırır: doğru ayar robots.txt dosyası. Ancak Google için, Google Web Yöneticisi aracılığıyla "URL Parametreleri" sekmesindeki kuralları yazmanız gerekir.

Yinelenen içeriği kontrol etme ve ortadan kaldırma konusunda herhangi bir zorluk yaşıyorsanız, her zaman uzmanlarımızla iletişime geçebilirsiniz. Tüm şüpheli öğeleri bulacağız, bir 301 yönlendirmesi ayarlayacağız, robots.txt, rel="canonical", Google'da ayarları yapacağız. Genel olarak, sitenizin verimli çalışması için tüm çalışmaları yapacağız.

Yinelenen içerik bölünebilir üç büyük kategori: iki URL'nin tamamen aynı içeriğe sahip olduğu tam kopya, küçük farklılıklar içeren içerik(cümlelerin sırası, biraz farklı resimler vb.) ve etki alanları arası kopyalar, birçok alanda tam veya biraz değiştirilmiş bir kopyanın bulunduğu.

Sayılmayan iki ilgili kavram var Google temaları yinelenen içerikle aynıdır, ancak genellikle yayıncıları ve deneyimsiz SEO'ları karıştırır:

  • ince içerik - daha önce belirtildiği gibi, bunlar çok az içeriğe sahip sayfalardır. Örnek olarak, 5.000 adresi olan, ancak her sayfada yalnızca bir adres, yalnızca birkaç satır bulunan bir iş adresleri listesi üzerine oluşturulmuş bir sayfa grubu verilebilir;
  • kesme içeriği Bu kategori, birbirinden biraz farklı olan sayfaları içerir. 37, 37.5, 38, 38.5, 39, ... 46 numaralarında Nike Air Max ayakkabı satan bir site hayal edin. ayrı sayfa her ayakkabı numarası için, tüm bu sayfalar arasındaki fark önemsiz olacaktır. Google bu efekti çağırıyor ince kesim.

Google, ince içeriği veya ince kesimleri sevmez. Bu etkilerden herhangi biri Panda algoritması tarafından tespit edilebilir. . Bing'in içerik çoğaltma, ince içerik ve içerik dilimleme arasında tam olarak nasıl bir ayrım yaptığı açık değildir, ancak yayıncıların bu tür sayfaları oluşturmaktan kaçınmaları gerektiği açıktır.

Yinelenen içerik, sitenizin içeriğinin lisanslanması, arama motorları için optimize edilmemiş bir içerik yönetim sistemi nedeniyle site mimarisindeki kusurlar veya intihal gibi birçok nedenden dolayı ortaya çıkabilir. Son beş yılda, içeriğe aç spam gönderenler, meşru kaynaklardan içeriği sıyırmaya, kelimeleri çeşitli karmaşık işlemlerle yeniden düzenlemeye ve ortaya çıkan metni sayfalarında yayınlamaya başladı. uzun kuyruk ve içeriğe dayalı reklamcılığın yanı sıra diğer onursuz amaçlar için görüntüleme.

Dolayısıyla bugün "yinelenen içerik sorunları" ve "yinelenen içerik cezaları" dünyasında yaşıyoruz. İşte tartışmamız için faydalı olacak bazı tanımlar.

  • Benzersiz içerik- bir insan tarafından yazılmış, diğer tüm harf, sembol ve kelime kombinasyonlarından tamamen farklı. Dünya çapında Ağ, etkilenmemiş bilgisayar algoritmaları metin işleme (Markov zincirlerini kullanan spam araçları gibi).
  • Parça - bunlar, tekrar tekrar kopyalanan ve kullanılan küçük içerik parçalarıdır (tırnak işaretleri gibi). Özellikle çok sayıda benzersiz içeriğe sahip daha büyük bir belgeye dahil edildiğinde, arama motorları için neredeyse hiçbir zaman sorun oluşturmazlar.
  • Zona hastalığı - arama motorları, World Wide Web'deki diğer sayfalarda nispeten küçük kelime öbekleri (beş ila altı kelime) arar. İki belge çok fazla zona paylaşırsa, arama motorları bu belgeleri kopya içerik olarak yorumlayabilir.
  • Yinelenen İçerik Sorunları - bu ifade genellikle sitenin cezalandırılabileceği yinelenen içeriği belirtmek için kullanılır. Bu tür içerik sadece bir kopyadır mevcut sayfa, arama motorunu dizinde hangi sürümün görüntüleneceğini seçmeye zorlar (bu, yinelenen içerik filtresi).
  • Yinelenen içerik filtresi - sağlamak için arama motorunun benzer içeriği arama sonuçlarından çıkardığı bir durum. En iyi skorlar kullanıcı.
  • Yinelenen İçerik Cezası - para cezaları (cezalar) nadiren ve sadece bariz durumlarda uygulanır. Arama motorları sitenin geri kalan sayfalarını sıralayabilir veya yasaklayabilir ve hatta tüm web sitesini yasaklayabilir.

Yinelenen içeriğin sonuçları

Yinelenen içeriğinizin, geliştiricilerinizin zararsız bir gözetiminin sonucu olduğunu varsayarsak, arama motoru, yinelenen içeriğin yalnızca bir sürümünü arama sonuçları sayfalarında göstermek istediğinden, yinelenen sayfalardan biri hariç hepsini filtreleyecektir. Bazı durumlarda arama motoru sonuçları dizine eklenmeden önce filtreleyebilir, diğer durumlarda ise belirli bir sorguya yanıt olarak arama sonuçlarını hazırlarken sayfayı dizine kabul edebilir ve filtreleyebilir. Bu ikinci durumda, sayfa bazı yanıtlara göre filtrelenebilir. belirli istekler ve diğerleri için filtrelenmez.

Kullanıcılar sonuçlarda çeşitlilik görmek ister (tekrar tekrar aynı sonuçları değil). Bu nedenle, arama motorları yinelenen içeriği filtrelemeye çalışır ve bunun aşağıdaki sonuçları olur:

  • Arama motoru robotu, siteye her bir oturumda görüntülemeyi planladığı sayfa sayısı cinsinden ifade edilen belirli bir görüntüleme bütçesiyle gelir. Arama sonuçlarından filtrelenmesi gereken yinelenen bir sayfaya her çarptığında, robotun tarama bütçesinin bir kısmını boşa harcamasına izin veriyorsunuz. Bu, "iyi" sayfalarınızın daha azının görüntüleneceği ve daha az sayfanızın arama motoru dizinine dahil edilmesiyle sonuçlanacağı anlamına gelir;
  • Arama motorları yinelenen içeriği filtrelemeye çalışsa da, yinelenen içerik sayfalarına giden bağlantılar yine de onlara bağlantı suyunu iletir. Bu nedenle, yinelenen sayfalar PageRank veya bağlantı suyu alabilir ve bu, sıralamalarına yardımcı olmadığı için bu kaynak boşa harcanır;
  • arama motorlarının hiçbiri, algoritmalarının sayfanın hangi sürümünü göstereceğini nasıl seçtiğine dair net bir açıklama yapmadı. Başka bir deyişle, aynı içeriğin üç kopyasını bulursa, hangi ikisini filtreleyecek? Hangisi gösterecek? bağlı mı arama sorgusu? Sonuç olarak, arama motoru ihtiyacınız olan yanlış sürümü gösterebilir.

Bazı optimizasyon uzmanları burada sunulan bazı noktalarla tartışsa da, Genel yapı pratikte kimse itiraz etmez. Ancak, bu modelin sınırları boyunca çeşitli sorunlar vardır.

Örneğin, sitenizde bir grup ürün sayfası ve bu sayfaların yazdırılabilir sürümleri vardır. Arama motoru, sonuçlarında yazdırılabilir sürümü görüntülemeyi seçebilir. Bu bazen olur ve yazdırılabilir sayfada daha az bağlantı suyu ve ana ürün sayfasından daha düşük bir sıralama olduğunda bile olabilir.

Bunu düzeltmek için, ana sürümü belirtmek için sayfanın tüm yinelenen sürümlerine rel="canonical" bağlantı özniteliğini uygulayın.

İkinci seçenek, içeriğinizi üçüncü taraflara dağıttığınızda (içeriğinizin yeniden yazdırılmasına izin verdiğinizde) görünebilir. Sorun, arama motorunun orijinal belgenizi arama sonuçlarından çıkarabilmesi ve makalenizi yeniden yazdıran kişinin kullandığı sürümü tercih edebilmesidir. Bu sorunun üç olası çözümü vardır:

  • makalenizi yeniden yayınlayan kişinin sitenizdeki orijinal makaleye rel=”canonical” özniteliği ile bağlantı vermesine izin verin. Bu, arama motorlarına sayfanızın kopyasının orijinal olduğunu gösterecek ve ortak sayfaya işaret eden tüm bağlantılar orijinal sayfanıza yansıtılacaktır;
  • sendikasyon ortağınızın kopyalarını noindex özniteliği ile kapatmasını sağlayın. Bu durumda, yinelenen içerik dizine eklenmez. arama motoru. Ayrıca, bu içerikte sitenize verilen herhangi bir bağlantı yine de size yetki aktaracaktır;
  • ortağınızın sitenizdeki orijinal sayfaya geri dönmesini sağlayın. Arama motorları genellikle bunu doğru yorumlar ve içeriğinizin sürümünü vurgular. Bununla birlikte, Google'ın hatalı bir şekilde içerik atfettiği ve onu yeniden yayınlayan siteye yazarlık atadığı, özellikle de bu sitenin içeriğin gerçek orijinal kaynağından çok daha fazla yetki ve güvenilirliğe sahip olduğu durumlar olduğuna dikkat edilmelidir.

Arama motorları yinelenen içeriği nasıl tanır?

Google motoru için World Wide Web'de yinelenen içerik arama sürecini örneklerle göstereceğiz. Şekil l'de sunulan örneklerde. 1-4, üç varsayım yapılır:

  • metin içeren bir sayfa, yinelenen içerik içeren bir sayfadır (ve şekillerde gösterildiği gibi yalnızca bir parçası değil);
  • yinelenen içeriğe sahip tüm sayfalar farklı alanlar;
  • aşağıda gösterilen adımlar yapmak için basitleştirilmiştir kolay süreç ve anlaşılabilir (mümkün olduğunca). bu kesinlikle değil doğru açıklama Google'ın işi ama anlam taşır.

Pirinç. 1

Pirinç. 2

Pirinç. 3

Pirinç. 4

Yinelenen içerik sorunları konusunda yeni olan bir web yöneticisi için kafa karıştırıcı olabileceğinden, yinelenen içerik hakkında özel olarak anılmayı hak eden birkaç gerçek vardır. Bu faktörleri ele alalım.

  • Yinelenen içeriğin konumu - tüm bu içerik sitemdeyse, kopya mı? Evet, çünkü yinelenen içerik hem aynı site içinde hem de farklı sitelerde olabilir.
  • Yinelenen içeriğin yüzdesi - Yinelenen içerik filtrelemeye hak kazanmak için bir sayfanın yüzde kaçı çoğaltılmalıdır? Ne yazık ki, arama motorları bu bilgiyi asla ifşa etmez, çünkü bu, sorunun kendisini önleme yeteneklerine zarar verir.
  • Bu yüzdenin tüm motorlar için sürekli değiştiği neredeyse kesindir ve yinelenen içerik tespit edildiğinde sadece doğrudan bir karşılaştırma yapılmaz. Sonuç olarak, sayfaların kopya olarak kabul edilmesi için aynı olması gerekmez.
  • Kod ve metin arasındaki ilişki - Ya kodumuz çok büyükse, ancak sayfada birkaç benzersiz HTML öğesi varsa? Google, tüm sayfaların birbirinin kopyası olduğunu düşünmez mi? Numara. Arama motorları kodunuzla değil, sayfalarınızın içeriğiyle ilgilenirler. Kod boyutu, yalnızca aşırı olduğunda bir sorun haline gelir.
  • Gezinme öğelerinin ve benzersiz içeriğin oranı - sitemdeki tüm sayfalarda büyük bir gezinme çubuğu, çok sayıda üstbilgi ve altbilgi var, ancak çok az içerik var. Google, tüm bu sayfaların kopya olduğunu düşünmez mi? Numara. Google (Yahoo! ve Bing'in yanı sıra), sayfaları kopyalar için değerlendirmeden önce gezinme öğelerini dikkate alır. Web sitelerinin düzenine çok aşinadırlar ve tüm sayfalarda (veya birçoğunda) tutarlı yapılara sahip olmanın tamamen normal olduğunu anlarlar. Sayfaların benzersiz bölümlerine dikkat ederler ve gerisini neredeyse tamamen görmezden gelirler.
  • Lisanslı içerik - Yinelenen içerik sorunlarından kaçınmak istiyorsam ancak ziyaretçilerime göstermek için lisansladığım diğer web kaynaklarından içeriğim varsa? Code meta name = "robots" content="noindex, izleyin" kodunu kullanın. başlık sayfanız ve arama motorları bu içeriğin onlar için olmadığını bilecektir. Bu en iyi uygulamadır çünkü insanlar bu sayfayı ziyaret etmeye ve bu sayfaya bağlantı vermeye devam edebilecek ve bu sayfadaki bağlantılar değerlerini koruyacaktır.

Başka bir seçenek de bu içeriğe sahip olmak ve yayınlamak için münhasır haklar elde etmektir.

Telif hakkı ihlallerinin belirlenmesi ve ortadan kaldırılması

Biri daha iyi yollar Sitenizdeki kopyaları izlemek, World Wide Web'de içeriğinizi kullanan sayfaları anında görmenizi sağlayan CopyScape'i (copyscape.com) kullanmaktır. Bu sitelerin sayfaları bir alt dizindeyse veya sizinkinden önemli ölçüde daha düşük bir sıralamaya sahipse endişelenmeyin - bazı büyük, yetkili, zengin içerikli alan, materyalinin World Wide Web'deki tüm kopyalarıyla savaşmaya çalıştıysa, en az iki tam zamanlı çalışana ihtiyaç duyacaktır. Neyse ki, arama motorları bu tür sitelere güvenir ve bu nedenle onları orijinal kaynak olarak tanır.

Öte yandan, nispeten yeni bir siteniz varsa veya az sayıda gelen bağlantıya sahip bir siteniz varsa ve intihalciler sürekli olarak sizden daha üst sıralarda yer alıyorsa (veya bazı güçlü siteler işinizi çalıyorsa), yapabileceğiniz şeyler var. Seçeneklerden biri, yayıncıya hak ihlalinde bulunan içeriği kaldırmasını isteyen bir istek göndermektir. Bazı durumlarda, yayıncı telif hakkı ihlalini bilmiyordu. Başka bir seçenek de barındırma sağlayıcısına yazmaktır. Barındırma şirketleri, kopya içeriği düzenlemekten potansiyel olarak sorumlu tutulabilir, bu nedenle genellikle bu tür taleplere hızlı bir şekilde yanıt verirler. İçeriğin yazarlığını kanıtlamak için mümkün olduğunca fazla belge sağlamaya istekli olduğunuzdan emin olun.

Sonraki seçenek, Google, Yahoo!'ya bir telif hakkı ihlali iddiası (DMCA) göndermektir. ve Bing. Aynı talebi, suçlunun web sitesini barındıran şirkete de göndermelisiniz.

İkinci seçenek, ihlalde bulunan siteye karşı yasal işlem başlatmak veya bunu yapmakla tehdit etmektir. Çalışmanızı yayınlayan site sizin ülkenize aitse, bu muhtemelen atılacak en akıllı ilk adımdır. Daha gayri resmi bir iletişimle başlayabilir ve DMCA önlemlerinin yürürlüğe girmesinden aylar önce olabileceğinden, bir avukattan resmi bir mektup bile göndermeden önce içeriğin kaldırılmasını isteyebilirsiniz. Ancak bir yanıt alamazsanız, daha ciddi bir eylemi ertelemek için hiçbir nedeniniz yok.

çok verimli ve ucuz seçenek bu işlem için DCMA.com kaynağıdır.

Gerçek bir ceza ile durum

Önceki örnekler, iş başında yinelenen içerik filtrelerini göstermektedir, ancak bunlar ceza değildir, ancak pratik açıdan etkisi cezalarla aynıdır - sayfa sıralamanızı düşürür. Ancak, gerçek bir para cezasının ortaya çıkabileceği durumlar vardır. Örneğin, özellikle sitenin kendisi çok az benzersiz içerik ekliyorsa, içerik toplama siteleri risk altındadır. Bu senaryoda, site gerçekten cezalandırılabilir.

Bunu düzeltmenin tek yolu, arama motoru örümceğinin kullanabileceği yinelenen sayfaların sayısını azaltmaktır. Bu, onları kaldırarak, kopyalara standart bir nitelik ekleyerek, sayfaların kendilerine bir noindex niteliği ekleyerek veya önemli miktarda benzersiz içerik ekleyerek elde edilir.

Sık sık filtrelenebilecek bir içerik örneği şudur: "ince" ortak sitesi. Bu genellikle komisyon kazanmak için diğer insanların ürünlerinin satışını teşvik eden, ancak yeni bilgi. Bu tür bir site, bir ürün üreticisinden açıklamalar alabilir ve "tıklamalar" veya satın almalardan para kazanmak için bir bağlı kuruluşa bağlantıyla birlikte bu açıklamaları yeniden üretebilir.

Sorun, bir satıcının aynı içeriği kullanan binlerce ortağı olduğunda ortaya çıkar - ve arama motoru mühendisleri, kullanıcılardan (kendi bakış açılarına göre) bu tür sitelerin dizinlerine değerli bir şey eklemediğine dair geri bildirimler aldığında ortaya çıkar. Bu nedenle arama motorları bu tür siteleri filtrelemeye hatta indekslerinden çıkarmaya çalışır. Satış ortağı modelleri birçok site tarafından kullanılır, ancak aynı zamanda zengin yeni içerik sağlarlar, bu nedenle genellikle bir sorun yaşamazlar. Arama motorları yalnızca aynı anda hem kopya içerik hem de benzersiz değer eksikliği olduğunda harekete geçer.

Sitede yinelenen içerik nasıl önlenir?

Daha önce de belirttiğimiz gibi, yinelenen içerik birçok şekilde oluşturulabilir. Malzemenin dahili olarak çoğaltılması, optimizasyon açısından en iyi sonuçları elde etmek için belirli taktiklerin kullanılmasını gerektirir. Çoğu durumda, yinelenen sayfalar, kullanıcılar veya arama motorları için hiçbir değeri olmayan sayfalardır. Bu durumda, bu sorunu tamamen ortadan kaldırmaya çalışın. Uygulamayı, her sayfaya yalnızca bir URL bağlantı verecek şekilde ayarlayın. Ayrıca eski URL'ler için kalan URL'lere bir 301 yönlendirmesi yapın , arama motorlarının yaptığınız değişiklikleri olabildiğince çabuk görmelerine yardımcı olmak ve silinen sayfaların sahip olduğu "bağlantı suyunu" korumak için.

Bu mümkün değilse, başka birçok seçenek vardır. . Aşağıdakiler çoğu için yönergelerin bir özetidir. basit çözümlerçeşitli senaryolar için:

  • arama motoru örümceklerinin sitenizin sayfalarının yinelenen sürümlerini taramasını engellemek için bir robots.txt dosyası kullanın;
  • rel="canonical" öğesini kullanın - bu, yinelenen sayfaları ortadan kaldırmak için ikinci çözümdür (en iyi);
  • kullanmak KOD bir belirti vermek ARAMA MOTORU motorlar yinelenen sayfaları dizine eklemez.

Ancak, sayfa görüntülemelerini önlemek için bir robots.txt dosyası kullanıyorsanız, sayfanın kendisinde noindex veya nofollow özniteliğini kullanmanın bir anlamı olmadığını unutmayın. Örümcek bu sayfayı okuyamadığı için asla göremez. noindex özellikleri veya nofollow. Bu araçları göz önünde bulundurarak, bazı belirli yinelenen içerik durumlarına bakalım.

    HTTPS sayfaları - Eğer kullanırsan SSL protokolü(bir tarayıcı ile bir web sunucusu arasında, genellikle e-ticaret), ardından sitenizin ile başlayan sayfaları var HTTPS: (onun yerine http :). Sorun, HTTPS sayfalarınızdaki bağlantılar sitedeki diğer sayfalara işaret ettiğinde ortaya çıkar. mutlak bağlantılar(Örneğin, ana sayfanızın bağlantısı http://www.Alanınız.com yerine https://www.Alanınız.com olur).

    Sitenizde böyle bir sorun varsa, bunu çözmek için rel="canonical" öğesini veya 301 yönlendirmelerini kullanabilirsiniz. Alternatif bir çözüm, bağlantıları mutlak olanlarla değiştirmektir: /contenthtml yerine http://www.Domain.com/content.html), bu aynı zamanda içeriğinizi çalanlar için hayatı biraz daha zorlaştırır.

  • Yinelenen içerik oluşturan içerik yönetim sistemleri - bazen bir sitede aynı sayfaların birçok versiyonu bulunur. Bunun nedeni, aynı içeriği birden fazla URL ile ele alan bazı içerik yönetim sistemlerindeki sınırlamalardır. Genellikle bu, kullanıcılar için hiçbir değeri olmayan tamamen gereksiz bir yinelemedir ve en iyi çözüm, yinelenen sayfaları kaldırmak ve bunun için bir 301 yönlendirmesi yapmaktır. silinen sayfalar kalan sayfalara İşe yaramazsa, diğer yöntemleri deneyin (bu makalenin başında verilmiştir).
  • Yazdırılabilir sayfalar veya birçok sıralama seçeneği - birçok site, kullanıcıya aynı içeriği yazıcı dostu bir biçimde sağlayan yazdırılabilir sayfalar sunar. Bazı e-ticaret siteleri, ürünlerinin pek çok olası çeşitler(beden, renk, marka ve fiyata göre). Bu sayfaların kullanıcı için değeri vardır, ancak arama motorları için değeri yoktur ve bu nedenle onlara kopya içerik olarak görünecektir. Böyle bir durumda, bu blogda daha önce sunulan seçeneklerden birini kullanmanız veya yapılandırmanız gerekir. CSS tablosu yazdırmak için (Yoast sitesindeki yoast.com/added-print-css-style-sheet/post'ta açıklandığı gibi).
  • Bloglarda ve arşivleme sistemlerinde yinelenen içerik- bloglar, yinelenen içerik sorununun ilginç bir varyasyonudur. Bir blog yazısı birkaç farklı sayfada görünebilir: ana sayfa blog, bu gönderinin kalıcı bağlantılar sayfasında, arşiv sayfalarında ve kategori sayfalarında. Her gönderi örneği, diğer örneklerin bir kopyasıdır. Yayıncılar çok nadiren bir gönderinin mevcudiyeti sorununu şu şekilde çözmeye çalışırlar: ana sayfa blog ve kalıcı bağlantı sayfasında. Ve görünüşe göre, arama motorları bu sorunla başa çıkmak için oldukça iyi bir iş çıkarıyor. Ancak, kategori ve arşiv sayfalarında yalnızca gönderi snippet'lerini göstermek mantıklı olabilir.
  • Kullanıcı tarafından oluşturulan yinelenen içerik (yinelenen gönderiler vb.) - birçok site, bloglar, forumlar veya mesaj panoları gibi kullanıcı tarafından oluşturulan içeriği almak için yapılar uygular. Bunlar, çok sayıda içeriği çok düşük bir maliyetle geliştirmenin harika yolları olabilir. Sorun şu ki, bir kullanıcı aynı içeriği sitenize ve aynı anda birden fazla başka siteye göndererek yinelenen içerikle sonuçlanabilir. Bunu kontrol etmek zordur, ancak sorunu azaltmak için aşağıdakiler düşünülebilir:
    • Kullanıcılara sitenize gönderdikleri içeriğin benzersiz olması gerektiğini ve başka sitelerde barındırılamayacağını bildiren net bir politikanız olmalıdır. Bunu başarmak elbette zor ama beklentilerinizi anlamanıza yardımcı olacak;
    • forumunuzu farklı içerik gerektiren benzersiz bir şekilde uygulayın. Standart veri giriş alanlarına ek olarak, site ziyaretçilerinizin görmesi için faydalı olacak bazı benzersiz alanlar (diğer sitelerden farklı) ekleyin.

Kopya içerik, site içeriğinin kısmen veya tamamen aynı metin, resim ve diğer unsurlarının farklı sayfa adreslerinde (URL'ler) mevcut olmasıdır. Yinelenenlerin varlığı bunu zorlaştırabilir arama promosyonu alan.

Uzmanlara göre en yaygın hata yinelenen içerik dahili optimizasyon, her ikinci web kaynağında bulunur.

Sitenizde kopya olup olmadığı nasıl kontrol edilir ve bunlardan nasıl kurtulur? Mail listemizin yeni sayısında sizlere anlatacağız.

kopyalar nelerdir

Çiftler açık ve bulanık (veya tam ve eksik).

Çiftleri temizle - tam olarak aynı içeriğe sahip sayfaları kopyalayın, Açıklama meta etiketinin içeriği ve Başlık farklı adreslerde mevcuttur. örneğin, orijinal sayfa aşağıdaki kopyalar görünebilir:

  • WWW'li veya WWW'siz ayna;
  • sayfalar farklı uzantılar(.html, .htm, index.php, GET parametresi "?a=b", vb.);
  • Baskı versiyonu;
  • RSS sürümü;
  • motoru değiştirdikten sonra URL'nin eski biçimi;
  • vb.

Bulanık çiftler - kısmen aynı içerik farklı URL'lerde.

Bu tür kopyaların örnekleri aşağıdakileri içerir:

  • tekrarlanan veya eksik bir açıklama ile aynı tür mallardan oluşan kartlar;
  • farklı kategorilerdeki makale, haber, ürün duyuruları, etiket sayfalarında ve sayfalandırma;
  • bloglarda tarih arşivleri;
  • sayfalar nerede bloklar aracılığıyla ana içeriği hacim olarak aşmak;
  • sayfalar farklı metinler, ancak Başlık ve Açıklama ile aynıdır.

Yinelenenler tanıtım için neden tehlikelidir?

1. Siteyi indekslemede (ve ana sayfayı belirlemede) zorluk

Yinelemeler nedeniyle, arama motorlarının veri tabanındaki sayfa sayısı birkaç kat artabilir, bazı sayfalar site atlandığı için dizine eklenemeyebilir. arama robotu sayfa sayısı için sabit bir kota tahsis edilir.

İçine düşecek ana sayfayı belirlemek daha da zorlaşıyor. Arama Sonuçları: robotun seçimi web yöneticisinin seçimiyle örtüşmeyebilir.

2. Sayıdaki ana sayfa, bir kopya ile değiştirilebilir

Çift alacaksa iyi trafik ve davranışsal metrikler, ardından bir sonraki güncelleme ile arama sonuçlarındaki ana (tanıtılan) sayfanın yerini alabilir. Aynı zamanda, aramadaki pozisyonlar “batacaktır”, çünkü kopya bağlantı popülerliğine sahip olmayacak.

3. Ana sayfaya harici bağlantıların kaybı

4. PS filtresinin altına düşme riski

Hem Yandex hem de Google, "tıkanmış" bir siteye AGS ve Panda filtreleri uygulayabilecekleri benzersiz olmayan içerikle mücadele ediyor.

5. Dizindeki önemli sayfaların kaybı

Düşük benzersizlik nedeniyle eksik kopyalar (kategori sayfaları, haberler, ürün kartları vb.) arama motoru dizinine hiç girmeme şansına sahiptir. Örneğin, bu, ürün kartlarının bir kısmında olabilir. arama algoritması kopyalar olarak kabul edilir.

Sitedeki kopyalar nasıl bulunur ve ortadan kaldırılır

Sitenin sahibi olarak, özel bilgi ve becerilere sahip olmadan bile, kaynağınızda bağımsız olarak kopyalar bulabilirsiniz. Aşağıda, yinelenen içeriği bulma ve ortadan kaldırma talimatları verilmiştir.

Tam kopyaları ara

Çoğu hızlı yol sitede tam kopyaları bulun - bir eşleşmeyi izleyin Başlık etiketleri ve Açıklama. Bunu yapmak için paneli kullanabilirsiniz. Google web yöneticisi veya optimize ediciler arasında popüler olan Xenu hizmeti. Arama, indekslenen sayfalar arasında yapılır.

Eksileri: tüm kopyalar silinemez (ve silinmelidir) (örneğin, reklam etiketli sayfaların sürümleri); gerektiren zor iş çok sayıda sayfalar uzun süre Yeni kopyaların görünümünü dışlamaz. Çiftlerden gelen ağırlık ana sayfaya aktarılmaz.

  • Artıları: Özel programlama becerileri gerektirmez.

6. Popüler CMS için hazır çözümler

Popüler CMS geliştiricileri, kopyaları önlemek için bir dizi çözüm sağlamıştır. Aynı zamanda, motorla çalışırken, web yöneticileri ayarları dikkatli bir şekilde yapmalıdır. Bir şeyi gözden kaçırdıysanız ve yinelenenler görünüyorsa, her şeyi düzeltmek ve kopyaları ortadan kaldırmak için asla geç değildir. Motoru kurmak ve SEO eklentilerini kullanmak için net talimatlar, özel bloglarda ve WordPress, Joomla, Drupal, Bitrix ve diğer geniş çapta temsil edilen CMS forumlarında bulunabilir.

Yinelenenlerle mücadele etmek için faydalı SEO eklentileri:

  • WordPress: Hepsi bir arada Bir SEO Paketle, Clearfy;
  • Drupal: Global Yönlendirme, Sayfa Başlığı;
  • Joomla: Kanonik Bağlantılar Hepsi Bir Arada, JL İkili Yok.

7. Motor seviyesinde savaşın

Çeşitli CMS'ler için evrensel bir çözüm, motor seviyesinde yeni kopyaların ortaya çıkmasını önlemektir. Adres bağlantılarının işlenmesi sırasında, CMS'nin "iyi" ve "kötü" bağlantıları ayırt edeceği ve yalnızca tarayıcı satırında kural tarafından izin verilenleri görüntüleyeceği bir koşul belirlemek gerekir. Bu, eşanlamlı sayfaların ("/" işaretli ve işaretsiz, gereksiz .html sonlu, GET parametreleri vb. ile birlikte) oluşumunu önleyecektir, ancak sayfaların benzersiz bir Başlığı ve Açıklaması yoksa yinelemelere karşı koruma sağlamayacaktır.

Uygulama için Bu method.htaccess dosyasına aşağıdaki kural eklenmelidir:

RewriteCond'da RewriteEngine %(REQUEST_FILENAME) !-d RewriteCond %(REQUEST_FILENAME) !-f RewriteRule ^(.*)$ index.php

Ayrıca motorun kendisinde de gerekli kontrolleri yapmalısınız.

Yöntem oldukça karmaşıktır ve geliştirme uzmanlarına uygulama gerektirir.

  • Eksileri: son derece yüksek derecede karmaşıklık.
  • Artıları: Eşanlamlı sayfaların görünmesini engeller.

Eksik kopyaları arayın

1. Google web yöneticisi veya Xenu hizmetini kullanarak arama yapın

Bu hizmetlerdeki eylemlerin algoritması, tam kopyaları aramakla kesinlikle aynıdır. Tek fark, bulunan kopyalar arasında, aynı Başlık ve / veya Açıklamaya sahip ancak tamamen farklı içeriğe sahip sayfaların seçilmesi gerektiğidir.

Bir Google araması sonucunda, bir grup tamamlanmamış kopya bulduk (Şekil 2).

Pirinç. 2. Yinelenen meta verilerle tamamen farklı haberler

2. Arama çubuğunda Yandex veya Google'ı arıyoruz

Kısmen benzer içeriğe sahip, ancak yukarıdaki şekilde farklı meta veriye sahip sayfalar tanımlanamaz. Bu durumda, manuel olarak çalışmanız gerekecektir.

İlk olarak, risk alanlarını şartlı olarak vurgulayın:

  • zayıf içerik (kesişen bloklar hacim olarak sayfanın ana metnini aşıyor);
  • kopyalanan içerik (benzer ürünlerin açıklaması);
  • içerik kesişimi (duyurular, başlıklar/alt dizinler, filtreler, sıralama).

Her gruptan birden fazla sayfa seçin.

Örnek görsel için sitedeki ürün kartlarından birini kullandık. mobilya mağazası, "Uzmanlık" bölümümüzde denetlendi. Kartlara resimler ve kesişen bloklar hakim olduğundan, burada kopyaların görünme olasılığı oldukça yüksektir ve benzersiz içerik küçültülmüş.

Satırda belirtin Google aramaürün açıklamasından tırnak içine alınmış bir metin parçası ve site: operatörü ile site etki alanı (Şekil 3).