Benzer (yinelenen) sayfalar. Yinelenen içerik nasıl belirlenir. Soruna giriş. Arama sonuçlarındaki ana sayfa bir kopya ile değiştirilebilir

  • 05.05.2019

Yinelenen içerik bölünebilir üç büyük kategori: iki url'nin tamamen aynı içeriğe sahip olduğu tam bir kopya, küçük farklılıklar içeren içerik(öneri sırası, biraz farklı resimler vb.) ve etki alanları arası kopyalar birçok alanda tam veya biraz değiştirilmiş bir kopyanın bulunduğu yer.

Google'ın yinelenen içerik olarak kabul etmediği, ancak genellikle yayıncıları ve deneyimsiz SEO'ları karıştıran ilgili iki kavram vardır:

  • ince içerik - daha önce belirtildiği gibi, bunlar çok az içeriğe sahip sayfalardır. Bir örnek, 5.000 adresi olan, ancak her sayfada yalnızca bir adres içeren bir şirket adresleri listesi üzerine oluşturulmuş bir sayfa grubudur - yalnızca birkaç satır;
  • içerik dilimleme bu kategori birbirinden biraz farklı olan sayfaları içerir. 37, 37.5, 38, 38.5, 39, ... 46 numaralarında Nike Air Max ayakkabı satan bir site hayal edin. Sitede her ayakkabı numarası için ayrı bir sayfa varsa, tüm bu sayfalar arasındaki fark şu olacaktır: ihmal edilebilir. Google benzer bir etki çağırıyor ince dilimleme.

Google, ince içeriği veya ince dilimlemeyi sevmez. Bu etkilerden herhangi biri "Panda" algoritması tarafından tespit edilebilir. . Bing'in yinelenen içerik, ince içerik ve içerik dilimleme arasında tam olarak nasıl bir ayrım yaptığı açık değildir, ancak yayıncıların bu tür sayfaları oluşturmaktan kaçınmaları gerektiği açıktır.

Yinelenen içerik, sitenizin içeriğinin lisanslanması, arama motorları için optimize edilmemiş bir içerik yönetim sistemi nedeniyle site mimarisindeki kusurlar veya intihal gibi birçok nedenden dolayı elde edilebilir. Son beş yılda, içerik açısından kritik spam gönderenler, yasal kaynaklardan gelen içeriği karıştırmaya, çok sayıda karmaşık işlem yoluyla kelimeleri yeniden düzenlemeye ve uzun aramaları çekmek ve içeriğe dayalı reklamları göstermek ve ayrıca diğer amaçlar için ortaya çıkan metni sayfalarına yerleştirmeye başladı. şerefsiz amaçlar

Bu nedenle, bugün "yinelenen içerik sorunları" ve "yinelenen içerik cezaları" dünyasında yaşıyoruz. İşte tartışmamız için faydalı olacak bazı tanımlar.

  • benzersiz içerik bir insan tarafından yazılmış, World Wide Web'deki diğer herhangi bir harf, sembol ve kelime kombinasyonundan tamamen farklı, bilgisayar metin işleme algoritmalarından (Markov zincirlerini kullanan spam gönderici araçları gibi) etkilenmeyen.
  • Parça - bunlar kopyalanan ve yeniden kullanılan küçük içerik parçalarıdır (alıntılar gibi). Özellikle çok sayıda benzersiz içeriğe sahip daha büyük bir belgeye dahil edildiğinde, arama motorları için neredeyse hiçbir zaman sorun oluşturmazlar.
  • Zona hastalığı - arama motorları, World Wide Web'deki diğer sayfalarda nispeten küçük kelime öbekleri (beş ila altı kelime) arar. İki belge çok fazla zona paylaşıyorsa, arama motorları bu belgeleri kopya içerik olarak yorumlayabilir.
  • Yinelenen içerik sorunları - bu ifade genellikle sitenin cezalandırılabileceği yinelenen içeriği belirtmek için kullanılır. Bu tür içerik, arama motorunu dizinde hangi sürümün görüntüleneceğini seçmeye zorlayan mevcut bir sayfanın bir kopyasıdır (buna sözde yinelenen içerik filtresi).
  • Yinelenen İçerik Filtresi - Bir arama motorunun, kullanıcıya daha iyi sonuçlar sağlamak için benzer içeriği arama sonuçlarından çıkardığı bir durum.
  • Yinelenen İçerik Cezası - cezalar (cezalar) nadiren ve sadece bariz durumlarda uygulanır. Arama motorları sıralamaları düşürebilir veya sitenin geri kalan sayfalarını yasaklayabilir, hatta tüm web sitesini yasaklayabilir.

Yinelenen içeriğin sonuçları

Yinelenen içeriğinizin, geliştiricilerinizin zararsız bir gözetiminin sonucu olduğunu varsayarsak, arama motoru, arama sonuçları sayfalarında bu içeriğin yalnızca bir sürümünü göstermek istediğinden, büyük olasılıkla yinelenen sayfalardan biri hariç tümünü filtreleyecektir. Bazı durumlarda arama motoru sonuçları dizine eklemeden önce filtreleyebilir, diğer durumlarda ise belirli bir sorguya yanıt olarak arama sonuçlarını hazırlarken sayfayı dizine kabul edip filtreleyebilir. Bu son durumda, sayfa bazı belirli sorgulara yanıt olarak filtrelenebilir ve diğerleri için filtrelenmeyebilir.

Kullanıcılar sonuçlarda çeşitlilik görmek ister (tekrar tekrar aynı sonuçları değil). Bu nedenle, arama motorları yinelenen içeriği filtrelemeye çalışır ve bunun aşağıdaki sonuçları olur:

  • arama motoru robotu, belirli bir oturumda görüntülemeyi planladığı sayfa sayısıyla ifade edilen, görünümün belirli bir tahminiyle siteye gelir. Arama sonuçlarından filtrelenmesi gereken yinelenen bir sayfaya her geldiğinde, robotun bütçe taramasının bir kısmını boşa harcamasına izin veriyorsunuz. Bu, "iyi" sayfalarınızın daha azının görüntüleneceği ve daha az sayfanızın arama motoru tarafından dizine eklenmesiyle sonuçlanacağı anlamına gelir;
  • arama motorları yinelenen içeriği filtrelemeye çalışsa da, yinelenen içerik sayfalarına giden bağlantılar, yine de onlara bağlantı suyunu iletir. Bu nedenle, yinelenen sayfalar bir PageRank veya bağlantı suyu alabilir ve bu, sıralamalarına yardımcı olmadığı için bu kaynak boşa harcanır;
  • arama motorlarından hiçbiri, algoritmalarının sayfanın hangi sürümünü görüntüleyeceğini nasıl seçtiğine dair net bir açıklama yapmadı. Başka bir deyişle, aynı içeriğin üç kopyasını bulursa, hangi ikisini filtreleyecek? Hangisi gösterecek? Arama sorgusuna bağlı mı? Sonuç olarak, arama motoru istediğiniz yanlış sürümü gösterebilir.

Optimize edicilerden bazıları burada özetlenen bazı noktalarla tartışsa da, genel yapı büyük ölçüde tartışılmaz. Ancak, bu modelin sınırları boyunca çeşitli sorunlar vardır.

Örneğin, sitenizde bir grup ürün sayfası ve bu sayfaların yazdırılabilir sürümleri vardır. Arama motoru, sonuçlarında tam olarak basılı sürümü görüntülemeyi seçebilir. Bu bazen olur ve baskı sayfasında daha az bağlantı suyu ve ana ürün sayfasından daha düşük bir sıralama olduğunda bile olabilir.

Bu durumu düzeltmek için, ana sürümü belirtmek için sayfanın tüm yinelenen sürümlerine rel = ”canonical” bağlantı niteliğini uygulamanız gerekir.

İkinci seçenek, içeriğinizi üçüncü taraflara dağıttığınızda (içeriğinizin yeniden yazdırılmasına izin verdiğinizde) görünebilir. Sorun, arama motorunun orijinal belgenizi arama sonuçlarından çıkarabilmesi ve makalenizi yeniden yazdıran kişinin kullandığı sürümü tercih edebilmesidir. Bu sorunun üç olası çözümü vardır:

  • makalenizi yeniden yayınlayan kişinin sitenizdeki orijinal makaleye rel = ”canonical” özniteliği ile bir geri bağlantı ayarlamasını sağlayın. Bu, arama motorlarına sayfanızın kopyasının orijinal olduğunu gösterecek ve ortak sayfaya işaret eden tüm bağlantılar orijinal sayfanıza yansıtılacaktır;
  • sendikasyon ortağınızın kopyalarını noindex özniteliği ile kapatmasını sağlayın. Bu durumda, yinelenen içerik arama motoru tarafından dizine eklenmez. Ayrıca, bu içerikte sitenize verilen herhangi bir bağlantı size yetki vermeye devam edecektir;
  • partnerinizin sitenizdeki orijinal sayfaya geri dönmesini sağlayın. Arama motorları genellikle bunu doğru yorumlar ve içeriğinizin sürümünü vurgular. Bununla birlikte, özellikle bu sitenin içeriğin gerçek yaratıcısından çok daha fazla yetki ve güvenilirliğe sahip olması durumunda, Google'ın içeriği yanlışlıkla onu yeniden yayınlayan siteye atfettiği durumlar olduğu belirtilmelidir.

Arama motorları yinelenen içeriği nasıl tanır?

Google motoru için World Wide Web'de yinelenen içerik bulma sürecini örneklerle göstereceğiz. Şekil 2'de gösterilen örneklerde. 1-4, üç varsayım yapılır:

  • metin içeren bir sayfa, yinelenen içerik içeren bir sayfadır (ve şekillerde gösterildiği gibi yalnızca bir parçası değil);
  • yinelenen içeriğe sahip tüm sayfalar farklı etki alanlarındadır;
  • Aşağıda gösterilen adımlar, süreci olabildiğince kolay ve anlaşılır kılmak için basitleştirilmiştir. Bu kesinlikle Google'ın nasıl çalıştığının doğru bir açıklaması değil, ancak anlam ifade ediyor.

Pirinç. 1

Pirinç. 2

Pirinç. 3

Pirinç. 4

Yinelenen içerik sorunları konusunda yeni olan bir web yöneticisinin kafasını karıştırabileceğinden, yinelenen içerik hakkında özel olarak anılmayı hak eden birkaç gerçek vardır. Bu faktörleri ele alalım.

  • Yinelenen içerik konumu - tüm bu içerik sitemdeyse, yineleniyor mu? Evet, çünkü yinelenen içerik hem aynı sitede hem de farklı sitelerde görünebilir.
  • Yinelenen İçerik Yüzdesi - Yinelenen içerik filtrelemeye hak kazanmak için bir sayfanın yüzde kaçı çoğaltılmalıdır? Ne yazık ki, arama motorları bu bilgiyi asla ifşa etmez, çünkü bu, sorunun kendisini önleme yeteneklerine zarar verir.
  • Bu yüzdenin tüm motorlar için sürekli değiştiği ve yinelenen içerik belirlenirken yalnızca doğrudan bir karşılaştırma yapılmadığı neredeyse güvenle söylenebilir. Sonuç olarak, sayfaların kopya olarak kabul edilmesi için aynı olması gerekmez.
  • Kod metin oranı - Ya kodumuz çok büyükse, ancak sayfada birkaç benzersiz HTML öğesi varsa? Google, tüm sayfaların birbirinin kopyası olduğunu düşünür mü? Numara. Arama motorları kodunuzla değil, sayfalarınızın içeriğiyle ilgilenirler. Kod boyutu yalnızca aşırı olduğunda sorun olur.
  • Gezinme öğelerinin ve benzersiz içeriğin oranı - sitemdeki tüm sayfalarda büyük bir gezinme çubuğu, çok sayıda üstbilgi ve altbilgi var, ancak çok az içerik var. Google, tüm bu sayfaların kopya olduğunu düşünür mü? Numara. Google (Yahoo! ve Bing'in yanı sıra), sayfaları çoğaltma için değerlendirmeden önce bile gezinme öğelerini hesaba katar. Web sitelerinin düzenine çok aşinadırlar ve tüm sayfalarda (veya çok sayıda) tutarlı yapılara sahip olmanın tamamen normal olduğunu anlarlar. Sayfaların benzersiz bölümlerine dikkat ederler ve gerisini neredeyse tamamen görmezden gelirler.
  • Lisanslı İçerik - Yinelenen içerik sorunlarından kaçınmak istiyorsam ancak ziyaretçilerime sunmak için lisansladığım diğer web kaynaklarından içeriğim varsa? meta name = "robots" content = "noindex, takip et" kodunu kullanın. Bunu sayfanızın başlığına koyun ve arama motorları bu içeriğin kendileri için olmadığını bilsinler. Bu en iyi uygulamadır çünkü insanlar yine de bu sayfayı ziyaret edin ve ona bağlantı verin, o sayfadaki bağlantılar değerlerini koruyacaktır.

Başka bir seçenek, bu içeriğe sahip olmak ve yayınlamak için münhasır haklar elde etmektir.

Telif hakkı ihlallerinin belirlenmesi ve ortadan kaldırılması

Yinelenen sitenizi izlemenin en iyi yollarından biri, World Wide Web'de içeriğinizi kullanan sayfaları anında görmenizi sağlayan CopyScape'i (copyscape.com) kullanmaktır. Bu sitelerin sayfaları bir alt dizindeyse veya sizinkinden önemli ölçüde daha düşük bir sıralamaya sahipse endişelenmeyin - bazı büyük, yetkili ve zengin içerikli alan, materyalinin World Wide Web'deki tüm kopyalarıyla savaşmaya çalıştıysa, en az iki tam zamanlı çalışana ihtiyaç duyacaktır. Neyse ki, arama motorları bu tür sitelere güvenir ve bu nedenle onları orijinal kaynak olarak tanır.

Öte yandan, nispeten yeni bir siteniz varsa veya birkaç gelen bağlantıya sahip bir siteniz varsa ve intihalciler sürekli olarak sizden daha üst sıralarda yer alıyorsa (veya güçlü bir site çalışmanızı çalıyorsa), yapabileceğiniz bazı şeyler var. Seçeneklerden biri, yayıncıya hak ihlalinde bulunan içeriği kaldırmasını isteyen bir istek göndermektir. Bazı durumlarda, yayıncı telif hakkı ihlalinin farkında değildi. Başka bir seçenek de barındırma sağlayıcısına yazmaktır. Barındırma şirketleri, kopya içeriği düzenlemekten potansiyel olarak sorumlu olabilir, bu nedenle genellikle bu tür taleplere hızlı bir şekilde yanıt verirler. İçeriğin atfedildiğini kanıtlamak için mümkün olduğunca çok belge sağlamaya hazır olduğunuzdan emin olun.

Sonraki seçenek, Google, Yahoo!'ya bir telif hakkı ihlali talebi (DMCA) göndermektir. ve Bing. Aynı talebi, ihlal edenin web sitesini barındıran şirkete de göndermelisiniz.

İkinci seçenek, kusurlu siteye karşı mahkemede dava açmak veya bunu yapmakla tehdit etmektir. Çalışmanızı yayınlayan sitenin ülkenizde bir sahibi varsa, bu muhtemelen en akıllı ilk adımdır. DMCA'nın yürürlüğe girmesi aylar alabileceğinden, bir avukattan resmi bir mektup göndermeden önce daha gayri resmi bir görüşmeyle başlayabilir ve içeriğin kaldırılmasını isteyebilirsiniz. Ancak yanıtlanmazsanız, daha ciddi eylemleri ertelemek için hiçbir nedeniniz yoktur.

DCMA.com bu işlem için çok etkili ve ucuz bir seçenektir.

Gerçek iyi durum

Önceki örnekler, yinelenen içerik filtrelerinin nasıl çalıştığını gösterir, ancak bunlar ceza değildir, ancak pratik anlamda etki cezalarla aynıdır - sayfalarınızın sıralamasında bir düşüş. Ancak, gerçek bir para cezasının ortaya çıkabileceği durumlar da vardır. Örneğin, özellikle sitenin kendisi çok az benzersiz içerik ekliyorsa, içerik toplayan siteler risk altındadır. Bu senaryoda, site aslında para cezasına çarptırılabilir.

Bu, yalnızca arama motoru örümceğinin kullanabileceği yinelenen sayfaların sayısını azaltarak düzeltilebilir. Bu, onları kaldırarak, kopyalara standart bir nitelik, sayfaların kendilerine bir noindex niteliği ekleyerek veya önemli miktarda benzersiz içerik ekleyerek elde edilir.

Sık sık filtrelenebilecek bir içerik örneği: "İnce" ortak sitesi. Buna genellikle komisyon kazanmak için başkalarının ürünlerinin satışını tanıtan, ancak yeni bilgiler sağlamayan bir site denir. Böyle bir site, bir mal üreticisinden açıklamalar alabilir ve "tıklamalardan" veya satın almalardan para kazanmak için bu açıklamaları ve bir ortağa bir bağlantıyla yeniden üretebilir.

Sorun, bir satıcının aynı içeriği kullanan binlerce ortağı olduğunda ortaya çıkar - ve arama motoru mühendisleri, kullanıcılardan (kendi bakış açılarına göre) bu tür sitelerin dizinlerine değer katmayan veriler aldığında ortaya çıkar. Bu nedenle arama motorları bu tür siteleri filtrelemeye, hatta dizinlerinden çıkarmaya çalışır. Satış ortağı modelleri birçok site tarafından kullanılır, ancak aynı zamanda zengin yeni içerik sağlarlar, bu nedenle genellikle sorun yaşamazlar. Arama motorları yalnızca aynı anda hem içerik kopyası hem de benzersiz değerli materyal eksikliği olduğunda harekete geçer.

Sitenizde yinelenen içerikten nasıl kaçınılır?

Daha önce de belirttiğimiz gibi, yinelenen içerik birçok şekilde oluşturulabilir. Malzemenin dahili olarak çoğaltılması, en iyi optimizasyon sonuçlarını elde etmek için özel taktikler gerektirir. Çoğu durumda, yinelenen sayfalar, kullanıcılar veya arama motorları için hiçbir değeri olmayan sayfalardır. Eğer öyleyse, sorunu tamamen çözmeye çalışın. Uygulamayı, her sayfaya yalnızca bir URL başvuracak şekilde ayarlayın. Ayrıca eski url'ler için kalan url'lere 301. yönlendirme yapın , arama motorlarının değişikliklerinizi olabildiğince çabuk görmesine yardımcı olmak ve silinen sayfaların sahip olduğu bağlantı suyunu korumak için.

Bu mümkün değilse, başka birçok seçenek vardır. . Aşağıda, çok çeşitli senaryolar için en basit çözümlere ilişkin yönergelerin bir özeti yer almaktadır:

  • arama motoru örümceklerinin web sitenizin sayfalarının yinelenen sürümlerinde gezinmesini engellemek için bir robots.txt dosyası kullanın;
  • rel = "canonical" öğesini kullanın - bu, yinelenen sayfaları ortadan kaldırmak için ikinci çözümdür (en iyi);
  • kullanmak KOD bir belirti vermek ARAMA motorlar yinelenen sayfaları dizine eklemez.

Ancak, sayfa görüntülemelerini önlemek için bir robots.txt dosyası kullanıyorsanız, sayfadaki noindex veya nofollow özniteliğinin bir anlam ifade etmediğini unutmayın. Örümcek bu sayfayı okuyamadığı için noindex veya nofollow özniteliklerini asla göremez. Bu araçları göz önünde bulundurarak, bazı belirli yinelenen içerik durumlarına bakalım.

    HTTPS sayfaları - SSL kullanıyorsanız (genellikle e-ticaret için kullanılan bir tarayıcı ve bir web sunucusu arasında şifreli bir değişim), sitenizin şu ile başlayan sayfaları vardır: HTTPS: (onun yerine HTTP :). Sorun, HTTPS sayfalarınızdaki bağlantılar, mutlak bağlantılar yerine göreceli bağlantılar kullanarak sitedeki diğer sayfalara işaret ettiğinde ortaya çıkar (bu nedenle, örneğin, ana sayfanızın bağlantısı http: // yerine https: //www.alanadiniz.com olur. www.alaniniz.com).

    Sitenizde böyle bir sorun varsa, bunu çözmek için rel = "canonical" öğesini veya 3001 yönlendirmelerini kullanabilirsiniz. Alternatif bir çözüm, bağlantıları mutlak olanlarla değiştirmektir: / contenthtml yerine http://www.alanadiniz.com/content.html), bu aynı zamanda içeriğinizi çalanlar için hayatı biraz daha zorlaştıracaktır.

  • Yinelenen içerik oluşturan içerik yönetim sistemleri - bazen bir sitede aynı sayfaların birçok versiyonu olabilir. Bunun nedeni, aynı içeriği birden fazla URL ile ele alan bazı içerik yönetim sistemlerindeki sınırlamalardır. Bu genellikle kullanıcılar için hiçbir değeri olmayan tamamen gereksiz bir çoğaltmadır ve en iyi çözüm, çoğaltılan sayfaları kaldırmak ve silinen sayfalar için kalan sayfalara 301 yönlendirmesi yapmaktır. Başarısız olursanız, diğer yöntemleri deneyin (bu makalenin başında verilmiştir).
  • Yazdırılacak sayfalar veya birçok sıralama seçeneği - birçok site, aynı içeriği kullanıcıya yazıcı dostu bir biçimde sunan yazdırılabilir sayfalar sunar. Bazı e-ticaret siteleri, olası birçok sınıflandırma (beden, renk, marka ve fiyat) ile ürünlerinin listelerini sunar. Bu sayfaların kullanıcı için değeri vardır, ancak arama motorları için hiçbir değeri yoktur ve bu nedenle onlara kopya içerik olarak görünecektir. Böyle bir durumda, ya bu blogda daha önce sunulan seçeneklerden birini kullanmalısınız ya da yazdırma için bir CSS tablosu oluşturmalısınız (Yoast'ta yoast.com/added-print-css-style-sheet/ postunda açıklandığı gibi). alan).
  • Bloglarda ve arşivleme sistemlerinde yinelenen içerik- bloglar, yinelenen içerik sorununun ilginç bir varyasyonudur. Bir blog yazısı birkaç farklı sayfada görünebilir: blogun ana sayfasında, o yazının kalıcı bağlantılar sayfasında, arşiv sayfalarında ve kategori sayfalarında. Her gönderi örneği, diğer örneklerin bir kopyasıdır. Yayıncıların hem blog ana sayfasında hem de kalıcı bağlantı sayfasında bir gönderi yayınlama sorunuyla boğuşması çok nadirdir. Ve arama motorları bu sorunla başa çıkmak için oldukça iyi bir iş çıkarıyor gibi görünüyor. Ancak, kategori ve arşiv sayfalarında yalnızca gönderi snippet'lerini göstermek mantıklı olabilir.
  • Kullanıcı tarafından oluşturulan yinelenen içerik (tekrar gönderiler vb.) - birçok site, bloglar, forumlar veya mesaj panoları gibi kullanıcı tarafından oluşturulan içeriği almak için yapılar uygular. Bunlar, çok sayıda içeriği çok düşük bir maliyetle geliştirmenin harika yolları olabilir. Sorun şu ki, bir kullanıcı aynı içeriği sitenizde ve diğer birkaç sitede aynı anda yayınlayabilir ve bu da yinelenen içeriğe yol açar. Bunu kontrol etmek zordur, ancak sorunu azaltmak için aşağıdakiler düşünülebilir:
    • Kullanıcılara sitenize gönderdikleri içeriğin benzersiz olması gerektiğini ve başka sitelerde barındırılamayacağını bildiren net bir politikanız olmalıdır. Elbette bunu başarmak zordur, ancak beklentilerinizi anlamanıza yardımcı olacaktır;
    • forumunuzu farklı içerik gerektirecek benzersiz bir şekilde uygulayın. Standart veri giriş alanlarına ek olarak, site ziyaretçilerinizin görmesi için faydalı olacak bazı benzersiz alanlar (diğer sitelerden farklı) ekleyin.

Birçok site sahibi, diğer kaynaklarla karşılaştırıldığında içeriği benzersiz hale getirmeye odaklanır. Ancak, aynı sitede yinelenen içeriğin varlığını gözden kaçırmayın. Bu aynı zamanda sıralamalar üzerinde güçlü bir etkiye sahiptir.

Yinelenen içerik nedir

Yinelenen veya yinelenen içerik, bir site içinde farklı sayfalarda çakışan büyük bir metin bloğudur. Bu mutlaka kötü niyetle yapılmaz - genellikle aşağıda ayrıntılı olarak tartışılan teknik nedenlerle ortaya çıkar.

Tehlike, çoğaltılan içeriğin çıplak gözle görülememesi, ancak arama motorunun onu mükemmel bir şekilde görmesi ve buna göre tepki vermesidir.

Yinelenen içerik nereden geliyor ve nerede daha yaygın?

Bu fenomenin ana nedenleri:

  • Sitenin yapısını değiştirmek;
  • Belirli bir amaç için kasıtlı kullanım (örneğin, basılı bir sürüm);
  • Programcıların ve web yöneticilerinin hatalı eylemleri;
  • CMS sorunları.

Örneğin, yaygın bir durum oluşur: WordPress'te answertocom (bir yoruma yanıt verme) otomatik olarak farklı URL'lere sahip yeni sayfalar oluşturur, ancak içerik oluşturmaz.

Genellikle, sitenin diğer sayfalarında makale duyuruları oluştururken, incelemeler gönderirken ve aynı ürün, kategori, başlık açıklamalarıyla yinelenen içerik fark edilir.

Kopya içerik neden kötü?

Yinelenen içeriğin bir ekonomik karşılığı vardır - banka kredili mevduatı. Sadece burada sözde tarama bütçesi harcanır. Bu, bir arama motorunun belirli bir süre boyunca tarayabileceği bir kaynağın sayfa sayısıdır. Kaynak çok değerlidir ve gerçekten önemli ve alakalı sayfalara harcamak, aynı metnin düzinelerce kopyasına harcamaktan daha iyidir.

Bu nedenle, yinelenen içerik arama motoru sıralamalarını düşürür. Ayrıca doğal linkler kaybolmakta ve link ağırlığı site içerisinde yanlış dağılmaktadır. Ayrıca gerçekten alakalı sayfaların yerini alır.

Sitede yinelenen içerik nasıl bulunur (manuel, programlar ve hizmetler)

Kaynakları analiz etmek için özel programlar vardır. Bunlardan kullanıcılar özellikle Netpeak Spider'ı öne çıkarıyor. Sayfaların tam kopyalarını, başlık veya açıklamaya göre eşleşmeleri, başlıkları arar. Diğer bir seçenek de benzer işlevselliğe sahip olan ve aslında yalnızca arayüzde farklılık gösteren Screaming Frog'dur. Bir arama motoruna benzer şekilde çalışan ve siteyi oldukça yüksek kalitede kopyalar için tarayabilen Xenu'nun Link Sleuth uygulaması da var.

Ne yazık ki, tüm yinelenen metinleri tam olarak izleyebilecek hiçbir araç yoktur. Bu nedenle, büyük olasılıkla manuel bir kontrol yapmanız gerekecektir. Soruna neden olan olası faktörlerin bir listesi:


Yinelenen içeriğin nasıl bulunacağını buldum. Ve bununla başa çıkmada en iyi yardımcılar, 301 yönlendirmeleri, Kanonik URL etiketleri, robots.txt talimatları ve “robots” meta etiketinin bir parçası olarak Nofollow ve Noindex parametreleridir.

Sitede yinelenen içerik olup olmadığını kontrol etmenin hızlı yollarından biri, Yandex veya Google'da gelişmiş bir arama yapmaktır. Site adresini ve kontrol etmeye karar verdiğiniz sayfadan bir metin parçası girmelisiniz. Metnin benzersizliğini kontrol etmek için çok sayıda program da kullanabilirsiniz:

  • Metin.Ru;
  • eTXT İntihal Karşıtı;
  • Advego Plagiatus;
  • İçerik-İzle.

Yinelenen içerikle nasıl başa çıkılır ve temizlenir

Aynı Google yardım sistemi, bu sorunun oluşmasını önlemek için bir dizi ipucu verir.

  • 301. Kaynakta yapısal değişiklik olması durumunda, htaccess dosyasında 301 yönlendirmesini belirtmek gerekir.
  • Tek bir referans standardı kullanın.
  • Bölgeye özgü içerik, alt alan adlarına veya alt dizinlere göre üst düzey alanlara daha iyi yerleştirilir.
  • Search Console'u kullanarak tercih ettiğiniz dizin oluşturma yöntemini ayarlayın.
  • Şablonları kullanmayın. Her sayfaya telif hakkı metni yerleştirmek yerine, bu metinle ayrı bir sayfaya yönlendirecek bir bağlantı yapmak daha iyidir.
  • Yeni sayfalar geliştirirken, hazır olana kadar indekslemeden kapalı olduklarından emin olun.
  • İçeriğinizin tam olarak nasıl görüntülendiğini anlayın - bloglarda ve forumlarda görüntüde farklılıklar olabilir.
  • Sitede çok sayıda benzer makale varsa, içeriklerini tek bir bütün halinde birleştirmek veya her birini benzersiz kılmak daha iyidir.

Arama motorları, teknik nedenlerle (arama sonuçlarını manipüle etmek veya ziyaretçileri yanlış yönlendirmek için kasıtlı olarak yapanların aksine) yinelenen içeriğe sahip sitelerle ilgili herhangi bir yaptırım uygulamaz.

Yinelenenler kaldırıldıktan sonra, onları arama sonuçlarından kaldırmak için kalır. Yandex, robots.txt dosyasının doğru yapılandırılması şartıyla bunu kendi başına yapar. Google'a gelince: orada kuralları Web Yöneticisi'ndeki "URL parametreleri" sekmesinde manuel olarak kaydetmeniz gerekecek.

Çözüm

Bir web sitesinde yinelenen içerikle mücadele etmek, herhangi bir web sitesi sahibinin faaliyetinin önemli bir yönüdür. Oluşmasının birkaç nedeni vardır ve onu ortadan kaldırmanın birçok yolu vardır.

Bununla birlikte, ana kural kalır: sitenin türünden bağımsız olarak yalnızca orijinal içerik yayınlayın. Binlerce sayfası olan büyük bir çevrimiçi mağaza olsa bile.

BENZER YAYINLARIN DUYURULARINI E-POSTA İLE ALIN

Abone olun ve haftada bir defadan fazla olmamak üzere İnternet pazarlamacılığı, SEO, web sitesi tanıtımı, çevrimiçi mağazalar, web sitelerinde para kazanma dünyasından ilginç bir şey alın.

Yinelenen içerik veya yalnızca yinelenenler, sitenizde birbiriyle tamamen (kesin kopyalar) veya kısmen (belirsiz kopyalar) çakışan, ancak her birinin kendi URL'si olan sayfalardır. Bir sayfanın bir veya birkaç kopyası olabilir.

Yinelenen içerik sitede nasıl görünür?

Hem zor hem de bulanık çekimlerin birkaç nedeni vardır. Açık kopyalar aşağıdaki nedenlerle ortaya çıkabilir:

  1. Sitenin CMS'si nedeniyle görünürler. Örneğin, WordPress'te answertocom'u kullanmak, yeni yorumlar eklerken otomatik olarak yalnızca URL'de farklılık gösteren yeni sayfalar oluşturur.
  2. Web yöneticisi hatalarının bir sonucu olarak.
  3. Site yapısındaki değişikliklerden dolayı. Örneğin, güncellenmiş bir şablonu yeni URL'lerle yerleştirirken.
  4. Belirli işlevler için site sahibi tarafından yapılmıştır. Örneğin, metnin yazdırılabilir sürümleri olan sayfalar.

Bulanık kopyalar, aşağıdaki nedenlerle sitenizde görünebilir:

Yinelenen içerik siteye neden zarar verir?
  1. Arama motoru sıralamalarını olumsuz etkiler. Arama robotları, yinelenen içeriğe karşı olumsuz bir tutuma sahiptir ve benzersizlik ve dolayısıyla müşteri için kullanışlılık eksikliği nedeniyle arama sonuçlarındaki konumlarını düşürebilir. Aynı şeyi sitenin farklı sayfalarında okumak hiç mantıklı değil.
  2. Gerçek alakalı sayfaları değiştirebilir. Robot, içeriğinin sorguyla daha alakalı olduğunu düşünürse yinelenen bir sayfa yayınlamayı seçebilir. Bu durumda, kural olarak, davranışsal faktörlerin ve / veya bağlantı kütlesinin göstergeleri, kasıtlı olarak tanıttığınız sayfanınkinden daha düşüktür. Bu, almanın en kötü pozisyonlarda gösterileceği anlamına gelir.
  3. Doğal bağlantıların kaybına yol açar. Bir kullanıcı bir prototipe değil, bir kopyaya bağlantı kurduğunda.
  4. Dahili bağlantı ağırlığının uygunsuz dağılımına katkıda bulunur. Yinelenenler, tanıtılan sayfaların ağırlığının bir kısmını alır ve bu da arama motorlarında tanıtımı engeller.
Kopyalarınız olup olmadığı nasıl kontrol edilir?

Bir sitenin sayfalarında kopya olup olmadığını öğrenmenin birkaç yolu vardır.


Yinelenenler bulundu mu? Onları nasıl etkisiz hale getireceğimizi okuyoruz:
  1. 301. yönlendirme Bu yöntem, sitenizdeki gereksiz kopyalardan kurtulmanın en güvenilir yolu olarak kabul edilir. Yöntemin özü, arama robotunu kopya sayfadan ana sayfaya yönlendirmektir. Böylece robot çifti atlar ve yalnızca sitenin gerekli sayfasıyla çalışır. Zamanla, 301. yönlendirmeyi ayarladıktan sonra, yinelenen sayfalar birbirine yapışır ve dizinden çıkar.
  2. Etiket ... Burada arama motoruna, indeksleme amaçlı ana sayfamız olduğunu belirtiyoruz. Bunu yapmak için, her çekimde arama robotu için özel bir kod girmeniz gerekir. , ana sayfanın adresini içerecektir. Bu tür işleri manuel olarak yapmamak için özel eklentiler bulunmaktadır.
  3. robots.txt dosyasında izin verme... robots.txt dosyası, bir arama robotu için hangi sayfaların dizine eklenmesi ve hangilerinin dizine eklenmesi gerektiğini belirten bir tür talimattır. Disallow yönergesi, dizin oluşturmayı yasaklamak ve kopyalarla mücadele etmek için kullanılır. Burada, bir 301 yönlendirmesi kurarken olduğu gibi, yasağı doğru bir şekilde kaydetmek önemlidir.
Arama motoru dizininden kopyalar nasıl kaldırılır?

Yandex'e gelince, robots.txt dosyası doğru yapılandırılmışsa, kopyaları dizinden bağımsız olarak kaldırır. Ancak Google için "URL parametreleri" sekmesindeki kuralları Google Webmaster üzerinden kaydetmeniz gerekir.

Yinelenen içeriği kontrol etme ve ortadan kaldırma konusunda herhangi bir zorluk yaşıyorsanız, her zaman uzmanlarımızla iletişime geçebilirsiniz. Tüm şüpheli öğeleri bulacağız, 301'inci bir yönlendirme ayarlayacağız, robots.txt, rel = "canonical", Google'da ayarları yapacağız. Genel olarak sitenizin verimli çalışması için tüm çalışmaları yapacağız.

»Yinelenen sayfalar konusuna zaten değindim ve bugün bunun hakkında daha ayrıntılı konuşacağız.

Ne yinelenen sayfalar? Bunlar, farklı URL'lerde bulunan benzer veya aynı metne sahip sayfalardır. Örneğin, kaynağın ana sayfasının çok yaygın kopyaları

Aşağıda yinelenen içerik için birkaç yaygın seçeneğe bakacağız, ancak şimdilik bunun nasıl yapılacağı hakkında konuşalım. benzer sayfalar siteyi tanıtmak için.

Arama motorları, bir metnin benzersizliğini, bir dizi karakterle, yani harf ve boşluk dizisinin nereden geldiği özdeş olarak oluşturulmuş cümlelerle belirlemeyi uzun zamandır öğrenmiştir. İçerik benzersiz değilse (çalınmışsa), robot bunu kolayca anlayacaktır ve benzersiz olmayan bir metin sıklıkla bulunduğunda, böyle bir kaynağın ACS filtresinin altına girme olasılığı oldukça yüksektir.

Bir arama robotunun işini hayal edelim. Siteye girdikten sonra önce dosyaya bakar. robots.txt ve ondan talimatlar alır: neyin indekslenmesi gerektiği ve neyin indekslenmesi için kapatılacağı. Sonraki eylemi, robota izin verilen tüm rotaları içeren bir site haritası gösterecek olan sitemap.xml dosyasına başvurmak olacaktır. "Google ve Yandex arama motorları için Sitemap.xml dosyası" başlıklı makaleyi okuyun. Gerekli tüm bilgileri alan robot, olağan işlevlerini yerine getirmesi için gönderilir.

Belirli bir sayfaya girdikten sonra, içeriğini "emerse" ve onu, İnternet'in tüm genişliğinden topladığı elektronik beyinlerinde halihazırda mevcut olan bilgilerle karşılaştırır. Metni benzersiz olmayan bir şekilde yakalayan arama motoru bu sayfayı indekslemeyecek ve not defterine "suçlu" URL adreslerini gireceği bir not yazacaktır. Muhtemelen tahmin ettiğiniz gibi, değerli zamanını boşa harcamamak için asla bu sayfaya dönmeyecek.

Diyelim ki sayfa yüksek benzersizliğe sahip ve robot onu dizine ekledi, ancak aynı kaynağın sonraki URL'sini takip ederek tamamen veya kısmen benzer metin içeren bir sayfaya gidiyor. Arama motoru böyle bir durumda nasıl hareket edecek? Tabii ki, orijinal aynı sitede, ancak farklı bir URL'de olsa bile benzer bir testi dizine eklemez. Robot muhtemelen boşa harcanan zamandan memnun olmayacak ve mutlaka defterine not alacaktır. Yine, böyle bir olay tekrar tekrar meydana gelirse, kaynak arama motorunun gözünden düşebilir.

Sonuç numarası 1. Farklı URL'lerde bulunan benzer sayfalar, siteyi indekslemek için robota verilen süreyi alır. Yinelenen sayfaları dizine eklemez, ancak zaman sınırının bir kısmını onları tanımak için harcar ve gerçekten benzersiz içeriğe ulaşmak için zamanı olmayabilir.

Sonuç numarası 2. Yinelenen içerik, sitenin arama motorunda tanıtımını olumsuz etkiler. Arama motorları benzersiz metinleri sevmez!

Sonuç numarası 3. Yukarıda listelenen sorunlardan kaçınmak için projenizde mükerrer sayfalar olup olmadığını kontrol etmeniz zorunludur.

Birçoğu, içeriklerinin "saflığını" hiç umursamıyor. Eğlenmek için birkaç siteyi kontrol ettim ve yinelenen sayfalarla son teknoloji ürünü görünce biraz şaşırdım. Bir kadının blogunda robots.txt dosyası bulamadım.

Yinelenen içerikle ciddi şekilde ilgilenmek ve bunları tanımlamakla başlamak gerekir.

Yaygın içerik kopyalarına örnekler ve sorunun nasıl çözüleceği

Ana sayfayı alın. Örnek:

  • http://site.com
  • http://site.com/index.php.

Bu durumda sorun, .htaccess dosyası aracılığıyla sunucu için bir "komut" olan bir 301 yönlendirmesi kullanılarak çözülür.

Bir ana sayfa kopyasına başka bir örnek:

  1. http://site.com
  2. http://www.site.com

Bu tür tekrarları önlemek için ana site aynasını dosyaya kaydedebilirsiniz. robots.txt direktifte - "Ev sahibi" Yandex için:

  1. Ev sahibi: site.com

Ve ayrıca kullanın 301 yönlendirmesi ve web yöneticileri için araçları kullanarak Yandex ve Google arama motorlarını sitenin ana aynasına yönlendirin.

Bir çözüm ararken neredeyse beynimi patlatan bir ana sayfa örneği şöyle görünür:

  1. http://site.com
  2. http://site.com/

Bir yerde, ana sayfaya giden bir bağlantının sonundaki eğik çizginin bir çift oluşturduğunu ve arama motorlarının eğik çizgi olan ve olmayan bağlantıları aynı metne sahip bir sayfaya yönlendiren farklı URL'ler olarak algıladığını okudum. Beni endişelendiren çoğaltma ihtimali bile değildi, böyle bir durumda ana sayfanın verdiği kilo kaybı.

kazmaya başladım. Yukarıdaki URL'lerdeki sunucuya istek üzerine, 200 yanıt kodu aldım. Kod 200 şu anlama gelir: "Kullanıcının isteği başarıyla işlendi ve yanıt sunucu istenen verileri içerir." Bundan, almanın hala yüzünde olduğu sonucu çıkıyor.

Hatta bir 301 yönlendirmesi (yönlendirme) yapmaya çalıştım ama komutlar işe yaramadı ve istediğim 301 yanıt kodunu aldım. Sorunun çözümü, sorunun kendisinin olmamasıydı. Cümle böyle çıktı. Modern tarayıcıların kendilerinin satırın sonundaki "/" karakterini değiştirdiği ve onu görünmez hale getirdiği ve bu da otomatik olarak çoğaltmayı imkansız hale getirdiği ortaya çıktı. Bunun gibi!

Ana sayfanın kopyasına bir örnek daha:

  1. http://site.com
  2. https: //site.com

Web yöneticisinin yanlışlıkla veya bir arama motoru arızası veya başka koşullar altında, güvenli https: // protokolü altındaki bir bağlantının dizine girdiği zamanlar vardır. Bu durumda ne yapmalı ve gelecekte bundan nasıl kaçınılır? Elbette, https:// protokolü ile bağlantıları aramadan kaldırmanız gerekir, ancak bunu web yöneticileri için araçları kullanarak manuel olarak yapmanız gerekecektir:

Yandex arama motorunda, web yöneticisi - sitelerim - url'yi kaldır:

Önemli ! robots.txt dosyasına yazılan yönergeler, arama robotlarının metni taramasını yasaklayarak siteyi yinelenenlerden kurtarır, ancak aynı yönergeler sayfa URL'lerinin dizine eklenmesini yasaklamaz.

Makalelerde daha fazlasını okuyun:

Arama motorlarını kullanarak "klonları" tanımlamanın oldukça etkili başka bir yolu daha var. Yandex'de, arama alanında şunları sürmeniz gerekir: link.site.com "Test Parçası".Örnek:


Yandex 2 eşleşme buldu çünkü kategoriyi indekslemeden kapatmadım ve bu nedenle ana sayfadaki duyuru ile bir eşleşme var. Ancak bir mutfak blogu için başlıkların aramaya katılımı haklıysa, SEO gibi diğer konular için böyle bir ihtiyaç yoktur ve kategoriyi indekslemeden kapatmak daha iyidir.

Google aramayı kullanarak şu şekilde kontrol edebilirsiniz: site: site.com "Metin parçası".Örnek:


Metin parçalarına göre içeriğin dahili ve harici kopyalarını aramak için programlar ve çevrimiçi hizmetler

Bu yazıda popüler programların ve hizmetlerin ayrıntılı bir incelemesini yapmayacağım, sadece sürekli kullandığım programlara odaklanacağım.

Dahili ve harici kopyaları aramak için çevrimiçi hizmeti www.miratools.ru kullanmanızı tavsiye ederim. Metni kontrol etmenin yanı sıra hizmet, çeşitli ilginç özellikler de içeriyor.

Yinelenen bulucu - Advego Plagiatus. Çok popüler bir program, şahsen her zaman kullanıyorum. Programın işlevselliği basittir, metni kontrol etmek, kopyalayıp program penceresine yapıştırmak ve başlat'a tıklamak yeterlidir.


Doğrulamadan sonra, kontrol edilen metnin benzersizliğine ilişkin bir rapor, eşleşme kaynaklarına bağlantılar içeren bir yüzde olarak sunulacaktır:


Ayrıca, programın eşleşen bulduğu belirli metin parçaları sarı bir arka planla vurgulanacaktır:


Çok iyi bir program, kullanın ve blog güncellemelerine abone olmayı unutmayın.

Görüşürüz!

İçtenlikle, Kirillov Vitali

Google gibi arama motorları bir sorunla karşı karşıyadır ve adı "yinelenen içerik"tir. İçerik, İnternet üzerinde farklı yerlerde (farklı URL'lerde) benzer bir biçimde görünüyorsa, bunun sonucunda arama motorlarının arama sonuçlarında hangi URL'yi görüntüleyeceğini bilemediği için yinelenen olarak adlandırılır. Bu, bir web sayfasının sıralamasını olumsuz etkileyebilir ve insanlar aynı içeriğin farklı sürümlerine bağlantı vermeye başladığında sorun daha da kötüleşir.

Bu makale, yinelenen içeriğin ortaya çıkmasının nedenlerini anlamanıza yardımcı olacak ve her bir özel durumda ne yapılması gerektiğini anlamanıza yardımcı olacaktır.

Yinelenen içerik nedir?

Yinelenen içerik, yol işaretlerinin aynı yer için farklı yönleri gösterdiği bir kavşakla karşılaştırılabilir: hangi yolu izlemelisiniz? Daha da kötüsü, nihai varış noktası da farklıdır, sadece biraz. Bir okuyucu olarak, umurunuzda değil, asıl mesele, geldiğiniz şeyi elde etmektir, ancak arama motoru, elbette, aynı içeriği görüntülemek istemediğinden, arama sonuçlarında hangi sayfanın görüntüleneceğini seçmelidir. defalarca.

Diyelim ki "x anahtar kelimesi" ile ilgili makaleniz adreslerde değişmeden görünüyor. ve http://www.example.com/article-category/keyword-x/... Durum çok uzak değil: bu, birçok modern içerik yönetim sisteminde olur. Ardından, makalenizin birkaç blogcu tarafından alındığını, bazıları ilk URL'ye ve diğerleri ikinci URL'ye bağlantı verdiğini varsayalım. İşte tam burada, arama motorlarının sorununun gerçek doğasını gösterdiği an - sizi de ilgilendiriyor. bu bağlantılar farklı URL'leri tanıttığı için yinelenen içerik sizin sorununuzdur. Aynı URL'ye bağlanıyorlarsa, "x anahtar kelimesi" için sıralama şansı daha yüksek olurdu.

1 Yinelenen içerik için nedenler

Yinelenen içeriğin görünmesinin düzinelerce nedeni vardır. Çoğu teknik niteliktedir: Bir kişinin aynı içeriği iki farklı yerde yayınlamaya karar vermesi, hangisinin orijinal olduğunu açıkça belirtmeden çok sık değildir - çoğumuz için bu doğal değildir. Bununla birlikte, birçok teknik neden vardır ve bunlar esas olarak geliştiricilerin kendi yollarıyla düşünmelerinden kaynaklanır - tarayıcılar gibi değil, hatta örümcekleri aramayı bırakın, kullanıcılar gibi bile değil - programcılar gibi düşünürler. Örneğin, http://www.example.com/keyword-x/ ve http://www.example.com/article-category/keyword-x/ adreslerinde bulunan daha önce bahsedilen makaleyi alın. Geliştiricilerin görüşleriyle ilgileniyorsanız, burada yalnızca bir makale olduğunu size garanti edeceklerdir.

1.1 URL kavramını yanlış anlama

Hayır, geliştiriciler deli değil, sadece farklı bir dil konuşuyorlar. Site büyük olasılıkla veritabanında yalnızca bir makale bulunan bir CMS tarafından desteklenecektir, ancak web sitesi yazılımı bu makaleye birden fazla URL üzerinden erişilmesine izin verecektir. Yanlış anlama, geliştiricilerin bakış açısından, makalenin benzersiz tanımlayıcısının, orada bir URL değil, veritabanında kendisine atanan kimlik olması nedeniyle oluşur. Ancak bir arama motoru için URL, içerik için benzersiz bir tanımlayıcıdır. Durumu geliştiricilere açıklarsanız, sorunun özünü anlamaya başlayacaklar ve makaleyi okuduktan sonra onlara hazır bir çözüm bile sunabilirsiniz.

1.2 Oturum Kimlikleri

Çoğu zaman, ziyaretçilerinizin hareketlerini izlemek ve örneğin, alışveriş sepetine istenen ürünleri kaydetmelerine izin vermek istersiniz. Bunu yapmak için onlara bir "oturum" sağlamanız gerekir. Bir oturum, bir ziyaretçinin sitenizdeki etkinliğinin kısa bir geçmişidir ve bir alışveriş sepetinde ve benzerlerinde daha önce bahsedilen öğeleri içerebilir. Kullanıcının etkinlik oturumunu kaydetmek için (sitenin sayfalarında gezinmeye devam ederken), bir yere benzersiz bir oturum tanımlayıcısı kaydetmeniz gerekir, buna oturum kimliği de denir. En yaygın çözüm, tanımlama bilgilerini kullanmaktır, ancak gerçek şu ki, arama motorları genellikle bunları kaydetmez.

Bu durumda, bazı sistemler URL'de oturum kimliklerini kullanmayı bırakır. Bu, her dahili web sitesi bağlantısının URL'sine bir oturum kimliğinin atandığı ve bu kimliğin oturum için benzersiz olduğu için, bu yeni URL'ler oluşturur ve dolayısıyla içeriği kopyalar.

1.3 İzleme ve sıralama için kullanılan URL parametreleri

Yinelenen içeriğin bir başka nedeni, izleme bağlantılarında olduğu gibi sayfanın içeriğini değiştirmeyen URL parametrelerinin kullanılmasıdır. Görüyorsunuz, bir arama motoru url'si için http://www.example.com/anahtar kelime–x/ ve http://www.example.com/keyword-x/? kaynak = rss farklıdır. Bu, hangi kaynağın ziyaretçi getirdiğini izlemeyi mümkün kılabilir, ancak aynı zamanda sıralamayı sizin için karmaşıklaştırabilir - bu çok istenmeyen bir sonuçtur!

Bu, elbette, yalnızca izleme parametreleri için değil, kritik bir içeriği değiştirmeyen bir URL'ye eklenebilen tüm parametreler için geçerlidir. Ve bu parametrenin ne için olduğu, "bir ürün kategorisinin sıralamasındaki değişiklikler" veya "bir sonraki kenar çubuğunun gösterimi" olup olmadığı önemli değildir - bunlardan herhangi biri yinelenen içeriğe neden olur.

1.4 Kazıyıcılar ve içerik dağıtımı

Çoğunlukla, siteniz veya kendiniz, yinelenen içerikten sorumlusunuz. Ancak bazen diğer web siteleri, sizin izniniz olsun veya olmasın içeriğinizi kullanır. Her zaman orijinal kaynağa bağlantı vermezler ve sonuç olarak arama motoru aynı makalenin başka bir versiyonuyla uğraşmak zorunda kalır. Siteniz ne kadar popüler olursa, kazıyıcıları o kadar çok çeker ve sorunu daha da şiddetlendirir.

1.5 Parametrelerin sırası

Diğer bir yaygın neden ise, CMS'nin oldukça temiz URL'ler değil, / gibi URL'ler kullanmasıdır. id = 1 & kedi = 2 burada "ID" makaleyi ve "kedi" kategoriyi ifade eder. URL /? kedi = 2 & id = 1çoğu web sitesi sistemi için aynı sonucu temsil edecek, ancak bir arama motoru için sonuçlar tamamen farklı olacaktır.

1.6 Yorumların sayfalandırılması

En sevdiğim WordPress'in yanı sıra diğer bazı içerik yönetim sistemleri yorumları sayfalandırma yeteneğine sahiptir. Bu, makale URL'sine / yorum-sayfa-1 /, / yorum-sayfa-2 / vb. eklendiğinden, makale URL'sinde yinelenen içerikle sonuçlanır.

1.7 Yazdırma için sayfaların sürümü

İçerik yönetim sistemi sayfaların yazdırılabilir bir sürümünü oluşturursa ve onlara makalenizden bağlantı verirseniz, Google büyük olasılıkla onları bulacaktır (kasten engellenmedilerse). Şimdi kendinize dürüstçe cevap verin: Google arama sonuçlarında hangi sürümü görmeyi tercih edersiniz? Reklamlarınızın ve destekleyici içeriğin olduğu sürüm mü yoksa yalnızca makalenin bulunduğu sürüm mü?

1.8 WWW'li ve WWW'siz

Bu neden dünya kadar eskidir, ancak WWW'nin her iki sürümünün de WWW'siz olması durumunda, arama motorları arada sırada (sık olmasa da) ilgili içeriği kopya olarak algılamaya devam eder. Diğer bir neden (bu kadar popüler değil ama benim de uğraşmak zorunda kaldığım) HTTP ve yinelenen içerik.

2 Kavramsal Çözüm: "Kanonik" URL

Daha önce gördüğümüz gibi, birden fazla URL aynı içeriğe yol açtığında bir sorun vardır, ancak bu sorun çözülebilir. Bir yayın üzerinde çalışan bir kişi, belirli bir makalenin "doğru" URL'sinin ne olması gerektiğini açıklamakta zorluk çekmemelidir, ancak aynı şirketten üç kişiye sorarsanız, tamamen farklı cevaplar alabilirsiniz ...

Bu sorun, ancak adresleme yardımı ile çözülebilir, çünkü ne olursa olsun, yalnızca bir URL olabilir. Belirli içerik için böyle bir "doğru" URL, arama motorları tarafından standart olarak kabul edilir.

ironik bir açıklama

Kanonik”, kutsal kitapların bir listesinin oluşturulduğu ve otantik olarak kabul edildiği Roma Katolik geleneğinden türetilen bir terimdir. Yeni Ahit'in kanonik müjdesi olarak tanındılar. İronik olarak, Roma Katolik Kilisesi'nin bu kanonik listeyi doğrulaması yaklaşık 300 yıl sürdü ve birçok savaşta yer aldı. Sonunda aynı hikayenin dört versiyonu üzerinde anlaştılar...

3 Yinelenen içerik sorunlarını belirleme

Sizde yinelenen içeriğin ortaya çıkmasına neyin yol açtığını bilmiyor olabilirsiniz, suçlu site mi yoksa içeriğin kendisi mi? Bunu öğrenmenin birkaç yolu var.

3.1 Google Arama Konsolu

Google Arama Konsolu, yinelenen içeriği belirlemek için harika bir araçtır. Siteniz için Arama Konsolu'na, ardından Arama Görünümü -> HTML İyileştirmeleri'ne gidin ve aşağıdakileri göreceksiniz:

Yinelenen başlıklara veya tanımlayıcılara sahip sayfalara sahip olmak neredeyse her zaman kötü bir şeydir. Tıklandığında, sorunu tanımlamanıza yardımcı olmak için yinelenen başlıklara veya tanımlayıcılara sahip URL'ler bulunur. Daha önce bahsettiğimiz gibi bir makaleniz varsa (X anahtar kelimesi) ve iki kategoride görünüyorsa, farklı başlıkları olabilir. Örneğin, "Anahtar Kelime X - Kategori X - Örnek Site" ve "Anahtar Kelime X - Kategori Y - Örnek Site". Google bu başlıkların mükerrer olduğunu düşünmez, ancak arama yaparak bulunabilirler.

3.2 Başlıkları veya parçacıkları bulma

Yukarıda açıklanan gibi durumlarda çok yararlı olan birkaç arama operatörü vardır. Sitenizin "X anahtar kelimesi" makalesini içeren tüm URL'lerini bulmak istiyorsanız, Google aramasına aşağıdaki ifadeyi yazmanız gerekir:

site: example.com başlık: "Anahtar Kelime X"

Ardından Google size example.com sitesinde tanımlanan ve belirtilen anahtar kelimeyi içeren tüm sayfaları gösterecektir. Başlık ne kadar spesifik olursa, yinelenen içeriği ayıklamak o kadar kolay olur. İnternetteki yinelenen içeriği belirlemek için bu yöntemi kullanabilirsiniz. Örneğin, makalenizin tam başlığı "X Anahtar Kelimesi - neden harika" ise, şu ifadeyi kullanmanız gerekir:

intitle: "X Anahtar Kelimesi - neden harika"

Ve Google size bu başlıkla eşleşen tüm siteleri verecektir. Bazı kazıyıcılar başlığı değiştirebileceğinden, bazen makalenizden bir veya iki tam cümle aramak bile mantıklıdır. Bazı durumlarda, böyle bir arama, Google aramalarının son sayfalarında aşağıdaki bildirimin görüntülenmesine neden olabilir:

Bu, Google'ın yinelenen içeriği kaldırmakla meşgul olduğunun bir işaretidir. Ancak bu hala yeterli değil, bu yüzden en azından bazılarının düzeltilip düzeltilemeyeceğini görmek için bağlantıyı takip etmeye ve diğer tüm sonuçlara bakmaya değer.

4 Yinelenen içerik için pratik çözümler

İçeriğinizin belirli bir parçası için hangi adresin standart olduğuna karar verdikten sonra, standartlaştırma sürecine geçmeniz gerekir (“evet, biliyorum” bunu hızlı ve yüksek sesle üç kez söylemeyi deneyin). Bu, arama motorlarını sayfanın kanonik versiyonu hakkında bilgilendirmemiz ve mümkün olan en kısa sürede bulmalarını sağlamamız gerektiği anlamına gelir. Dört olası çözüm vardır, bunlar tercih sırasına göre aşağıdaki gibi düzenlenmiştir:

  1. Yinelenen içerik oluşturmayın
  2. Yinelenen içeriği standart URL'ye yönlendir
  3. Yinelenen içeriğe sahip sayfaya rel = canonical özniteliği ekleyin
  4. Yinelenen içeriğe sahip sayfadan sayfanın standart sürümüne HTML bağlantısı ekleyin

4.1 Yinelenen içerikten nasıl kaçınılır

Yinelenen içeriğin yukarıdaki nedenlerinden bazıları kolayca ortadan kaldırılabilir:

  • URL'lerinizde oturum kimlikleri var mı?Çoğu zaman, sistem ayarlarında gidip bunları devre dışı bırakabilirsiniz.
  • Sayfaların yazdırılabilir sürümleri var mı? Bunlara gerek yok: yazdırmak için stil vermek için CSS kullanmanız yeterli.
  • WordPress'te yorum sayfalandırma kullanıyor musunuz? Bu özelliği devre dışı bırakmanız yeterlidir (sitelerin %99'unun ayarlar bölümünde).
  • Parametrelerin sırası aynı mı kalıyor? Programcınıza her zaman parametreleri sıralayacak bir komut dosyası yazmasını söyleyin (genellikle "URL fabrikası" olarak anılır).
  • İzleme bağlantılarında herhangi bir sorun var mı?Çoğu durumda, parametreleri kullanmak yerine bir hashtag izleme kampanyası dağıtabilirsiniz.
  • "WWW ve WWW olmayan" ile ilgili herhangi bir sorununuz var mı? Bir veya daha fazlasını seçin ve ardından adresin geri kalanına yönlendirin. Tercihleri ​​Google Web Yöneticisi Araçları'nı kullanarak da ayarlayabilirsiniz, ancak alan adının her iki sürümü de size ait olmalıdır.

Sorununuzun çözümü kolay olmasa bile, çabaya değebilir. Amaç, yinelenen içeriğin görünmesini önlemek olmalıdır, çünkü bu en iyi çözümdür.

4.2 301 yinelenen içeriği yeniden yönlendir

Yanlış URL'ler (içerik için) kullanarak sistemden tamamen kaçınmanın mümkün olmadığı zamanlar vardır, ancak yönlendirmelerden yararlanabileceğiniz zamanlar olabilir. Bunda bir mantık olmadığını düşünüyorsanız (seni anlayabiliyorum), geliştiricilerle konuşurken bunu hatırlamayı unutma. Yinelenen içerikle ilgili sorunları gidermeye çalışırken, tüm yinelenen içeriği eski URL'lerden standart URL'lere yönlendirdiğinizden emin olun.

4.3 Bağlantıların kullanımı

Bazen, URL'nin yanlış olduğunu bilseniz bile, makalenin yinelenen sürümünü istemez veya ondan kurtulamazsınız. Bu sorunu çözmek için arama motorları, sitenizin başlığında bulunan ve aşağıdaki forma sahip bir kanonik bağlantı öğesi sunar:

link rel = "kanonik" href = "http://example.com/wordpress/seo-plugin/

Kurallı bağlantının href niteliğine makaleniz için doğru kurallı URL'yi atıyorsunuz. Kanonik bağlantıları destekleyen bir arama motoru böyle bir öğeyle karşılaştığında, 301 yönlendirmesi gerçekleştirir ve böylece kanonik sürümünün sayfasının kazandığı değerin neredeyse tamamını verir.

Doğru, doğrudan 301 yönlendirmelerini kullanmak daha hızlı olacaktır ve bu nedenle, bir seçeneğiniz varsa, onu tercih etmeniz gerekir.