Bir arama robotunun bileşenleri nelerdir? Arama robotu: nedir ve nasıl çalışır? Arama motoru indeksleme algoritmaları

  • 23.06.2020

Arkadaşlar, sizi tekrar selamlıyorum! Şimdi arama robotlarının ne olduğunu inceleyeceğiz ve google arama robotu ve onlarla nasıl arkadaş olunacağı hakkında detaylı olarak konuşacağız.

Öncelikle arama robotlarının genel olarak ne olduğunu anlamanız gerekir, bunlara örümcek de denir. Arama motoru örümcekleri ne iş yapar?

Bunlar web sitelerini kontrol eden programlardır. Blogunuzdaki tüm gönderilere ve sayfalara bakarlar, bilgi toplarlar ve daha sonra çalıştıkları arama motorunun veritabanına aktarırlar.

Arama robotlarının tüm listesini bilmenize gerek yok, en önemli şey Google'ın artık "panda" ve "penguen" olarak adlandırılan iki ana örümceği olduğunu bilmek. Düşük kaliteli içerik ve önemsiz bağlantılarla savaşıyorlar ve saldırılarını nasıl püskürteceğinizi bilmeniz gerekiyor.

Google panda arama robotu, aramada yalnızca yüksek kaliteli materyali tanıtmak için oluşturuldu. Düşük kaliteli içeriğe sahip tüm siteler arama sonuçlarında alt sıralarda yer alır.

Bu örümcek ilk kez 2011'de ortaya çıktı. Ortaya çıkışından önce, makalelerde büyük miktarda metin yayınlayarak ve çok miktarda anahtar kelime kullanarak herhangi bir siteyi tanıtmak mümkündü. Bu iki teknik birlikte, yüksek kaliteli içeriği arama sonuçlarının en üstüne çıkarmadı, ancak iyi siteler arama sonuçlarında düştü.

"Panda" hemen tüm siteleri kontrol ederek işleri düzene sokar ve herkesi hak ettiği yere koyar. Düşük kaliteli içerikle mücadele etmesine rağmen, artık kaliteli makalelere sahip küçük siteler bile tanıtılabiliyor. Daha önce bu tür sitelerin tanıtımını yapmak bir işe yaramasa da çok miktarda içeriğe sahip olan devlerle rekabet edemiyorlardı.

Şimdi "panda" yaptırımlarından nasıl kaçınacağımızı anlayacağız. Önce neyi sevmediğini anlamalıyız. Yukarıda zaten kötü içerikle uğraştığını yazmıştım ama onun için ne tür bir metin kötü, bunu kendi sitesinde yayınlamamak için çözelim.

Google arama robotu, bu arama motorunda yalnızca başvuru sahipleri için yüksek kaliteli materyallerin yayınlanmasını sağlamaya çalışır. Çok az bilgi içeren ve görünüşte çekici olmayan makaleleriniz varsa, "panda" nın size ulaşmaması için bu metinleri acilen yeniden yazın.

Kaliteli içerik hem büyük hem de küçük olabilir, ancak örümcek çok fazla bilgi içeren uzun bir makale görürse, okuyucuya daha fazla fayda sağlayacaktır.

Daha sonra yineleme yani intihal belirtilmelidir. Blogunuz için başkalarının yazılarını yeniden yazacağınızı düşünüyorsanız hemen sitenize son verebilirsiniz. Kopyalama, bir filtre uygulanarak ciddi şekilde cezalandırılır ve intihal kontrol edilirçok kolay, konuyla ilgili bir makale yazdım benzersizlik için metinler nasıl kontrol edilir.

Dikkat edilmesi gereken bir sonraki şey, metnin anahtar kelimelerle aşırı doygunluğudur. Kim aynı anahtar kelimelerden bir makale yazacağını ve arama sonuçlarında ilk sıralarda yer alacağını düşünüyorsa çok yanılıyor. Sayfaların alaka düzeyini nasıl kontrol edeceğime dair bir makalem var, mutlaka okuyun.

Ve bir "panda" yı size başka ne çekebilir, ahlaki açıdan modası geçmiş ve siteye trafik getirmeyen eski makaleler. Güncellenmeleri gerekiyor.

Ayrıca bir google arama robotu "penguen" var. Bu örümcek, sitenizdeki spam ve önemsiz bağlantılarla savaşır. Ayrıca diğer kaynaklardan satın alınan bağlantıları da hesaplar. Bu nedenle bu arama robotundan korkmamak için link satın almamalı, yüksek kaliteli içerikler yayınlamalısınız ki insanlar size link versinler.

Şimdi sitenin bir arama robotunun gözünden mükemmel görünmesi için yapılması gerekenleri formüle edelim:

  • Kaliteli içerik oluşturabilmek için öncelikle makale yazmadan önce konuyu iyi inceleyin. O zaman insanların bu konuyla gerçekten ilgilendiğini anlamalısınız.
  • Makaleyi canlı ve ilginç kılmak için belirli örnekler ve resimler kullanın. Metni okumayı kolaylaştırmak için küçük paragraflara ayırın.Örneğin, bir gazetede fıkralar içeren bir sayfa açsanız, önce hangilerini okursunuz? Doğal olarak, herkes önce kısa metinler, sonra uzun metinler ve son olarak da uzun ayak bezleri okur.
  • Panda'nın en sevdiği nitpick, güncel olmayan bilgiler içeren bir makalenin alaka düzeyi değildir. Güncellemeler ve metinleri değiştirmek için bizi izlemeye devam edin.
  • Anahtar kelimelerin yoğunluğunu izleyin, bu yoğunluğun nasıl belirleneceğini yukarıda yazdım, bahsettiğim hizmette tam olarak gereken sayıda anahtar alacaksınız.
  • İntihal etmeyin, herkes başkalarının eşyalarını veya metinlerini çalamayacağınızı bilir - bu aynı şeydir. Filtrenin altına girerek hırsızlıktan siz sorumlu olacaksınız.
  • En az iki bin kelimelik metinler yazın, böyle bir makale arama motoru robotlarının gözünden bilgilendirici görünecektir.
  • Blogunuzda konu dışına çıkmayın. İnternette para kazanma üzerine bir blog çalıştırıyorsanız, havalı silahlarla ilgili makaleler yazdırmanıza gerek yoktur. Bu, kaynağınızın derecesini düşürebilir.
  • Güzel makaleler tasarlayın, paragraflara bölün ve siteden hızlı bir şekilde ayrılmak istemeyen, okumayı keyifli hale getirmek için resimler ekleyin.
  • Bağlantı satın alırken, onları insanların gerçekten okuyacağı en ilginç ve faydalı makalelere dönüştürün.

Eh, artık arama motoru robotlarının ne tür işler yaptığını biliyorsunuz ve onlarla arkadaş olabilirsiniz. Ve en önemlisi google arama robotu ve "panda" ve "penguen" tarafınızca detaylı olarak incelenmiştir.

arama robotu İnternette bulunan siteleri ve sayfalarını veritabanına (endeksleme) girmek için tasarlanmış özel bir arama motorunun programı denir. İsimler de kullanılır: paletli, örümcek, bot, otomatik indeksleyici, ant, webcrawler, bot, webscutter, webrobots, webspider.

Çalışma prensibi

Arama robotu, tarayıcı tipi bir programdır. Ağı sürekli olarak tarar: dizine eklenmiş (zaten onun bildiği) siteleri ziyaret eder, onlardan gelen bağlantıları takip eder ve yeni kaynaklar bulur. Yeni bir kaynak bulunduğunda, prosedür robotu onu arama motoru dizinine ekler. Arama robotu ayrıca, sıklığı sabit olan sitelerdeki güncellemeleri de indeksler. Örneğin haftada bir güncellenen bir site bu sıklıkta bir örümcek tarafından ziyaret edilir ve haber sitelerindeki içerikler yayınlandıktan sonra dakikalar içinde indekslenebilir. Siteye başka kaynaklardan hiçbir bağlantı gelmiyorsa, arama robotlarını çekmek için kaynağın özel bir form aracılığıyla eklenmesi gerekir (Google Web Yöneticisi Merkezi, Yandex Web Yöneticisi Paneli vb.).

Arama robotu türleri

Yandex örümcekleri:

  • Yandex/1.01.001 I ana indeksleme botudur,
  • Yandex/1.01.001 (P) - resimleri indeksler,
  • Yandex/1.01.001 (H) - site aynalarını bulur,
  • Yandex/1.03.003 (D) - web yöneticisi panelinden eklenen sayfanın indeksleme parametreleriyle eşleşip eşleşmediğini belirler,
  • YaDirectBot/1.0 (I) - Yandex reklam ağındaki kaynakları indeksler,
  • Yandex/1.02.000 (F) — site faviconslarını indeksler.

Google Örümcekler:

  • Googlebot ana robottur,
  • Googlebot News - haberleri tarar ve dizine ekler,
  • Google Mobil - mobil cihazlar için web sitelerini indeksler,
  • Googlebot Görseller - görselleri arar ve dizine ekler,
  • Googlebot Video - videoları dizine ekler,
  • Google AdsBot - açılış sayfasının kalitesini kontrol eder,
  • Google Mobil AdSense ve Google AdSense - Google reklam ağının sitelerini dizine ekler.

Diğer arama motorları da, listelenenlere işlevsel olarak benzeyen çeşitli robot türleri kullanır.

1.1.1. Arama motoru bileşenleri

Web'deki bilgiler yalnızca yenilenmekle kalmaz, aynı zamanda sürekli değişir, ancak kimse bu değişiklikleri kimseye söylemez. Tüm İnternet kullanıcıları için aynı anda kullanılabilen bilgi girmek için tek bir sistem yoktur. Bu nedenle, bilgiyi yapılandırmak, kullanıcılara uygun veri alma araçları sağlamak için arama motorları oluşturuldu.

Arama motorları farklı türlerdedir. Bazıları, insanların içine koyduklarına göre bilgi arar. Bunlar, editörlerin siteler, kısa açıklamaları veya incelemeleri hakkında bilgi girdiği dizinler olabilir. Bu betimlemeler arasında aranır.

İkincisi, özel programlar kullanarak Web'de bilgi toplar. Bunlar, kural olarak üç ana bileşenden oluşan arama motorlarıdır:

dizin;

arama motoru.

Ajan veya daha yaygın olarak - bir örümcek, bir robot (İngiliz edebiyatında - örümcek, paletli), bilgi arayışı içinde ağı veya belirli bir bölümünü atlar. Bu robot, ziyaret edebileceği ve indeksleyebileceği adreslerin (URL'ler) bir listesini tutar, bağlantılara karşılık gelen belgeleri indirir ve her arama motoru için düzenli aralıklarla analiz eder. Sayfaların ortaya çıkan içeriği robot tarafından daha kompakt bir biçimde kaydedilir ve Dizine aktarılır. Sayfanın (belgenin) analizi sırasında yeni bir bağlantı bulunursa, robot onu listesine ekleyecektir. Bu nedenle, bağlantı içeren herhangi bir belge veya site robot tarafından bulunabilir. Tersine, siteye veya herhangi bir bölümüne harici bağlantılar yoksa, robot onu bulamayabilir.

Bir robot sadece bir bilgi toplayıcı değildir. Oldukça gelişmiş bir "zekası" var. Robotlar belirli bir konudaki siteleri arayabilir, trafiğe göre sıralanmış site listeleri oluşturabilir, mevcut veritabanlarından bilgi alabilir ve işleyebilir ve çeşitli yuvalama derinliklerindeki bağlantıları takip edebilir. Ancak her durumda, bulunan tüm bilgileri arama motorunun veritabanına (İndeks) iletirler.

Arama robotları çeşitli tiplerdedir:

? Örümcek(örümcek), web sayfalarını kullanıcının tarayıcısıyla aynı şekilde indiren bir programdır. Aradaki fark, tarayıcının sayfada bulunan bilgileri (metin, grafik vb.) tarayıcınızda HTML kodunu görüntülemeyi açın).

? paletli(crawler, "seyahat eden" örümcek) - sayfada bulunan tüm bağlantıları vurgular. Görevi, bağlantılara veya önceden tanımlanmış bir adres listesine dayanarak örümceğin bir sonraki nereye gitmesi gerektiğini belirlemektir. Tarayıcı, bulunan bağlantıları izleyerek, arama motorunun hâlâ bilmediği yeni belgeleri arar.

? dizin oluşturucu sayfayı bileşenlerine ayırır ve analiz eder. Metin, başlıklar, yapısal ve stil özellikleri, özel hizmet HTML etiketleri vb. gibi çeşitli sayfa öğeleri seçilir ve analiz edilir.

dizin- bu, arama motorunun bilgilerin arandığı kısmıdır. Dizin, robotlar tarafından kendisine iletilen tüm verileri içerir, böylece dizinin boyutu yüzlerce gigabayta ulaşabilir. Aslında dizin, robotlar tarafından ziyaret edilen tüm sayfaların kopyalarını içerir. Robot, indekslediği bir sayfada bir değişiklik tespit ederse, güncel bilgileri İndex'e gönderir. Mevcut olanın yerini almalıdır, ancak bazı durumlarda Dizin'de yalnızca yeni bir sayfa görünmekle kalmaz, aynı zamanda eski sayfa da kalır.

arama motoru ziyaretçinin Dizin ile etkileşime girdiği arayüzdür. Arayüz aracılığıyla, kullanıcılar isteklerini girip yanıt alırlar ve site sahipleri bunları kaydeder (ve bu kayıt, sitenizin adresini robota iletmenin başka bir yoludur). Bir sorguyu işlerken, arama motoru dizine alınmış milyonlarca kaynak arasından ilgili sayfaları ve belgeleri seçer ve bunları sorguyla önem veya alaka düzeyine göre düzenler.

Genellikle, arama motoru kullanıcının sorgu kriterleriyle eşleşen bilgileri bulma konusunda uzmanlaşmış bir sitedir. Bu tür sitelerin ana görevi, ağdaki bilgileri düzenlemek ve yapılandırmaktır.

Bir arama motorunun hizmetlerini kullanan çoğu insan, İnternet'in derinliklerinden gerekli bilgileri arayarak makinenin tam olarak nasıl çalıştığını asla merak etmez.

Sıradan bir ağ kullanıcısı için, sistemi yönlendiren algoritmalar, arama yaparken optimize edilmiş bir sorgu yapmayı bilmeyen bir kişinin ihtiyaçlarını karşılayabildiğinden, arama motorlarının çalışma ilkeleri kavramı kritik değildir. gerekli bilgiler. Ancak bir web geliştiricisi ve web sitesi optimizasyonuyla ilgilenen uzmanlar için, arama motorlarının yapısı ve ilkeleri hakkında en azından başlangıç ​​kavramlarına sahip olmak yeterlidir.

Her arama motoru, en sıkı gizlilik içinde tutulan ve yalnızca küçük bir çalışan çevresi tarafından bilinen kesin algoritmalar üzerinde çalışır. Ancak bir site tasarlarken veya optimize ederken, önerilen makalede tartışılan arama motorlarının işleyişi için genel kuralları dikkate almak zorunludur.

Her PS'nin kendi yapısına sahip olmasına rağmen, dikkatli bir çalışmadan sonra temel, genelleştirici bileşenlerle birleştirilebilirler:

indeksleme modülü

Dizin Oluşturma Modülü - Bu öğe, üç ek bileşen (bot) içerir:

1. Örümcek (örümcek robot) - sayfaları indirir, metin akışını filtreler, ondan tüm dahili köprüleri çıkarır. Ek olarak, Spider, indirme tarihini ve sunucu yanıtının başlığını ve ayrıca URL'yi - sayfa adresini kaydeder.

2. paletli (emekleme robotu örümcek) - sayfadaki tüm bağlantıları analiz eder ve bu analize dayanarak hangi sayfanın ziyaret edileceğini ve hangisinin ziyarete değmeyeceğini belirler. Aynı şekilde tarayıcı, PS tarafından işlenmesi gereken yeni kaynaklar bulur.

3. indeksleyici (Robot-indexer) - bir örümcek tarafından indirilen İnternet sayfalarının analizi ile ilgilenir. Bu durumda sayfanın kendisi bloklara bölünür ve indeksleyici tarafından morfolojik ve sözlüksel algoritmalar kullanılarak analiz edilir. Bir web sayfasının çeşitli bölümleri dizinleyicinin analizine girer: başlıklar, metinler ve diğer hizmet bilgileri.

Bu modül tarafından işlenen tüm belgeler, arama yapanın sistem dizini adı verilen veritabanında saklanır. Belgelerin kendilerine ek olarak, veritabanı gerekli hizmet verilerini içerir - bu belgelerin dikkatli bir şekilde işlenmesinin sonucu, arama motorunun kullanıcı isteklerini yerine getirmesine rehberlik eder.

arama sunucusu

Sistemin bir sonraki çok önemli bileşeni, görevi kullanıcının isteğini işlemek ve arama sonuçları sayfasını oluşturmak olan arama sunucusudur.

Arama sunucusu, kullanıcının sorgusunu işleyerek, seçilen belgelerin kullanıcının sorgusuna uygunluk puanını hesaplar. Bu sıralama, bir web sayfasının arama sonuçlarında alacağı konumu belirler. Arama kriterleriyle eşleşen her belge, sonuçlar sayfasında bir snippet olarak görüntülenir.

Snippet, başlık, bağlantı, anahtar kelimeler ve kısa metin bilgileri dahil olmak üzere bir sayfanın kısa bir açıklamasıdır. Kullanıcı, snippet'e dayanarak, arama motoru tarafından seçilen sayfaların sorgusuyla alaka düzeyini değerlendirebilir.

Bir sorgunun sonuçlarını sıralarken arama sunucusunun rehberlik ettiği en önemli kriter, zaten aşina olduğumuz TCI göstergesidir ().

PS'nin açıklanan tüm bileşenleri pahalıdır ve çok kaynak yoğundur. Bir arama motorunun performansı doğrudan bu bileşenlerin etkileşiminin etkinliğine bağlıdır.

Makaleyi beğendiniz mi? Blog haberlerine abone olun veya sosyal ağlarda paylaşın, size cevap vereceğim


“Arama motorları onların robotu ve örümcekleridir” yazısına 6 yorum

    Uzun zamandır bu bilgiyi arıyordum, teşekkürler.

    Cevap vermek

    Blogunuzun sürekli gelişmesine sevindim. Bunun gibi gönderiler sadece popülerliğe katkıda bulunur.

    Cevap vermek

    Bir şey anladım. Soru şu ki, Halkla İlişkiler bir şekilde TIC'ye mi bağlı?