Arama motorları ve dizinleri. Arama motoru nedir veya arama motoru nasıl çalışır?

  • 23.06.2019

İnternetteki arama motoru

İnternet çok sayıda faydalı bilgiyi saklar, ancak istenen arayışında çok zaman alabilir. Bu, arama motorlarının ortaya çıkmasının bir nedeni olarak görev yapan ana sorunlardan biridir. İnternet arama motorları, internette bulunan bilgilerin önemli bir bölümünün katalogları içeren veritabanları ile ilişkilidir. Arama motorları, veritabanı endekslemesini yapan programlarla donatılmıştır ve insan kütüphanecileri sınıflandırılır, sıralanır ve Çarşamba günü aramak için Web'i çevirin. 100'den fazla arama motorunun ve araçların görüntülenmesi gerçeğine rağmen, kullanıcılar genellikle ihtiyaç duyduğunuz bilgileri bulma zorluklarından kaynaklanan memnuniyetsizlik yaşarlar. Ve bugün ana konu, bunun veya internetteki bu bilgilerin bulunduğu durumu değil, bunun nereden bakacağının sorusudur.

Arama motorları üç ana elementten oluşur. İlk eleman, indeksleyicidir veya "Örümcek" olarak da adlandırılır. Indexer, Web sayfasından bilgi okur ve aynı web sitesinin diğer sayfalarına bağlantılara geçer. Web siteleri düzenli olarak, ayda bir kez veya her iki ayda bir görüntülenir; Değişiklikleri takip etmek gerekir. Bulunan bilgiler hakkındaki tüm veriler, arama motorunun ikinci bölümünde, indeks veya bazen katalog olarak adlandırılır. Bu, indeksleyicinin bulunduğu her bir Web sayfası tarafından İçerik Tablosunu depolayan büyük bir kitap gibi bir şeydir. Web sayfasını değiştirirken, endekste bu konuda güncellenir. Bazen yeni sayfalar veya değişiklikler derhal değil kataloğa düşer. Bu arada, web sayfasındaki veriler dizine çarpmadı, sayfa arama motoru için mevcut değil. Arama motoru yazılımı üçüncü bileşenidir. Bu program, arama hedeflerini karşılayan bilgileri bulmak için poinje dizinine kaydedilen ve daha sonra onları belirtilen amacın uygunluğunun derecesine göre sıralanır. Web sitelerini analiz etmek için tasarlanmış arama motorları isteklerin kullanımına dayanmaktadır. Kullanıcı, ilgi alanına karşılık gelen kelimeleri veya cümleleri alır.

Özel Program (Örümcek) "Örümcek) Web-Y tarafından ve daha sonra özel arama algoritmaları kullanarak, birkaç saniyede gerekli verileri bulun. Bir arama sorgusuna cevap vermek, arama motoru milyonlarca kaynak taşıyor ve ilgili belgelerin adreslerini bulur. Arama motorları, ilgili Internet sayfalarına açıklamalı köprüler listeleri sağlar. Köprüyü tıklarsanız, uygun adres başka bir bilgisayarda metin, görüntüleri ve bağlantıları bulmak için kullanılacaktır. İnternet arama motorları, büyük web sayfalarıyla birlikte, arama algoritmalarını sürekli iyileştirir ve işlevselliklerini genişletin. Her arama motorunun bireyselliği vardır (kendi özel özelliklerine sahiptir) ve kendi yolunda çalışır. Birçok arama motorunun çalışmaları oldukça başarılı olarak kabul edilir. Ancak, tüm modern sistemler ciddi dezavantajlardan muzdaripler:



1. Anahtar kelimelerle arama çok fazla bağlantı verir ve çoğu işe yaramaz olarak ortaya çıkıyor.

2. Farklı kullanıcı arayüzlerine sahip çok sayıda arama motoru bilişsel aşırı yüklenme sorunu oluşturur.

3. Endeksleme veritabanlarının yöntemleri genellikle anlamsal olarak bilgi içeriğiyle ilişkili değildir.

4. Yetersiz dizin destek stratejileri, genellikle internette olmayan bilgilere referansların verildiğine yol açar.

5. Arama motorları doğal dili anlamak için mükemmel değildir.

6. Modern arama motorları sağlayan erişim seviyesi seviyesinde, kaynağın yararlılığı hakkında makul bir sonuç çıkarmak neredeyse imkansızdır.

Son zamanlarda, entelektüel yardım ihtiyaçları hızla büyüyor: Yardım, üretken bilgi araması için, büyük bir internette veya kurumsal bir uzmanlık ağında bulmak için yardım gereklidir. Bu, akıllı ajanların ortaya çıkmasına neden oldu. Tipik olarak, akıllı ajanlar, arama motorunun ayrılmaz bir parçasıdır. Özellikle gelişmiş bazı programlar canlı asistanlara benzer. Arama ve sıralama bilgileri için yapay zeka teknolojileri kullanılır. Böyle bir arama motoru "düşünür" ve kendini harekete geçirir. Kullanıcı ajanı öğretir, ardından ajan interneti aramaya gider, böylece milyonlarca mevcut belgeden gerekli olanı seçmek ve onları değerlendirmek için. Kullanıcı, herhangi bir zamanda, fikri acenteyi "hatırlayın" ve işin nasıl hareket ettiğini görebilir veya daha da doğru arayacak olan Bulunan bilgilere dayanarak eğitimine devam edebilir. Tablo 3, akıllı ajanların örneklerini ve özelliklerini göstermektedir.

Akıllı ajanlar, kullanıcı veya diğer program adına bir dizi talimatlar gerçekleştirir, bağımsız çalışabilir ve ağda bir dereceye kadar özerklik var. Akıllı ajanlar ve Java uygulamaları arasında bazı farklılıklar var. Java-Applets internetten indirilir ve kullanıcının makinesinde çalışır. Akıllı ajanlar aslında ağa gidiyor ve görevin görevlerini yürütmesine yardımcı olan uygulamaları uzaktan kullanıyor, kullanıcının bilgisayarını diğer görevler için serbest bırakıyor. Hedef elde edildiğinde, kullanıcıyı işin sonu hakkında bilgilendirirler ve sonuçları temsil ederler.

Akıllı ajanlar, kullanıcının hangi bilgilerin ihtiyaç duyduğunu "anlamayı" mümkündür. Ajanlar, birikmiş deneyime ve diğer ajanlarla etkileşimlere bağlı olarak davranışı değiştirmek için programlanabilir. Akıllı ajanların genelleştirilmiş özellikleri aşağıdaki gibi gösterilebilir:

Entelektüellik - Geribildirim, örnekler, hatalar ve diğer ajanlarla etkileşime göre eğitim.

Kolay kullanım - Ajanları doğal bir dil kullanarak "eğitebilirsiniz.

Bireysel yaklaşım - ajanlar kullanıcı tercihlerine adapte olur.

Entegrasyon sürekli eğitim, zaten mevcut bilginin yeni durumlara uygulanması, zihinsel modelin gelişimidir.

Özerklik - ajanlar, çevreyi "hissedebilir ve değişikliğine cevap verebilir, sonuçları çıkarabilirler.

Tablo 3.

Akıllı ajanların örnekleri ve özellikleri.

Bilgi kaynaklarının ölçeği ve internetteki numaraları sürekli olarak genişlemektedir. Arama motorlarının merkezi veritabanı özelliğinin tatmin edici bir çözüm olmadığı açıktır. Akıllı ajanlar, bilgi filtreleyebilecek ve daha doğru sonuçlar elde edebilecek bir sonraki nesil arama motorlarının altında tamamen yeni bir yöndür. Örneğin, Kornea Üniversitesi'nden John Kleinberg tarafından geliştirilen köprü kaynaklı konu arama motoru. Bu arama motoru, anahtar kelimeler için "Hunt" yı yapmaz. Sistem, belirli bir konuya ilişkin sayfaların "topluluklarını" arayışı içinde Web'in doğal yapısını analiz eder, ardından bu sayfaların hangisinin sayfaların yazarlarının bakış açısından önemli olduğunu belirtir. Bu fikir, akademik toplulukta uzun zamandır kullanılmış olan recearim göstergelerine benzer. Böyle bir yaklaşım, geleneksel bir anahtar kelime aramasından daha etkili ve güvenilirdir.

Bu nedenle, elbette, popüler arama motorlarının listesi bitmiyor - sayıları yüzlerce hesaplanır. Ancak, İngilizce konuşan sitelerle çalışmanın, fazlasıyla ve bunlardan daha fazlası olduğundan eminim.

Neredeyse yukarıdaki tüm arama motorlarının Kiril ile çalışabileceği belirtilmelidir. Ancak Rusça bilgiyi aramak için hala yerel arama motorlarını tavsiye ederim:

Diğer Rus konuşan arama motorları var, ancak bunlar özellikle ilk ikisi en popüler.

İncir. 4.1. Google Arama Motoru

İnternette siyah pr işemek kitaptan Yazar Kuzin Alexander Vladimirovich

Arama Motorları ve Katalogları Araçlar Promosyonu olarak "Muharebe" İnternet Kaynakları ve İçeriğini Doldurma Bu bölüm, "İnternet Zekası: Eylem Kılavuzu" kitabının bir kısmı kullanılarak yazılmıştır. "Savaş" sitelerinin doldurulmasının otomatikleştirilmesi ve

Kitap blogundan. Yarat ve Promosyon Yazar Yuschuk Evgeny Vladimirovich

Bir blog tanıtımı olarak motorları ve dizinleri arama yapın ve içeriğiyle doldurun. İlginç içeriğe sahip blog doldurma, yani, diğer blogculardan daha hızlı bir blog için malzeme bulma. Bu tesadüfen, çoğu okuyucu mümkün olacak

Kitap İnternet Zekası'ndan [Eylem Kılavuzu] Yazar Yuschuk Evgeny Leonidovich

Aramada, şirketin adıyla ilgili talepleri çizme

Kitaptan bilgisayarı kendi ellerinizle topluyoruz Yazar Vatamanyuk Alexander Ivanovich

5.2. Popüler işletim sistemleri birçok işletim sistemi vardır ve her birinin kendi prevalans derecesine sahiptir. Bazı sistemler, ağdaki çalışma için daha uygundur, diğerleri - otonom çalışma için, her şeyi hızla kaybetmeden birleştirirken

Kitaptan Win2k SSS (v. 6.0) Yazar Shashkov Aleksey

(6.10) Karışık bir ağ, netware ve NT, W2kPro istemcileri ve W98 vardır. W98 olan makineler, makinelere W2K ile giremez. Bu sorunu çözmek için, yalnızca Novell Client, TCP / IP'ye yalnızca Microsoft İstemcisi'ne, Protokoller, IPX / SPX'e bağlamalar yapmanız gerekir. Bunu menü ağ bağlantılarının özelliklerinde yapabilirsiniz.

Kitaptan soyut, terim, bilgisayarda diploma Yazar

Arama motorları Daha spesifik ve özel bilgilerde bir seçim yapmanız gerekiyorsa, arama motorlarını kullanmak daha iyidir. Arama motoru bir dizi özel yazılım arama programıdır. İçeriği eksikliklerden yoksunlar

İnternet kitabından. Yeni fırsatlar. Püf noktaları ve etkileri Yazar Balovsyk Nadezhda Vasilyevna

Arama Motorları Nasıl Yapılır ve İstekler Nasıl Yapılır Modern arama motorları, internette bilgi aramak için tasarlanmış özel programlardır. Çalışmalarının alanı aşağıdaki gibidir: Zaman zaman onlar

İnternetten% 100 oranında. Ayrıntılı öğretici: "su ısıtıcısı" dan - bir profesyonel Yazar Pürüzsüz Alexey Anatolyevich

Popüler çevrimiçi sinemalar Bir popüler ücretsiz çevrimiçi sinemalar, http://vsekino.tv adresindedir (Şekil 7.5). İncir.

İnternet kitabından - kolay ve basit! Yazar Alexandrov Egor

Popüler kataloglar Dünyadaki en popüler ve tam katalog Kuşkusuz İngilizce konuşan Yahoo! (http://dir.yahoo.com) (Şek. 4.4). İncir. 4.4. Yahoo Links'in en popüler rehberi! Dizinlerin Arama Motorlarıyla birleştirildiği, çok fazla sunulduğu belirtilmelidir.

Yandex kitabından herkes için Yazar Abramon M. G.

1.11.3. Popüler kayıtlar Güncelleniyor Popüler kayıtların bir listesini günde bir kez gerçekleşir. Birkaç düzine bu kayıt var, ancak arama bölümünün başlık sayfası için en popüler aramaların sadece birkaçı. Gerisi tüm kayıtlar bağlantısı ile görüntülenebilir.

Kitaptan İnternetteki herhangi bir dosyayı nasıl bulabilir ve indirebilirsiniz? Yazar Raitman M. A.

1.11.6. Popüler kategoriler Blogcuların, hizmetlerin, en popüler kayıtların sıralaması hakkında bir konuşma yapmadan önce, şimdi kategoriler hakkında olacaktır. Yazarlarının kategorisi mesajlarını belirler. Nasıl, neden, bu konuya, moda, ruh halinden bağlıdır. Yine de

Kitaptan Windows ile ilk adımlar 7. Yeni başlayanlar için rehber Yazar Kolisnichenko Denis N.

1.11.7. Diğer göstergeler arasında ayrı bir blok ile popüler haberler, Yandex servisinin haber değerlendirmesini vurguladı. Haberler. Bunlar bloglarda en çok tartışılan haberler. Popüler haberlerin listesi her 5-10 dakikada bir güncellenir. Eğer bağlantıyı takip ederseniz

Kitaptan Tanışma: Dizüstü Bilgisayar Zhukov Ivan'ın yazarı tarafından.

Dünyanın popüler izleyicileri, kullanabileceğiniz hizmetleri çok sayıda torrent izci vardır. Sonra en popüler izci. http://lostfilm.tv - series konusunda uzmanlaşmış izci. Kural olarak, profesyonel seslendirme ve kalitede sürümler

Book BT-Security: Corporation'ı riske atmaya değer mi? McCarthy Linda tarafından

10.2.1. İnternet arama motorları çok fazla bilgi içerir. Ne de olsa, herkes internette bir web sitesi oluşturabilir, bu yüzden yeni sitelerin sayısı her gün büyüyor. İnternette arama yapmak için arama motorları kullanılır. Araba özeldir

Yazarın kitabından

Popüler ICQ İnternet Uygulamaları (ICQ) ICQ, merkezi bir anlık mesajlaşma servisidir. Kullanıcı hizmeti (yani, siz) bir istemci programı ile çalışır ("Messenger" denilen). Mesaj iletimi anında gerçekleşir. Ayrıca

Yazarın kitabından

Popüler posta kutuları Bu liste Bu liste bu liste, kullanılabilecekleri ve bunların nasıl kapatılacağı gibi Unix savunmasız yerleri tarafından tartışılmaktadır. Amacı, hack sistemlerini öğrenmemek, ancak aksine, savunmasız yerlerin nasıl algılayacağı, onlar hakkındaki bilgileri nasıl paylaşacağınız,

Tematik bağlantılar koleksiyonları, bir grup profesyonel veya hatta tek kollektörler tarafından derlenen listelerdir. Çok sık, çok özel bir tema, büyük bir kataloğun bir grubundan daha iyi bir uzman tarafından açıklanabilir. Ağdaki tematik koleksiyonlar, belirli adresler vermek mantıklı olmadığı kadar.

Alan Adı Seçimi

Dizin uygun bir arama sistemidir, ancak, Microsoft veya IBM sunucusuna ulaşmak için kataloğa erişmek mantıklı değildir. Tahmin et, ilgili sitenin adı zor değil: www.microsoft.com, www.ibm.com veya www.microsoft.ru, www.ibm.ru - bu şirketlerin Rus temsilcileri siteleri.

Benzer şekilde, kullanıcının dünyadaki havaya adanmış bir web sitesine ihtiyacı varsa, www.weather.com sunucusunda aramak mantıklıdır. Çoğu durumda, başlıktaki bir anahtar kelimeye sahip arama sitesi, bu kelimenin kullanıldığı metindeki bir belge aramasından daha verimlidir. Batı ticari şirketi (veya proje) tek bir ada sahipse ve sunucusunu ağda uygularsa, yüksek olasılıkla olan ismi www.name.com formatında ve runet (ağın Rus parçası) için istifleniyor - www.name.ru, adı - şirket adı veya projesi. Adresin seçimi, aramanın diğer resepsiyonlarıyla başarılı bir şekilde rekabet edebilir, çünkü benzer bir arama sistemiyle, herhangi bir arama motorunda kayıtlı olmayan sunucuya bağlanabilirsiniz. Ancak, istediğiniz adı seçerseniz, arama motoruna başvurmanız gerekir.

Arama motorları

Bana internette aradığınızı söyleyin ve size kim olduğunuzu söyleyeceğim

Bilgisayar, aradığınızı kolayca açıklayabilecek oldukça akıllı bir sistem olsaydı, o zaman iki veya üç belge verir - tam olarak ihtiyacınız olanlar. Ancak, ne yazık ki, bu durum değil ve talebe cevaben, kullanıcının genellikle ne sordukları ile ilgisi olan hiçbir şeyi olmayan uzun bir belge listesi alır. Bu tür belgelerin ilgisiz (İngilizce'den) olarak adlandırılır. İlgili uygun, davaya atıfta bulunur). Böylece, ilgili belge istenen bilgileri içeren bir belgedir. Açıkçası, elde edilen alakalı belgelerin yüzdesi, talebi vermek için beceriye bağlıdır. İlgili belgelerin tüm bulundu arama motoru belgelerinin listesindeki payı, aramanın doğruluğu denir. İlgili olmayan belgelerin gürültü denir. Bulunan tüm belgeler alakalı (NoUM gürültüsü) ise, arama doğruluğu% 100'dür. İlgili tüm belgeler bulunursa, arama dolgunluğu% 100'dür.

Böylece, arama kalitesi iki birbirine bağımlı parametre ile belirlenir: Aramanın doğruluğu ve eksiksizliği. Artan arama dolgunluğu doğruluğu azaltır ve bunun tersi de geçerlidir.

Arama motoru nasıl

Arama motorları, ajanları veri tabanına bilgi toplayarak şirketleri atlayan referans hizmeti ile karşılaştırılabilir (Şek. 4.21). Hizmetle iletişim kurarken, bilgi bu veritabanından verilir. Veritabanındaki veriler eskidir, bu nedenle ajanlar periyodik olarak güncellenir. Bazı işletmelerin kendileri kendileri hakkında veri gönderiyorlar ve ajanlara gelmek zorunda değiller. Başka bir deyişle, Yardım Masası'nın iki fonksiyonu vardır: Veritabanındaki verilerin oluşturulması ve sürekli güncellenmesi ve müşterinin talebi üzerine veritabanındaki bilgileri arayın.


İncir. 4.21.

Benzer şekilde, arama motoru İki bölümden oluşur: ağ sunucularını atlayan ve bir arama motoru veritabanı oluşturan sözde robot (veya örümcek) denilen.

Robotun temeli temel olarak kendisi tarafından oluşturulur (robotun kendisi yeni kaynaklara referanslar bulur) ve sitelerini arama motoruna kaydolan çok daha az kapsamlı kaynak sahiplerine. Bir veritabanı oluşturan robota (ağ aracısı, örümcek, solucan) ek olarak, bulunan bağlantıların derecelendirmesini belirleyen bir program vardır.

Arama motorunun ilkesi, kullanıcının istek alanında belirtilen anahtar kelimelerle iç dizinini (veritabanını) anlattığı ve alaka düzeyine göre sıralanan referansların bir listesini verdiği gerçeğine düşürülür.

Belirli bir kullanıcı talebi çalışarak, arama motoru iç kaynaklar açısından (ve ağ üzerinden bir yolculukta başlamaz, check-in kullanıcıları olarak kabul edilmez) ve dahili kaynaklar doğal olarak gerçekleştirildiğine dikkat edilmelidir. sınırlı. Arama motoru veritabanının sürekli güncellenmesi gerçeğine rağmen, arama motoru Tüm web belgeleri indeksleyemiyor: Sayı çok büyük. Bu nedenle, her zaman istenen kaynağın belirli bir arama motoru tarafından basitçe bilinme olasılığı vardır.

Bu düşünce, Şekil 2'yi açıkça göstermektedir. 4.22. Elipse 1, bir noktada var olan tüm web belgelerinin setini, ElipSe 2 - Bu arama motoru tarafından dizine eklenen tüm belgeler ve Elipse 3 istenen belgelerdir. Böylece, bu arama motoruyla yalnızca istenen belgelerin endekslendiği kısmını bulmak mümkündür.


İncir. 4.22.

Arama dolgunluğunun yetersizliği sorunu sadece arama motorunun iç kaynakları ile sınırlı olmamakla birlikte, aynı zamanda robotun hızının sınırlı olduğu ve yeni web belgelerinin sayısı sürekli büyüyor. Arama motorunun iç kaynaklarındaki bir artış, robotu atlayarak kaynak oranı sonlu olduğundan sorunu tam olarak çözemez.

Aynı zamanda varsayalım arama motoru İnternetin kaynak kaynaklarının bir kopyasını içerir, yanlış olurdu. Tam bilgi (kaynak belgeler) her zaman saklanmaz, sadece parçası daha sık saklanır - denilen dizinlenmiş liste veya belgelerin metinde çok daha fazla kompakt olan ve arama yapmak için daha hızlı yanıt vermenizi sağlar. sorguları.

İndeksi oluşturmak için, başlangıç \u200b\u200bverileri, tabanın hacmi minimumdur ve arama çok hızlı bir şekilde gerçekleştirildi ve maksimum faydalı bilgiler verildi. Endekslenmiş bir listenin kağıt analoguna paralel olduğunu açıklamak - sözde uyum, yani. Belirli bir yazar tarafından kullanılan kelimelerin, alfabetik sırayla listelendiği sözlük yanı sıra onlara referanslar ve çalışmalarında kullanımlarının sıklığı.

Açıkçası, ConcorDANS (sözlük), eserlerin orijinal metinlerinde çok daha kompakt ve doğru sözcüğü bulmak, doğru sözcüğü geçmeyi umarak overclock'dan çok daha kolaydır.

Bina endeksi

Bir endeks oluşturma şeması, Şekil 2'de gösterilmiştir. 4.23. Ağ ajanları veya örümcekler, ağ üzerinden "tarama", Web sayfalarının içeriğini analiz eder ve hangi sayfanın tespit edildiği bilgileri toplayın.


İncir. 4.23.

Başka bir HTML sayfası bulurken, çoğu arama motoru, üzerinde bulunan kelimeleri, resimleri, bağlantıları ve diğer öğeleri (farklı şekillerde farklı arama motorlarında) düzeltilir. Ve sayfadaki kelimeleri izlerken, sadece varlıkları sabit değildir, aynı zamanda konum, yani. Bu kelimelerin bulunduğu yer: başlıkta (başlık), altyazılar (altyazılar), metagas 1 Metatega, geliştiricilerin arama motorunu yönlendirmek de dahil olmak üzere Web sayfasında servis bilgilerini vermelerine izin veren hizmet etiketleridir. (Meta etiketleri) veya başka bir yerde. Aynı zamanda, anlamlı kelimeler genellikle kaydedilir ve "A", "AMA" ve "veya" tipinin sendikaları ve ilişkileri göz ardı edilir. Metachega, sayfa sahiplerinin, sayfanın dizine eklendiği anahtar kelimeleri ve konuları tanımlamasına izin verir. Bu, anahtar kelimelerin birkaç değere sahip olduğunda durumunda geçerli olabilir. Metatega, kelimenin birkaç kelimesinden sadece doğru olana kadar seçtiğinizde arama motorunu yönlendirebilir. Bununla birlikte, metagages sadece dürüst web sitesi sahipleri ile dolu olduklarında güvenilir bir şekilde çalışırlar. Web sitelerinin ahlaksız sahipleri, sitenin konusu ile hiçbir ilgisi olmayan ağdaki en popüler kelimeleri ölçmektedir. Sonuç olarak, ziyaretçiler istenmeyen yerlere düşer, böylece derecelendirmelerini arttırır. Bu nedenle, birçok modern arama motorunun metagahları görmezden geldiğini ya da sayfanın sayfasına göre daha fazla göreceli olarak düşünün. Her robot, bilgisiz reklam için cezalandırılan kaynak listesini desteklemektedir.

Açıkçası, "Köpek" anahtar kelimesinde siteler arıyorsanız, arama motoru sadece "Köpek" kelimesinin belirtildiği tüm sayfaları ve bu kelimenin sitenin konusu ile ilgili olduğu tüm sayfaları bulmalıdır. Ne ölçüde, bir şeyin veya bu kelimenin bazı Web sayfasının profili ile ilişkili olduğunu belirlemek için, bu kelimedeki diğer sayfalara bağlantılar olup olmadığı, sayfada ne sıklıkta bulunduğunu değerlendirmek gerekir. Kısacası, kelime sayfasında önem derecesine göre bulunması gerekir. Kelimelerin kaç kez ve nerede buluştuklarına bağlı olarak ağırlık katsayıları (sayfanın başlangıcında veya sonunda, bağlantıda, metatlarda, vb.). Her arama motorunun kendi ağırlık kazancı algoritması vardır - bu, arama motorlarının aynı anahtar kelime üzerindeki çeşitli kaynak listeleri vermelerinin nedenlerinden biridir. Sayfalar sürekli güncellendiğinden, endeksleme işlemi sürekli yapılmalıdır. Robotlar-örümcekler bağlantılar boyunca seyahat eder ve oldukça büyük olabilecek bir dizin içeren bir dosya oluşturur. Boyutunu azaltmak için, dosyanın bilgi ve sıkıştırma miktarını en aza indirmek için başvurulur. Birkaç robota sahip olmak, arama motoru saniyede yüzlerce sayfa kullanabilir. Günümüzde güçlü arama motorları yüz milyonlarca sayfayı saklar ve günlük on milyonlarca sorgu alır.

Bir dizin oluştururken, kopyaların sayısını azaltma görevi de çözülür - görev, doğru karşılaştırma için önce uygulama kodlamasını belirlemelisiniz. Daha da zor bir iş, benzer belgeleri ayırmaktır ("neredeyse kopyalar" olarak adlandırılır ("neredeyse kopyalar" olarak adlandırılır), örneğin sadece başlığın farklı olduğu ve metnin çoğaltıldığı gibi. Ağda birçok belge var - örneğin, birisi özetten yazdı ve imzası için sitede yayınladı. Modern arama motorları, bu tür problemleri çözmenize izin verir.

Giriş ................................................. ....................................2.

1 Arama Makineleri: Kompozisyon, İşlevler, İşlem Prensibi

1.1 Arama Motorlarının Bileşimi ............................................... ............. 3

1.2 Arama Motorlarının Özellikleri ........................................................... ... ..4

1.3 Arama Motorlarının Çalışmasının İlkeleri ............................................. .4

2 Arama motorlarının işleyişine genel bakış

2.1 Yabancı arama motorları: İşin kompozisyonu ve ilkeleri ............ 12

2.2 Rusça konuşan arama motorları: İşlemin kompozisyonu ve ilkeleri .... .....14

Sonuç ........................................................... ............................................ 16

Kullanılan Referanslar Listesi ................................................ ...... .17

Giriş

Arama motorları uzun zamandır Rus internetin ayrılmaz bir parçası olmuştur. Farklı yollar olsa da, kullanıcıya kullanıcıya kullanıcıyı sağlamak için bilginin işlenmesinin tüm aşamalarını bağımsız olarak, bunlar genellikle adlandırılır özerk arama sistemler .

Arama motorları artık sadece bir bilgi arama aracı değil, aynı zamanda iş için cazip alanlar olan büyük ve karmaşık mekanizmalardır. Bu sistemler, tarama programının algoritmasında bir dereceye kadar olan bilgi seçimi ilkesine göre değişebilir. Otomatik dizin ve katalog çalışanlarının kayıttan sorumlu olan davranışların düzenlemelerinde. Kural olarak, iki ana gösterge karşılaştırılır:

IPS'in çalıştığı mekansal ölçek,

Ve uzmanlığı.

Çoğu arama motoru kullanıcısı, arama motorlarının işleme prensibi hakkında hiçbir zaman (veya düşünmedi, ancak bir cevap bulamadı), kullanıcı isteklerinin işleme şeması hakkında, bu sistemlerin ne olduğunu ve nasıl çalıştıkları hakkında ... arama motorları olabilir. Acenteleri referans servisiyle karşılaştırılabilir referans hizmeti ile karşılaştırılabilir. Veritabanına bilgi toplayarak işletmeleri işbirliği yapın. Hizmetle iletişim kurarken, bilgi bu veritabanından verilir. Veritabanındaki veriler eskidir, bu nedenle ajanlar periyodik olarak güncellenir. Bazı işletmelerin kendileri kendileri hakkında veri gönderiyorlar ve ajanlara gelmek zorunda değiller. Başka bir deyişle, Yardım Masası'nın iki fonksiyonu vardır: Veritabanındaki verilerin oluşturulması ve sürekli güncellenmesi ve müşterinin talebi üzerine veritabanındaki bilgileri arayın.

1 Arama Makineleri: Kompozisyon, İşlevler, İşlem Prensibi

1.1 Arama Motoru Kompozisyonu

Arama motoru, internette arama yapmak ve bir metin ifadesi (Arama Sorgusu) biçiminde belirtilen bir kullanıcı isteğine (Arama Sorgusu) formunda belirtilen bir kullanıcı isteğine cevap vermek için tasarlanmış bir yazılım ve donanım kompleksidir. sorgu). En büyük uluslararası arama motorları: "Google", "Yahoo", "MSN". Rus internette "Yandex", "Rambler", "Aport".

Benzer şekilde, arama motoru iki bölümden oluşur: ağ sunucularını atlayan ve bir arama motoru veritabanı oluşturan sözde robot (veya örümcek).

Robotun temeli temel olarak kendisi tarafından oluşturulur (robotun kendisi yeni kaynaklara referanslar bulur) ve sitelerini arama motoruna kaydolan çok daha az kapsamlı kaynak sahiplerine. Bir veritabanı oluşturan robota (ağ aracısı, örümcek, solucan) ek olarak, bulunan bağlantıların derecelendirmesini belirleyen bir program vardır.

Arama motorunun ilkesi, kullanıcının istek alanında belirtilen anahtar kelimelerle iç dizinini (veritabanını) anlattığı ve alaka düzeyine göre sıralanan referansların bir listesini verdiği gerçeğine düşürülür.

Belirli bir kullanıcı talebi çalışarak, arama motoru iç kaynaklar açısından (ve ağ üzerinden bir yolculukta başlamaz, check-in kullanıcıları olarak kabul edilmez) ve dahili kaynaklar doğal olarak gerçekleştirildiğine dikkat edilmelidir. sınırlı. Arama motoru veritabanının sürekli güncellenmesi gerçeğine rağmen, arama motoru tüm web belgelerini endeksleyemiyor: Sayı çok büyük. Bu nedenle, her zaman istenen kaynağın belirli bir arama motoru tarafından basitçe bilinme olasılığı vardır.

1.2 Arama Motoru Özellikleri

İşte, arama işlemi dört aşama ile temsil edilir: ifadeler (arama başlangıcından önce gerçekleşir); eylem (başlangıç \u200b\u200barama); Sonuçların gözden geçirilmesi (kullanıcının arama sonrası gördüğü sonuç); ve iyileştirme (sonuçların gözden geçirilmesinden sonra ve aynı ihtiyacın başka bir formülasyonuyla aramaya geri dönmeden önce). Daha uygun olmayan bir doğrusal olmayan bilgi arama şeması aşağıdaki adımlardan oluşur:

Doğal dil için bilgilendirme ihtiyacının tespiti;

İstenilen ağ arama hizmetlerinin seçimi ve bilginin doğru resmileştirilmesi özel bilgi ve arama dillerini (IPA) kaydetmesi gerekir;

Yaratılan isteklerin yürütülmesi;

Ön işleme ve belgelere referans referans listelerinin örnekleri;

Gerekli belgeler için seçilen adreslere itiraz;

Bulunan belgelerin içeriğini önizleyin;

Sonraki çalışma için ilgili belgelerin korunması;

İsteği genişletmek için ilgili referans belgelerinden alın.

Kayıtlı belgenin tüm dizisinin incelenmesi;

Bilgi ihtiyacı tam olarak memnun değilse, ilk aşamaya geri dönün.

1.3 Arama Motorlarının İlkeleri

Herhangi bir arama motorunun görevi, aradıkları bilgileri vermektir. İnsanlara "doğru" istekleri yapmalarını öğretin, yani. Arama motorlarının prensiplerini karşılayan sorular imkansızdır. Bu nedenle, geliştiriciler bu tür algoritmalar ve arama motorlarının ilkelerini oluşturur, bu da kullanıcıların aradıkları bilgileri kullanmalarını sağlar. Bu, arama motorunun "düşünün" olduğu gibi, kullanıcının bilgi ararken olduğunu düşünmesi gerektiği anlamına gelir.

Çoğunlukla ilgili arama motorları, ön indeksleme ilkesi üzerine çalışır. Aynı prensipte, çoğu arama motorunun veritabanı çalışıyor.

Başka bir inşaat prensibi var. Doğrudan arama. Bir anahtar kelime arayışında bulunduğunuz gerçeğinde, kitabı sayfaya göre sayfaya çevirin. Tabii ki, bu yöntem çok etkilidir.

Ters çevrilmiş bir dizinle bir düzenlemede, arama motorları dosya değerlerinin sorunuyla karşı karşıya. Kural olarak, anlamlı derecede yüksektir. Bu sorun genellikle iki yöntemle çözülür. Birincisi, her şeyin dosyalardan silinmesi, ancak yalnızca arama yapmak için gerçekten gereken şeydir. İkinci yöntem, mutlak adresin her pozisyon için hatırlanmadığı, ancak göreceli, yani Mevcut ve önceki pozisyonlar arasındaki adreslerin farkı.

Böylece, arama motoru tarafından gerçekleştirilen iki ana işlem dizin oluşturma siteleri, sayfalar ve arama yapar. Genel olarak, arama motorları için indeksleme işlemi sorunlara neden olmaz. Sorun, günde bir milyon talebin işlenmesidir. Bu, büyük bilgisayar kompleksleri tarafından işlenen büyük miktarda bilgi nedeniyledir. Aramaya katılan sunucu sayısını belirleyen ana faktör bir arama yüküdür. Bu, bilgi aramaktan kaynaklanan bazı tuhaflıkları açıklar.

Arama motorları beş ayrı yazılım bileşeninden oluşur:

Örümcek (Örümcek): Web sayfalarını indiren tarayıcı benzeri bir program.

paletli: Sayfada bulunan tüm bağlantılara otomatik olarak devam eden "seyahat" örümceği.

indexer (Indexer): Örümceklerin indirilen web sayfalarını analiz eden "kör" programı.

veritabanı: İndirilen ve işlenmiş sayfaların depolanması.

arama Motoru Sonuçları Motoru (Sonuçlar Sistemi): Arama sonuçlarını veritabanından çıkarır.

Örümcek: Örümcek, web sayfalarını indiren bir programdır. Web sitesine bağlandığınızda ve sayfayı indirdiğinizde tam olarak tarayıcınız olarak çalışır. Örümceğin görsel bileşenleri yoktur. Aynı eylem (indirme) Bir sayfayı görüntülediğinizde ve tarayıcınızda "HTML kodunu görüntüle" seçeneğini seçtiğinizde gözlemleyebilirsiniz.

Paletli: Bir örümcek indirme sayfaları gibi, sayfayı "soyun" ve tüm bağlantıları bulabilir. Bu onun görevidir - örümceğin nerede olduğunu belirlemek için, bağlantılara göre veya önceden belirlenmiş bir adres listesine dayanarak.

Endeksleyici: Endeksleyici sayfayı çeşitli parçalarına söküyor ve analiz eder. Sayfa başlıkları, başlıklar, bağlantılar, metin, yapısal elemanlar, kalın, italik elemanlar ve sayfanın diğer stil parçaları gibi elemanlar ertelenir ve analiz edilir.

Veri tabanı: Veritabanı, arama motorunun indirilebileceği tüm verilerin bir deposudur ve analiz eder. Bu genellikle büyük kaynaklar gerektirir.

Arama. Motor Sonuçlar: Sonuçlar sistemi sıralama sayfalarında bulunur. Hangi sayfaların kullanıcının isteğini karşıladığını ve hangi sırayla sıralanmaları gerektiğine karar verir. Bu, arama motoru sıralama algoritmalarından kaynaklanmaktadır. Bu bilgiler bizim için en değerli ve ilginçtir - bu, optimize edici etkileşimde bulunan arama motorunun bu bileşeniyle, sitenin iadesini artırmaya çalışırken, gelecekte etkileyen tüm faktörleri ayrıntılı olarak düşüneceğiz. sonuçların sıralaması.

Arama işaretçisi arayışı, ikisinin hazırlık ve kullanıcı için görünmez olduğu üç aşamada meydana gelir. İlk olarak, arama işaretçisi bilgi toplar Dünya Geniş Ağ. . Bu, tarayıcılara benzer özel programlar kullanır. Belirtilen Web sayfasını Arama Pointer Sunucusuna kopyalayabilir, görüntüler, orada bulunan kaynakları olan tüm hipethelensleri bulun, vb. İçindeki köprüleri tekrar bulmak için, vb. Bu programlar denir. solucanlar, Örümcekler, Caterpillar, Cragolers, Örümcekler ve diğer benzer isimler. Her arama işaretçisi, genellikle gelişen bu amaç için kendi benzersiz programını çalıştırır. Otomatik ağ izleme programlarının geliştirilmesi ve uygulanması ile ilgili deneysel projelerden birçok modern arama motoru doğdu. Teorik olarak, iyi bir giriş ile Örümcek Bir dalış için tüm web alanını oynayabilir, ancak çok zaman alıyor ve orada meydana gelen değişiklikleri kontrol etmek ve "ölü" referansları tanımlamak için daha önce ziyaret edilen kaynaklara periyodik olarak geri dönmek için hala gereklidir. alaka düzeyi kaybetti.

Giriş ................................................. ....................................2.

1 Arama Makineleri: Kompozisyon, İşlevler, İşlem Prensibi

1.1 Arama Motorlarının Bileşimi ............................................... ............. 3

1.2 Arama Motorlarının Özellikleri ........................................................... ... ..4

1.3 Arama Motorlarının Çalışmasının İlkeleri ............................................. .4

2 Arama motorlarının işleyişine genel bakış

2.1 Yabancı arama motorları: İşin kompozisyonu ve ilkeleri ............ 12

2.2 Rusça konuşan arama motorları: İşlemin kompozisyonu ve ilkeleri .... .....14

Sonuç ........................................................... ............................................ 16

Kullanılan Referanslar Listesi ................................................ ...... .17

Giriş

Arama motorları uzun zamandır Rus internetin ayrılmaz bir parçası olmuştur. Farklı yollar olsa da, kullanıcıya kullanıcıya kullanıcıyı sağlamak için bilginin işlenmesinin tüm aşamalarını bağımsız olarak, bunlar genellikle adlandırılır özerk arama sistemler .

Arama motorları artık sadece bir bilgi arama aracı değil, aynı zamanda iş için cazip alanlar olan büyük ve karmaşık mekanizmalardır. Bu sistemler, tarama programının algoritmasında bir dereceye kadar olan bilgi seçimi ilkesine göre değişebilir. Otomatik dizin ve katalog çalışanlarının kayıttan sorumlu olan davranışların düzenlemelerinde. Kural olarak, iki ana gösterge karşılaştırılır:

IPS'in çalıştığı mekansal ölçek,

Ve uzmanlığı.

Çoğu arama motoru kullanıcısı, arama motorlarının işleme prensibi hakkında hiçbir zaman (veya düşünmedi, ancak bir cevap bulamadı), kullanıcı isteklerinin işleme şeması hakkında, bu sistemlerin ne olduğunu ve nasıl çalıştıkları hakkında ... arama motorları olabilir. Acenteleri referans servisiyle karşılaştırılabilir referans hizmeti ile karşılaştırılabilir. Veritabanına bilgi toplayarak işletmeleri işbirliği yapın. Hizmetle iletişim kurarken, bilgi bu veritabanından verilir. Veritabanındaki veriler eskidir, bu nedenle ajanlar periyodik olarak güncellenir. Bazı işletmelerin kendileri kendileri hakkında veri gönderiyorlar ve ajanlara gelmek zorunda değiller. Başka bir deyişle, Yardım Masası'nın iki fonksiyonu vardır: Veritabanındaki verilerin oluşturulması ve sürekli güncellenmesi ve müşterinin talebi üzerine veritabanındaki bilgileri arayın.

1 Arama Makineleri: Kompozisyon, İşlevler, İşlem Prensibi

1.1 Arama Motoru Kompozisyonu

Arama motoru, internette arama yapmak ve bir metin ifadesi (Arama Sorgusu) biçiminde belirtilen bir kullanıcı isteğine (Arama Sorgusu) formunda belirtilen bir kullanıcı isteğine cevap vermek için tasarlanmış bir yazılım ve donanım kompleksidir. sorgu). En büyük uluslararası arama motorları: "Google", "Yahoo", "MSN". Rus internette "Yandex", "Rambler", "Aport".

Benzer şekilde, arama motoru iki bölümden oluşur: ağ sunucularını atlayan ve bir arama motoru veritabanı oluşturan sözde robot (veya örümcek).

Robotun temeli temel olarak kendisi tarafından oluşturulur (robotun kendisi yeni kaynaklara referanslar bulur) ve sitelerini arama motoruna kaydolan çok daha az kapsamlı kaynak sahiplerine. Bir veritabanı oluşturan robota (ağ aracısı, örümcek, solucan) ek olarak, bulunan bağlantıların derecelendirmesini belirleyen bir program vardır.

Arama motorunun ilkesi, kullanıcının istek alanında belirtilen anahtar kelimelerle iç dizinini (veritabanını) anlattığı ve alaka düzeyine göre sıralanan referansların bir listesini verdiği gerçeğine düşürülür.

Belirli bir kullanıcı talebi çalışarak, arama motoru iç kaynaklar açısından (ve ağ üzerinden bir yolculukta başlamaz, check-in kullanıcıları olarak kabul edilmez) ve dahili kaynaklar doğal olarak gerçekleştirildiğine dikkat edilmelidir. sınırlı. Arama motoru veritabanının sürekli güncellenmesi gerçeğine rağmen, arama motoru tüm web belgelerini endeksleyemiyor: Sayı çok büyük. Bu nedenle, her zaman istenen kaynağın belirli bir arama motoru tarafından basitçe bilinme olasılığı vardır.

1.2 Arama Motoru Özellikleri

İşte, arama işlemi dört aşama ile temsil edilir: ifadeler (arama başlangıcından önce gerçekleşir); eylem (başlangıç \u200b\u200barama); Sonuçların gözden geçirilmesi (kullanıcının arama sonrası gördüğü sonuç); ve iyileştirme (sonuçların gözden geçirilmesinden sonra ve aynı ihtiyacın başka bir formülasyonuyla aramaya geri dönmeden önce). Daha uygun olmayan bir doğrusal olmayan bilgi arama şeması aşağıdaki adımlardan oluşur:

Doğal dil için bilgilendirme ihtiyacının tespiti;

İstenilen ağ arama hizmetlerinin seçimi ve bilginin doğru resmileştirilmesi özel bilgi ve arama dillerini (IPA) kaydetmesi gerekir;

Yaratılan isteklerin yürütülmesi;

Ön işleme ve belgelere referans referans listelerinin örnekleri;

Gerekli belgeler için seçilen adreslere itiraz;

Bulunan belgelerin içeriğini önizleyin;

Sonraki çalışma için ilgili belgelerin korunması;

İsteği genişletmek için ilgili referans belgelerinden alın.

Kayıtlı belgenin tüm dizisinin incelenmesi;

Bilgi ihtiyacı tam olarak memnun değilse, ilk aşamaya geri dönün.

1.3 Arama Motorlarının İlkeleri

Herhangi bir arama motorunun görevi, aradıkları bilgileri vermektir. İnsanlara "doğru" istekleri yapmalarını öğretin, yani. Arama motorlarının prensiplerini karşılayan sorular imkansızdır. Bu nedenle, geliştiriciler bu tür algoritmalar ve arama motorlarının ilkelerini oluşturur, bu da kullanıcıların aradıkları bilgileri kullanmalarını sağlar. Bu, arama motorunun "düşünün" olduğu gibi, kullanıcının bilgi ararken olduğunu düşünmesi gerektiği anlamına gelir.

Çoğunlukla ilgili arama motorları, ön indeksleme ilkesi üzerine çalışır. Aynı prensipte, çoğu arama motorunun veritabanı çalışıyor.

Başka bir inşaat prensibi var. Doğrudan arama. Bir anahtar kelime arayışında bulunduğunuz gerçeğinde, kitabı sayfaya göre sayfaya çevirin. Tabii ki, bu yöntem çok etkilidir.

Ters çevrilmiş bir dizinle bir düzenlemede, arama motorları dosya değerlerinin sorunuyla karşı karşıya. Kural olarak, anlamlı derecede yüksektir. Bu sorun genellikle iki yöntemle çözülür. Birincisi, her şeyin dosyalardan silinmesi, ancak yalnızca arama yapmak için gerçekten gereken şeydir. İkinci yöntem, mutlak adresin her pozisyon için hatırlanmadığı, ancak göreceli, yani Mevcut ve önceki pozisyonlar arasındaki adreslerin farkı.

Böylece, arama motoru tarafından gerçekleştirilen iki ana işlem dizin oluşturma siteleri, sayfalar ve arama yapar. Genel olarak, arama motorları için indeksleme işlemi sorunlara neden olmaz. Sorun, günde bir milyon talebin işlenmesidir. Bu, büyük bilgisayar kompleksleri tarafından işlenen büyük miktarda bilgi nedeniyledir. Aramaya katılan sunucu sayısını belirleyen ana faktör bir arama yüküdür. Bu, bilgi aramaktan kaynaklanan bazı tuhaflıkları açıklar.

Arama motorları beş ayrı yazılım bileşeninden oluşur:

Örümcek (Örümcek): Web sayfalarını indiren tarayıcı benzeri bir program.

paletli: Sayfada bulunan tüm bağlantılara otomatik olarak devam eden "seyahat" örümceği.

indexer (Indexer): Örümceklerin indirilen web sayfalarını analiz eden "kör" programı.

veritabanı: İndirilen ve işlenmiş sayfaların depolanması.

arama Motoru Sonuçları Motoru (Sonuçlar Sistemi): Arama sonuçlarını veritabanından çıkarır.

Örümcek: Örümcek, web sayfalarını indiren bir programdır. Web sitesine bağlandığınızda ve sayfayı indirdiğinizde tam olarak tarayıcınız olarak çalışır. Örümceğin görsel bileşenleri yoktur. Aynı eylem (indirme) Bir sayfayı görüntülediğinizde ve tarayıcınızda "HTML kodunu görüntüle" seçeneğini seçtiğinizde gözlemleyebilirsiniz.

Paletli: Bir örümcek indirme sayfaları gibi, sayfayı "soyun" ve tüm bağlantıları bulabilir. Bu onun görevidir - örümceğin nerede olduğunu belirlemek için, bağlantılara göre veya önceden belirlenmiş bir adres listesine dayanarak.

Endeksleyici: Endeksleyici sayfayı çeşitli parçalarına söküyor ve analiz eder. Sayfa başlıkları, başlıklar, bağlantılar, metin, yapısal elemanlar, kalın, italik elemanlar ve sayfanın diğer stil parçaları gibi elemanlar ertelenir ve analiz edilir.

Veri tabanı: Veritabanı, arama motorunun indirilebileceği tüm verilerin bir deposudur ve analiz eder. Bu genellikle büyük kaynaklar gerektirir.

Arama. Motor Sonuçlar: Sonuçlar sistemi sıralama sayfalarında bulunur. Hangi sayfaların kullanıcının isteğini karşıladığını ve hangi sırayla sıralanmaları gerektiğine karar verir. Bu, arama motoru sıralama algoritmalarından kaynaklanmaktadır. Bu bilgiler bizim için en değerli ve ilginçtir - bu, optimize edici etkileşimde bulunan arama motorunun bu bileşeniyle, sitenin iadesini artırmaya çalışırken, gelecekte etkileyen tüm faktörleri ayrıntılı olarak düşüneceğiz. sonuçların sıralaması.

Arama işaretçisi arayışı, ikisinin hazırlık ve kullanıcı için görünmez olduğu üç aşamada meydana gelir. İlk olarak, arama işaretçisi bilgi toplar Dünya Geniş Ağ. . Bu, tarayıcılara benzer özel programlar kullanır. Belirtilen Web sayfasını Arama Pointer Sunucusuna kopyalayabilir, görüntüler, orada bulunan kaynakları olan tüm hipethelensleri bulun, vb. İçindeki köprüleri tekrar bulmak için, vb. Bu programlar denir. solucanlar, Örümcekler, Caterpillar, Cragolers, Örümcekler ve diğer benzer isimler. Her arama işaretçisi, genellikle gelişen bu amaç için kendi benzersiz programını çalıştırır. Otomatik ağ izleme programlarının geliştirilmesi ve uygulanması ile ilgili deneysel projelerden birçok modern arama motoru doğdu. Teorik olarak, iyi bir giriş ile Örümcek Bir dalış için tüm web alanını oynayabilir, ancak çok zaman alıyor ve orada meydana gelen değişiklikleri kontrol etmek ve "ölü" referansları tanımlamak için daha önce ziyaret edilen kaynaklara periyodik olarak geri dönmek için hala gereklidir. alaka düzeyi kaybetti.

Korun web kaynaklarını arama motoru sunucusuna kopyaladıktan sonra, işin ikinci aşaması başlıyor - indeksleme. Sayfa indeksleme, Robot adlı özel bir program tarafından yapılır. Her arama motorunun çok fazla robot vardır. Bütün bunlar, ağın çeşitli yerlerinden belgelerin indirilmesinin amacı olarak hizmet vermektedir. Sıradaki belgeler mantıklı değil, çok az verimli. Sürekli büyüyen bir ağacı hayal edin. Yaprakların (sitelerin sayfalarının) tekrar göründüğü ve yeniden ortaya çıkardığı gövdelerde. Tabii ki, robotlar ağacın her bir dalı için kullanılması ve tutarlı bir şekilde yapmaması durumunda yeni ortaya çıkan siteler çok daha hızlı endekslenecek.

Teknik olarak, indirme modülü multimedya (Altavista Merkator) veya asenkron giriş (GoogleBot) kullanır. Ayrıca geliştiriciler sürekli olarak çok parçalı bir DNS sunucusunun görevini çözmek zorundadır.

Çok aracılı diyagramda, indirme konuları solucanlar (solucanlar) ve yöneticileri - WormBoy sürücüleri denir.

Pek çok sunucu birkaç yüz solucanın yüküne dayanmaz, bu nedenle yönetici daha sonra sunucuları aşırı yüklememek için izlenir.

Sayfaları indirmek için robotlar HTTP protokollerini kullanır. Aşağıdaki gibi çalışır. Sunucudaki robot, "get / yol / belge" isteğini ve HTTP isteği ile ilgili diğer kullanışlı satırları iletir. Buna cevaben, robot servis bilgilerini içeren ve doğrudan belgenin kendisini içeren bir metin akışı alır.

İndirmenin amacı, ağ trafiğini azami tamlıkta azaltmaktır.

Kesinlikle tüm arama robotları, web sihirbazının bir robot tarafından dizinini endekslenmesini sınırlayabileceği Robots.txt dosyasına uyuyorlar. Ayrıca, robotların kendi filtreleri var.

Örneğin, bazı robotlar dizin dinamik sayfaları korku. Her ne kadar şimdi web ustaları sorunsuz bir şekilde bu yerleri atlar. Evet ve bu tür robotlar daha az ve daha azdır.

Her botun spam ile ilgili kaynakların bir listesine sahiptir. Buna göre, bu kaynaklar botlar tarafından önemli ölçüde daha az ziyaret edilir veya genellikle belirli bir süre için göz ardı edilirken, arama sistemleri bilgi filtrelemeyin

Destek alanındaki indirme modelleri yardımcı işlevler gerçekleştiren başka modüllere sahiptir. Trafiği azaltmaya, arama derinliğini arttırmaya, sıkça güncellenen kaynakları sürdürmeye, kaynakları tekrar indirmek için URL'leri ve bağlantıları saklamaya yardımcı olurlar.

Kopyaları izlemek için modüller var. Sayfaları yeniden bilgilendirme ile kesmeye yardımcı olurlar. Şunlar. Robot, mevcut bir sayfanın bir kopyasını bulursa veya hafifçe değiştirilmiş bir bilgi bulursa, sadece sayfa bağlantılarıyla daha fazla gitmez. Belgenin kodlamasını ve dilini tanımlamak için ayrı bir modül var.

Sayfa indirildikten sonra, bir HTML-ayrıştırıcı tarafından işlenir. Sadece arama için gerçekten önemli olan bir belgedeki bilgileri bırakır: metin, yazı tipleri, referanslar vb. Her ne kadar şimdi robotlar neredeyse her şeyi indeksine rağmen. Ve javascript ve flash teknolojisi. Ancak, yine de, bazı robotların sınırlamalarını unutmayın.

Endeksleme sırasında, internette, belirli bir kelimenin nerede ve ne zaman bulunduğunu, nerede ve ne zaman kurulabileceğinizi, özel veritabanları oluşturulur. Endekslenmiş veritabanının bir tür sözlük olduğunu düşünün. Arama motorunun kullanıcı isteklerine çok hızlı bir şekilde yanıt vermesini sağlamak için gereklidir. Modern sistemler, bölünmüş bir saniye için cevaplar verebilir, ancak adrese önceden dizinler hazırlamazsanız, bir isteğin işlenmesi saatlerce devam edecektir.

Üçüncü aşamada, müşterinin talebi, bir köprü listesi formunda bir arama sonuçlarını kullanıyor ve yayınlıyor. Müşterinin, ünlü Hollanda mekaniğinin, optik ve matematikçi Hristiyanların guilerinin ne olduğunu, internetteki web sayfalarının nerede olduğunu bilmek istediğini varsayalım. Kelime guilerine anahtar kelime seti alanına girer ve düğmeye basar. Bulun (arama). Pointer bazlarına göre, bir saniyenin fraksiyonundaki arama motoru uygun web kaynaklarını arıyor ve önerilerin köprü şeklinde sunulduğu arama sonuçları sayfasını oluşturur. Daha sonra, müşteri bu bağlantıları kaynaklarına geçiş yapmak için kullanabilir.

Bütün bunlar yeterince basit görünüyor, ama aslında burada sorunlar var. Modern internetin ana sorunu, web sayfalarının bolluğu ile ilgilidir. Araştırma alanına, örneğin futbol ve Rus arama motorunun birkaç bin bağlantı vereceğini, böyle basit bir kelime olarak girmek yeterlidir.

Birkaç bin bu kadar değil, çünkü bir yabancı arama motoru da benzer bir durumda yüz binlerce yedek yedek vermiş olurdu. İhtiyacınız olanlar arasında bulmaya çalışın! Ancak, sıradan bir tüketici için kesinlikle yine de, ona bin arama sonuçları veya bir milyon verecekler. Kural olarak, müşteriler önce 50'den fazla referansa bakmazlar ve neler oluyor, az insan rahatsız ediyor. Ancak, müşteriler kaliteli için çok ve çok endişeli İlk önce Bağlantılar. Müşteriler ilk başta referanslar olduğunda, alaka düzeyi kaybettiğinde, bağlantılar aynı sunucunun komşu dosyalarına gideceğinde sinirlenirler. Çok Kötü Seçenek - Arka arkaya aynı kaynağa giden birkaç bağlantıdır, ancak farklı sunucularda bulunur.

Müşterinin en yararlı bağlantıların durması için en yararlı bağlantıların bekleme hakkına sahiptir. İşte ve sorun ortaya çıkıyor. Bir kişi kolayca faydalı bir kaynak tarafından kolayca ayırt edilir, ancak bu programı nasıl açıklayabilir?! Bu nedenle, en iyi arama motorları, bulaşanlarını kaynaklarının kalitesi için belirleme girişiminde yapay zeka mucizeleri sergiler. Ve çabucak yapmalılar - müşteri beklemek istemiyor.

Kesinlikle konuşursak, tüm arama motorları kaynak bilgilerini aynı web alanından çizer, bu nedenle kaynak veritabanları nispeten benzer olabilir. Ve sadece üçüncü aşamada, arama sonuçları verilirken, her arama motoru en iyi (veya en kötü) bireysel özelliklerini göstermeye başlar. İşlem Sıralama Sonuçları sıralama denir. Her Web sayfası bulunan sistem, malzemenin kalitesini yansıtması gereken bir dereceyi atar. Ancak kalite, bir öznel kavramdır ve programın karşılaştırmaya uygun sayılarla ifade edilebilecek nesnel kriterlere ihtiyacı vardır.

Yüksek derecelendirmeler, kullanılan bir anahtar kelime olan web sayfaları tarafından alınır, sorgu, başlığa girer. Bu kelime web sayfasında birkaç kez bulunursa, derecelendirme seviyesi yükselir, ancak çok sık değil. Olumlu, ilk kez istenen kelimenin girişini, metnin 5-6 paragrafı - indeksleme yaparken en önemli olarak kabul edilir. Bu nedenle deneyimli web ustaları, tabloya sayfalarının başında vermekten kaçınır. Arama motoru için, tablonun her bir hücresi bir paragrafa benziyor ve bu nedenle anlamlı temel metin uzak görünüyor (ekranda belirgin olmasa da) ve arama motoru için belirleyici bir rol oynamayı durduruyor.

Sorguda kullanılan anahtar kelimeler beraberindeki alternatif metinlere dahil edilmişse çok iyidir. Arama motoru için bu, bu sayfanın tam olarak istekle eşleştiği kesin bir işarettir. Web sayfasının kalitesinin bir başka işareti, diğer bazı web sayfalarına bağlantıları olmasıdır. Ne kadar çok, o kadar iyi. Yani bu web sayfası popülerdir ve yüksek alıntı. En gelişmiş arama motorlarının, kayıtlı web sayfalarının atıfta bulunması ve sıraladığı zaman hesaba katılır.

Web sayfalarının yaratıcıları her zaman onlara daha fazla insanı görüntülemekle ilgileniyor, bu yüzden özellikle sayfaları hazırlarlar, böylece arama motorları onlara yüksek bir derece veriyorlar. Web-Master'ın iyi, yetkin bir eseri, web sayfasının katılımını önemli ölçüde artırabilir, ancak arama motorlarını aldatmaya çalışan ve web sayfalarına gerçekten içinde olmayan öneme sahip olan "ustalar" var. Onları. Tekrarlar, web sayfasındaki bazı kelimeleri veya kelime gruplarını tekrarladı ve okuyucuya göze girmeyenler için ya da son derece küçük yazı tipi yapanlar için veya arka fon. Böyle "püf noktaları" için, arama motoru, negatif bir derecelendirme cezasını gözden geçirerek bir web sayfası ile cezalandırılabilir.

2 Arama motorlarının işleyişine genel bakış

2.1 Yabancı arama motorları: Kompozisyon ve iş prensipleri

En tanınan ait olanlar arasında Altavista. , Web sayfasının metninden veya bir telekonference (1998 verileri) makalesinden herhangi bir kelimeyi aramanızı sağlayan en güçlü donanım ve yazılım potansiyeli. Altavista, yaklaşık 30 milyon web sayfası ve 14 bin telekonferansın makalesi içerir.

Bu sistem, bireysel sözcüklerin, cümlelerin ve noktalama işaretlerinin kombinasyonlarını içeren oldukça karmaşık bir istek mekanizması kullanır: tırnak, noktalar, kolon, parantez, artı ve eksi veya tanıdık Boolean operatörleri ve veya yakın olmayan (ikincisi Karmaşık bir arama - gelişmiş arama). Kombinasyonları, bir arama düzenini en doğru şekilde oluşturmayı mümkün kılar.

Öyleyse, bir artı işareti, kelime, bu terimin belgede bulunması gerektiği anlamına gelir, aksine bir eksi işaret, bu kavramı içeren tüm malzemeleri gönderir. Sistem, tüm bir cümle tarafından bir aramaya izin verir (bu durumda, tüm ifadeler tırnak içindedir), yanı sıra ucun kesilmesiyle aramada ve sözcüğün sonunda "*" olarak ayarlanır. Örneğin, bir kütüphane davasıyla ilgili tüm Rus konuşulan belgeler hakkında bilgi edinmek için, sadece "Kütüphane *" ye girin.

Kullanıcıların isteğini oluşturma / son belge güncellemesi tarihine kadar sınırlandırma yeteneği de verilir.

Beyan edilen metinlerin tüm kelimelerini arayın ve Hotbot. Bugün dünya çapında web için en güçlü arama çaresidir (yaklaşık 54 milyon belge içerir). Derinlemesine arama - Hotbot'ta uzman arama, isteği detaylandırmak için çarpıcı derecede geniş fırsatlar sunar.

Bu, çeşitli arama siparişi derleme seçenekleri sunan çok kademeli bir menü kullanımı ile elde edilir.

Birkaç farklı terimin bir belgesinde bir kombinasyon arayabilir, ayrı bir cümle arama, belirli bir kişiyi veya e-posta adresini arayın. İsteği detaylandırmak için, durumu uygulamak mümkündür - "içerebilir", "mutlaka içermemelidir", "mutlaka içermemelidir", "içermemelidir" olmamalıdır - "içermemelidir".

İlginç bir arama aracı Heyecanlandırmak Ayrıca 50 milyondan fazla web sayfası için tam metin arama sağlanması.

Bununla çalışmanın teliği, bu sistem talebinin, bir kişiye sormuş gibi doğal dilde (elbette İngilizce) bulunur.

Kavramların akıllı bir şekilde çıkarılması (akıllı konsept ekstraksiyonu) temelinde tasarlanmış özel sistem, talebi analiz eder ve bilgisayarı tarafından, belgeleri ile ilgili olarak referanslar verir.

Bununla birlikte, uygulama, yalnızca tek talepleri doğru bir şekilde işlediğini gösterir. Çok satırlı konular hakkında bilgi için, diğer arama olanaklarını kullanmak daha iyidir.

Metnin tüm sözcüklerinde aramayı sağlayan modern sistemlerden biri Opentext. .

Bununla birlikte, kullanıcı, istenirse, arama çerçevesini yalnızca Web sayfasının ana ve en önemli parçaları ile sınırlandırabilir: başlık, ilk başlık, özet, e-posta adresi (URL).

Herhangi bir geniş konuda sadece ana iş bulmak istiyorsanız çok uygundur. Önceki durumlarda olduğu gibi, en zor talepler karmaşık bir arama kullanılarak gerçekleştirilir.

Arayüzü, çok adımlı bir menü kullanarak bir arama emri yapmanıza izin verir.

Bu menü, hangi alanların, tanıdık ve (ler), (veya) operatörleriyle birlikte (ancak), (ancak), (yanında) ve ardından (başına) ).

2.2 Rusça Dil Arama Motorları: İşin Kompozisyonu ve İlkeleri

Son yıllarda, ticari derecelendirme uygulaması geliştirilmiştir. Teknik olarak, 2000 seviyesine karşılık gelen en modern araçlarla donatılmışlar ve bugünkü runnetin (Rus internet sektörünün) toplam büyüklüğü, 1994-1995'te yaklaşık olarak Batı sektörüdür. Bu nedenle, bugün Rusya'da bilgi arama konusunda özel bir problem yoktur ve yakın gelecekte öngörülemezler. Batı sektöründe, arama ile ilgili problemler çok büyük ve farklı arama motorları onların farklı şekilde üstesinden gelmeye çalışıyor. Nasıl olduğu hakkında, söyleyeceğiz.

Bugün Rusya'daki arama işaretçilerinden, bugün üç "balina" vardır (daha küçük sistemler vardır, ancak onlar üzerinde durmayacağız). Bu "Rambler" (www.rambler.ru), Yandex (www.yandex.ru) ve "aport2000" (www.aport.ru).

Tarihsel olarak en popüler arama motoru Rambler. Diğerlerinden önce çalışmaya başladı ve uzun süre arama işaretçisinin boyutuna ve arama hizmetlerinin kalitesine yol açtı. Ne yazık ki, bugün bu başarılar geçmişte. Arama işaretçisinin "Rambler" boyutunun yaklaşık 12 milyon web sayfasına eşit olması gerçeğine rağmen, uzun zaman önce güncellenmedi ve eski sonuçlar veriyor. Bugün Rambler, Rusya'daki en iyi sınıflandırma derecelendirme sistemi olan popüler bir portaldır (ne olduğu hakkında, aşağıda söyleyeceğiz) ve bir reklam platformu. Geleneksel olarak, bu sistem Rusya'daki ilk yeri katılım yoluyla tutar ve iyi reklam gelirlerine sahiptir. Ancak, para arayışı için fonların geliştirilmesinde, aşağıda gösterdiğimiz gibi yatırım yapılmaz. En büyük işaretçi, Yandex sistemine dayanmaktadır. Bu, sadece kaynaklara ve en alakalı kaynaklara işaretçi değil. Yandex'in ilgisi açısından bugün koşulsuz bir liderdir. "Aport" sistemi üçüncü aşamada kazanır: Müşteriye bilgi sunumu sırasında. Otomatik araçlarla en büyük işaretçiyi oluşturmak istemiyor ve bunun yerine, manuel işlemeyi geçen @rus kataloğundan gelen bilgiler yaygın olarak kullanılmaktadır. Bu nedenle, sistem en yakın rakipleri kadar sonuç değildir, ancak bu sonuçlar genellikle doğru ve açıkça temsil edilir.

Sonuç sonunda yazılır ve uzuvu önerir. Ancak bilginin büyümesi sonsuzdur ve bu nedenle arama motorlarının iyileştirilmesi için bir sınır yoktur. Geliştiricilerin en önemli görevi, aramanın kalitesini artırmak, sistemi kullanmak konusunda daha fazla verimlilik ve kolaylık sağlamaktır. Bu amaçla, arama algoritmaları sürekli değişir, ek hizmetler oluşturulur, tasarım kesinleşir.

Bununla birlikte, dinamik internetin dünyasında hayatta kalmak için, gelişmekte olan, büyük bir istikrar marjını koymak gerekirse, yarına sürekli bakın ve günümüzün aramanındaki gelecekteki yükü deneyin. Böyle bir yaklaşım, yalnızca arama motorunun sürekli mücadelesiyle ve artan bilgilere adapte olmadığı, aynı zamanda internette arama yapmanın verimliliğini arttırmak için yeni, gerçekten önemli ve gerekli olan bir şeyi uygulamak için uğraşmanızı sağlar.

Bibliyografya:

1. E. Kolmanovskaya, Comptek International, Yandex: İnternet / intranet Rusça arama sistemi.

2. Abrosimov A.G., Abramov N.V., MOTOVILOV N.V., Kurumsal Ekonomik Bilgi Sistemleri, UCH. pos. SGEA, 2005.

3. Bilgi ve arama sistemleri. - http://www.comptek.ru/yandex/yand_about.html.

4. Troyan G.m. İnternetin Rusça konuşan bölümünde arama: Arama Motoru Yandex // Radruiter. Senin bilgisayarın. - № 1-3, 2000.

5. İnternette modern öğretici çalışması. En popüler programlar: Pratte. Yer. - ed. Komigina v.b. - m.: Yayıncı "Triumph", 1999. - 368 s.