Bilgisayar ağlarında bilgi aramak: yeni yaklaşımlar. Bilgiye erişim sorunları: tarih ve teknoloji

  • 28.08.2019

SEO web yöneticisi blogumuz hakkında

Gelin tanışalım: Biz bir grup serbest web uzmanıyız; ekibimizde iki programcı, bir SEO uzmanı ve bir tasarımcı bulunmaktadır. 2005 yılından bu yana web siteleri geliştiriyoruz.

Blog yapısı ve içeriği

Şimdi bu blogda yer alan bölümlerin içeriğine biraz göz atalım:

İYS bölümü– bu bölümde en yaygın cms wordpress, joomla ve bunlara yönelik eklentiler ve komut dosyaları hakkında konuşacağız. Bazen OpenCart ve 1C-Bitrix hakkında da incelemeler yapıyoruz.

Web tasarımı bölümü– burada her şey basit, web tasarımındaki trendler ve haberler, web tasarım dersleri, ipuçları ve harika tasarım örnekleri hakkında.

Web sitesi optimizasyonu bölümü– bir web sitesinin arama motoru optimizasyonu, bir web sitesinin SEO denetiminin nasıl yapılacağı, teknik sorunların nasıl giderileceği ve bu konuyla ilgili çok daha fazlası hakkında teknik bilgiler burada.

Faydalı makaleler bölümü– burada internette para kazanma, para kazandıran siteler, internet dünyasından birçok haber ve web sitesi yapımı hakkında çok konuşuyoruz.

Bölüm Web Sitesi Tanıtımı- SEO, haberler, trendler, tanıtım yöntemleri, bağlantılar, internet pazarlamacılığı, içeriğe dayalı reklamcılık, sosyal ağlar aracılığıyla reklamcılık, anlamsal çekirdek, anahtar kelimeler, tanıtıma yönelik hizmetler ve programlar hakkında her şey bu bölümde.

Site geliştirmek– burada her şey programlama ile ilgili, php, html5, js, CSS 2.1, CSS 3 gibi dillerde programlamanın nasıl yapıldığına dair birçok haber ve örnek.

Hakkımızda bölümü– burada kim olduğumuzu, ne kadar süredir geliştiğimizi ve neler yapabileceğimizi konuşuyoruz.

İnternetin her şeye sahip olduğunu söylüyorlar. Aslında durum böyle değil. İnternette yayınlanacak materyaller gerçek kişiler tarafından hazırlanır ve bu nedenle orada yalnızca onların yayınlanmasının gerekli olduğunu düşündükleri şeyleri bulabilirsiniz. Ancak nehir akarsularla beslenmektedir ve onların yaratıcılığı sayesinde bugün internette yaklaşık iki milyar Web sayfası oluşmuştur. Sonuç olarak, web üzerinde mevcut olan kaynakların kataloglanması büyük bir zorluk haline gelmiştir. Binlerce kuruluşun sorun üzerinde çalışmasına rağmen sorun çözüme yaklaşmamakla kalmıyor, aynı zamanda daha da vahim hale geliyor. Kataloglanmış kaynakların yüzdesi giderek düşüyor. Son yıllarda bu düşüş felaket boyutlara ulaştı. Böylece, 1999'da kataloglanan kaynakların yüzdesi %40'a yakınken, yalnızca bir yıl içinde bu oran %25'e düştü.

Sonuç basit: Web alanı sistemleştirildiğinden daha hızlı doluyor.

Ne yazık ki yakın gelecekte her şeyin daha iyiye doğru değişeceğine inanmak için hiçbir nedenimiz yok. Sonuç olarak internette bilgi aramak en zor görevlerden biri olarak kabul edilebilir.

İlgilendiğiniz bilgileri aramak için tarayıcınızı, bulunduğu Web sayfasının adresine yönlendirmeniz gerekir. Bu en hızlı ve en güvenilir arama türüdür. Kaynağa hızlı bir şekilde erişmek için tarayıcınızı başlatmanız ve sayfa adresini adres çubuğuna yazmanız yeterlidir.

Web sayfası adresleri özel referans kitaplarında, basılı yayınlarda verilmekte, popüler radyo istasyonlarında ve TV ekranlarında duyulmaktadır.

Adresi bilmiyorsanız internette bilgi bulmanın yolları vardır: arama motorları, İnternet kaynakları hakkında bilgi içeren.

Her arama motoru, bulundukları Web sayfalarıyla ilişkili geniş bir anahtar kelime veritabanıdır. İlgilendiğiniz bilgileri içeren bir sunucu adresini aramak için, arama motoru alanına bir anahtar kelime, birkaç kelime veya bir kelime öbeği girmeniz gerekir. Böylece arama motoruna bir istek gönderirsiniz. Arama sonuçları, bu kelimelerin bulunduğu Web sayfası adreslerinin bir listesi olarak görüntülenir.

Tipik olarak arama motorları üç bölümden oluşur: robot, indeks ve sorgu işleme programı.

Robot (Örümcek, Robot veya Bot), web sayfalarını ziyaret eden ve içeriklerini (tamamen veya kısmen) okuyan bir programdır.

Arama motoru robotları, bir web sayfasının içeriğini analiz etmek için kendi bireysel şemalarına göre farklılık gösterir.

Dizin, robotlar tarafından ziyaret edilen tüm sayfaların kopyalarını içeren bir veri deposudur.

Her arama motorundaki dizinler, depolanan bilgileri düzenleme hacmi ve yöntemi açısından farklılık gösterir. Önde gelen arama motorlarının veritabanları on milyonlarca belge hakkında bilgi depolar ve dizin hacimleri yüzlerce gigabaytı bulur. Dizinler periyodik olarak güncellenir ve tamamlanır; bu nedenle, arama farklı zamanlarda gerçekleştirilirse aynı sorguya sahip bir arama motorunun sonuçları farklı olabilir.

Sorgu işleme programı, kullanıcının isteğine uygun olarak, gerekli bilgilerin varlığı için dizine "bakan" ve bulunan belgelere bağlantılar döndüren bir programdır.

Sistemin çıkışındaki bağlantı seti, program tarafından bağlantının talebe en yüksek dereceden en aza doğru azalan sırada dağıtılır.

Rusya'da en yaygın arama motorları şunlardır:

  • Rambler (www.rambler.ru);
  • Yandex (www.yandex.ru);
  • Posta (www.mail.ru).

Yurt dışında çok daha fazla arama motoru var. En popülerleri:

  • Alta Vista (www.altavista.com);
  • Hızlı Arama (www.alltheweb.com);
  • Kuzey Işığı (www.northernlight.com).

Yandex belki de Rus İnternetindeki en iyi arama motorudur. Bu veritabanı, sistemin saniyeler içinde tarayacağı yaklaşık 200.000 sunucu ve 30 milyona kadar belge içermektedir. Bu sistemi örnek olarak kullanarak bilgi aramanın nasıl yapıldığını göstereceğiz.

Bilgi arama, özel bir çerçeveye bir anahtar kelime girilerek ve çerçevenin sağındaki “Bul” düğmesine basılarak belirlenir.

Arama sonuçları saniyeler içinde önem derecesine göre sıralanmış olarak görünür; en önemli belgeler listenin en üstüne yerleştirilir. Bu durumda, bulunan belgenin sıralaması, anahtar kelimenin belgede nerede bulunduğuna (belgenin başlığında başka herhangi bir yerden daha önemlidir) ve anahtar kelimeden bahsedilme sayısına (ne kadar çok bahsedilirse) belirlenir. , rütbe ne kadar yüksek olursa).

Böylece listenin en üstünde yer alan siteler içerik açısından değil, pratik olarak anahtar kelimenin belirtilme sıklığına göre önde gidiyor. Bu bakımdan kendinizi arama motorunun önerdiği ilk on siteyi görüntülemekle sınırlamamalısınız.

Sitenin içeriği, Arama Sistemi tarafından Site adresinin altına yerleştirilen kısa açıklamasıyla dolaylı olarak değerlendirilebilir. Bazı vicdansız web sitesi yazarları, Web sayfalarının Arama Motorunda ilk sıralarda görünme olasılığını artırmak için, kasıtlı olarak bir anahtar kelimenin anlamsız tekrarlarını belgeye dahil eder. Ancak arama motoru böylesine "dağınık" bir belgeyi tespit ettiği anda, onu otomatik olarak veritabanından çıkarır.

Bir arama motorunun bir anahtar kelime öbeğine veya kelimeye yanıt olarak sunduğu sıralı belge listesi bile neredeyse sonsuz olabilir. Bu bağlamda, Yandex (ve diğer güçlü Arama Motorları), ilk listede aramanın amacını daha doğru yansıtan, yani arama sonuçlarını netleştirecek veya iyileştirecek belgeleri seçme olanağı sağlar. Örneğin, bir anahtar kelime için 34.899 Web sayfasından oluşan bir liste vardır. “Bulundu Ara” komutuna nitelikli bir anahtar kelime girildikten sonra liste 750 sayfaya, bu komuta başka bir niteleyici kelime girildikten sonra bu liste 130 Web sayfasına düşürülür.

Arama dizinleri, diğer İnternet kaynaklarına olan bağlantıların sistematik bir koleksiyonudur (seçimi). Bağlantılar şu şekilde düzenlenmiştir: tematik değerlendirme tablosu, Hiyerarşik bir yapıyı temsil eden, içerisinden geçerek gerekli bilgileri bulabileceğiniz bir yapıdır.

Örnek olarak Yandex İnternet arama kataloğunun yapısını verelim.

Bu, neredeyse tüm olası alanlardaki İnternet kaynaklarına bağlantılar içerdiğinden genel amaçlı bir dizindir. Bu katalog aşağıdakileri vurgulamaktadır Konular:

  • İş ve ekonomi;
  • Toplum ve Siyaset;
  • Bilim ve eğitim;
  • Bilgisayarlar ve iletişim;
  • Dizinler ve bağlantılar;
  • Ev ve aile;
  • Eğlence ve dinlenme;
  • Kültür ve sanat.

Her biri ders birçok içerir alt bölümler ve onlar da sırasıyla şunları içerir: başlıklar vesaire.

Diyelim ki Zafer Bayramı için bir etkinlik hazırladınız ve internette Bulat Okudzhava'nın ünlü askeri şarkısı “Çizmelerin tıkırdadığını duyuyorsunuz” sözlerini bulmak istiyorsunuz. Arama şu şekilde organize edilebilir:

Yandex > Katalog > Kültür ve Sanat > Müzik > Yazarın şarkısı

Bu arama yöntemi oldukça hızlı ve etkilidir. Sonunda size sadece birkaç bağlantı sunuluyor, bunların arasında ünlü ozanların şarkılarının yer aldığı sitelere bağlantılar da var. Geriye kalan tek şey, B. Okudzhava’nın şarkı sözlerinin bulunduğu arşivi web sitesinde bulmak ve buradan istediğiniz metni seçmek.

Başka bir örnek. Bir cep telefonu satın alacağınızı ve farklı şirketlerin cihazlarının özelliklerini karşılaştırmak istediğinizi varsayalım. Arama aşağıdaki katalog başlıklarına göre yapılabilir:.

Yandex > Katalog > Bilgisayarlar ve İletişim > Mobil iletişim > Cep telefonları

Sınırlı sayıda bağlantı alarak, firmaların özelliklerini ve cihaz modifikasyonlarını inceleyerek bunları hızlı bir şekilde görüntüleyebilir ve bir telefon seçebilirsiniz.

Çoğu arama motoru anahtar kelimeye göre arama yapma özelliğine sahiptir. Bu en yaygın arama türlerinden biridir.

Anahtar kelimelere göre arama yapmak için aramak istediğiniz kelimeyi veya birkaç kelimeyi özel bir pencereye girip Bul butonuna tıklamanız gerekmektedir.

Arama motoru bu kelimeleri içeren belgeleri veritabanında bulacak ve görüntüleyecektir. Bu tür çok sayıda belge olabilir, ancak bu durumda çok sayıda belge mutlaka iyi olduğu anlamına gelmez.

Arama motorlarından herhangi biriyle birkaç deney yapalım. Diyelim ki bir akvaryum kurmaya karar verdik ve bu konuyla ilgili her türlü bilgiyle ilgileniyoruz. İlk bakışta en basit şey “akvaryum” kelimesini aramaktır. Bunu örneğin Yandex arama motorunda kontrol edelim. Arama sonucu çok sayıda sayfa - çok sayıda bağlantı olacaktır. Üstelik daha yakından bakarsanız, aralarında B. Grebenshchikov'un "Akvaryum" grubundan bahseden siteler, aynı adı taşıyan alışveriş merkezleri ve resmi olmayan dernekler ve akvaryum balıklarıyla hiçbir ilgisi olmayan çok daha fazlası olacak.

Böyle bir arayışın en mütevazı kullanıcıyı bile tatmin edemeyeceğini tahmin etmek zor değil. Önerilen tüm belgeler arasından ihtiyacımız olan konuyla ilgili olanları seçmek ve hatta içeriklerini tanımak için çok fazla zaman harcanması gerekecektir.

Tek kelimeyle arama yapmanın kural olarak pratik olmadığı sonucuna hemen varabiliriz, çünkü tek kelime kullanarak bir belgenin, web sayfasının veya sitenin adandığı konuyu belirlemek çok zordur. Bunun istisnası, tematik alanları dışında neredeyse hiç kullanılmayan nadir kelimeler ve terimlerdir.

İstediğiniz alanda en yaygın terimlerin belirli bir setine sahip olarak gelişmiş aramayı kullanabilirsiniz. İncirde. Yandex arama motorundaki gelişmiş arama penceresini gösterir. Bu modda sorgu dilinin yetenekleri bir form biçiminde uygulanır. Sözlük filtreleri de dahil olmak üzere benzer bir hizmet neredeyse tüm arama motorları tarafından sunulmaktadır.

Arama koşullarını açıklığa kavuşturmaya çalışalım ve “akvaryum balığı” ifadesini girelim. Bağlantı sayısı 20 kattan fazla azalacak. Bu sonuç bize daha çok yakışıyor, ancak yine de önerilen bağlantılar arasında, örneğin balık resimli Rus hediyelik eşya etiketleri setleri, bilgisayar masaüstü için ekran koruyucu koleksiyonları ve fotoğraflı akvaryum balıkları katalogları ve akvaryum aksesuarları bulunabilir. mağazalar. Arama koşullarının açıklığa kavuşturulması yönünde ilerlemeye devam etmemiz gerektiği açıktır.

Aramayı daha verimli hale getirmek için tüm arama motorlarının özel bir özelliği vardır. sorgu dili kendi sözdizimi ile. Bu diller birçok yönden birbirine benzer. Hepsini incelemek oldukça zordur, ancak herhangi bir arama motorunda istediğiniz dile hakim olmanızı sağlayacak bir yardım sistemi vardır.

Yandex arama motorunda sorgu oluşturmak için birkaç basit kural.

Sorgudaki anahtar kelimeler küçük (küçük) harflerle yazılmalıdır.

Bu, yalnızca büyük harfle başlayanların değil, tüm anahtar kelimelerin aranmasını sağlayacaktır.

Arama yaparken, sorgudaki kelimenin biçimine bakılmaksızın, kelimenin tüm biçimleri Rus dili kurallarına göre dikkate alınır.

Örneğin, sorguda "biliyorum" kelimesi belirtilmişse, "biliyoruz", "biliyorsunuz" vb. kelimeler de arama koşulunu karşılayacaktır.

Sabit bir ifade bulmak için kelimeleri tırnak içine almalısınız.

Örneğin “porselen tabaklar”.

Tam kelime formuna göre arama yapmak için kelimenin önüne ünlem işareti koymanız gerekir.

Örneğin, genel durumda “Eylül” kelimesini aramak için “!Eylül” yazarsınız.

Aynı cümle içinde arama yapmak için sorgudaki kelimeler boşlukla veya & işaretiyle ayrılır.

Örneğin, “macera romanı” veya “macera&romantizm”. Bir sorguda boşluklarla ayrılmış olarak yazılan birkaç kelime, hepsinin aranan belgenin bir cümlesine dahil edilmesi gerektiği anlamına gelir.

Yalnızca sorguda belirtilen her kelimeyi içeren belgelerin seçilmesini istiyorsanız, her birinin önüne artı işareti "+" koyun. Aksine, herhangi bir kelimeyi arama sonucundan çıkarmak istiyorsanız bu kelimenin önüne eksi “-” koyun. “+” ve “-” işaretleri bir önceki kelimeden bir boşluk ayrılarak bir sonraki kelimeyle birlikte yazılmalıdır.

Örneğin, "Volga-araba" sorgusu, "araba" kelimesini değil, "Volga" kelimesini içeren belgeleri bulacaktır.

Eş anlamlı kelimeleri veya benzer anlamlara sahip kelimeleri ararken kelimelerin arasına dikey çubuk “|” koyabilirsiniz.

Örneğin “çocuk | bebeğim | Bu kelimelerden herhangi birinin bulunduğu "bebek" belgeleri bulunacaktır.

Bir sorguda tek bir kelime yerine bir ifadenin tamamını değiştirebilirsiniz. Bunu yapmak için parantez içine almanız gerekir

Örneğin, "(çocuk | yeni yürümeye başlayan çocuk | çocuklar | bebek) + (bakım | ebeveynlik)."

"~" (tilde) işareti, ilk kelimeyi içeren ancak ikinci kelimeyi içermeyen bir cümle içeren belgeleri bulmanızı sağlar.

Örneğin, "kitaplar ~ mağaza" sorgusu, yanında (cümle içinde) "mağaza" kelimesi bulunmayan "kitaplar" kelimesini içeren tüm belgeleri bulacaktır.

Operatör bir kez tekrarlanırsa (örneğin & veya ~), cümle içinde arama yapılır. Çift operatör (&&,~~) bir belge içinde arama yapılmasını belirtir.

Örneğin, “kanser ~~ astroloji” sorgusu, “kanser” kelimesinin astrolojiyle ilgisi olmayan belgelerini bulacaktır.

Akvaryum balıklarıyla ilgili örneğe dönelim. Arama motorunun sunduğu çeşitli belgeleri okuduktan sonra, internette bilgi aramanın akvaryum balıklarını seçmekle başlamaması gerektiği anlaşılıyor. Akvaryum, oluşturulması ve bakımı özel bilgi, zaman ve ciddi yatırım gerektiren karmaşık bir biyolojik sistemdir.

Alınan bilgilere dayanarak, internette arama yapan bir kişi, incelenen konuyla ilgili özel literatürü incelemeye karar vererek daha fazla arama stratejisini kökten değiştirebilir.

Literatür veya tam metin belgelerini aramak için aşağıdaki sorgu mümkündür:

“+(akvaryum | akvaryumcu | akvaryum hobisi) + yeni başlayanlar için + (tavsiye | literatür) + (makale | tez | tam metin) - (fiyat | mağaza | teslimat | katalog).”

İsteğin arama motoru tarafından işlenmesinin ardından sonuç çok başarılı oldu. Zaten ilk bağlantılar gerekli belgelere yönlendiriyor.

Artık arama sonuçlarını özetleyebilir, belirli sonuçlar çıkarabilir ve olası eylemlere karar verebilirsiniz:

  • Çeşitli nedenlerden dolayı bir akvaryumun bakımını yapamayacağınız için daha fazla aramayı bırakın.
  • Önerilen makaleleri okuyun ve bir akvaryum kurmaya başlayın.
  • Hamster veya muhabbet kuşları hakkında materyaller arayın.
  1. En hızlı ve en güvenilir arama türü hangisidir?
  2. Bir kullanıcı web sayfası adreslerini nerede bulabilir?
  3. Bir arama motorunun temel amacı nedir?
  4. Bir arama motoru hangi parçalardan oluşur?
  5. Hangi arama motorlarını biliyorsunuz?
  6. Arama motorunun değerlendirme aracını kullanarak arama yapma teknolojisi nedir?
  7. Anahtar kelimelere göre arama teknolojisi nedir?
  8. Arama kriterlerinde ne zaman + veya - belirtmelisiniz?
  9. Yandex'de hangi arama kriterleri aşağıdaki ifadeyle belirtilir:

    (dadı|eğitimci|mürebbiye)++(bakım|eğitim|denetim) ?

  10. Karmaşık bir sorgu oluştururken işareti iki katına çıkarmak (~~ veya ++) ne anlama gelir?

Egzersiz yapmak.

Görev 1. Kataloglarda arama yapın.

Arama motoru dizinini kullanarak aşağıdaki bilgileri bulun (öğretmeninizin yönlendirdiği şekilde):

  1. Popüler bir müzik grubunun şarkısının sözleri
  2. Mariinsky Tiyatrosu'nun bu haftaki repertuvarı
  3. Tanınmış bir şirketin en son cep telefonu modelinin özellikleri (seçtiğiniz)
  4. Köfte ile Ukrayna pancar çorbası tarifi
  5. Bölgenizdeki uzun vadeli hava durumu tahmini (en az 10 gün)
  6. En sevdiğiniz çağdaş şarkıcının fotoğrafı
  7. Bir multimedya bilgisayarının yaklaşık maliyeti (fiyat listesi)
  8. Bölgenizdeki veya şehrinizdeki sekreter pozisyonu için boş pozisyonlar hakkında bilgi
  9. Burcunuzun bu günkü burcu

Arama sonuçlarına göre Word'de yazılı bir rapor hazırlayın: belgede bulunan, kopyalanan ve biçimlendirilen materyali sunun. Raporunuzu öğretmeninize teslim edin.

Görev 2. Tam başlığı veya teklifi kullanarak bir istek oluşturmak.

Belgenin tam başlığını biliyorsunuz; örneğin, "Kişisel elektronik bilgisayarlar ve iş organizasyonu için hijyenik gereklilikler." Bir belgenin tam metnini internette aramak için bir sorgu oluşturun.

Arama sonucunu klasörünüze kaydedin. Öğretmenine göster.

Görev 3. Karmaşık sorguların oluşturulması.

  • Herhangi bir arama motorunda Rus hamamı hakkında bilgi aramak için bir sorgu oluşturun. Hizmet tekliflerini, banyo aksesuarları reklamlarını ve diğer reklamları ortadan kaldırın. Aramanızı Rus hamamının vücut üzerindeki etkisine odaklayın.
  • Ev kedilerinin bakımıyla ilgili bilgi bulmak için karmaşık bir sorgu oluşturun. Büyük kedileri (aslanlar gibi) ve ayrıca satın alma, satma tekliflerini, duvar kağıdı fotoğraflarını vb. aramanızın dışında tutun.
  • İsteğin metnini ve arama sonucunu Word'de formüle edin ve öğretmene sunun.
Görev 4. Tematik arama.

Bildiğiniz kadarıyla, bilgisayar teknolojisinin gelişim tarihi hakkında bilgi için internette arama yapın. Aramanızı çeşitli alanlarda gerçekleştirin: tarihsel durum, teknoloji, kişilikler. Arama sonuçlarınızı sunum şeklinde sunun. Sununuzda köprüler biçiminde çok aşamalı bir içindekiler tablosu kullanın.

S.A. Taktayev
http://www.taktaev.com/

Bilgiye erişim görevi, mevcut yaklaşımlar ve sorunlar

İnternette bilgi aramanın temelleri

Bilgi aramak, insanlığın yüzyıllardır çözdüğü bir sorundur. Bir kişinin (örneğin bir kütüphane ziyaretçisinin) potansiyel olarak kullanabileceği bilgi kaynaklarının hacmi arttıkça, gerekli belgeyi bulmak için giderek daha karmaşık ve gelişmiş arama araçları ve teknikleri geliştirildi.

İnternette bilgi ararken, uzun yıllar boyunca bulunan bilgi aramanın tüm araçları ve teknikleri mevcuttur ve etkilidir.

Genel şemayı ele alalım: YAZAR bir BELGE oluşturur. KULLANICININ BİLGİ İHTİYACI VARDIR. Bu bilgi ihtiyacı çoğu zaman (kural olarak) kelimelerle bile doğru bir şekilde ifade edilemez ve yalnızca uygun olup olmadığına bakılmaksızın görüntülenen belgelerin değerlendirilmesinde ifade edilir. Bilgi erişimi teorisinde, "uygun" kelimesi yerine "İLGİLİ BELGE" terimi ve "uygun değil" - "ilgili değil" terimi kullanılır. "İlgili" kelimesi İngilizce "ilgili" kelimesinden gelir ve bu da "ilgili, özü itibarıyla ilgili" anlamına gelir. Bilgi erişiminin öznel olarak anlaşılan amacı, tüm ilgili ve yalnızca ilgili belgeleri bulmaktır (“yalnızca istediğimizi bulmak istiyoruz, daha fazlasını değil”).

Bu hedef idealdir ve henüz ulaşılabilir değildir. Çoğu zaman bir belgenin kalıcılığını yalnızca diğer belgelerle karşılaştırarak değerlendirebiliriz. Karşılaştırılacak bir şeye sahip olmak için, belirli sayıda ilgili olmayan belgeye ihtiyacınız vardır. Bu belgelere "GÜRÜLTÜ" denir. Çok fazla gürültü ilgili belgelerin tanımlanmasını zorlaştırır; çok az gürültü ise yeterli sayıda ilgili belgenin bulunduğuna dair güven vermez. Uygulama, ilgili olmayan belgelerin sayısı %10 ile %30 arasında olduğunda, arama yapanın gürültü denizinde kaybolmadan ve bulunan belge sayısının tatmin edici olduğuna inanarak kendini rahat hissettiğini göstermektedir.

Çok fazla belge olduğunda bilgi erişim sistemi (IRS) kullanılır. Bu durumda, bilgi ihtiyacı IRS'nin "anlayacağı" şekilde ifade edilmelidir - bir TALEP formüle edilmelidir.

Bir talep, bir bilgi ihtiyacını nadiren doğru bir şekilde ifade edebilir. Ancak, aşağıda açıklanan nedenlerden dolayı birçok IRS, belirli bir belgenin taleple eşleşip eşleşmediğini belirleyemez. Bu sorunu çözmek için sentetik bir kriter getirildi - belgenin talebe uygunluk derecesi, buna İLGİLİLİK adı verildi. İlgili bir belgenin alakasız olduğu ortaya çıkabilir veya bunun tersi de geçerli olabilir.

Bilgi erişim sistemi türleri

İnternetin bilgi erişim sistemleri (IRS) de tüm dış çeşitlilikleriyle bu sınıflardan birine girmektedir. Bu nedenle, bu IPS'lerle tanışmadan önce soyut alfabetik (sözlük), sistematik ve konu IPS'yi ele alacağız. Bunu yapmak için bilgi erişimi teorisinden bazı terimleri tanımlayacağız.

Sınıflandırma bilgi erişim sistemleri. Sınıflandırma bilgi sistemleri, SINIFLANDIRICI olarak adlandırılan hiyerarşik (ağaç benzeri) bir bilgi organizasyonunu kullanır. Sınıflandırıcının bölümlerine RUBRIC denir. Sınıflandırma bilgi sisteminin kütüphanedeki benzeri sistematik bir katalogdur. Sınıflandırıcı bir yazar ekibi tarafından geliştirilmekte ve iyileştirilmektedir. Daha sonra SİSTEMATİZÖRLER adı verilen başka bir uzman grubu tarafından kullanılır. Sınıflandırıcıyı bilen sistemleştiriciler, belgeleri okur ve bu belgelerin sınıflandırıcının hangi bölümlerine karşılık geldiğini belirterek onlara sınıflandırma endeksleri atar.

Konu IPS Web halkaları. Kullanıcı açısından bakıldığında IRS konusu en basit şekilde yapılandırılmıştır. İlgilendiğiniz konunun adını arayın (konu aynı zamanda Hint müziği gibi soyut bir şey de olabilir) ve ilgili İnternet kaynaklarının listeleri adla ilişkilendirilir. Öğelerin tam listesi küçükse bu özellikle kullanışlı olacaktır.

Sözlük IPS'si. Sınıflandırma bilgi sistemlerinin kullanımıyla ilgili kültürel sorunlar, genelleştirilmiş İngilizce isim arama motorlarıyla sözlük tipi bilgi sistemlerinin yaratılmasına yol açtı. IRS sözlüğünün ana fikri, İnternet belgelerinde bulunan ve her kelime için bu kelimenin alındığı belgelerin bir listesinin saklanacağı bir kelime sözlüğü oluşturmaktır.

Bilgi erişimi teorisi, sözlük bilgi erişim sistemlerinin işleyişi için iki ana algoritmayı varsayar: anahtar kelimelerin kullanılması ve tanımlayıcıların kullanılması. İlk durumda, bir belgenin içeriğini değerlendirmek için yalnızca içinde görünen kelimeler kullanılır ve talep üzerine IRS, sorgudaki kelimeleri belgedeki kelimelerle karşılaştırarak alaka düzeyini sayıya, konuma göre belirler. ve belgedeki sorgudaki kelimelerin ağırlığı. Tüm çalışan IPS'ler, tarihsel nedenlerden dolayı bu algoritmayı çeşitli modifikasyonlarla kullanır.

Tanımlayıcılarla çalışırken, indekslenmiş belgeler bazı tanımlayıcı bilgi dillerine çevrilir. Tanımlayıcı bilgi dili, diğer herhangi bir dil gibi, bir alfabeden (semboller), kelimelerden ve kelimeler arasındaki paradigmatik ve sentagmatik ilişkileri ifade eden araçlardan oluşur. Paradigmatik, doğal dilde saklı kavramlar arasındaki sözcüksel-anlamsal ilişkilerin belirlenmesini içerir. Paradigmatik ilişkiler çerçevesinde eşanlamlılık ve eşadlılık gibi kavramları ele alabiliriz. Sözdizimi, sözcüklerin sözcük öbekleri ve cümleler halinde birleştirilmesine olanak tanıyan sözcükler arasındaki ilişkileri inceler. Sözdizimi, alfabenin öğelerinden sözcük oluşturma kurallarını (sözcük birimlerinin kodlanması), sözcük birimlerinden (dilbilgisi) cümleler (metinler) oluşturma kurallarını içerir.

Yani kullanıcının isteği tanımlayıcılara çevrilir ve IRS tarafından bu formda işlenir. Bu yaklaşım, bilgi işlem kaynakları açısından daha pahalıdır, ancak aynı zamanda potansiyel olarak daha üretkendir çünkü uygunluk kriterini terk etmenize ve doğrudan belgelerin kalıcılığıyla çalışmanıza olanak tanır.

Arama sonuçları sıralaması. Sözlük bilgi sistemleri milyonlarca bağlantı içeren belge listeleri üretme kapasitesine sahiptir. Bu tür listelere bakmak bile imkansızdır ve buna gerek de yoktur. En önemli belgelerin listenin başında yer alması için belgelerin (en azından göreceli) önemi (ilgi açısından) için resmi kriterlerin belirlenebilmesi uygun olacaktır. Mevcut IRS'ler bunu ilgililik kriterine dayalı olarak yapmaktadır ve şu anda tüm IRS'ler, ortaya çıkan bağlantıları sıralamak için uygunluk algoritmasına odaklanmaktadır. IPS'de sıralama için en yaygın kullanılan kriterler şunlardır:

  • belgede sorguya ait kelimelerin varlığı, sayıları, belgenin başına yakınlığı, birbirine yakınlığı;
  • belgelerin başlıklarında ve alt başlıklarında istekte geçen kelimelerin bulunması (başlıklar özel olarak biçimlendirilmelidir);
  • Bu belgeye diğer belgelerden verilen bağlantıların sayısı;
  • Referans veren belgelerin "saygınlığı"

Arama motorlarının modern sorunları

İnternet teknolojilerinin şu anda gördüğümüz ve sıklıkla deneyimlediğimiz tüm temel teknolojik sorunları, bu teknolojiler geliştirildiğinde geliştiricilerin hiçbirinin (kendi ifadeleriyle) İnternet'in küresel bir bilgi ortamı haline geleceğini hayal etmemesinden kaynaklanmaktadır. Bütün bunlar tamamen arama motorları için geçerlidir.

Mimari. Modern bir arama motorunun üç seviyeli bir mimarisi vardır:

  • tarayıcı (toplayıcı) – sayfalardaki değişiklikleri arayarak İnternet kaynaklarını tarar;
  • indeksleyici (indeksleyici) - kaynakları indeksler, anahtar kelimeleri kullanarak veritabanları oluşturur, bu veritabanlarını aramak için uygun bir biçimde saklar;
  • ağ geçidi (ağ geçidi) – kullanıcılardan istekleri alır ve onlara veritabanından bilgi sağlar

Modern bilgi erişim sistemlerinde, kaynak belgelerin kopyalarına kadar tüm arama bilgileri, bilgi erişim sisteminin kendisinde saklanır. Bunun nedeni erken iletişim kanallarının ve bilgisayar ekipmanlarının güvenilmezliğiydi. Bu, IPS kullanıcısının belgenin mevcut olup olmadığına bakılmaksızın onu gerçekten tanımasını mümkün kıldı. Artık bu, bilgi erişim sistemlerinin internetteki belge sayısındaki artışla orantılı olarak, yani katlanarak bilgi işlem güçlerini artırmaya zorlandığı gerçeğine yol açıyor. Yani Google'ın artık 100'den fazla bilgisayar sunucusu var.

Modern bilgi erişim sistemlerinde Crawler, yeni belgeleri bulmak için Ağı bağımsız olarak tarar. Yüz binlerce olarak ölçülen belge sayısı göz önüne alındığında, bu yöntem IPS veritabanının hızlı bir şekilde doldurulmasını ve buna göre maksimum sayıda belgenin orada sunulmasını mümkün kıldı. Artık belgelerin ortaya çıkma ve güncellenme hızı, tek bir bilgi erişim sisteminin İnternet'teki belgelerin% 30-35'inden fazlasını kapsamadığı şekildedir. Ayrıca, belgelerdeki tüm değişiklikler ve hareketler IRS veritabanına önemli bir gecikmeyle (4 haftaya kadar) girer, yani internette IRS aracılığıyla güncel bilgi bulmak imkansızdır.

Arama ve sıralama algoritmaları. Yani modern arama motorlarının temel sorunu, aslında eski mimarileri nedeniyle yüksek kalitede bilgi araması sağlayamamalarıdır.

Gerçek şu ki, arama sorgularının ortalama uzunluğu küçüktür - 2-3 kelime. Doğal olarak, böyle bir "bilgi anlık görüntüsünü" kullanarak bir milyar belgeden yüksek kalitede ilgili bir örnek oluşturmak kesinlikle imkansızdır. Buradaki doğal çözüm, kullanıcının isteklerinin, geçmişinin ve tercihlerinin içeriğini kaydetmektir. Ancak sunucu tarafında bunu yapmak mümkün değildir (çünkü aşırı yüklenmiştir).

Ayrıca, sıralama kriterlerinden de görülebileceği gibi, belge uygunluğunun gerçek kriteri - sorgudaki kelimelerin varlığı - arama sonuçlarındaki sıralama üzerinde o kadar güçlü bir etkiye sahip değildir. Öte yandan sentetik kriterlerin kullanılması, tüm bilgi erişim sistemlerinin uğraştığı şey olan belgeleri optimize ederek sayfa sıralaması hesaplamalarının sonuçlarını manipüle etmeyi mümkün kılar. Bu durum arama kalitesinin düşmesine neden olur, çünkü potansiyel olarak daha uygun belgeler "optimize edilmiş" rakipleri tarafından kaçınılmaz olarak listenin en altına itilir. Muhtemelen pek çok kişi, arama motorlarındaki gerçekten yararlı kaynakların bir arama sorgusunun ikinci veya üçüncü sayfasında yer aldığı gerçeğiyle karşı karşıya kalmıştır.

Başlangıçta internette tüm bilgiler tablolar, resimler veya çizimler olmadan HTML olarak sunuluyordu. Bütün bunlar daha sonra internette ortaya çıktı. Doğal olarak IPS algoritmaları özellikle metne odaklanmıştır. Artık multimedya içeriğinin hacmi (tablolar, veritabanları, resimler, müzik, video) zaten metinlerin hacmini aşıyor. Ve ek parametrelerini (yazar, tema) bilmeden bir bilgi özeti veya (daha da fazlası!) İstenilen müzik parçasını bulmak kesinlikle imkansızdır.

Özetlemek gerekirse, mevcut mimari, düşük hız ve iletişim kanallarının güvenilmezliği, müşteri ekipmanının düşük bilgi işlem gücü ve ilgili olan çok büyük hacimli olmayan (yüz binlerce, milyonlarca) belge koşullarında arama sisteminin işlevselliğini sağlar. yirminci yüzyılın 90'ları. Artık tüm bu önkoşullar modası geçmiş, yüksek hızlı ve güvenilir iletişim kanalları sıradan hale geldi, istemci bilgisayarların bilgi işlem gücü birkaç düzine kat arttı, ancak İnternet'teki belge sayısı on binlerce kat artarak 5 milyara yaklaştı. Dolayısıyla bu gereksinimlerin uygulanabilmesi için farklı bir mimariye ihtiyaç duyulmaktadır.

Yazarın görüşüne göre yeni IPS mimarisinin ana noktaları şöyle olmalıdır:

  1. Dağıtılmış hesaplama modeline geçiş;
  2. “Herkes için tek arama” modelinden kişisel arama modeline geçiş;
  3. İlgililik kriterlerinden uygunluk kriterine geçiş;
  4. Yalnızca metin bilgilerinin aranmasından multimedya bilgilerinin tanınmasına ve aranmasına geçiş

Genel olarak paragraf kararları. 1, 2 teknik ve organizasyonel olarak oldukça basittir ancak paragrafların çözümleri. 3 ve 4, bilgi erişimine yeni bir teorik yaklaşım gerektirir. Bu yaklaşımı uygulamak için kavram uzayı teorisi uygulanır.

Kavram uzayı teorisine giriş

Sorunun formülasyonu

Bu çalışmanın amacı, çevredeki dünyanın nesneleri olan ve belirli bir düzeyde soyutlamayla insan dillerinde ifade edilen kavramların anlamlarını çok boyutlu bir uzayda (Uzay) sistemleştirerek matematiksel analizine yönelik teorik bir yaklaşım geliştirmektir. Kavramlar) ve kavramları - cebir kavramlarını dönüştürmek (üzerinde işlem yapmak) için matematiksel bir aparat geliştirmek.

Modern arama teknolojisi, içinde depolanan bilginin, insan zekası veya yapay algoritmalar (sinir ağları gibi) kullanılmadan tanınmasını sağlayacak bir bilgi temsil modeli gerektirir. Burada grafik görüntüleri depolamak için raster ve vektör yöntemleri arasında bir benzetme yapmak uygundur; yani, raster dosyasının içeriğinden saklanan görüntünün nasıl oluşturulduğunu açıkça söylemek mümkün değilse, o zaman vektör formatından yapı yöntem bellidir.

İnsanlığın depoladığı bilgilerin neredeyse tamamı artık “raster” formatta sunuluyor. Bunun istisnası, çeşitli yapılandırılmış bilgi ve algoritma dizileridir, ancak yine de, bunlarda kaydedilen bilgiler, hücrelerin bir metreye bir metre ölçülerinde olduğu bir ağdaki yakalamaya benzer, yani yalnızca en genel açıklamalar ve kurallar buna dahil edilmiştir. Açıkçası, bu yaklaşım çok soyut modeller üretiyor ve bunların gerçek dünyada uygulanması insan zekasının müdahalesi olmadan mümkün değil.

Bu nedenle, bilgiyi sunmanın esasen “vektör” formatı olacak bilgiyi tanımlamanın bir yolunu bulmak gereklidir. Kavram uzayı teorisinin özü budur.

Başka bir deyişle, ana fikir yalnızca mevcut çağrışımlara dayalı bilgi tanımlama modelini değil, aynı zamanda bir kavramın belirli bir koordinat sistemindeki tam konumunu belirlemeye dayalı bir modeli de uygulamaktır. Yazar, çevredeki dünyadaki herhangi bir nesneyle ilişkilendirilen her kavram için yalnızca çağrışımlar yoluyla bir tanım olmadığını ("sandalye kanepeye benzer, ancak kanepe daha büyüktür, üzerine uzanabilirsiniz") değil, aynı zamanda bir tanım olduğunu da kanıtlıyor. belirli bir "kavram uzayının" belirli bir alanı olarak tanım. Sonuç olarak, çevredeki gerçeklikteki belirli bir nesneyi, özelliği veya eylemi tanımlayan belirli bir dilsel ifade ile N(x1, x2,…, xn), burada Xn n ∞ belirli bir uzayın koordinat eksenlerine (boyutlarına) örneklerdir. Daha sonra, vektör cebirine dayanan kavram cebiri denklemleri aracılığıyla, kavram uzayının bir haritasının oluşturulması ve topolojisinin daha fazla incelenmesi yoluyla, gerçek dünyanın kavramları arasındaki ilişkileri mesafeler olarak tanımlamak mümkün hale gelir.

Şu anda, çeşitli vekil mesafe ikameleri - "anlamsal bağlantılar" vb. kullanıldığında farklı bir yaklaşım hakimdir. kural olarak kavramlar arasındaki hiyerarşik ve ağ ilişkilerini yansıtır. Bu bağlamlarda “yakınlık” ve “mesafe” soyut niceliklerdir; yalnızca kavramsal olarak yakın şeyler (beyaz ve siyah, sıcak ve soğuk) için mesafenin sayısal olarak ölçülmesi (ve dolayısıyla doğru değerlendirilmesi) olanağını sağlamazlar. “Siyah” ve “soğuk” kavramları birbirine ne kadar uzak? Bu mesafe "pürüzlü" ile "mavi" arasındaki mesafeden daha mı büyük? Hangi şeyler kavramsal olarak birbirine daha yakın: bir sandalye ve bir şişe mi yoksa bir bilgisayar ve bir kupa mı?

Kavramlar alanı fikri hiçbir şekilde hiyerarşik, yapıcı ve diğer ilişkileri iptal etmez, ancak onları tamamlayarak sayılabilir hale getirir. Örneğin, bir yaprağın ağaç üzerindeki konumunu oldukça uzun bir süre, gövdeden dallar ve ince dallar boyunca ona doğru ilerleyerek tanımlayabilirsiniz. Mutlak kutupsal koordinatlar belirtilerek çok daha kolay bulunabilir: yatay ve dikey yönler, vektörün gövdenin yere yakın merkez hattından uzunluğu. Ağaçtaki yolculuğun oldukça hacimli bir açıklaması yerine 3 (!) sayı alıyoruz.

Temel tanımlar

Kavram uzayı, her biri bir nesnenin belirli bir sıralama özelliğini içeren N adet tek boyutlu uzay kümesidir. Kavram, gerçek dünyadaki bazı nesnelere karşılık gelen kavram uzayının (altuzay) bir alanıdır. Eylem, kavramlar alanındaki bir tür alandır - gerçek dünyadaki bir nesne üzerinde gerçekleştirilen işleme karşılık gelen ve nesnenin PP'deki koordinatlarını değiştiren bir vektör. Genel durumda eylem aynı zamanda bir altuzaydır. Değiştirici, kavram uzayında gerçek bir dildeki bir sıfata (sıfat - isim değiştirici) karşılık gelen bir alandır. Düzeltici, kavram alanında gerçek bir dildeki bir sıfata karşılık gelen bir vektördür (zarf - Fiil Düzeltici). Alan, kavramları hiyerarşik özelliklere göre gruplar halinde birleştiren, kavramlar uzayında adlandırılmış çok boyutlu bir alandır (altuzay). (“Mobilya” alanında “sandalye” kavramı, “mutfak ekipmanı” alanında Bıçak). Kavramlar arasındaki hiyerarşik ilişkiler alanlar tarafından yönetilir. Alanlar kavram uzayının bir iç yapısına sahiptir. Bunlar özünde kavram mekânının belirli özelliklere göre “kesilmesidir”.

Kavramların alanı. Genişletilmiş ve daraltılmış sunum formu

Gelişmiş insan dillerinde tanımlanan çevredeki dünyanın tüm mevcut kavramlarının, N (Kavram) kavramlarının çok boyutlu alanına yansıdığını kabul edersek, o zaman ister bir isim, fiil, sıfat veya konuşmanın başka bir kısmı olsun, herhangi bir kavram belirli bir anlam taşır, Varlık (isim, sıfat, isim, sıfat) N((x1,x1'),(x2,x2'),…, |(xn,xn')|), olarak yansıtılabilir, burada N, n boyutlu uzayda n boyutlu bir bölge; burada n ∞ ve x1…n bu uzayın boyutlarıdır (koordinat eksenleri).

Fiil, Zarf (Fiil, zarf) erb (|x1-x1’|,|x2-x2’|,…, |xn-xn’|), burada Fiil n boyutlu uzayda bir vektördür.

Genel olarak eylemler (fiiller) kavram uzayının bölgeleri olarak da tanımlanabilir ki gerçekte de öyledirler. Alan ve vektörler arasındaki ayrım, teorinin anlaşılmasını ve hesaplamaların yapılmasını kolaylaştırmak için yapılmıştır.

İzin verilen alanlar ve eylemler

Eğer i+1= i + j formundaki bir kavram üzerinde bir işlem doğruysa, burada i+1, i kavramların rastgele alanlarıdır ve j keyfi bir vektördür, yani kavram üzerinde bir işlem yapıldıktan sonra, bilinen yeni bir kavram elde edersek, kavramla yapılan bu eyleme izin verilir, çünkü gerçek dünyada bu, gerçek bir nesne üzerinde gerçek bir sonuca yol açan bazı gerçek işlemlere karşılık gelir.

Eğer yanlışsa bu kombinasyon kavramlar alanında hâlâ tanımlanmamış bir “boş nokta”dır. İfadenin yanlış olması, bu operasyonun uygulanamaz olduğu anlamına gelmez, ancak yeni çözümlerin, keşiflerin ve icatların araştırılması için bir kaynak sağlar. Belki daha önce hiç kimse böyle bir operasyonun ve böyle bir sonucun ihtimalini düşünmemişti.

Kavram uzay teorisi perspektifinden bir arama sisteminin inşası

İlgili Arama

Uygunluğa geçiş sorununu çözmek için sayfaları tanımlamak için anahtar kelimeler yerine bir tanımlayıcı dil kullanılması önerilmektedir. Tanımlayıcı – belirli bir kavramı karakterize eden, belirli bir dilin (eş anlamlılar) bir veya daha fazla kelimesi. Burada tanımlayıcı kavrama karşılık gelir. Bu yeniden adlandırma, kabul edilen dil terminolojisine uygunluk amacıyla benimsenmiştir.

Kavram teorisi açısından, tanımlayıcı bir d(x1,x2,xi,...xn) vektörüdür; burada x1,x2,xi, kavram uzayının karşılık gelen koordinat eksenlerine olan ters mesafelerdir, veya başka bir deyişle bunlar, belirli bir tanımlayıcıyı tematik arama alanlarının hiyerarşik kataloğunun belirli bir bölümüne çeken ağırlıklardır. Yani, kalıcı arama görevini uygulamak için, kavram alanının sorguyla aynı alanında bulunan belgeleri aramak gerekir.

Multimedya ortamında arama yapın

Multimedya ortamında arama yapmanın ilk görevi veritabanlarında arama yapmaktır. Şu anda, sayısal verilerde büyük miktarda bilgi birikmiştir, ancak bunlar mevcut bilgi erişim sistemleri tarafından (açıkçası) indekslenmediğinden İnternet üzerinden aranamaz.

Tablo bilgilerinde bir arama düzenlemek için bu verileri sözlü hale getirmek, yani sayı sütunlarını tablodaki verilerin analiz edileceği bazı metin raporlarına çevirmek gerekir.

Doğal dillerde verilen veri serilerine dayalı olarak matematiksel ve istatistiksel (gelecekte sezgisel) analiz unsurları içeren raporlar yazmak için bir tür raporlama sistemine (rapor oluşturucu) ihtiyacımız var. Önerilen sistemin ayırt edici özelliği, rapor okuyan kişinin eylemlerini grafikler ve tablolar kullanarak taklit etmesi, yani rapor oluşturmanın bir sonraki adımı olmasıdır.

İkinci en uygun görev, el yazısıyla yazılanlar da dahil olmak üzere görüntülerdeki konuşma ve metinleri tanıma görevi gibi görünüyor.

Doğal dillerde konuşulan konuşmayı ve el yazısıyla yazılan metni tanırken aşağıdaki türde sorunlar ortaya çıkar. Sesleri ve fonemleri benzer olan kelimeler vardır. Örneğin, İngilizce'de “six” ve “wool” (Rusça), gemi ve koyun. Bir kişi bu tür kelimeleri, konuşuldukları bağlamı anlayarak kolayca ayırt edebilirken, bilgisayar sistemleri için bu kadar yakın ses gruplarını ayırt etmek neredeyse imkansız bir iştir. Bu nedenle konuşmayı tanımak için yalnızca onu duymanız değil, aynı zamanda söylenenleri anlamanız da gerekir. Bir kişi bağlamı açıkça algılar ve duyulmamış sesleri "tahmin eder", mevcut algoritmalar ise bu bağlamı hesaba katmaz.

El yazısı metni tanırken de benzer sorunlar ortaya çıkar. Yani, sembollerin farklı kişiler tarafından yazılmasındaki farklılıklar, el yazısıyla yazılmış bir sembol ile alfabenin bir harfi arasında birebir bir benzerlik kurmayı mümkün kılmaz, bu da belirli bir kelimeyi temel alarak doğru bir şekilde oluşturmayı mümkün kılmaz. el yazısı analogunda.

Tanıma sorunu, tanınan kelimelerin sesleri ve yazılışları için en muhtemel anlam hipotezleri için kavram cebirinin bir ifadesinin oluşturulmasıyla çözülür (yani, tanınan bilgilerden elde edilebilecek tüm kelime çeşitleri dikkate alınır). ). Tanıma önceki bağlamla birlikte gerçekleştiğinden, kavram uzayına yansırken, kavram cebiri mekanizmasını kullanarak kavramın verilen bağlama karşılık gelen alana düşüp düşmediğini hemen kontrol edebilirsiniz. Yani metinde anlatılan kavramların dönüştürülmesi sonucu verilen bağlamın izin verdiği belirli bir alana düşecek ve tanıma değeri bu (sonuç) alandan seçilecek ve bu da düşük tanıma kalitesi sorununu çözecektir.

1. Giriş

Her yıl İnternet'in hacmi önemli ölçüde artıyor, bu nedenle gerekli bilgiyi bulma olasılığı keskin bir şekilde artıyor. İnternet milyonlarca bilgisayarı, birçok farklı ağı birbirine bağlıyor ve kullanıcı sayısı her yıl %15-80 oranında artıyor. Ancak yine de, İnternet'e erişirken giderek artan bir şekilde asıl sorun, aradığınız bilginin eksikliği değil, onu bulma yeteneğidir. Kural olarak, sıradan bir kişi, çeşitli koşullar nedeniyle, ihtiyaç duyduğu cevabı aramak için 15-20 dakikadan fazla zaman harcayamaz veya istemez. Bu nedenle, görünüşte basit bir şeyi - İSTENİLEN cevapları almak için nereye ve nasıl bakılacağını - doğru ve yetkin bir şekilde öğrenmek özellikle önemlidir.

İhtiyacınız olan bilgiyi bulmak için adresini bulmanız gerekir. Bu amaçla özel arama sunucuları (indeks robotları (arama motorları), tematik İnternet dizinleri, meta arama sistemleri, kişi arama hizmetleri vb.) bulunmaktadır. Bu ana sınıf, İnternette bilgi aramak için temel teknolojileri ortaya koyar, arama araçlarının genel özelliklerini sağlar ve en popüler Rusça ve İngilizce arama motorları için arama sorgularının yapılarını inceler.

2. Arama teknolojileri

Web teknolojisi World Wide Web (WWW), belgeleri internette hazırlamak ve yayınlamak için özel bir teknoloji olarak kabul edilir. WWW, web sayfalarını, elektronik kütüphaneleri, katalogları ve hatta sanal müzeleri içerir! Bu kadar çok bilgi varken şu soru ortaya çıkıyor: "Bu kadar büyük ve geniş ölçekli bir bilgi alanında nasıl gezinilir?"
Bu sorunun çözümünde arama araçları imdadımıza yetişiyor.

2.1 Arama araçları

Arama araçları, asıl amacı İnternet kullanıcılarına en uygun ve kaliteli bilgi aramasını sağlamak olan özel yazılımlardır. Arama araçları, her biri belirli bir işlevi yerine getiren özel web sunucularında barındırılır:

  1. Web sayfalarının analizi ve analiz sonuçlarının arama sunucusu veritabanının bir veya başka düzeyinde kaydedilmesi.
  2. Kullanıcı isteğine göre bilgi aranıyor.
  3. Kullanıcının bilgi araması ve arama sonuçlarını görüntülemesi için uygun bir arayüz sağlamak.

Bir veya başka bir arama aracıyla çalışırken kullanılan çalışma teknikleri neredeyse aynıdır. Bunları tartışmadan önce aşağıdaki kavramları ele alalım:

  1. Arama aracı arayüzü, köprüler, bir sorgu satırı (arama satırı) ve sorgu etkinleştirme araçları içeren bir sayfa biçiminde sunulur.
  2. Arama motoru dizini, belirli kurallara göre derlenen web sayfalarının analizinin sonucunu içeren bir bilgi tabanıdır.
  3. Sorgu, kullanıcının arama çubuğuna girdiği bir anahtar kelime veya kelime öbeğidir. Çeşitli sorgular oluşturmak için özel karakterler ("", ~) ve matematiksel simgeler (*, +, ?) kullanılır.

İnternette bilgi arama şeması basittir. Kullanıcı bir anahtar kelime öbeği yazar ve aramayı etkinleştirir, böylece formüle edilmiş (belirtilen) talebe dayalı olarak bir dizi belge alınır. Bu belge listesi belirli kriterlere göre sıralanmıştır, böylece listenin en üstünde kullanıcının isteğine en yakın şekilde eşleşen belgeler yer alır. Arama araçlarının her biri, hem arama sonuçlarını analiz ederken hem de bir dizin oluştururken (web sayfalarının dizin veritabanını doldururken), belgeleri sıralamak için farklı kriterler kullanır.

Böylece her arama aracı için arama çubuğunda aynı tasarımda bir sorgu belirtirseniz farklı arama sonuçları elde edebilirsiniz. Arama sonuçlarında ilk iki ila üç düzine doküman arasında hangi dokümanların görüneceği ve bu dokümanların kullanıcının beklentilerine ne kadar karşılık geldiği kullanıcı açısından büyük önem taşımaktadır.

Çoğu arama aracı iki arama yöntemi sunar; basit arama(basit arama) ve gelişmiş Arama(gelişmiş arama) özel istek formu olsun veya olmasın. İngilizce arama motoru örneğini kullanarak her iki arama türünü de ele alalım.

Örneğin, AltaVista "Bilgi teknolojisinde çevrimiçi derecelerle ilgili bir şey" gibi keyfi sorgular için kullanışlıdır; Yahoo'nun arama aracı ise dünya haberlerini, döviz kuru bilgilerini veya hava durumu tahminlerini almanızı sağlar.

Sorgu ayrıntılandırma kriterlerine ve gelişmiş arama tekniklerine hakim olmak, arama verimliliğini artırmanıza ve gerekli bilgileri hızlı bir şekilde bulmanıza olanak tanır. Öncelikle sorgularınızda mantıksal operatörleri (işlemleri) Veya, Ve, Yakın, Değil, matematiksel ve özel sembolleri kullanarak aramanızın verimliliğini artırabilirsiniz. Kullanıcı, operatörleri ve/veya sembolleri kullanarak, sorgu için en uygun arama sonucunu elde etmek amacıyla anahtar kelimeleri gerekli sırayla ilişkilendirir. Talep formları Tablo 1'de gösterilmektedir.

tablo 1

Basit bir istek, belgelere belirli sayıda bağlantı verir, çünkü... liste, istek sırasında girilen kelimelerden birini veya basit bir ifadeyi içeren belgeleri içerir (bkz. Tablo 1). Ve operatörü, tüm anahtar sözcüklerin belge içeriğine dahil edilmesi gerektiğini belirtmenize olanak tanır. Ancak belge sayısı yine de fazla olabilir ve bunların incelenmesi oldukça zaman alacaktır. Bu nedenle, bazı durumlarda yakın bağlam operatörünü kullanmak çok daha uygundur; bu, kelimelerin belgede yeterli yakınlığa yerleştirilmesi gerektiğini gösterir. Yakın kullanımı, bulunan belge sayısını önemli ölçüde azaltır. Sorgu dizesinde "*" karakterinin bulunması, kelimenin maskesine göre aranacağı anlamına gelir. Örneğin sorgu dizesine “gov*” yazarsak “gov” ile başlayan kelimeleri içeren dokümanların bir listesini elde ederiz. Bunlar hükümet, vali vb. kelimeler olabilir.

Aynı derecede popüler olan arama motoru Rambler, bağlantı trafiğine ilişkin istatistikleri kendi veritabanından tutar; aynı mantıksal operatörler VE, VEYA, DEĞİL, metasembol * (AltaVista'daki sorgu aralığını genişleten * karakterine benzer), katsayı simgeleri + ve - İsteğe girilen anlamlı kelimelerin arttırılması veya azaltılması desteklenir.

İnternette bilgi aramak için en popüler teknolojilere bakalım.

2.2 Arama motorları

Web arama motorları, tüm bu adreslerdeki WWW sayfalarına otomatik olarak erişen, bu sayfaların içeriğini inceleyen, sayfalardan anahtar kelimeler oluşturup kendi veri tabanlarına yazan (sayfaları indeksleyen) devasa bir URL veri tabanına sahip sunuculardır.

Üstelik arama motoru robotları sayfalarda bulunan bağlantıları takip ederek onları yeniden indeksler. Neredeyse her WWW sayfasında diğer sayfalara çok sayıda bağlantı bulunduğundan, böyle bir çalışmayla bir arama motoru teorik olarak nihai sonuç olarak İnternet'teki tüm siteleri tarayabilir.

Bu tür arama araçları, tüm İnternet kullanıcıları arasında en ünlü ve popüler olanlardır. Herkes tanınmış web arama motorlarının (arama motorları) - Yandex, Rambler, Aport - adlarını duymuştur.

Bu tür bir arama aracını kullanmak için ona gitmeniz ve ilgilendiğiniz anahtar kelimeyi arama çubuğuna yazmanız gerekir. Daha sonra, arama motoru veritabanında saklanan ve isteğinize en yakın bağlantılardan sonuçlar alacaksınız. Aramanızı daha etkili hale getirmek için önceden aşağıdaki noktalara dikkat edin:

  • Talebin konusuna karar verin. Nihayetinde tam olarak ne bulmak istiyorsunuz?
  • dile, dilbilgisine, gerçek olmayan çeşitli sembollerin kullanımına, morfolojiye dikkat edin.Ayrıca anahtar kelimeleri doğru şekilde formüle etmek ve girmek de önemlidir. Her arama motorunun kendine özgü bir sorgu yapısı vardır; prensip aynıdır ancak kullanılan semboller veya operatörler farklı olabilir. Gerekli talep formları da arama motoru yazılımının karmaşıklığına ve sağladıkları hizmetlere göre değişiklik göstermektedir. Öyle ya da böyle, her arama motorunda, tüm sözdizimi kurallarının yanı sıra öneriler ve arama ipuçlarının açıkça açıklandığı bir "Yardım" bölümü vardır (arama motoru sayfalarının ekran görüntüsü).
  • Farklı arama motorlarının yeteneklerini kullanın. Yandex'de bulamazsanız Google'da deneyin. Gelişmiş arama hizmetlerini kullanın.
  • Belirli terimleri içeren belgeleri hariç tutmak için bu tür her kelimenin önüne "-" işareti koyun. Örneğin, "Hamlet" hariç Shakespeare'in eserleri hakkında bilgiye ihtiyacınız varsa, sorguyu "Shakespeare-Hamlet" biçiminde girin. Belirli bağlantıların arama sonuçlarına dahil edilmesini sağlamak için “+” sembolünü kullanın. Dolayısıyla, özellikle araba satışıyla ilgili bağlantıları bulmak için "indirim + araba" sorgusuna ihtiyacınız vardır. Aramanızın verimliliğini ve doğruluğunu artırmak için bu sembollerin kombinasyonlarını kullanın.
  • Arama sonuçları listesindeki her bağlantı, bulunan belgeden, aralarında anahtar kelimelerinizin de yer aldığı birkaç satır içerir. Bağlantıya tıklamadan önce pasajın isteğin konusuyla alaka düzeyini değerlendirin. Belirli bir siteye giden bağlantıyı takip ettikten sonra ana sayfaya dikkatlice bakın. Kural olarak doğru adrese gelip gelmediğinizi anlamak için ilk sayfa yeterlidir. Cevabınız evet ise, seçilen sitede (sitenin bölümlerinde) gerekli bilgiler için daha fazla arama yapın; değilse, arama sonuçlarına geri dönün ve bir sonraki bağlantıyı deneyin.
  • Arama motorlarının kendi bilgilerini (kendileri hakkındaki açıklamalar hariç) üretmediklerini unutmayın. Bir arama motoru yalnızca bilginin (sitenin) sahibi ile sizin aranızda bir aracıdır. Veritabanları sürekli güncelleniyor, onlara yeni adresler ekleniyor ancak dünyada gerçekte var olan bilgilerin gerisinde kalıyor. Bunun nedeni arama motorlarının ışık hızında çalışmamasıdır.

En ünlü web arama motorları arasında Google, Yahoo, Alta Vista, Excite, Hot Bot, Lycos bulunur. Rusça konuşulanlar arasında Yandex, Rambler, Aport sayılabilir.

Arama motorları en büyüğü ve en değerlisidir, ancak İnternet'teki tek bilgi kaynağı olmaktan uzaktırlar çünkü bunlara ek olarak İnternet'te arama yapmanın başka yolları da vardır.

2.3 Dizinler

İnternet kaynakları kataloğu, birçok kategoriyi ve içeriklerinin kısa bir açıklamasını içeren bireysel web sunucularını içeren, sürekli güncellenen ve genişletilmiş hiyerarşik bir katalogdur. Katalog arama yöntemi, "adımlardan aşağı inmeyi", yani daha genel kategorilerden daha fazlasına geçmeyi içerir. spesifik olanlar. Tematik dizinlerin avantajlarından biri, bağlantılara ilişkin açıklamaların dizinin yaratıcıları tarafından verilmesi ve içeriğini tam olarak yansıtmasıdır, yani sunucu içeriğinin amacınıza ne kadar uygun olduğunu daha doğru bir şekilde belirleme fırsatı verir. aramak.

Tematik bir Rusça katalog örneği http://www.ulitka.ru/ kaynağıdır.

Bu sitenin ana sayfasında tematik bir değerlendirme tablosu bulunmaktadır.

Kullanıcının kendisini ilgilendiği ürünlere bağlantıların bulunduğu bir bölümde bulduğu yardımıyla.

Ayrıca bazı tematik dizinler anahtar kelimelere göre arama yapmanıza olanak tanır. Kullanıcı istediği anahtar kelimeyi arama çubuğuna girer

ve isteğine en yakın şekilde eşleşen sitelerin açıklamalarını içeren bağlantıların bir listesini alır. Bu aramanın WWW sunucularının içeriklerinde değil, dizinde saklanan kısa açıklamalarında gerçekleştiğini belirtmekte fayda var.

Örneğimizde, katalog aynı zamanda siteleri ziyaret sayısına, alfabetik olarak ve giriş tarihine göre sıralama özelliğine de sahiptir.

Rusça dizinlerin diğer örnekleri:
[email protected]
Web listesi
Vsego.ru
İngilizce kataloglar arasında şunları vurgulayabiliriz:
http://www.DMOS.org
http://www.yahoo.com/
http://www.looksmart.com

2.4 Bağlantı koleksiyonları

Bağlantı koleksiyonları konuya göre sıralanmış bağlantılardır. İçerik olarak birbirlerinden oldukça farklıdırlar, bu nedenle ilgi alanlarınıza en uygun seçimi bulmak için kendi fikrinizi oluşturmak üzere bunları kendiniz incelemeniz gerekir.

Örnek olarak, JSC "Relcom"un "İnternet Hazineleri" bağlantılarından bir seçkiyi ele alalım.

Kullanıcı ilgisini çeken bölümlerden herhangi birine tıklar

  • İÇERİK

    Sürücüler

    • Astronomi ve astroloji
    • Senin evin
    • Senin Evcil hayvanların
    • Çocuklar hayatın çiçekleridir
    • Boş vakit
    • İnternetteki Şehirler
    • Sağlık ve Tıp
    • Haber ajansları ve hizmetleri
    • Yerel Tarih Müzesi vb.
    • Otomotiv elektroniği.
    • Antik Otomoto Müzesi.
    • Araç Sahiplerinin Yasal Korunması Koleji.
    • Spor sürüşü.

    Bu tür arama araçlarının avantajı odaklanmalarıdır; genellikle seçim, belirli bir web yöneticisi veya bir İnternet sayfasının sahibi tarafından seçilen nadir İnternet kaynaklarını içerir.

    2.5 Adres veritabanı

    Adres veritabanları, genellikle faaliyet türüne, sağlanan ürün ve hizmetlere ve coğrafyaya göre sınıflandırmaları kullanan özel arama sunucularıdır. Bazen alfabetik aramayla desteklenirler. Veritabanı kayıtları, ücret karşılığında e-posta, kuruluş ve posta adresi bilgileri sağlayan siteler hakkındaki bilgileri saklar.

    İngilizce dilindeki en büyük adres veritabanı: http://www.lookup.com/ -

    Bu alt dizinlere girdikten sonra kullanıcı, ilgisini çeken bilgileri sunan sitelere bağlantılar bulur.

    Rusya Federasyonu'ndaki geniş çapta erişilebilir ve resmi adres veritabanlarını bilmiyoruz.

    2.6 Gopher arşivlerinde arama

    Gopher, İnternet üzerinden dağıtılan birbirine bağlı bir sunucu sistemidir (Gopher alanı).

    Gopher alanı zengin bir edebi kütüphane içerir, ancak materyaller uzaktan görüntülenemez: kullanıcı yalnızca hiyerarşik olarak düzenlenmiş bir içindekiler tablosunu görüntüleyebilir ve bir dosyayı ada göre seçebilir. Özel bir program (Veronica) kullanarak böyle bir arama, anahtar kelimelere dayalı sorgular kullanılarak otomatik olarak yapılabilir.

    1995 yılına kadar Gopher en dinamik İnternet teknolojisiydi: karşılık gelen sunucuların sayısındaki büyüme oranı, diğer tüm İnternet türlerindeki sunucuların büyüme oranını geride bıraktı. Gopher sunucuları EUnet/Relcom ağında aktif olarak geliştirilmedi ve bugün neredeyse hiç kimse onları hatırlamıyor.

    2.7 FTP Arama Sistemi

    FTP dosya bulucu, "anonim" FTP sunucularında bulunan dosyaları bulmanızı sağlayan özel bir tür İnternet arama aracıdır. FTP protokolü, dosyaları bir ağ üzerinden aktarmak için tasarlanmıştır ve bu anlamda işlevsel olarak bir tür Gopher analogudur.

    Ana arama kriteri, farklı şekillerde (tam eşleşme, alt dize, normal ifade vb.) belirtilen dosya adıdır. Arama sırasında dosyaların içeriği dikkate alınmadığından ve bildiğiniz gibi dosyalara isteğe bağlı adlar verilebildiğinden, bu tür arama elbette arama motorlarıyla yetenek açısından rekabet edemez. Ancak, iyi bilinen bir program veya standart bir açıklama bulmanız gerekiyorsa, büyük olasılıkla onu içeren dosya uygun adı taşıyacaktır ve onu FTP Arama sunucularından birini kullanarak bulabilirsiniz:

    FileSearch, dosyaların ve dizinlerin adlarına göre FTP sunucularındaki dosyaları arar. Herhangi bir program veya başka bir şey arıyorsanız, büyük olasılıkla WWW sunucularında bunların açıklamasını bulacaksınız ve FTP sunucularından bunları kendinize indirebilirsiniz.

    2.8 Usenet Haber konferanslarında arama sistemi

    USENET NEWS, İnternet topluluğu için bir telekonferans sistemidir. Batı'da bu hizmete genellikle haber denir. FIDO ağındaki "yankılar" adı verilen telekonferansların yakın bir benzeridir.

    Bir haber grubu abonesi açısından USENET, siyasetten bahçeciliğe kadar her konuda makaleler bulabileceğiniz bölümlerin bulunduğu bir bülten panosudur. Bu bülten panosuna e-postaya benzer şekilde bilgisayar üzerinden erişilebilir. Bilgisayarınızdan ayrılmadan belirli bir konferanstaki makaleleri okuyabilir veya yayınlayabilir, yararlı tavsiyeler bulabilir veya tartışmalara katılabilirsiniz. Doğal olarak makaleler bilgisayarlarda yer kaplar, bu nedenle sonsuza kadar saklanmazlar, ancak yenilerine yer açmak için periyodik olarak yok edilirler. Tüm dünyada Usenet konferanslarında bilgi aramak için en iyi hizmet Google Grupları sunucusudur (Google Inc.).

    Google Grupları, İnternet'in en büyük Usenet mesajları arşivini (bir milyardan fazla mesaj) sunan ücretsiz bir çevrimiçi topluluk ve tartışma grubu hizmetidir. Hizmetin kullanım şartları hakkında daha fazla bilgi için http://groups.google.com/intl/ adresini ziyaret edin. tr /googlegroups/tour/index.html

    Rusça konuşulanlar arasında USENET Dünya Sistemi sunucusu ve Relcom telekonferansları öne çıkıyor. Diğer arama hizmetlerinde olduğu gibi, kullanıcı bir sorgu dizesi yazar ve sunucu, anahtar sözcükleri içeren bir konferans listesi oluşturur. Daha sonra haber programında seçilen konferanslara abone olmanız gerekir. Benzer bir Rus sunucusu FidoNet Online da var: WWW'de Fido konferansları.

    2.9 Meta arama motorları

    Birkaç arama motorunun veritabanlarında aynı anda hızlı bir şekilde arama yapmak için meta arama sistemlerine yönelmek daha iyidir.

    Meta arama motorları, isteğinizi çok sayıda farklı arama motoruna gönderen, ardından sonuçları işleyen, yinelenen kaynak adreslerini kaldıran ve İnternette sunulanların daha geniş bir yelpazesini sunan arama motorlarıdır.

    Dünyanın en popüler meta arama motoru Search.com'dur.

    CNET, Inc.'in birleşik arama motoru Search.com bağlantıları İnternet'teki bağlantılarla dolu olan neredeyse iki düzine arama motorunu içerir.

    Kullanıcı bu tür arama araçlarını kullanarak çeşitli arama motorlarında bilgi arayabilir, ancak bu sistemlerin olumsuz tarafı kararsızlıkları olarak adlandırılabilir.

    2.10 Kişi arama sistemleri

    Kişi arama sistemleri, İnternet'teki kişileri aramanıza olanak tanıyan özel sunuculardır; kullanıcı bu kişilerin tam adını belirtebilir. kişi ve e-posta adresini ve URL'sini alın. Ancak, insanların arama motorlarının e-posta adresleriyle ilgili bilgileri öncelikle Usenet forumları gibi halka açık kaynaklardan elde ettiğini belirtmek gerekir. En ünlü kişi arama sistemleri arasında şunlar yer alır:

    E-posta adreslerini arayın

    İletişim bilgilerinin yer aldığı özel arama sütunlarında (Ad. Şehir, Soyadı, Telefon numarası) ilgilendiğiniz bilgileri bulabilirsiniz.

    Kişi arama sistemleri gerçekten büyük sunuculardır; veritabanları yaklaşık 6.000.000 adres içerir.

    3. Sonuç

    İnternette bilgi aramak için ana teknolojileri inceledik ve şu anda İnternette mevcut olan arama araçlarının yanı sıra en popüler Rusça ve İngilizce arama motorları için arama sorgularının yapısını genel terimlerle sunduk ve özetledik Yukarıda belirtilenlere göre tek bir optimal planın olmadığını belirtmek isteriz. İnternette bilgi arama yoktur. İhtiyaç duyduğunuz bilgilerin özelliklerine bağlı olarak uygun arama araçlarını ve hizmetlerini kullanabilirsiniz. Arama sonuçlarının kalitesi de arama hizmetlerinin ne kadar iyi seçildiğine bağlıdır.

  • CVyacheslav Tikhonov, Kasım 2000atomzone.hypermart.net

    1. Giriş

    2. Arama motorları

    2.1. Arama mekanizmaları nasıl çalışır 2.2. Arama motorlarının karşılaştırmalı incelemesi

    3. Robotları arayın

    3.1. Arama robotlarının kullanımı

    3.1.1. İstatistiksel analiz 3.1.2. Köprü metni bakımı 3.1.3. Yansıtma 3.1.4. Araştırma kaynakları 3.1.5. Kombine kullanım

    3.2. Web tarayıcılarını kullanmanın artan maliyetleri ve potansiyel tehlikeleri

    3.2.1.Ağ kaynağı ve sunucu yükleme 3.2.2.Belgelerin güncellenmesi

    3.3. Robotlar/müşteri temsilcileri

    3.3.1. Robotların zayıf yazılım uygulamaları

    4.1. Robot hangi bilgilerin dahil edileceğini/hariç tutulacağını belirler 4.2. Dosya biçimi /robots.txt. 4.3. /robots.txt dosyasının kayıtları 4.4. Genişletilmiş format yorumları. 4.5. Ağ Üzerindeki Hareket Sırasının Belirlenmesi 4.6. Verileri özetlemek

    5. Sonuç

    1. Giriş

    İnternette kullanılan ana protokoller (bundan sonra Web olarak anılacaktır), üzerinde bulunan milyonlarca sunucudan bahsetmeye bile gerek yok, yeterli yerleşik arama işlevine sahip değildir. İnternette kullanılan HTTP protokolü yalnızca gezinme için iyidir; bu, sayfaları aramanın değil, yalnızca görüntülemenin bir aracı olarak kabul edilir. Aynı durum HTTP'den daha ilkel olan FTP protokolü için de geçerlidir. Web'de mevcut olan bilgilerin hızlı bir şekilde büyümesi nedeniyle, gezinmeye yönelik tarama yöntemleri, etkililik sınırından bahsetmek yerine, hızla işlevsellik sınırına ulaşmaktadır. Spesifik rakamlar belirtmeden, artık internette milyarlarca belge olduğu ve hepsi İnternet kullanıcılarının kullanımına sunulduğu için gerekli bilgiye anında ulaşmanın artık mümkün olmadığını söyleyebiliriz, üstelik günümüzde sayıları da artıyor. üstel bağımlılığa göre. Bu bilgilerin maruz kaldığı değişimlerin sayısı çok fazladır ve en önemlisi bunların çok kısa bir sürede gerçekleşmiş olmasıdır. Asıl sorun, dünya çapındaki tüm İnternet kullanıcılarının aynı anda erişebildiği, bu kadar büyük miktarda bilgiyi güncellemek ve girmek için hiçbir zaman tek bir tam işlevsel sistemin bulunmamasıdır. İnternette biriken bilgileri yapılandırmak ve kullanıcılarına ihtiyaç duydukları verileri bulmaları için uygun araçlar sağlamak amacıyla arama motorları oluşturulmuştur.

    2. Arama motorları

    Arama motorları genellikle üç bileşenden oluşur:

      İnternette dolaşan ve bilgi toplayan bir aracı (örümcek veya tarayıcı);

      örümcekler tarafından toplanan tüm bilgileri içeren bir veritabanı;

      İnsanların bir veritabanıyla etkileşimde bulunmak için arayüz olarak kullandığı bir arama motoru.

    2.1 Arama motorları nasıl çalışır?

    Bazen arama motorları olarak da adlandırılan bulma ve yapılandırma araçları, insanların ihtiyaç duydukları bilgiyi bulmalarına yardımcı olmak için kullanılır. İnternette bulunan belgeler hakkında bilgi toplamak için aracılar, örümcekler, tarayıcılar ve robotlar gibi arama araçları kullanılır. Bunlar, Web'deki sayfaları arayan, bu sayfalardaki hiper metin bağlantılarını çıkaran ve bulduğu bilgileri otomatik olarak dizine ekleyerek bir veritabanı oluşturan özel programlardır. Her arama motorunun, belgelerin nasıl toplanacağını belirleyen kendi kuralları vardır. Bazıları buldukları her sayfadaki her bağlantıyı takip eder ve ardından her yeni sayfadaki her bağlantıyı keşfeder ve bu şekilde devam eder. Bazıları grafik ve ses dosyalarına, animasyon dosyalarına yönlendiren bağlantıları görmezden gelir; diğerleri WAIS veritabanları gibi kaynaklara olan bağlantıları görmezden gelir; diğerlerine ise önce en popüler sayfalara bakmaları talimatı veriliyor.

      Aracılar arama araçlarının en akıllısıdır. Aramaktan fazlasını yapabilirler; hatta sizin adınıza işlem bile gerçekleştirebilirler. Artık belirli bir konudaki siteleri arayabilir ve trafiklerine göre sıralanmış site listelerini döndürebilirler. Aracılar belge içeriğini işleyebilir ve yalnızca sayfaları değil diğer kaynak türlerini de bulup dizine ekleyebilir. Ayrıca mevcut veritabanlarından bilgi çıkaracak şekilde programlanabilirler. Temsilcilerin indekslediği bilgi ne olursa olsun, onu arama motoru veritabanına geri iletirler.

      İnternetteki genel bilgi aramaları örümcek adı verilen programlar tarafından gerçekleştirilir. Örümcekler, bulunan belgenin içeriğini rapor eder, indeksler ve özet bilgileri çıkarır. Ayrıca başlıklara, bazı bağlantılara bakarlar ve indekslenen bilgileri arama motoru veritabanına gönderirler.

      Tarayıcılar başlıkları tarar ve yalnızca ilk bağlantıyı döndürür.

      Robotlar, değişen yuvalama derinliğine sahip çeşitli bağlantıları takip edecek, indeksleme yapacak ve hatta bir belgedeki bağlantıları kontrol edecek şekilde programlanabilir. Doğaları gereği döngülere takılıp kalabilirler, dolayısıyla bağlantıları takip etmek için önemli ağ kaynaklarına ihtiyaç duyarlar. Ancak robotların, sahiplerinin indekslenmesini istemediği siteleri aramasını engellemek için tasarlanmış yöntemler vardır.

    Aracılar çeşitli türdeki bilgileri alır ve indeksler. Örneğin bazıları, bir belgede karşılaşılan her bir kelimeyi indekslerken, diğerleri her birindeki yalnızca en önemli 100 kelimeyi indeksler, belgenin boyutunu ve içindeki kelime sayısını, başlığı, başlıkları ve alt başlıkları vb. indeksler. . Oluşturulan indeksin türü, arama motoru tarafından hangi aramaların yapılabileceğini ve ortaya çıkan bilgilerin nasıl yorumlanacağını belirler.

    Aracılar ayrıca internette gezinip bilgi bulabilir ve ardından bu bilgiyi arama motorunun veritabanına koyabilir. Arama motoru yöneticileri, aracıların hangi siteleri veya site türlerini ziyaret edip dizine eklemesi gerektiğini belirleyebilir. İndekslenen bilgiler, yukarıda anlatıldığı gibi arama motoru veritabanına gönderilir.

    Kişiler, bilgilerinin yer almasını istedikleri bölüme özel bir form doldurarak, indekse doğrudan bilgi yerleştirebilmektedirler. Bu veriler veritabanına aktarılır.

    Birisi internette mevcut bir bilgi bulmak istediğinde, arama motoru sayfasını ziyaret eder ve ihtiyaç duyduğu bilgilerin ayrıntılarını içeren bir form doldurur. Burada anahtar kelimeler, tarihler ve diğer kriterler kullanılabilir. Arama formundaki kriterler, aracıların Web'de gezinirken buldukları bilgileri indekslerken kullandıkları kriterlerle eşleşmelidir.

    Veritabanı, doldurulmuş formda sağlanan bilgilere dayanarak talebin konusunu bulur ve veritabanı tarafından hazırlanan ilgili belgeleri görüntüler. Belge listesinin görüntüleneceği sırayı belirlemek için veritabanı bir sıralama algoritması uygular. İdeal olarak, kullanıcının sorgusuyla en alakalı belgeler listede ilk sıraya yerleştirilecektir. Farklı arama motorları farklı sıralama algoritmaları kullanır ancak alaka düzeyini belirlemeye yönelik temel ilkeler aşağıdaki gibidir:

      Belgenin metin içeriğindeki (yani html kodundaki) sorgu sözcüklerinin sayısı.

      Bu kelimelerin bulunduğu etiketler.

      Arama kelimelerinin belgedeki konumu.

      Belgedeki toplam kelime sayısı içinde ilgili kelimelerin payı belirlenir.

    Bu ilkeler tüm arama motorları için geçerlidir. Aşağıda sunulanlar bazıları tarafından kullanılmaktadır ancak oldukça iyi bilinmektedir (AltaVista, HotBot gibi).

      Zaman - sayfanın arama motoru veritabanında ne kadar süre kalacağı. İlk bakışta bu oldukça anlamsız bir prensip gibi görünüyor. Ancak internette en fazla bir ay boyunca yayında olan kaç site olduğunu düşünürseniz! Site oldukça uzun bir süredir ortalıktaysa, bu, sahibinin bu konuda çok deneyimli olduğu ve kullanıcının, sofra adabını birkaç yıldır dünyaya anlatan bir siteye, bu konuda daha fazla bilgi veren bir siteye daha uygun olacağı anlamına gelir. bir hafta önce aynı konuyla ortaya çıktı.

      Alıntı dizini - belirli bir sayfaya kaç bağlantının, arama motoru veritabanında kayıtlı diğer sayfalardan geldiği.

    Veritabanı, benzer şekilde sıralanmış bir HTML belgeleri listesi çıkarır ve bunu istekte bulunan kişiye geri gönderir. Farklı arama motorları ayrıca ortaya çıkan listeyi görüntülemek için farklı yollar seçer; bazıları yalnızca bağlantıları gösterir; diğerleri belgede yer alan ilk birkaç cümleyi veya bağlantıyla birlikte belgenin başlığını içeren bağlantıları görüntüler.

    2.2 Arama motorlarının karşılaştırmalı incelemesi

    Lycos . Lycos aşağıdaki indeksleme mekanizmasını kullanır:

      içindeki kelimeler başlık başlıklar en yüksek önceliğe sahiptir;

      sayfa başındaki kelimeler;

    Çoğu sistem gibi Lycos da basit bir sorgu ve daha karmaşık bir arama yöntemi kullanmanıza olanak tanır. Basit bir sorguda, arama kriteri olarak bir doğal dil cümlesi girilir, ardından Lycos sorguyu normalleştirir, sözde durdurma sözcüklerini ondan çıkarır ve ancak o zaman onu yürütmeye başlar. Hemen hemen her kelimeye ilişkin belge sayısı hakkında bilgi sağlanır ve daha sonra resmi olarak ilgili belgelere bağlantıların bir listesi sunulur. Her belgenin karşısındaki liste, sorguya olan yakınlık ölçüsünü, belgede yer alan sorgudaki kelime sayısını ve resmi olarak hesaplanandan daha fazla veya daha az olabilecek tahmini yakınlık ölçüsünü gösterir. Mantıksal operatörleri terimlerle birlikte bir satıra girmek henüz mümkün değil ancak Lycos menü sistemi üzerinden mantığı kullanabilirsiniz. Bu özellik, bu mekanizmayla nasıl çalışılacağını zaten öğrenmiş olan ileri düzey kullanıcılara yönelik genişletilmiş bir istek formu oluşturmak için kullanılır. Dolayısıyla Lycos'un "Bunun gibi" türünde bir sorgulama diline sahip bir sisteme ait olduğu açıktır, ancak arama talimatlarını düzenlemenin başka yollarına da genişletilmesi planlanmaktadır.

    Alta Vista . Bu sistemde indeksleme bir robot kullanılarak gerçekleştirilir. Bu durumda robotun öncelikleri şunlardır:

      sayfanın başında bulunan anahtar ifadeler;

      kelimelerin ve cümlelerin oluşum sayısına göre anahtar ifadeler;

    Sayfada etiket yoksa açıklama (etiket açıklaması) yerine indekslediği ve görüntülediği ilk 30 kelimeyi kullanır.

    AltaVista'nın en ilginç özelliği gelişmiş aramasıdır. Burada hemen belirtmekte fayda var ki diğer birçok sistemden farklı olarak AltaVista tek NOT operatörünü destekliyor. Ek olarak, terimlerin belge metninin yakınında bulunması gerektiğinde bağlamsal arama olasılığını uygulayan NEAR operatörü de bulunmaktadır. AltaVista, anahtar ifadelere göre aramaya izin verir ve oldukça geniş bir ifade sözlüğüne sahiptir. Diğer şeylerin yanı sıra, AltaVista'da arama yaparken kelimenin görünmesi gereken alanın adını belirleyebilirsiniz: köprü metni bağlantısı, uygulama, resim adı, başlık ve diğer bazı alanlar. Ne yazık ki, sıralama prosedürü sistem belgelerinde ayrıntılı olarak açıklanmamıştır, ancak sıralamanın hem basit bir aramada hem de gelişmiş bir sorguda kullanıldığı açıktır. Gerçekte bu sistem genişletilmiş Boolean aramalı bir sistem olarak sınıflandırılabilir.

    yahoo . Bu sistem internette ilk ortaya çıkanlardan biriydi ve bugün Yahoo birçok bilgi erişim aracı üreticisiyle işbirliği yapıyor ve çeşitli sunucularında farklı yazılımlar kullanılıyor. Yahoo dili oldukça basittir: tüm kelimeler boşlukla ayrılarak girilmelidir, bunlar AND veya OR bağlacı ile bağlanır. Düzenlenirken belgenin talebe uygunluk derecesi belirtilmez, yalnızca belgede yer alan talepteki kelimeler vurgulanır. Bu durumda kelime dağarcığı normalleştirilmez ve “ortak” kelimelere yönelik analiz yapılmaz. İyi arama sonuçları, yalnızca kullanıcı Yahoo veritabanının kesin bilgi içerdiğini bildiğinde elde edilir. Sıralama, belgedeki sorgu terimlerinin sayısına göre yapılır. Yahoo, sınırlı arama yeteneklerine sahip basit geleneksel sistemler sınıfına aittir.

    Açık Metin . OpenText bilgi sistemi Web'deki en ticarileştirilmiş bilgi ürünüdür. Tüm açıklamalar bilgilendirici bir kullanım kılavuzundan çok reklama benziyor. Sistem Boolean bağlayıcılarını kullanarak arama yapmanıza izin verir, ancak sorgu boyutu üç terim veya kelime öbeğiyle sınırlıdır. Bu durumda gelişmiş aramadan bahsediyoruz. Sonuç üretilirken belgenin talebe uygunluk derecesi ve belgenin boyutu raporlanır. Sistem ayrıca arama sonuçlarını geleneksel Boolean arama tarzında iyileştirmenize de olanak tanır. OpenText, sıralama mekanizması olmasa da geleneksel bir bilgi erişim sistemi olarak sınıflandırılabilir.

    Bilgi arama . Bu sistemde indeks robot tarafından oluşturulur ancak sitenin tamamı indekslenmez, sadece belirtilen sayfa indekslenir. Bu durumda robotun öncelikleri şunlardır:

      başlıktaki kelimeler başlık en yüksek önceliğe sahip;

      anahtar kelime etiketindeki kelimeler, açıklama ve metnin kendisinde tekrarlanma sıklığı;

      Aynı kelimeler yan yana tekrarlandığında dizinden atılır

      Anahtar kelime etiketi için en fazla 1024 karaktere, açıklama etiketi için ise 200 karaktere kadar izin verilir;

      Etiket kullanılmamışsa sayfadaki ilk 200 kelimeyi indeksler ve açıklama olarak kullanır;

    Infoseek sistemi oldukça gelişmiş bir bilgi erişim diline sahiptir; bu, yalnızca belgelerde hangi terimlerin görünmesi gerektiğini belirtmeyi değil, aynı zamanda bunları benzersiz bir şekilde tartmayı da mümkün kılar. Bu, özel işaretler "+" kullanılarak elde edilir - terim belgede yer almalı ve "-" - terim belgede bulunmamalıdır. Ayrıca Infoseek, bağlamsal arama adı verilen şeyi yapmanıza da olanak tanır. Bu, özel bir sorgu formu kullanarak kelimelerin sıralı olarak birlikte bulunmasını isteyebileceğiniz anlamına gelir. Bazı kelimelerin yalnızca bir belgede değil, ayrı bir paragraf veya başlıkta bile birlikte görünmesini de belirtebilirsiniz. Tek bir bütünü temsil eden anahtar sözcükleri kelime sırasına kadar belirlemek mümkündür. Düzenleme sırasındaki sıralama, belgedeki sorgu terimlerinin sayısına, sorgu ifadelerinin sayısına eksi ortak kelimelere göre gerçekleştirilir. Tüm bu faktörler iç içe prosedürler olarak kullanılır. Kısaca özetlemek gerekirse Infoseek'in arama sırasında terimlerin ağırlıklandırılması unsurunun bulunduğu geleneksel bir sistem olduğunu söyleyebiliriz.

    WAIS . WAIS, en gelişmiş İnternet arama motorlarından biridir. Yalnızca bulanık küme araması ve olasılıksal aramayı uygulamaz. Birçok arama motorundan farklı olarak sistem, yalnızca iç içe geçmiş Boolean sorguları oluşturmanıza, çeşitli yakınlık önlemlerini kullanarak resmi alaka düzeyini hesaplamanıza, sorgu ve belge terimlerini tartmanıza, aynı zamanda sorguyu alaka düzeyine göre düzeltmenize de olanak tanır. Sistem ayrıca terim kısaltmayı kullanmanıza, belgeleri alanlara ayırmanıza ve dağıtılmış dizinleri korumanıza da olanak tanır. Britannica ansiklopedisinin internette uygulanması için ana arama motoru olarak bu özel sistemin seçilmesi tesadüf değildir.

    3. Robotları arayın

    Son yıllarda World Wide Web o kadar popüler hale geldi ki, İnternet artık bilgi yayınlamanın ana araçlarından biri haline geldi. Web'in boyutu birkaç sunucudan ve az sayıdaki belgeden çok büyük sınırlara ulaştığında, bırakın kaynak araştırması için etkili bir yöntem bir yana, hiper metin bağlantı yapısının çoğunda manuel gezinmenin artık mümkün olmadığı açık hale geldi.

    Bu sorun, İnternet araştırmacılarını "robotlar" adı verilen otomatik Web gezinmeyi denemeye sevk etti. Web robotu, Web'in hiper metin yapısında gezinen, bir belge isteyen ve belgenin referans verdiği tüm belgeleri yinelemeli olarak döndüren bir programdır. Bu programlara bazen "örümcekler", "yolcular" veya "solucanlar" da denir ve bu isimler daha çekici olabilir, ancak yanıltıcı olabilirler çünkü "örümcek" ve "yolcu" terimleri robotun kendisinin olduğu yanlış izlenimini verir. hareket ediyor ve "solucan" terimi, robotun aynı zamanda bir İnternet solucanı virüsü gibi çoğaldığı anlamına gelebilir. Gerçekte robotlar, standart ağ protokollerini kullanarak İnternet'in uzak alanlarından bilgi talep eden basit bir yazılım sistemi olarak uygulanmaktadır.

    3.1 Arama robotlarının kullanımı

    Robotlar istatistiksel analiz, hiper metin bakımı, kaynak araştırması veya sayfa kazıma gibi çeşitli yararlı görevleri gerçekleştirmek için kullanılabilir. Bu görevleri daha ayrıntılı olarak ele alalım.

    3.1.1 İstatistiksel Analiz

    İlk robot, internetteki web sunucularının sayısını tespit etmek ve saymak için yaratıldı. Diğer istatistiksel hesaplamalar, Web'deki sunucu başına ortalama belge sayısını, sunucudaki belirli dosya türlerinin oranını, ortalama sayfa boyutunu, bağlantı derecesini vb. içerebilir.

    3.1.2 Köprü metni bakımı

    Köprü metni yapısını korumanın ana zorluklarından biri, sayfa başka bir sunucuya taşındığında veya tamamen silindiğinde diğer sayfalara olan bağlantıların "ölü bağlantılar" haline gelebilmesidir. Bugüne kadar, böyle bir sayfaya bağlantı içeren bir belge içeren sunucu bakım personeline, bu sayfanın değiştiğini veya tamamen silindiğini bildirebilecek genel bir mekanizma bulunmamaktadır. CERN HTTPD gibi bazı sunucular, ölü bağlantıların neden olduğu başarısız istekleri, ölü bağlantının bulunduğu sayfaya ilişkin bir öneriyle birlikte günlüğe kaydederek sorunun manuel olarak çözüleceğini öne sürer. Bu pek pratik değildir ve gerçekte belge yazarları, belgelerinin ölü bağlantılar içerdiğini yalnızca kendilerine doğrudan bildirimde bulunulduğunda veya çok nadiren kullanıcı e-posta yoluyla bilgilendirdiğinde keşfederler.

    Bağlantıları kontrol eden MOMSPIDER gibi bir robot, belge yazarının bu tür ölü bağlantıları tespit etmesine yardımcı olabilir ve ayrıca hiper metin yapısının korunmasına da yardımcı olabilir. Robotlar ayrıca uygun HTML belgesini, kabul edilen kurallara uygunluğunu, düzenli güncellemeleri vb. kontrol ederek içeriğin ve yapının korunmasına da yardımcı olabilir, ancak bu genellikle kullanılmaz. Belki de bu işlevsellik, HTML belge ortamını yazarken yerleşik olmalıdır, çünkü bu kontroller belge değiştiğinde tekrarlanabilir ve herhangi bir sorun anında çözülebilir.

    3.1.3 Yansıtma

    Yansıtma, FTP arşivlerini korumak için popüler bir mekanizmadır. Ayna, dizin ağacının tamamını FTP aracılığıyla yinelemeli olarak kopyalar ve ardından değişen belgeleri düzenli olarak yeniden sorgular. Bu, yükleri birden fazla sunucuya dağıtmanıza, sunucu arızalarını başarılı bir şekilde ele almanıza ve arşivlere çevrimdışı erişimin yanı sıra yerel erişimin daha hızlı ve daha ucuz olmasını sağlamanıza olanak tanır. İnternette yansıtma bir robot kullanılarak yapılabilir, ancak bu makalenin yazıldığı sırada bunun için gelişmiş bir araç mevcut değildi. Elbette, sayfaların bir alt ağacını geri yükleyen ve bunu yerel bir sunucuda saklayan birkaç robot var, ancak değişen sayfaları tam olarak güncelleme araçlarına sahip değiller. İkinci sorun, sayfa benzersizliğidir; bu, yansıtılan sayfalardaki bağlantıların, yine yansıtılan sayfalara bağlantı verdikleri yerde yeniden yazılması gerektiği ve güncellenmesi gerekebileceği anlamına gelir. Bunlar kopyalara dönüştürülmeli ve göreli bağlantıların yansıtılmamış sayfalara yönlendirdiği durumlarda, bunlar mutlak bağlantılara genişletilmelidir. Performans nedenleriyle yansıtma mekanizmalarına olan ihtiyaç, önbelleğe alınan belgenin güncellenmemesini ve büyük ölçüde kendi kendini sürdürmesini sağlayan seçici güncelleme sunan gelişmiş önbellekleme sunucularının kullanılmasıyla büyük ölçüde azaltılır. Ancak gelecekte yansıtma araçlarının uygun şekilde gelişmesi beklenmektedir.

    3.1.4 Araştırma kaynakları

    Belki de robotların en heyecan verici uygulaması kaynak araştırmasında kullanılmasıdır. İnsanların büyük miktardaki bilgiyle baş edemediği durumlarda, tüm işi bir bilgisayara aktarma yeteneği oldukça çekici görünüyor. İnternetin çoğundan bilgi toplayan ve sonuçları bir veritabanına aktaran birkaç robot vardır. Bu, daha önce yalnızca Web'de manuel gezinmeye güvenen bir kullanıcının artık ihtiyaç duyduğu bilgiyi bulmak için aramayı sayfa taramayla birleştirebileceği anlamına gelir. Veritabanı tam olarak aradığı şeyi içermese bile, bu aramanın, arama konusuna bağlantı verebilecek sayfalara yönelik epeyce bağlantı ortaya çıkarması ihtimali yüksektir.

    İkinci avantaj, kontrolün genellikle kendiliğinden ve eksik olduğu manuel belge bakımının aksine, bu veritabanlarının belirli bir süre boyunca otomatik olarak güncellenebilmesi ve böylece veritabanındaki ölü bağlantıların tespit edilip kaldırılmasıdır. Kaynak keşfi için robotların kullanımı aşağıda tartışılacaktır.

    3.1.5 Kombine kullanım

    Basit bir robot yukarıdaki görevlerden birden fazlasını gerçekleştirebilir. Örneğin, RBSE Spider robotu, talep edilen belgelerin istatistiksel analizini gerçekleştirir ve bir kaynak veritabanı tutar. Ancak bu tür kombine kullanım ne yazık ki çok nadirdir.

    3.2 Tarayıcı kullanmanın artan maliyetleri ve potansiyel tehlikeleri

    Robotları kullanmak, özellikle internet üzerinden uzaktan kullanıldığında pahalı olabilir. Bu bölümde robotların internete çok fazla talep getirmesi nedeniyle tehlikeli olabileceğini göreceğiz.

    Robotlar önemli miktarda sunucu bant genişliği gerektirir. Birincisi, robotlar uzun süreler boyunca, hatta çoğu zaman aylarca, sürekli çalışırlar. İşlemleri hızlandırmak için birçok robot sunucudan paralel sayfa isteklerinde bulunur ve bu da daha sonra sunucunun bant genişliğinin kullanımının artmasına neden olur. Bir robot kısa bir süre içinde çok sayıda istekte bulunursa, Ağın uzak kısımları bile bir kaynak üzerindeki ağın yükünü hissedebilir. Bu, özellikle düşük bant genişliğine sahip sunucularda, diğer kullanıcılar için geçici olarak sunucu bant genişliği eksikliğine neden olabilir, çünkü İnternet'in, kullanılan protokole bağlı olarak yükü dengelemenin bir yolu yoktur.

    Geleneksel olarak İnternet "ücretsiz" olarak algılanıyordu çünkü bireysel kullanıcıların onu kullanmak için para ödemesi gerekmiyordu. Ancak özellikle kurumsal kullanıcıların Web kullanımıyla ilgili maliyetleri ödemesi nedeniyle bu durum artık sorgulanıyor. Bir şirket, (potansiyel) müşterilerine sunduğu hizmetlerin ödedikleri paraya değdiğini düşünebilir, ancak otomatik olarak robotlara devredilen sayfalar öyle değildir.

    Robot, Ağ üzerinde talepte bulunmanın yanı sıra, sunucunun kendisinden de ek taleplerde bulunur. Sunucudan belge isteme sıklığına bağlı olarak bu durum, sunucunun tamamında ciddi bir yüke neden olabilir ve sunucuya erişen diğer kullanıcıların erişim hızını azaltabilir. Ayrıca ana bilgisayar başka amaçlarla da kullanılıyorsa bu durum hiç de kabul edilebilir olmayabilir. Bir deney olarak yazar, Sun 4/330'da Plexus sunucusu olarak çalışan sunucusundan 20 paralel isteğin simülasyonunu çalıştırdı. Örümcek kullanımı nedeniyle yavaşlayan makine birkaç dakika boyunca hiç kullanılamadı. Bu etki sayfaların sıralı olarak talep edilmesinde dahi hissedilebilir.

    Bütün bunlar eş zamanlı sayfa isteğinin olduğu durumlardan kaçınılması gerektiğini gösteriyor. Ne yazık ki modern tarayıcılar bile (örneğin Netscape) belgedeki görüntüleri paralel olarak isteyerek bu sorunu yaratmaktadır. HTTP ağ protokolünün bu tür aktarımlar için etkisiz olduğu kanıtlanmıştır ve artık bu tür etkilerle mücadele etmek için yeni protokoller geliştirilmektedir.

    3.2.2 Belgelerin güncellenmesi

    Daha önce de belirttiğimiz gibi robotlar tarafından oluşturulan veritabanları otomatik olarak güncellenebilmektedir. Ne yazık ki internette meydana gelen değişiklikleri izlemeye yönelik etkili mekanizmalar hâlâ mevcut değil. Üstelik hangi bağlantıların silindiğini, taşındığını veya değiştirildiğini tespit edebilecek basit bir sorgu bile bulunmuyor. HTTP protokolü, bir kullanıcı aracısının, belgenin kendisini talep ederken aynı zamanda önbelleğe alınmış bir belgenin ne zaman değiştirildiğini belirleyebilmesini sağlayan bir "Eğer Değiştirildiyse" mekanizması sağlar. Belge değiştirilmişse, belge zaten önbelleğe alınmış olduğundan sunucu yalnızca içeriğini iletecektir.

    Bu araç bir robot tarafından yalnızca belgeden çıkarılan sonuç verileri arasındaki ilişkiyi koruyorsa kullanılabilir: bağlantının kendisi ve belgenin istendiği andaki zaman damgası. Bu, veritabanı boyutu ve karmaşıklığı konusunda ek gereksinimler getirir ve yaygın olarak kullanılmaz.

    3.3 Robotlar/müşteri temsilcileri

    Web yükleme, son kullanıcılar tarafından kullanılan ve genel amaçlı bir web istemcisinin (örneğin, Balık Arama ve tkWWW robotu) parçası olarak uygulanan robot kategorisiyle ilişkili özel bir sorundur. Bu robotlar arasında ortak olan bir özellik, keşfedilen bilgileri Web'de gezinirken arama motorlarına iletebilme yeteneğidir. Bu, birden fazla uzak veritabanının otomatik olarak sorgulanmasıyla kaynak araştırma tekniklerinde bir gelişme olarak öne sürülüyor. Ancak yazara göre bu iki nedenden dolayı kabul edilemez. Birincisi, arama işlemi, basit bir belge talebinden bile daha fazla sunucu yükü getirir; dolayısıyla ortalama bir kullanıcı, birden fazla sunucuda normalden daha fazla yük ile çalışırken önemli rahatsızlık yaşayabilir. İkinci olarak, bir aramada aynı anahtar kelimelerin farklı veritabanlarında eşit derecede alakalı olduğunu, sözdizimsel olarak doğru olduğunu, bırakın optimal olduğunu ve veri tabanı aralığının kullanıcıdan tamamen gizlendiğini varsaymak bir hatadır. Örneğin, "Ford ve garaj" sorgusu, 17. yüzyıl literatürünü saklayan bir veritabanına, Boolean operatörlerini desteklemeyen bir veritabanına veya arabalara ilişkin sorguların "araba:" kelimesiyle başlaması gerektiğini belirten bir veritabanına gönderilebilir. Ve kullanıcı bunu bilmiyor bile.

    İstemci robot kullanmanın bir başka tehlikeli yönü de, İnternet'e yayıldıktan sonra hiçbir hatanın düzeltilememesi, sorunlu alanlara ilişkin hiçbir bilginin eklenememesi ve hiçbir yeni etkili özelliğin onu geliştirememesidir; tıpkı her kullanıcının sonradan yapamayacağı gibi. Bu robotu en son sürüme yükseltin.

    Ancak en tehlikeli husus, robotların olası kullanıcı sayısının çok olmasıdır. Bazı insanlar muhtemelen böyle bir cihazı mantıklı bir şekilde kullanacak, yani kendilerini Web'in bilinen bir alanındaki belirli bir maksimum bağlantıyla ve kısa bir süre için sınırlayacak, ancak bunu cehaletten kötüye kullanacak insanlar olacak. ya da kibir. Yazarın görüşü uzak robotların son kullanıcılara dağıtılmaması gerektiği yönündedir ve neyse ki en azından bazı robot yazarları şimdiye kadar bunları açıkça dağıtmamaya ikna edilmiştir.

    İstemci robotların potansiyel tehlikesi göz önünde bulundurulmadan bile etik bir soru ortaya çıkıyor: robotların kullanımının tüm İnternet topluluğu için mevcut tüm verileri birleştirmek için yararlı olabileceği ve yalnızca tek bir kullanıcıya fayda sağlayacağı için uygulanamayacağı durumlar.

    İnternette bilgi arayan son kullanıcının kullanması için tasarlanan "akıllı aracılar" ve "dijital asistanlar" şu anda bilgisayar bilimlerinde popüler bir araştırma konusudur ve genellikle Web'in geleceği olarak görülmektedir. Aynı zamanda durum gerçekten de böyle olabilir ve otomasyonun kaynak araştırması için paha biçilmez olduğu zaten açıktır, ancak kullanımını etkili kılmak için daha fazla araştırmaya ihtiyaç vardır. Kullanıcı tarafından kontrol edilen basit robotlar, akıllı ağ aracılarından çok farklıdır: Aracının körü körüne aramak yerine belirli bilgileri nerede bulacağına (yani hangi hizmetleri kullanacağına) dair bir fikri olmalıdır. Bir kişinin kitapçı aradığı bir durumu düşünün; Yaşadığı bölgenin Sarı Sayfalarını kullanıyor, mağazaların listesini buluyor, bir veya birkaçını seçiyor ve ziyaret ediyor. Müşteri robotu bölgedeki tüm mağazalara gidip kitap soruyordu. Gerçek hayatta olduğu gibi internette de küçük ölçekte etkisizdir, büyük ölçekte ise tamamen yasaklanmalıdır.

    3.3.1 Robotların zayıf yazılım uygulamaları

    Ağ ve sunucular üzerindeki yük bazen, özellikle yeni yazılan robotların kötü yazılım uygulaması nedeniyle artar. Robot tarafından gönderilen protokol ve bağlantılar doğru olsa ve robot döndürülen protokolü (yeniden yönlendirme gibi diğer özellikler dahil) doğru şekilde işlese bile, daha az belirgin olan birkaç sorun vardır.

    Yazar, birkaç benzer robotun sunucusuna yapılan çağrıyı nasıl kontrol ettiğini gözlemledi. Bazı durumlarda olumsuz etkilere insanların siteyi test için kullanması (yerel sunucu yerine) neden olurken, diğer durumlarda bunların robotun kendisinin kötü yazılmasından kaynaklandığı açıkça ortaya çıktı. Bu, önceden talep edilen bağlantıların kaydı olmadığında (ki bu affedilemez) veya robot birden fazla bağlantının sözdizimsel olarak eşdeğer olduğunu (örneğin, aynı IP adresi için DNS takma adlarının farklı olduğu veya nerede olduğu) tanımadığında yinelenen sayfa isteklerine neden olabilir. bağlantılar taranamaz; örneğin "foo/bar/baz.html", "foo/baz.html" ile eşdeğerdir.

    Bazı robotlar bazen GIF ve PS gibi işleyemedikleri ve dolayısıyla göz ardı ettikleri belgeleri talep ederler.

    Diğer bir tehlike ise Web'in bazı alanlarının neredeyse sonsuz olmasıdır. Örneğin, bir düzeyin altındaki bağlantıya sahip bir sayfayı döndüren bir komut dosyasını düşünün. Örneğin "/cgi-bin/pit/" ile başlayacak ve "/cgi-bin/pit/a/", "/cgi-bin/pit/a/a/" vb. ile devam edecektir. Bu tür bağlantılar bir robotu tuzağa düşürebildiği için bunlara genellikle "kara delikler" adı verilir.

    4. Bilgilerin kataloglanmasında sorunlar

    Robotların doldurduğu veritabanlarının popüler olduğu yadsınamaz bir gerçek. Yazar ihtiyaç duyduğu kaynakları bulmak için bu tür veritabanlarını düzenli olarak kullanıyor. Ancak, Web'deki kaynakların araştırılmasında robotların kullanımını sınırlayan çeşitli sorunlar vardır. Bunlardan biri, burada çok fazla belge olması ve bunların hepsinin dinamik olarak sürekli değişmesidir.

    Bilgi erişim yaklaşımının etkililiğinin bir ölçüsü, bulunan tüm ilgili belgeler hakkındaki bilgileri içeren “geri çağırma”dır. Brian Pinkerton, İnternet indeksleme sistemlerinde iptalin tamamen kabul edilebilir bir yaklaşım olduğunu, çünkü yeterince ilgili belgeleri bulmanın sorun olmadığını savunuyor. Ancak internette bulunan tüm bilgileri robot tarafından oluşturulan veritabanındaki bilgilerle karşılaştırırsanız, bilgi miktarı çok büyük olduğundan ve çok sık değiştiğinden inceleme çok doğru olamaz. Dolayısıyla pratikte veritabanı şu anda İnternette mevcut olan belirli bir kaynağı içermeyebilir ve İnternet sürekli büyüdüğü için bu tür birçok belge olacaktır.

    4.1. Robot hangi bilgilerin dahil edileceğini/hariç tutulacağını belirler

    Robot, belirli bir web sayfasının kendi dizinine dahil edilip edilmediğini otomatik olarak belirleyemez. Ayrıca, İnternet'teki web sunucuları yalnızca yerel bağlamla ilgili belgeler, geçici olarak var olan belgeler vb. içerebilir. Pratikte robotlar nerede olduklarına dair neredeyse tüm bilgileri saklıyor. Robot, belirtilen sayfanın veritabanından çıkarılması gerekip gerekmediğini belirleyebilmiş olsa bile, zaten dosyayı sorgulamanın ek yükünü üstlendiğini ve belgelerin büyük bir yüzdesini göz ardı etmeye karar veren bir robotun çok israf olduğunu unutmayın. Bu duruma çözüm bulmak amacıyla İnternet topluluğu Robot İstisna Standardını benimsedi. Bu standart, sunucuda bilinen bir konumda bulunan ve bağlantılarının hangi bölümünün robotlar tarafından göz ardı edilmesi gerektiğini belirlemek için kullanılan basit yapılandırılmış bir metin dosyasının ("/robots.txt") kullanımını açıklar. Bu araç aynı zamanda robotları kara delikler konusunda uyarmak için de kullanılabilir. Robotun belirli bir alanda uzmanlaştığı biliniyorsa, her robot tipine özel komutlar verilebilir. Bu standart ücretsizdir ancak uygulanması çok kolaydır ve robotların üzerinde, onları kontrol altına almaya çalışmak için ciddi bir baskı oluşturur.

    4.2. Dosya biçimi /robots.txt.

    /robots.txt dosyasının amacı, tüm arama robotlarına bu dosyada tanımlandığı gibi bilgi sunucularını indeksleme talimatı vermektir; yalnızca /robots.txt dosyasında AÇIKLANMAYAN dizinler ve sunucu dosyaları. Bu dosya, belirli bir robotla ilişkili (agent_id alanının değeri tarafından belirlenen şekilde) 0 veya daha fazla kayıt içermeli ve her robot için veya tamamı için tam olarak neyin indekslenmesine İHTİYAÇ OLMADIĞINI tek seferde belirtmelidir. /robots.txt dosyasını yazan kişinin, her robotun indekslenmiş sunucunun HTTP isteğine verdiği User-Agent alanının Product Token alt dizesini belirtmesi gerekir. Örneğin, mevcut Lycos robotu böyle bir isteğe Kullanıcı Aracısı alanıyla yanıt verir:

    Lycos_Spider_(Rex)/1.0 libwww/3.1

    Lycos robotu /robots.txt dosyasında açıklamasını bulamazsa uygun gördüğü şekilde hareket eder. /robots.txt dosyasını oluştururken dikkate alınması gereken diğer bir faktör de dosya boyutudur. İndekslenmemesi gereken her dosya açıklandığı için ve hatta birçok robot türü için ayrı ayrı indekslenmemesi gereken çok sayıda dosya ile birlikte, /robots.txt'nin boyutu çok büyük oluyor. Bu durumda /robots.txt dosyasının boyutunu küçültmek için aşağıdaki yöntemlerden bir veya birkaçını kullanmalısınız:

      indekslenmemesi gereken bir dizini belirtin ve buna göre indekslenmeye tabi olmayan dosyalar bu dizinde bulunmalıdır.

      /robots.txt dosyasındaki istisnaların açıklamasının basitleştirilmesini dikkate alan bir sunucu yapısı oluşturun

      tüm aracı_kimlikleri için bir indeksleme yöntemi belirtin

      dizinler ve dosyalar için maskeleri belirtin

    4.3. /robots.txt dosyasındaki kayıtlar

    Kayıt formatının genel açıklaması.

    [ # yorum dizesi NL ]*

    Kullanıcı Aracısı: [ [ WS ]+ aracı_kimliği ]+ [ [ WS ]* # yorum dizesi ]? Hollanda

    [ # yorum dizesi NL ]*

    # yorum dizesi NL

    İzin verme: [ [ WS ]+ yol_kökü ]* [ [ WS ]* # yorum dizesi ]? Hollanda

    Seçenekler

    /robots.txt girişlerinde kullanılan parametrelerin açıklaması

      [...]+ Köşeli parantezler ve ardından gelen + işareti, bir veya daha fazla terimin parametre olarak belirtilmesi gerektiğini belirtir. Örneğin, "Kullanıcı Aracısı:"dan sonra bir veya daha fazla aracı_kimliği boşlukla ayrılarak belirtilebilir.

      [...]* Köşeli parantezler ve ardından gelen *, parametre olarak sıfır veya daha fazla terimin belirtilebileceğini belirtir. Örneğin yorum yazabilir veya yazmayabilirsiniz.

      [...]? Köşeli parantezler ve ardından bir işaret mi var? sıfır veya bir terimin parametre olarak belirtilebileceği anlamına gelir. Örneğin, "User-Agent: Agent_id"den sonra bir yorum yazılabilir.

      ..|.. ya satırın öncesi ya da sonrası anlamına gelir.

      WS karakterlerden biri - boşluk (011) veya sekme (040)

      NL karakterlerden biri - satır sonu (015), satırbaşı (012) veya bu karakterlerin her ikisi (Enter)

      User-Agent: anahtar kelime (büyük harfler önemli değil). Parametreler, arama robotlarının Agent_id'sidir.

      İzin verme: anahtar kelime (büyük ve küçük harfler önemli değildir). Parametreler, dizine eklenmemiş dosyalara veya dizinlere giden tam yollardır.

      # yorum satırının başlangıcı, yorum dizesi yorumun asıl gövdesidir.

      ajan_kimliği, çeşitli arama robotlarının aracı_kimliğini tanımlayan, WS ve NL hariç, herhangi bir sayıda karakter. * işareti tüm robotları aynı anda tanımlar.

      yol_kökü, dizine eklenmeyecek dosya ve dizinleri tanımlayan, WS ve NL hariç, herhangi bir sayıda karakter.

    4.4. Genişletilmiş format yorumları.

    Her giriş, bu girişin hangi arama robotuna yönelik olduğunu açıklayan bir Kullanıcı Aracısı satırıyla başlar. Sonraki satır: İzin verme. İndekslemeye tabi olmayan yollar ve dosyalar burada açıklanmaktadır. HER girişte en az bu iki satır bulunmalıdır. Diğer tüm satırlar seçeneklidir. Bir giriş herhangi bir sayıda yorum satırı içerebilir. Her yorum satırı # karakteriyle başlamalıdır. Yorum satırları Kullanıcı Aracısı ve İzin Verme satırlarının sonuna yerleştirilebilir. Bu satırların sonuna # karakteri bazen tarayıcıya uzun Agent_id veya path_root satırının sona erdiğini belirtmek için eklenir. Kullanıcı Aracısı satırında birden fazla aracı_kimliği belirtilirse, İzin Verme satırındaki yol_kök koşulu herkes için eşit şekilde karşılanacaktır. Kullanıcı Aracısı ve İzin Verme satırlarının uzunluğu konusunda herhangi bir kısıtlama yoktur. Arama robotu, /robots.txt dosyasında aracı_kimliğini bulamazsa, /robots.txt dosyasını yok sayar.

    Her arama robotunun çalışmasının özelliklerini dikkate almazsanız, tüm robotlar için istisnaları aynı anda belirleyebilirsiniz. Bu, çizgiyi ayarlayarak elde edilir

    Arama robotu, /robots.txt dosyasında, onu karşılayan bir Agent_id değerine sahip birkaç giriş bulursa, robot bunlardan herhangi birini seçmekte özgürdür.

    Her tarayıcı, /robots.txt girişlerini kullanarak sunucudan okunacak mutlak bir URL belirleyecektir. Yol_kökü içindeki büyük ve küçük harfler önemlidir.

    Örnek 1:

    Kullanıcı Aracısı: Lycos

    İzin verme: /cgi-bin/ /tmp/

    Örnek 1'de /robots.txt dosyası iki giriş içermektedir. İlki tüm arama robotları için geçerlidir ve tüm dosyaların indekslenmesini yasaklar. İkincisi Lycos arama robotu ile ilgilidir ve bir sunucuyu indekslerken /cgi-bin/ ve /tmp/ dizinlerini yasaklar ve geri kalanına izin verir. Bu şekilde sunucu yalnızca Lycos tarafından indekslenecektir.

    4.5. İnternetteki hareket sırasını belirleme

    Web'de nasıl gezinileceğini belirlemek göreceli bir zorluktur. Çoğu sunucunun hiyerarşik olarak organize edildiği göz önüne alındığında, sınırlı bir bağlantı yuvalama derinliğinde üstten bağlantılar arasında ilk kez geniş kapsamlı hareket edildiğinde, bağlantılar arasında geniş kapsamlı hareket etmeye kıyasla daha yüksek düzeyde ilgi ve hizmete sahip bir belge kümesini hızlı bir şekilde bulma olasılığı daha yüksektir. ve bu nedenle bu yöntem kaynak keşfi için daha çok tercih edilir. Ayrıca, iç içe geçmenin ilk düzeyindeki bağlantıları takip ederken, kullanıcıların diğer, potansiyel olarak yeni sunuculara bağlantıları olan ana sayfalarını bulma olasılığı daha yüksektir ve bu nedenle yeni siteler bulma olasılığı daha yüksektir.

    4.6. Verileri özetlemek

    İnternette bulunan keyfi bir belgeyi indekslemek çok zordur. İlk robotlar yalnızca belgenin başlığını saklıyor ve metnin kendisine sabitleniyor, ancak en yeni robotlar zaten daha gelişmiş mekanizmalar kullanıyor ve genellikle belgenin tüm içeriğini dikkate alıyor.

    Bu yöntemler iyi genel önlemlerdir ve tüm sayfalara otomatik olarak uygulanabilir, ancak ne yazık ki bir sayfayı yazarının kendisi tarafından dizine eklenmesi kadar etkili olamazlar. HTML, bir belgenin yazarının belgeye genel bilgiler eklemesi için bir araç sağlar. Bu çözüm, örneğin " gibi bir öğenin tanımlanmasından oluşur. Bununla birlikte, belirli bir HTML etiketinin belirli nitelik değerleri için herhangi bir anlambilim tanımlamaz, bu da kullanımını ve dolayısıyla kullanışlılığını ciddi şekilde sınırlar. Bu, düşük "doğruluğa" yol açar " belirli bir sorguyla ilgili talep edilen toplam belge sayısına göre. Boolean operatörlerinin kullanılması, WAIS'te yapıldığı gibi kelime ağırlıklarının bulunması veya alaka geri bildirimi gibi özelliklerin dahil edilmesi belgelerin doğruluğunu artırabilir, ancak şu anda bulunan bilgiler göz önüne alındığında İnternette son derece çeşitlidir, bu sorun ciddi olmaya devam etmektedir ve bunu çözmenin en etkili yolları henüz bulunamamıştır.

    5. Sonuç

    Bu çalışma doğal olarak tam veya doğru gibi görünmüyor. Materyalin çoğu yabancı kaynaklardan alındı, özellikle Martin Koster'in (Martijn Koster) incelemeleri esas alındı. Bu nedenle, bu belgenin hem çeviriyle hem de bilgi teknolojisinin olağanüstü hızlı gelişimiyle ilgili herhangi bir yanlışlık içermesi olasılığını dışlamıyorum. Ancak yine de bu makalenin World Wide Web, gelişimi ve geleceği ile ilgilenen herkese faydalı olacağını umuyorum. Her durumda, çalışmalarımla ilgili e-posta yoluyla geri bildirim almaktan memnuniyet duyacağım: [e-posta korumalı]

    6. Kullanılan literatürün listesi

    Pavel Khramtsov "İnternette arama ve gezinme." http://www.osp.ru/cw/1996/20/31.htm

    İntranet Arama Araçları ve Örümcekler Nasıl Çalışır? http://linux.manas.kg/books/how_intranets_work/ch32.htm

    Martijn Koster "Web'deki robotlar: tehdit mi yoksa tedavi mi?" http://info.webcrawler.com/mak/projects/robots/threat-or-treat.html

    İnternet mesleklerinde eğitim. Arama motoru Uzmanı. http://searchengine.narod.ru/archiv/se_2_250500.htm

    Andrey Alikberov "Arama motoru robotlarının nasıl çalıştığı hakkında birkaç söz." http://www.citforum.ru/internet/search/art_1.shtml