Bilgi teorisinde entropi türleri. Bilgi entropisi. Shannon formülü

  • 10.05.2019

kavram entropi Termodinamikte ilk kez 1865 yılında R. Clausius tarafından tersinmez enerji yayılımının ölçüsünü belirlemek için tanıtıldı. Entropi, bilgi teorisi de dahil olmak üzere çeşitli bilim dallarında, farklı sonuçları olabilecek herhangi bir deneyimin, testin belirsizliğinin bir ölçüsü olarak kullanılmaktadır. Bu entropi tanımları derin bir iç bağlantıya sahiptir. Böylece, bilgi hakkındaki fikirlere dayanarak, istatistiksel fiziğin en önemli hükümlerinin tümü çıkarılabilir. [S OL. Fizik. M: Büyük Rus Ansiklopedisi, 1998].

Bağımsız (Eşi Olası Olmayan) Rastgele Olaylar için Bilgi İkili Entropisi xİle birlikte n olası durumlar(1'den n, p- olasılık fonksiyonu) hesaplanır Shannon'ın formülü:

Bu değere de denir ortalama entropi mesajlar. Shannon'ın formülündeki entropi, ortalama bir özelliktir - rastgele bir değişkenin dağılımının matematiksel beklentisi.
Örneğin, Rusça'da bir cümle oluşturan bir harf dizisinde, farklı harfler farklı frekanslarda görünür, bu nedenle bazı harfler için oluşum belirsizliği diğerlerinden daha azdır.
1948'de, bilginin gürültülü bir şekilde rasyonel iletimi sorununu araştırırken iletişim kanalı Claude Shannon bir devrimci önerdi. olasılıksal yaklaşım iletişim anlayışına ulaştı ve ilk, gerçekten matematiksel entropi teorisini yarattı. Sansasyonel fikirleri, olasılık kavramını kullanan bilgi teorisinin gelişiminin temeli olarak hızla hizmet etti. Rastgeleliğin bir ölçüsü olarak entropi kavramı, Shannon tarafından 1948'de Bell System Technical Journal'da iki bölüm halinde yayınlanan "A Mathematical Theory of Communication" adlı makalesinde tanıtıldı.

Eşit derecede olası olaylar durumunda ( özel durum), tüm seçenekler eşit derecede olası olduğunda, bağımlılık yalnızca dikkate alınan seçeneklerin sayısına bağlıdır ve Shannon formülü büyük ölçüde basitleştirilmiştir ve ilk olarak bir Amerikalı mühendis tarafından önerilen Hartley formülü ile örtüşmektedir. Ralph Hartley 1928'de mesajları değerlendirmeye yönelik bilimsel yaklaşımlardan biri olarak:

, numara nerede iletilen bilgi, p olayın olasılığı, N olası farklı (eş olasılıklı) mesaj sayısıdır.

Görev 1. Eşit olasılığa sahip olaylar.
Bir destede 36 kart vardır. Desteden “as” portresi olan bir kartın alındığı mesajında ​​ne kadar bilgi yer alıyor; "maça ası" mı?

Olasılık p1 = 4/36 = 1/9 ve p2 = 1/36. Hartley formülünü kullanarak elimizde:

Cevap: 3.17; 5.17 bit
Tüm haritaları kodlamak için 6 bitin gerekli olduğuna (ikinci sonuçtan) dikkat edin.
Bir olayın olasılığı ne kadar düşükse, o kadar fazla bilgi içerdiği sonuçlardan da açıkça görülmektedir. ( Bu mülk aranan monotonluk)

Görev 2. Eşit olmayan olaylarda
Bir destede 36 kart vardır. Bunlardan, "portre" içeren 12 kart. Sırayla, kartlardan biri desteden alınır ve üzerinde bir portrenin gösterilip gösterilmediğini belirlemek için gösterilir. Kart desteye iade edilir. Bir kart her gösterildiğinde iletilen bilgi miktarını belirleyin.

Herhangi bir yönetim ve iletim sürecinde bir dönüşüm vardır. giriş bilgisi izin gününde. Genellikle bilgi, bazı bilgiler, semboller, işaretler olarak anlaşılır. İstatistik teorisi: Bilgi kavramı, belirsizliğin ortadan kaldırılması olarak karakterize edilir.

Bilgi, depolama, iletim ve alım nesnesi olarak tanımlanır. Bilgi bir sinyal kullanılarak iletilir. Bilgi edinmenin nicel değerlendirmesinin merkezinde, bir mesajı zaman içinde rastgele bir stokastik süreç olarak iletme fikri vardır.

Test yoluyla belirsizliği ortadan kaldırın, belirsizlik ne kadar yüksekse, bilginin değeri de o kadar yüksek olur.

Belirsizlik derecesi, değerin alabileceği değerlerin sayısına ve olayların sonucuna bağlıdır.

Bilgi miktarının bir ölçüsü için, bir rasgele değişken H (A) belirlenir:

nerede -sonucun olasılığı.

Eksi işareti, H (A) deneyiminin entropisidir (formül Claude Chinon tarafından icat edilmiştir).

H(A) ne kadar fazlaysa, cehaletin ölçüsü o kadar büyük olur.

Bazı sistemler hakkında bilgi birikimi entropiyi azaltır. Bilgi, entropiye belirli bir katkıdır.

Bir x sistemi verilsin.

eğer
, sonra

nerede

Bilgi alma, sistemin durumunun nesnel bir gösterimidir ve iletim, kontrol, karar vb. için kullanılabilir.

Bilgi bir maddi veya enerji kategorisi değildir, asla yaratılmaz, sadece iletilir ve alınır, ancak kaybolabilir veya kaybolabilir.

Termodinamiğin ikinci yasasına göre, organize yapıların yıkımına paralel olarak entropi artar ve kaotik bir olasılık durumuna yönelir.

Ölçü birimi, eşit olasılıkla alan bazı rastgele değişkenlerde bulunan bilgi miktarıdır. Belirsizlik derecesinin birimi, aynı olasılığa ve iki farklı değere sahip iki sonucu olan temel bir olayın entropisi olarak alınır.

-ikili birim veya bit.

x-sistemine bağlı

y-sistemi

I(x,y)=H(x)+H(y)-H(x,y), burada

H(x,y)-birleşik sistemin entropisi.

, nerede,

Sürekli sinyal için.

burada(x), x'in olasılık yoğunluğudur. Chinon yaklaşımı, anlamsal içeriği hesaba katmaz.

33. Ergodik bir kaynak kavramı. fazlalık.

Uygulamada, korelasyonların sonlu sayıda önceki kaynağa uzandığı ergodik kaynaklar vardır. Ergodik bir kaynakta
korelasyon yok, yani.

Ergodik kaynaklar tarafından üretilen mesajların matematiksel temsili Markov zinciri.

Markov zinciri n-sırasına bir dizi denir, testlerin bağımlılığı, bazı sonuçların olasılığı
Bir denemede, önceki denemelerde meydana gelen sonuçlara bağlıdır, ancak daha önceki sonuçlara bağlı değildir.

Ergodik bir kaynakta, n dağıtım sırası
k=1,2,…,m için sabit kalmaz, mesajların son n harfinin ne olduğuna bağlıdır.

alfabeden bir q harfi seçme olasılığı.

Olası durumların sayısı şu şekilde belirlenir:
, burada m alfabedir, n sıradır, M olası kaynak durumlarının sayısıdır.

Toplam entropiyi belirlemek için gereklidir:

M=1 ise, o zaman şunu elde ederiz: klasik formülÇinon.

Ergodik bir kaynaktaki korelasyona mutlaka olasılık dağılımındaki bir değişiklik, durumdan duruma bir mesaj unsurunun seçimi eşlik eder, bu da entropide bir azalmaya yol açar, bu da kaynak tarafından iletilen bilgilerin bir kısmının olabileceği anlamına gelir. tahmin ediliyor, yani iletilemez, çünkü alıcı tarafta geri yüklenebilir. Kaynağın entropisi ne kadar düşükse, o kadar fazla bilgi üretir.

R-yedekliği, kaynağın verimliliğini gösterir.

R'nin nedeni, mesajlar arasında seçim yapmanın benzersizliği ve referans olasılığıdır.

1) Tıp çalışmasına sistematik bir yaklaşım. Bir sistem kavramı. Sistemin özellikleri. Tıbbi sistem örnekleri.

Sistematik bir yaklaşım, nesnelerin sistem olarak incelenmesine dayanan özel bilimsel bilgi ve sosyal uygulama metodolojisinin yönü.

sistem- belirli bir bütünlük, birlik oluşturan, birbirleriyle ilişki ve bağlantı içinde olan bir dizi unsur.

tüm sistemlerde ortak olan özellikler:

    Bütünlük- sistem, bütünlüğü olan ve sınırları içinde tanımlanan soyut bir varlıktır. Sistemin bütünlüğü, bazı önemli yönlerden, elemanların bağlantılarının "gücü" veya "değeri" anlamına gelir. sistem içinde sistem elemanlarının elemanlarla bağlantılarının gücü veya değerinden daha yüksek harici sistemler veya ortamlar.

    Sinerji, ortaya çıkma, bütünsellik, sistemik etki- sistem öğelerinde mevcut olmayan sistemdeki özelliklerin görünümü; bir sistemin özelliklerinin, onu oluşturan bileşenlerin özelliklerinin toplamına temel olarak indirgenemezliği. Bir sistemin yetenekleri, onu oluşturan parçaların yeteneklerinin toplamından daha büyüktür; Genel performans veya sistemin işlevselliği, basit bir öğeler toplamından daha iyidir.

    hiyerarşi- sistemin her elemanı bir sistem olarak kabul edilebilir; sistemin kendisi de bazı süpersistemlerin (süpersistem) bir öğesi olarak düşünülebilir.

Uzman sistemler - bir üretim kuralları sistemi (mantıksal çıkarım kuralları) kullanarak tıbbi bilginin yapısının ve içeriğinin mantıklı bir açıklaması.

Kullanıcının seviyesini aşan bir bilgi düzeyinde belirli bir alanda istişareler; - bilgisayar teknolojilerinin uygulanması " yapay zeka»; - buluşsal kurallar sistemleri şeklinde bir bilgi tabanının oluşturulması; - bir çözüm elde etme sürecinde akıl yürütmenin açıklaması.

Tıbbi bilgi sistemleri (MIS). Amaç olarak, bu sistemler üç gruba ayrılır: 1) Asıl işlevi veri ve bilgi birikimi olan sistemler

2) teşhis ve danışmanlık sistemleri

3) tıbbi bakım sağlayan sistemler

Tıbbi Bilgi Sistemi (MIS) - tıbbi süreçleri ve (veya) organizasyonları otomatikleştirmek için tasarlanmış bir dizi bilgi, organizasyon, yazılım ve donanım

Tıbbi bilgi sistemlerinin görevleri

      Veri toplama

      Verilerin kaydı ve belgelenmesi

      Bilgi alışverişini sağlamak

      Hastalığın seyrinin kontrolü (tıbbi kontrol)

      Tedavi ve teşhis sürecinin teknolojisinin uygulanmasının izlenmesi (teknolojik kontrol)

      Bilgi depolama ve alma (arşivleme)

      Veri analizi

      Karar desteği

      Eğitim

2. Tıbbi sistem olarak kontrol sistemi. Kontrol sistemlerinde geri besleme ilkesi. Bilişim yöntem ve araçlarının tıbbi yönetim sistemindeki yeri.

kontrol teorisi- çeşitli sistemleri, süreçleri ve nesneleri yönetme ilke ve yöntemlerinin bilimi. Kontrol teorisinin temelleri sibernetik (ister makineler, ister canlı organizmalar veya toplum olsun, çeşitli sistemlerde bilginin kontrol ve iletim süreçlerini yöneten genel yasaların bilimi) ve bilgi teorisidir.

Yönetim süreci birkaç aşamaya ayrılabilir:

1. Bilgilerin toplanması ve işlenmesi.

2. Analiz, sistematizasyon, sentez.

3. Bu temelde hedefler belirlemek. Kontrol yöntemi seçimi, tahmin.

4. Seçilen yönetim yönteminin uygulanması.

5. Seçilen yönetim yönteminin etkinliğinin değerlendirilmesi (geri bildirim).

Kontrol teorisinin nihai amacı, tutarlılık, optimizasyon ve sistemlerin işleyişinde en yüksek verimlilik anlamına gelen evrenselleştirmedir.

Kontrol teorisi tarafından ele alınan kontrol yöntemleri teknik sistemler ve diğer nesneler üç temel ilkeye dayanmaktadır:

1. Açık (yazılım) denetim ilkesi,

2. Tazminat ilkesi (bozulma kontrolü)

3. Geri bildirim ilkesi.

Yönetim iki türe ayrılabilir:

doğal: etki, konuların etkileşiminin bir sonucu olarak ortaya çıkar (sinerjik yönetim);

bilinçli: nesnenin planlanan etkisi (hiyerarşik kontrol).

Hiyerarşik yönetimde, sistemin işleyişinin amacı, onun üst sistemi tarafından belirlenir.

Tıbbi sibernetik, fikirlerin, yöntemlerin ve yöntemlerin kullanımıyla ilişkili bilimsel bir yöndür. teknik araçlar tıpta ve halk sağlığında sibernetik.

Geleneksel olarak, tıbbi sibernetik aşağıdaki gruplarla temsil edilebilir:

Hastalıkların hesaplamalı teşhisi

Bu bölüm, teşhis koymak için biyolojik bir nesneden gelen bilgilerin işlenmesinde bilgisayar teknolojisinin kullanımı ile ilişkilidir. İlk adım, tanıda kullanılan klinik parametreleri ve işaretleri netleştirmek için kapsamlı bir analiz yaparak hastanın sağlık durumunu resmi olarak tanımlamak için yöntemler geliştirmektir. Burada, nicel tahminler taşıyan işaretler birincil öneme sahiptir. Hastanın fizyolojik, biyokimyasal ve diğer özelliklerinin nicel ifadesine ek olarak, hesaplamalı teşhis, klinik sendromların sıklığı (önceki verilerden) ve bunların sınıflandırılması, teşhis etkinliğinin değerlendirilmesi vb. hakkında teşhis işaretleri hakkında bilgi gerektirir.

Otomatik kontrol sistemleri ve sağlık hizmetleri organizasyonu için uygulama olasılığı ve ben.

Burada amaç şube otomatik sistemleri (OSAU) oluşturmaktır. Bu tür sistemler, "sağlık hizmetleri" gibi önemli bir endüstri için yaratılmıştır. Sağlık hizmetlerinde OSAU'nun özellikleri, hem kontrol ünitesini hem de diğer unsurları içermesidir: önleme, tedavi (tanı ile), tıp bilimi, personel, malzeme desteği. OSAU "Zdravookhranenie"nin öncelikli görevleri, tıbbi faaliyetlerin ana alanlarında istatistiksel bilgilerin toplanması ve analizinin otomasyonunu ve bazı yönetim süreçlerinin optimizasyonunu içerir.

3. Bilgi entropisi kavramı.

Entropi (bilgi) - bilginin rastgeleliğinin bir ölçüsü, birincil alfabenin herhangi bir karakterinin görünümünün belirsizliği. Bilgi kaybının olmaması durumunda, iletilen mesajın sembolü başına bilgi miktarına sayısal olarak eşittir.

Örneğin, Rusça bir cümle oluşturan bir dizi karakter alalım. Her karakter farklı bir frekansta görünür, bu nedenle bazı karakterler için ortaya çıkma belirsizliği diğerlerinden daha fazladır. Bazı karakter kombinasyonlarının çok nadir olduğunu hesaba katarsak, belirsizlik daha da azalır.

Bilgi ve entropi kavramlarının birbirleriyle derin bağlantıları vardır, ancak buna rağmen, istatistiksel mekanik ve bilgi teorisindeki teorilerin gelişimi, bunların birbirine karşılık gelmesi uzun yıllar aldı.

Entropi kavramının tanıtılması, bir olasılık ölçüsünün kullanımına dayanmaktadır. çeşitli deneyimler. Bilgi entropi formülünü elde etmek için aşağıdaki hileyi kullanabilirsiniz. Her biri M durumundan birini alan bir dizi N olay (örneğin, N harfli bir metin) olsun (M ¾ alfabedeki harf sayısı). O zamanlar . Bu durumun ortaya çıkma olasılığı, yeterince uzun bir olaylar zinciri için, i=1, ¼ , M olarak bulunur. M-harfli alfabenin N harfinin farklı dizilimlerinin toplam sayısı . Resmi olarak, R dizilerinin her birinin görünümü eşit derecede olasıdır, bu nedenle, böyle bir olaylar zincirindeki bilgi miktarını belirlemek için, eşit olası sonuçlar için Hartley formülünü kullanırız (1). Bizim durumumuz için, tüm N ve tüm N i yeterince büyüktür, çünkü ancak o zaman tüm pi i olasılıklar olarak anlamlı olur. Bu nedenle Stirling dönüşümünü istatistiksel fizikte olduğu gibi uyguluyoruz. Yukarıdaki tüm öncülleri kullanarak ve (1) logaritmasını doğal bir tabana indirgeyerek Shannon formülünü elde ederiz. ¾ M olası durumların her biri için hesaplanan bilgi entropisi.

Gelecekte, entropi kavramı, çeşitli deneylerin belirsizliğini (ve dolayısıyla bilgi yükünü) hesaplama problemlerini çözmek için uygulanabilir. Alınan bilgi, deneyimin belirsizliğini tamamen ortadan kaldırıyorsa, miktarı bu deneyimin entropisine eşit kabul edilir. Bu nedenle, entropi kavramının kullanımı, çeşitli tahminlerin değerini belirlemeye hizmet edebilir. Ve daha da ilginç ve faydalı olan, gerçek bir kodun etkinliğini değerlendirmek için bir kriter oluşturmak ve ekonomik kodları geliştirmek için bir araç olarak entropi kavramının (pratik açıdan) kullanılmasıdır.

5. Temel bilgi süreçlerinin temel kavramları: bilginin depolanması, iletilmesi, işlenmesi.

Bilgi süreci - elde etme, yaratma, toplama süreci, işleme, tasarruf, depolamak, arama, bulaşma ve bilgi kullanımı.

Her neyse bilgi faaliyetleri insanlar dahil değildi, hepsi üç sürecin uygulanmasına bağlı: bilginin depolanması, iletilmesi ve işlenmesi. Bu süreçlere temel denir.

Depolamak

Bilginin depolanması, bilginin içeriği olarak anlaşılmalıdır. harici bellek bilgisayar.

Bilgi taşıyıcı, dahili bellek, harici bellek, bilgi depolama gibi kavramlar bilginin depolanması ile ilişkilidir. Bilginin taşıyıcısı fiziki çevre, doğrudan bilgi depolama. Bir kişi için ana bilgi taşıyıcısı kendi biyolojik hafızasıdır (insan beyni). Dahili bellek olarak adlandırılabilir. Diğer tüm bilgi taşıyıcı türleri harici olarak adlandırılabilir (bir kişiyle ilgili olarak).

Bilgi depolama, uzun süreli depolama ve kalıcı kullanım için tasarlanmış, harici ortamdaki verilerin belirli bir şekilde organize edilmiş toplanmasıdır. Depo örnekleri, belge arşivleri, kitaplıklar, dizinler, dosya dolaplarıdır. Deponun ana bilgi birimi belirli bir fiziksel belgedir - bir anket, bir kitap, bir dosya, bir dosya, bir rapor vb. Depolama organizasyonu, belirli bir yapının varlığı olarak anlaşılmaktadır, yani. düzen, saklanan belgelerin sınıflandırılması. Depoyu korumanın rahatlığı için böyle bir organizasyon gereklidir: yeni belgelerle doldurmak, gereksiz belgeleri silmek, bilgi aramak vb.

Bilgi depolamanın temel özellikleri, saklanan bilginin hacmi, depolamanın güvenilirliği, erişim süresi, bilgi korumasının mevcudiyetidir.

Bilgisayar bellek aygıtlarında depolanan bilgilere denir. veri. Bir bilgisayarın harici bellek aygıtlarındaki organize veri depolarına yaygın olarak veritabanları denir.

Modern bilgisayarlarda, harici bellek için ana depolama ortamı manyetik ve optik disklerdir.

Veri depolama birimleri. Verileri depolarken iki sorun çözülür: verilerin en kompakt biçimde nasıl saklanacağı ve buna nasıl rahat ve hızlı erişim sağlanacağı. Erişimi sağlamak için verilerin sıralı bir yapıya sahip olması gerekir ve bu nedenle adres verilerinin ek olarak kaydedilmesi gerekir. Onlar olmadan, yapıya dahil olan gerekli veri öğelerine erişmek mümkün değildir.

Adres verilerinin de bir boyutu olduğundan ve ayrıca depolamaya tabi olduğundan, verileri bayt gibi küçük birimlerde depolamak elverişsizdir. Bunları daha büyük birimlerde (kilobayt, megabayt, vb.) depolamak sakıncalıdır, çünkü bir depolama biriminin eksik doldurulması depolama verimsizliğine yol açar.

Bir nesne, veri depolama birimi olarak kabul edilir değişken uzunluk dosya denir. Bir dosya, kendine ait benzersiz bir ada sahip rastgele sayıda bayt dizisidir. Genellikle ayrı dosya aynı türdeki verileri depolayın. Bu durumda, veri türü dosya türünü belirler.

Yayın

Bilgi taşıma süreci, OSI modeli (Open System Intercongtion) olarak bilinen yedi seviyeli referans bir model çerçevesinde değerlendirilir. açık sistemler). Gerekli standardizasyon seviyesini sağlayan çeşitli seviyelerdeki protokollere çok dikkat edilir:

1. Alt katman (kanal ve fiziksel OSI katmanlarıörneğin NDIS, ODI)

2. Orta katman (oturum ve datagram protokolleri gibi ağ, aktarım ve oturum OSI katmanları)

3. Üst katman (sunu katmanı ve OSI uygulama katmanı)

    Fiziksel katman, fiziksel kontrolü uygular ve üzerinden bilginin iletildiği bir telefon devresi gibi fiziksel devreyi ifade eder. Bu seviyede, OSI modeli, iletişim devrelerinin fiziksel, elektriksel, işlevsel ve prosedürel özelliklerini ve ayrıca gereksinimleri tanımlar. ağ bağdaştırıcıları ve modemler.

    kanal seviyesi. Bu seviyede, ağ bağlantısı (kanal) kontrol edilir ve fiziksel bağlantı üzerinden bilgi blokları (bit seti) gönderilir. Bir bloğun başlangıcını ve sonunu belirleme, iletim hatalarını algılama, mesajları adresleme vb. gibi kontrol prosedürlerini gerçekleştirir.

    Ağ katmanı, fiziksel olarak var olması gerekmeyen sanal (hayali) bir devreyi ifade eder. Bu seviyedeki yazılım araçları, ağdaki paket iletim yolunun tanımını sağlar. Adres bilgilerinin analizine dayalı olarak en iyi rotanın aranmasını sağlayan yönlendiriciler, OSI modelinin köprü adı verilen ağ katmanında çalışır.

    taşıma katmanı. Üzerinde taşıma katmanı mesaj paketlerinin sırası ve sahiplikleri kontrol edilir. Böylece, bilgisayarlar arasındaki alışveriş sürecinde, telefon değiştirmeye benzer şekilde sanal bir bağlantı korunur.

    oturum seviyesi. Üzerinde verilen seviye bir oturum oluşturma, mesaj paketlerinin iletimini ve alımını yönetme ve bir oturumu sonlandırma süreçleri koordine edilir ve standartlaştırılır. Yazılım Bu seviye, eğer bu formatlar birbirinden farklıysa, gönderen bilgisayarın dahili formatından alıcı bilgisayarın dahili formatına veri dönüştürmeleri gerçekleştirir. Bu seviyedeki formatları dönüştürmeye ek olarak, iletilen veriler sıkıştırılır ve sıkıştırılır.

    Uygulama katmanı, kullanıcıya daha yüksek bir uygulama ve sistem düzeyinde destek sağlayan işlevleri ifade eder, örneğin: ortak erişim düzenleme. ağ kaynakları: bilgi, disk depolama, yazılım uygulamaları, harici cihazlar (yazıcılar, aktarıcılar vb.); Genel Müdürlük ağ (yapılandırma yönetimi, erişim kontrolü paylaşılan kaynaklar ağlar, arıza ve arızalardan sonra kurtarma, performans yönetimi); elektronik mesajların iletimi.

Tedavi

Bilginin işlenmesi altında, pratik kullanıma hazırlanmak için dönüşümü anlaşılmaktadır. Bazen bilgi işleme, belirli kurallara göre işletim verileri olarak tanımlanır.

Bilgi işleme sürecinde, ilk verilere dayanarak nihai bilgilerin elde edilmesini içeren bazı bilgi sorunları her zaman çözülür. Kaynak veriden sonuca geçiş süreci, bilginin işlenmesidir. İşlemi gerçekleştiren kuruluş, işlemin yürütücüsüdür. Sanatçı bir kişi olabilir veya bilgisayar da dahil olmak üzere özel bir teknik cihaz olabilir.

Tipik olarak, bilgi işleme amaçlı bir süreçtir. Bilgi işlemeyi başarılı bir şekilde gerçekleştirmek için, icracı işleme yöntemini bilmelidir, yani. İstenilen sonuca ulaşmak için izlenecek adımlar dizisi. Bilgisayar biliminde böyle bir eylem dizisinin açıklamasına genellikle işleme algoritması denir.

Genellikle iki tür bilgi işleme durumu vardır.

İlk tür, yeni bilgi içeriğinin elde edilmesiyle ilişkili işlemedir. Bu tür işleme, matematiksel problemlerin çözümünü içerir. İşleme yöntemi, yani sorunu çözme algoritması, sanatçı tarafından bilinen matematiksel formüllerle belirlenir. Bu tür bilgi işleme, çeşitli görevler mantıksal akıl yürütme uygulayarak.

İkinci tür, formu değiştirmeyle ilişkili ancak içeriği değiştirmeyen işlemedir. Bu tür bilgi işleme, örneğin metnin bir dilden diğerine çevirisini içerir. Biçim değişir, ancak içerik kalmalıdır. Bilgisayar bilimi için önemli bir işleme türü, kodlama. Kodlama, bilginin depolanması, iletilmesi, işlenmesi için uygun sembolik bir forma dönüştürülmesidir. Kodlama, bilgi ile çalışmanın teknik araçlarında (telgraf, radyo, bilgisayar) aktif olarak kullanılmaktadır.

Bilgi işleme, veri yapılandırmasını ifade eder. Yapılanma, bilgi deposunda belirli bir düzenin, belirli bir organizasyonun getirilmesi ile ilişkilidir. Yapılandırma örnekleri, verilerin alfabetik sıraya göre düzenlenmesi, bazı sınıflandırma kriterlerine göre gruplandırılması, tablo sunumunun kullanılmasıdır.

Bir diğer önemli bilgi işleme türü aramadır. Aramanın görevi, mevcut bilgi deposundaki belirli arama koşullarını karşılayan gerekli bilgileri seçmektir. Arama algoritması, bilgilerin düzenlenme biçimine bağlıdır. Bilgi yapılandırılmışsa, arama daha hızlıdır, optimal bir algoritma oluşturabilirsiniz.

Bu nedenle, bilgi işleme amacına bağlı olarak, sunum şekli veya içeriği değişebilir. Bilgi sunum biçimini değiştirme süreçleri, genellikle kodlama ve kod çözme süreçlerine indirgenir ve bilgi toplama ve iletme süreçleriyle aynı anda gerçekleşir. Bilginin içeriğini değiştirme süreci, sayısal hesaplamalar, düzenleme, sıralama, genelleme, sistemleştirme vb. gibi prosedürleri içerir. Bilgi dönüştürme kuralları kesinlikle resmileştirilirse ve bunların uygulanması için bir algoritma varsa, otomatik bilgi işleme için bir cihaz oluşturmak mümkündür.

Birçok konu alanının özelliği olan bilgi kaynaklarının heterojenliğinden bahsetmek gerekir. Bu sorunu çözmenin yollarından biri, nesne yönelimli yaklaşım, şu anda en yaygın olanı. Ana hükümlerini kısaca gözden geçirelim. Ayrıştırmaya Dayalı nesne yönelimli yaklaşımşu temel kavramların tahsisine dayanır: nesne, sınıf, örnek.

Bir obje aynı özelliklere ve davranış yasalarına sahip gerçek dünyadaki birçok nesnenin bir soyutlamasıdır. Bir nesne, böyle bir kümenin tipik bir belirsiz öğesini karakterize eder. Bir nesnenin ana özelliği, niteliklerinin (özelliklerinin) bileşimidir.

Öznitellikler- Bunlar, diğer nesnelerin özelliklerini tanımlamak için kurallar koyabileceğiniz özel nesnelerdir.

nesne örneği kümesinin belirli bir öğesidir. Örneğin, nesne, arabanın durum numarası ve bu nesnenin bir örneği olabilir - belirli bir sayı K 173 PA.

Sınıf- bu, ortak bir yapı ve davranışla birbirine bağlanan gerçek dünyanın bir dizi nesnesidir. sınıf öğesi bu kümenin belirli bir öğesidir. Örneğin, bir araba kayıt numarası sınıfı.

Bilgi sinyaller şeklinde iletilir. Sinyal, bilgi taşıyan fiziksel bir süreçtir. Sinyal ses, ışık, posta kalemi vb. şeklinde olabilir.

Sinyal türlerine (türlerine) göre, aşağıdakiler ayırt edilir:

analog

dijital

ayrık

Analog sinyal:

Analog sinyal doğaldır. ile sabitlenebilir Çeşitli türler sensörler. Örneğin, çevresel sensörler (basınç, nem) veya mekanik sensörler (hızlanma, hız)

Dijital sinyal:

Dijital sinyaller yapaydır, yani. sadece bir analog elektrik sinyalinin dönüştürülmesiyle elde edilebilirler.

Ayrık sinyal:

Ayrık bir sinyal hala aynı dönüştürülmüş analog sinyaldir, ancak mutlaka seviye nicemlemesi gerekmez.

Örnekleme- sürekli dönüşüm fonksiyonlar içinde ayrık.

Kullanılan hibrit bilgi işlem sistemleri ve darbe kodlu dijital cihazlar modülasyon veri iletim sistemlerinde sinyaller . Bir görüntüyü iletirken, sürekli bir görüntüyü dönüştürmek için kullanılır. analog sinyal ayrık veya ayrık-sürekli bir sinyale dönüştürülür.

7. Kodlama bilgisi. Alfabe. Kelime. Sözlük. İkili kodlama.

1. Bilgi kodlaması genellikle mesajları hemen kullanıma uygun bir biçimden iletim, depolama veya otomatik işleme için uygun bir biçime dönüştürmek için kullanılır.

Modern bilgi işlem teknolojisinin çalıştığı herhangi bir bilgi, sayılara dönüştürülür. İkili sistem hesaplaşma.

Gerçek şu ki, fiziksel cihazlar (kayıtlar, bellek hücreleri) 0 veya 1'e karşılık gelen iki durumda olabilir. fiziksel cihazlar, ikili sistemdeki hemen hemen her sayıyı bilgisayar belleğinde saklayabilirsiniz. Tamsayılar, kesirli ve negatif bir bilgisayarda kodlamanın yanı sıra semboller (harfler vb.) Her tür için kendi özellikleri vardır. Ancak, bilgisayarın belleğindeki herhangi bir bilginin (sayısal, metinsel, grafik, ses vb.) ikili sistemde (hemen hemen her zaman) sayılarla temsil edildiğini her zaman hatırlamalısınız. AT Genel anlamda bilgi kodlaması, birincil alfabedeki mesaj tarafından temsil edilen bilgilerin bir dizi koda çevrilmesi olarak tanımlanabilir.

Tipik olarak, mesajlar belirli bir karakter dizisi - işaretler kullanılarak iletilir ve kaydedilir.

Alfabe mesaj yorumlama dili - genellikle doğrudan numaralandırmalarıyla verilen, içinde yer alan sonlu bir karakter kümesi. Sonlu bir alfabetik karakter dizisine denir kelime alfabede. Bir kelimedeki karakter sayısı kelimenin uzunluğunu belirler. Farklı kabul edilebilir kelime formları kümesi kelime (sözlük) alfabe. Herhangi bir alfabenin sıralı bir formu vardır, karakterler kesin bir sırayla sırayla düzenlenir, böylece sözlükte tüm kelimelerin alfabetik olarak sıralanması sağlanır.

Kodlama karakterleri için kod uzunluğu olarak 8 bit veya 1 bayt seçilmiştir. Bu nedenle, metnin bir karakteri bir bayt belleğe karşılık gelir.

Kod uzunluğu 8 bit olan 0 ve 1'in 28 = 256 farklı kombinasyonu olabilir, bu nedenle bir kayıt tablosu kullanılarak 256'dan fazla karakter kodlanamaz. 2 bayt (16 bit) kod uzunluğu ile 65536 karakter kodlanabilir. Bir karakteri kodlamak için 1 bayta eşit miktarda bilgi kullanılır, yani. I \u003d 1 bayt \u003d 8 bit. Olası olay sayısı K ve bilgi miktarı I ile ilgili bir formül kullanılarak, kaç farklı karakterin kodlanabileceğini hesaplamak mümkündür K = 2I = 28 = 256, yani 256 karakter kapasiteli bir alfabe olabilir. metin bilgilerini temsil etmek için kullanılır.

Kodlamanın özü, her karaktere 00000000 ila 11111111 arasında bir ikili kod veya 0 ila 255 arasında karşılık gelen ondalık kod atanmasıdır. ikili kod farklı karakterlere atanır.

9. Bilgi miktarı. Bilgi miktarının ve özelliklerinin bir ölçüsü. Hartley formülü.

Bilgi miktarı – değerlendirilmekte olan sistemdeki çeşitlilik miktarını (bir dizi durum, alternatif vb.) yeterli şekilde karakterize eden bir sayı.

ölçü bilgisi - formül, bilgi miktarını değerlendirme kriteri.

Bilginin ölçüsü genellikle, olaylar kümesinde tanımlanan ve toplamsal olan, yani olayların (kümelerin) son birleşiminin ölçüsü, her olayın ölçülerinin toplamına eşit olan, negatif olmayan bir fonksiyon tarafından verilir. Bilgi miktarı, değerlendirilmekte olan sistemdeki çeşitlilik miktarını (bir dizi durum, alternatif vb.) yeterli şekilde karakterize eden bir sayıdır.

Bilgi miktarı

giriiş

2. Belirsizlik, bilgi miktarı ve entropi

3. Shannon formülü

4. Hartley formülü

5. İletişim sürecinde alınan bilgi miktarı

kullanılmış literatür listesi

giriiş

Tanım olarak, A.D. Ursula - "bilgi çeşitliliği yansıtır." Bilgi miktarı, çeşitliliğin nicel bir ölçüsüdür. Bu, belleğin toplam içeriğinin çeşitliliği olabilir; belirli bir mesaj sürecinde alınan sinyalin çeşitliliği; belirli bir durumun çeşitli sonuçları; bir sistemin öğelerinin çeşitliliği ... kelimenin en geniş anlamıyla çeşitliliğin bir değerlendirmesidir.

Bilginin kaynağı ve alıcısı arasındaki herhangi bir mesajın zaman içinde belirli bir süresi vardır, ancak mesajın bir sonucu olarak alıcı tarafından alınan bilgi miktarı, nihai olarak mesajın uzunluğu ile değil, üretilen sinyalin çeşitliliği ile karakterize edilir. bu mesajla alıcıda.

Bilgi taşıyıcının belleği, görüntüleri biriktirebildiği belirli bir fiziksel kapasiteye sahiptir ve bellekte biriken bilgi miktarı, nihai olarak bu kapasiteyi doldurmanın çeşitliliği ile karakterize edilir. Cansız doğadaki nesneler için bu onların tarihinin çeşitliliğidir; canlı organizmalar için bu onların deneyimlerinin çeşitliliğidir.

Bilgi aktarımında çeşitlilik esastır. Beyaz üzerine beyaz çizemezsiniz, bir durum yeterli değildir. Bir bellek hücresi yalnızca bir (ilk) durumda olabiliyorsa ve aşağıdaki durumlarda durumunu değiştiremiyorsa, dış etki yani bilgiyi algılayamıyor ve hatırlayamıyor. Böyle bir hücrenin bilgi kapasitesi 0'dır.

Minimum çeşitlilik, iki durumun varlığı ile sağlanır. Bir bellek hücresi, dış etkiye bağlı olarak, geleneksel olarak "0" ve "1" olarak adlandırılan iki durumdan birini alabiliyorsa, minimum bilgi kapasitesine sahiptir.

İki farklı durumda olabilen bir bellek hücresinin bilgi kapasitesi, bilgi miktarının ölçü birimi olarak alınır - 1 bit.

1 bit (bit - İngilizce için kısa. ikili basamak - ikili sayı) - bilgi kapasitesi ve bilgi miktarının bir ölçüm birimi ve ayrıca bir değer daha - daha sonra buluşacağımız bilgi entropisi. Bit, en koşulsuz ölçü birimlerinden biridir. Uzunluk ölçü birimi keyfi olarak ayarlanabilseydi: arşın, ayak, metre, o zaman bilgi ölçü birimi esasen başka bir şey olamazdı.

Fiziksel düzeyde bit, herhangi bir zamanda iki durumdan birinde olan bir bellek hücresidir: "0" veya "1".

Bir görüntünün her noktası yalnızca siyah veya beyaz olabilirse, böyle bir görüntüye bitmap denir, çünkü her nokta 1 bit kapasiteli bir bellek hücresidir. Açık veya kapalı olabilen bir ampul aynı zamanda bir ritmi sembolize eder. 1 bitlik bilgiyi gösteren klasik bir örnek - yazı tura atılması sonucu alınan bilgi miktarı - “tura” veya “tura”.

Bir evet/hayır sorusuna yanıt olarak 1 bitlik bilgi alınabilir. Başlangıçta ikiden fazla yanıt seçeneği varsa, belirli bir yanıtta alınan bilgi miktarı, ikiden az yanıt seçeneği varsa, yani 1 bitten fazla olacaktır. bir, o zaman bu bir soru değil, bir ifade, bu nedenle, belirsizlik olmadığından bilgi edinmek gerekli değildir.

Bilgi alabilen bir bellek hücresinin bilgi kapasitesi 1 bitten az olamaz, ancak alınan bilgi miktarı 1 bitten az olabilir. Bu, "evet" ve "hayır" yanıt seçeneklerinin eşit derecede olası olmadığı durumlarda gerçekleşir. Tekdüze olmama, örneğin, önceki yaşam deneyimine dayanarak, bu konuyla ilgili bazı ön (a priori) bilgilerin zaten mevcut olmasının bir sonucudur. Bu nedenle, önceki paragrafın tüm argümanlarında çok önemli bir uyarı dikkate alınmalıdır: bunlar sadece eş olasılıklı durum için geçerlidir.

Bilgi miktarını I sembolü ile göstereceğiz, olasılık P sembolü ile gösterilecektir. Tam bir olay grubunun toplam olasılığının 1 olduğunu hatırlayın.

2. Belirsizlik, bilgi miktarı ve entropi

Bilgi teorisinin kurucusu Claude Shannon, bilgiyi belirsizliğin ortadan kaldırılması olarak tanımlamıştır. Daha doğrusu, bilgi edinme - gerekli kondisyon belirsizliği ortadan kaldırmak için. Belirsizlik bir seçim durumunda ortaya çıkar. Belirsizliği ortadan kaldırma sürecinde çözülen görev, dikkate alınan seçeneklerin sayısını azaltmak (çeşitlilik azaltma) ve sonuç olarak duruma uygun olan seçenekler arasından olası seçenekler arasından seçim yapmaktır. Belirsizliğin ortadan kaldırılması, bilinçli kararlar verme ve harekete geçme fırsatı sağlar. Bu, bilginin kontrol edici rolüdür.

Maksimum belirsizlik durumu, eşit derecede olası birkaç alternatifin (seçenek), yani. seçeneklerin hiçbiri tercih edilmez. Ayrıca, daha eşit olası seçenekler gözlenirse, belirsizlik ne kadar büyükse, kesin bir seçim yapmak o kadar zor olur ve bunu elde etmek için daha fazla bilgi gerekir. N varyantları için bu durum aşağıdaki olasılık dağılımı ile tanımlanır: (1/N, 1/N, … 1/N).

Minimum belirsizlik 0'dır, yani. bu durum tam bir kesinlik, yani seçim yapılmış ve gerekli tüm bilgiler elde edilmiştir. Tam bir kesinlik durumu için olasılık dağılımı şöyle görünür: (1, 0, …0).

Bilgi teorisindeki belirsizlik miktarını karakterize eden nicelik, H sembolü ile gösterilir ve entropi, daha doğrusu bilgi entropisi olarak adlandırılır.

Entropi (H), bit cinsinden ifade edilen belirsizliğin bir ölçüsüdür. Entropi, rastgele bir değişkenin dağılımının tekdüzeliğinin bir ölçüsü olarak da düşünülebilir.

Pirinç. 1. Entropinin davranışı

iki alternatif için.

Şekil 1., olasılık oranlarındaki bir değişiklikle (p, (1-p)) iki alternatifin durumu için entropinin davranışını göstermektedir.

Her iki olasılığın da birbirine eşit ve eşit olduğu bu durumda entropi maksimum değerine ulaşır, sıfır entropi değeri (p0=0, p1=1) ve (p0=1, p1=0) durumlarına karşılık gelir.

Pirinç. 2. Entropi ve bilgi miktarı arasındaki ilişki.

Bilgi miktarı I ve entropi H aynı durumu karakterize eder, ancak niteliksel olarak zıt yönlerden. I, H belirsizliğini ortadan kaldırmak için gereken bilgi miktarıdır. Leon Brillouin'in tanımına göre bilgi, negatif bir entropidir (negentropi).

Belirsizlik tamamen ortadan kaldırıldığında, alınan bilgi miktarı I, başlangıçta var olan belirsizliğe H eşittir.

Belirsizliğin kısmen ortadan kaldırılmasıyla, alınan bilgi miktarı ve kalan çözülmemiş belirsizlik, başlangıçtaki belirsizliğe eklenir. Ht + O = H.

Bu nedenle aşağıda entropi H'yi hesaplamak için sunulacak formüller aynı zamanda I bilgi miktarını hesaplamak için formüllerdir, yani. belirsizliğin tamamen ortadan kaldırılması söz konusu olduğunda, içlerindeki H, I ile değiştirilebilir.

3. Shannon'ın formülü

Genel durumda, entropi H ve belirsizliğin ortadan kaldırılması sonucunda elde ettiğim bilgi miktarı, ilk düşünülen N seçeneklerinin sayısına ve bunların her birinin uygulanması için a priori olasılıklara bağlıdır P: (p0, p1, …pN-1), yani. H=F(N,P). Bu durumda entropinin hesaplanması, 1948'de "Matematiksel İletişim Teorisi" makalesinde önerdiği Shannon formülüne göre gerçekleştirilir.

Belirli bir durumda, tüm varyantlar eşit derecede olası olduğunda, bağımlılık yalnızca dikkate alınan varyantların sayısına bağlı kalır, yani. H=F(N). Bu durumda, Shannon formülü büyük ölçüde basitleştirilmiştir ve ilk olarak 1928'de Amerikalı mühendis Ralph Hartley tarafından önerilen Hartley formülü ile örtüşmektedir, yani. 20 yıl önce.

Shannon'ın formülü aşağıdaki forma sahiptir:

Pirinç. 3. b'nin a tabanına göre logaritmasını bulmak, b'yi elde etmek için a'yı yükseltmeniz gereken gücü bulmaktır.

Logaritmanın ne olduğunu hatırlayın.

Taban 2 logaritmasına ikili denir:

log2(8)=3 => 23=8

log2(10)=3.32 => 23.32=10

10 tabanlı logaritma ondalık sayı olarak adlandırılır:

log10(100)=2 => 102=100

Logaritmanın ana özellikleri:

1. log(1)=0 çünkü sıfır kuvvetine herhangi bir sayı 1 verir;

2. log(ab)=b*log(a);

3. log(a*b)=log(a)+log(b);

4. log(a/b)=log(a)-log(b);

5. log(1/b)=0-log(b)=-log(b).

Formül (1)'deki eksi işareti, entropinin negatif olduğu anlamına gelmez. Bu, tanım gereği pi1'in ve birden küçük bir sayının logaritmasının negatif bir değer olmasıyla açıklanır. Bu nedenle, logaritmanın özelliği ile, bu formül, toplam işaretinin önünde eksi olmadan ikinci versiyonda da yazılabilir.

i-th seçeneğinin uygulanması durumunda elde edilen özel bir bilgi miktarı olarak yorumlanır. Shannon formülündeki entropi, ortalama bir özelliktir - rastgele bir değişkenin (I0, I1, ... IN-1) dağılımının matematiksel beklentisi.

Shannon formülünü kullanan bir entropi hesaplama örneği. Bazı kurumlarda çalışanların bileşiminin aşağıdaki gibi dağıtıldığını varsayalım: - kadın, ? - erkekler. Daha sonra, örneğin kuruma girerken ilk kiminle karşılaşacağınız konusundaki belirsizlik, tablo 1'de gösterilen bir dizi eylemle hesaplanacaktır.

Tablo 1.

Ii=log2(1/pi), bit

pi*log2(1/pi), bit

Ancak kurumda eşit sayıda kadın ve erkek olduğu önceden biliniyorsa (eşit olasılıklı iki seçenek), aynı formülü kullanarak hesaplarken 1 bitlik bir belirsizlik elde etmeliyiz. Bu varsayım Tablo 2'de doğrulanmıştır.

Tablo 2.

Ii=log2(1/pi), bit

pi*log2(1/pi), bit

4. Hartley formülü

Hartley'in formülü, Shannon'ın denk olası alternatifler için formülünün özel bir halidir.

Formül (1)'de pi yerine (eş olasılıklı durumda, i'den bağımsız) değeri yerine koyarak, şunu elde ederiz:

bu nedenle, Hartley'in formülü çok basit görünüyor:

Buradan, alternatiflerin sayısı (N) ne kadar fazlaysa, belirsizliğin (H) o kadar büyük olduğu açıkça görülmektedir. Bu miktarlar formül (2)'de doğrusal olarak değil, ikili bir logaritma ile ilişkilidir. Logaritma taban 2'ye ve seçenek sayısını bilgi birimlerine - bitlere getirir.

Entropi, yalnızca N'nin 2'nin gücü olması durumunda bir tam sayı olacaktır, yani. N serisine aitse: (1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024, 2048…)

Pirinç. 3. Entropinin, denk olası seçeneklerin sayısına bağımlılığı (eşdeğer alternatifler).

Ters problemleri çözmek için, belirsizliğin (H) veya kaldırılmasının bir sonucu olarak elde edilen bilgi miktarı (I) bilindiğinde ve bu belirsizliğin oluşumuna eşit derecede olası kaç alternatifin karşılık geldiğinin belirlenmesi gerektiğinde, ters Hartley logaritmanın tanımına göre türetilen ve daha da basit görünen formül kullanılır:

Örneğin ilgimizi çeken Kolya İvanov'un ikinci katta oturduğunun tespit edilmesi sonucunda 3 bit bilgi alındığı biliniyorsa, o halde evin kat sayısı formülle belirlenebilir. (3), N=23=8 kat olarak.

Soru şu şekilde ise: “Evde 8 kat var, ilgimizi çeken Kolya İvanov'un ikinci katta oturduğunu öğrendiğimizde ne kadar bilgi aldık?” formülünü kullanmanız gerekiyor. (2): I=log2(8)=3 bit.

5. İletişim sürecinde alınan bilgi miktarı

Şimdiye kadar, entropi (belirsizlik) H'yi hesaplamak için formüller verildi, bu formüllerdeki H'nin I ile değiştirilebileceğini gösterir, çünkü belirli bir durumun belirsizliği tamamen ortadan kaldırıldığında elde edilen bilgi miktarı nicel olarak ilk entropiye eşittir. bu durumun.

Ancak belirsizlik ancak kısmen ortadan kaldırılabilir, bu nedenle bazı mesajlardan aldığım bilgi miktarı, bu mesajın alınması sonucunda oluşan entropi azalması olarak hesaplanır.

Eşit olasılıklı durum için, entropiyi hesaplamak için Hartley formülünü kullanarak şunları elde ederiz:

İkinci eşitlik, logaritmanın özelliklerine göre türetilir. Bu nedenle, eşit olasılıklı durumda, dikkate alınan seçeneklerin (çeşitlilik olarak kabul edilen) sayısının kaç kez değiştiğine bağlıyım.

(5)'e dayanarak, aşağıdakileri çıkarabiliriz:

O zaman - belirsizliğin tamamen ortadan kaldırılması durumunda, mesajda alınan bilgi miktarı, mesaj alınmadan önce var olan belirsizliğe eşittir.

Eğer öyleyse - belirsizlik değişmedi, bu nedenle hiçbir bilgi alınmadı.

Eğer, o zaman => , if, => . Şunlar. alınan bilgi miktarı, mesajın alınması sonucunda dikkate alınan alternatif sayısı azalmışsa pozitif, artmışsa negatif olacaktır.

Mesajın alınması sonucunda dikkate alınan alternatiflerin sayısı yarıya inerse, yani. , sonra I=log2(2)=1 bit. Başka bir deyişle, 1 bit bilgi almak, eşdeğer seçeneklerin yarısını değerlendirme dışı bırakır.

Örnek olarak 36 kartlık bir deste ile bir deney düşünün.

Pirinç. 4. 36 kartlık bir deste ile bir deney için çizim.

Biri desteden bir kart alsın. 36 karttan hangisini çıkardığıyla ilgileniyoruz. Formül (2) ile hesaplanan ilk belirsizlik H=log2(36)5.17 bittir. Kartı çeken kişi bize bazı bilgileri anlatıyor. Formül (5)'i kullanarak, bu mesajlardan ne kadar bilgi aldığımızı belirleriz:

Seçenek A. "Bu bir kırmızı karttır."

I=log2(36/18)=log2(2)=1 bit (destede yarım kırmızı kart var, belirsizlik 2 kat azaldı).

Seçenek B. "Bu bir maça kartı."

I=log2(36/9)=log2(4)=2 bit (maça kartları destenin dörtte birini oluşturuyor, belirsizlik 4 kat azaldı).

Seçenek C. "Bu en yüksek kartlardan biridir: vale, kraliçe, kral veya as."

I=log2(36)-log2(16)=5.17-4=1.17 bit (belirsizlik iki kattan fazla azaldı, dolayısıyla alınan bilgi miktarı bir bitten fazla).

D Seçeneği. "Bu, desteden bir kart."

I=log2(36/36)=log2(1)=0 bit (belirsizlik azalmadı - mesaj bilgilendirici değil).

D Seçeneği. "Bu Maça Kızı."

I=log2(36/1)=log2(36)=5.17 bit (belirsizlik tamamen ortadan kalkar).

Entropi (bilgi teorisi)

Entropi (bilgi amaçlı)- bilginin rastgeleliğinin bir ölçüsü, birincil alfabenin herhangi bir karakterinin görünümünün belirsizliği. Bilgi kaybının olmaması durumunda, iletilen mesajın sembolü başına bilgi miktarına sayısal olarak eşittir.

Örneğin, Rusça'da bir cümle oluşturan bir harf dizisinde, farklı harfler farklı frekanslarda görünür, bu nedenle bazı harfler için oluşum belirsizliği diğerlerinden daha azdır. Bazı harf kombinasyonlarını hesaba katarsak (bu durumda entropiden bahsediyoruz) n sıra, bkz. ) çok nadirdir, daha sonra belirsizlik daha da azalır.

Bilgisel entropi kavramını açıklamak için, Maxwell'in iblisi olarak adlandırılan termodinamik entropi alanından bir örneğe de başvurulabilir. Bilgi ve entropi kavramlarının birbirleriyle derin bağlantıları vardır, ancak buna rağmen, istatistiksel mekanik ve bilgi teorisindeki teorilerin gelişimi, bunların birbirine karşılık gelmesi uzun yıllar aldı.

Resmi tanımlar

Kendi bilgilerini kullanarak tanımlama

Rastgele bir değişkenin entropisini, önce rastgele bir değişkenin dağılımı kavramlarını tanıtarak belirlemek de mümkündür. X sonlu sayıda değere sahip olan:

ben(X) = -log P X (X).

O zaman entropi şu şekilde tanımlanacaktır:

Bilgi ve entropinin ölçü birimi logaritmanın tabanına bağlıdır: bit, nat veya hartley.

bilgi entropisi bağımsız rastgele olaylar için xİle birlikte n olası durumlar (1'den n) şu formülle hesaplanır:

Bu değere de denir ortalama mesaj entropisi. Değer denir özel entropi sadece karakterize eden i-arazi.

Böylece olayın entropisi x olayın göreceli sıklıklarının tüm ürünlerinin zıt işaretli toplamıdır. i kendi ikili logaritmalarıyla çarpılır (temel 2, yalnızca ikili biçimde sunulan bilgilerle çalışmanın rahatlığı için seçilir). Ayrık rastgele olaylar için bu tanım, bir olasılık dağılım fonksiyonuna genişletilebilir.

Genel olarak b-ary entropi(nerede b eşittir 2, 3, …) başlangıç ​​alfabesi ve ayrık olasılık dağılımı olan kaynaklar p i olasılık a i (p i = p(a i) ) aşağıdaki formülle belirlenir:

Shannon'ın entropisinin tanımı, termodinamik entropi kavramıyla ilgilidir. Boltzmann ve Gibbs yaptı iyi iş"entropi" kelimesinin benimsenmesine katkıda bulunan istatistiksel termodinamikte bilgi teorisi. Termodinamik ve bilgisel entropi arasında bir bağlantı vardır. Örneğin, Maxwell'in iblisi ayrıca termodinamik bilgi entropisini de karşılaştırır ve herhangi bir miktarda bilgi kazanmak, kayıp entropiye eşittir.

alternatif tanım

Entropi işlevini tanımlamanın başka bir yolu H bunun kanıtı H benzersiz bir şekilde belirlenir (daha önce belirtildiği gibi) ancak ve ancak H koşulları karşılar:

Özellikleri

Entropinin, bir veri kaynağı için olasılıklı bir model bağlamında tanımlanan bir miktar olduğunu hatırlamak önemlidir. Örneğin, bir yazı tura entropisi −2(0.5log 2 0.5) = atış başına 1 bit (bağımsız olduğu varsayılarak). Yalnızca "A" harflerinden oluşan bir dize oluşturan bir kaynak sıfır entropiye sahiptir: . Böylece, örneğin, entropinin deneysel olarak belirlenebilir. İngilizce metin karakter başına 1,5 bittir, bu elbette çeşitli metinler. Bir veri kaynağının entropi derecesi, optimal kodlama ile bilgi kaybı olmaksızın şifrelemek için veri elemanı başına gerekli ortalama bit sayısı anlamına gelir.

  1. Bazı veri bitleri bilgi taşımayabilir. Örneğin, veri yapıları genellikle gereksiz bilgileri depolar veya veri yapısındaki bilgilerden bağımsız olarak aynı bölümlere sahiptir.
  2. Entropi miktarı her zaman bir tam sayı bit sayısı olarak ifade edilmez.

matematiksel özellikler

Yeterlik

Pratikte karşılaşılan ilk alfabe optimal olmaktan uzak bir olasılık dağılımına sahiptir. Orijinal alfabe olsaydı n karakterler, daha sonra olasılık dağılımı tekdüze olan bir "optimize edilmiş alfabe" ile karşılaştırılabilir. Orijinal ve optimize edilmiş alfabenin entropisinin oranı, yüzde olarak ifade edilebilecek orijinal alfabenin verimliliğidir.

Bundan, orijinal alfabenin verimliliğinin n semboller basitçe ona eşit olarak tanımlanabilir n-ary entropi.

Entropi, teorik olarak tipik bir küme veya pratikte Huffman kodlaması, Lempel-Ziv-Welch kodlaması veya aritmetik kodlama kullanılarak gerçekleştirilebilen maksimum olası kayıpsız (veya neredeyse kayıpsız) sıkıştırmayı sınırlar.

Varyasyonlar ve Genellemeler

koşullu entropi

Alfabetik karakterlerin sırası bağımsız değilse (örneğin, Fransızca'da “q” harfini neredeyse her zaman “u” izler ve Sovyet gazetelerinde “lider” kelimesinden sonra “üretim” veya “emek” kelimesi gelir. genellikle takip edildi), bu tür sembollerin (ve dolayısıyla entropinin) dizisini taşıyan bilgi miktarı açıkça daha küçüktür. Bu tür gerçekleri açıklamak için koşullu entropi kullanılır.

Birinci mertebeden koşullu entropi (birinci mertebeden Markov modeline benzer), bir harfin birbiri ardına ortaya çıkma olasılıklarının (yani, iki harfli kombinasyonların olasılıklarının) bilindiği alfabenin entropisidir. :

nerede i durum önceki karaktere bağlıdır ve p i (j) olasılık j, şu şartla iönceki karakterdi.

Yani, "" harfi olmayan Rus dili için.

Kısmi ve genel koşullu entropiler, gürültülü bir kanalda veri iletimi sırasındaki bilgi kaybını tamamen tanımlar. Bunun için sözde kanal matrisleri. Bu nedenle, kaynaktaki kayıpları tanımlamak için (yani, gönderilen sinyal biliniyor), alıcı tarafından bir sembol almanın koşullu olasılığını düşünün. b j bir karakterin gönderildiğini varsayarsak a i. Bu durumda, kanal matrisi aşağıdaki forma sahiptir:

b 1 b 2 b j b m
a 1
a 2
a i
a m

Açıkçası, çapraz olasılıklar olasılığı tanımlar doğru alım, ve sütunun tüm öğelerinin toplamı, alıcının yanında karşılık gelen sembolün görünme olasılığını verecektir - p(b j) . Atfedilebilir kayıplar iletilen sinyal a i, kısmi koşullu entropi açısından tanımlanır:

Tüm sinyallerin iletim kaybını hesaplamak için toplam koşullu entropi kullanılır:

Kaynak taraftaki entropi anlamına gelir, benzer şekilde kabul edilir - alıcı taraftaki entropi: bunun yerine her yerde gösterilir (dizenin öğelerini özetleyerek, p(a i) , ve köşegenin öğeleri, alınan karakterin tam olarak gönderilme olasılığı, yani doğru bir aktarım olasılığı anlamına gelir).

karşılıklı entropi

Karşılıklı entropi veya birlik entropisi, birbirine bağlı sistemlerin entropisini (istatistiksel olarak bağımlı mesajların ortak görünümünün entropisini) hesaplamak için tasarlanmıştır ve gösterilir H(AB) , nerede A, her zaman olduğu gibi, vericiyi karakterize eder ve B- alıcı.

İletilen ve alınan sinyaller arasındaki ilişki, ortak olayların olasılıkları ile tanımlanır. p(a i b j) , ve için tam tanım kanal özellikleri yalnızca bir matris gerektirir:

p(a 1 b 1) p(a 1 b 2) p(a 1 b j) p(a 1 b m)
p(a 2 b 1) p(a 2 b 2) p(a 2 b j) p(a 2 b m)
p(a i b 1) p(a i b 2) p(a i b j) p(a i b m)
p(a m b 1) p(a m b 2) p(a m b j) p(a m b m)

Daha fazlası için Genel dava, bir kanal değil, sadece etkileşimli sistemler tanımlandığında, matrisin kare olması gerekmez. Açıkçası, sütunun tüm öğelerinin sayı ile toplamı j verecek p(b j) , sayı ile doğrunun toplamı i var p(a i) , ve matrisin tüm elemanlarının toplamı 1'dir. Bileşik olasılık p(a i b j) Etkinlikler a i ve b j orijinal ve koşullu olasılığın ürünü olarak hesaplanır,

Koşullu olasılıklar Bayes formülü ile üretilir. Böylece, kaynak ve alıcı entropilerini hesaplamak için tüm veriler mevcuttur:

Karşılıklı entropi, logaritmaları ile çarpılan tüm matris olasılıklarının ardışık satır (veya sütun) toplamı ile hesaplanır:

H(AB) = − p(a i b j)kayıt p(a i b j).
i j

Ölçüm birimi bit/iki karakterdir, bu karşılıklı entropinin gönderilen ve alınan bir çift karakterin belirsizliğini tanımlamasıyla açıklanır. Basit dönüşümlerle de elde ederiz

Karşılıklı entropinin özelliği vardır bilgi eksiksizliği- ondan, dikkate alınan tüm miktarları alabilirsiniz.

Hikaye

Notlar

Ayrıca bakınız

Bağlantılar

  • Claude E Shannon Matematiksel Bir İletişim Kuramı
  • S.M. Korotaev.