Entropia správ. Informačná entropia. Shannonov vzorec

  • 21.07.2019

1) Systematický prístup k štúdiu medicíny. Systémová koncepcia. Vlastnosti systému. Príklady medicínskych systémov.

Systematický prístup, smerovanie metodológie špeciálneho vedeckého poznania a spoločenskej praxe, ktorá je založená na štúdiu objektov ako systémov.

systém- súbor prvkov, ktoré sú medzi sebou vo vzťahoch a súvislostiach, čo tvorí určitú celistvosť, jednotu.

vlastnosti spoločné pre všetky systémy:

    bezúhonnosť- systém je abstraktná entita, ktorá má integritu a je definovaná v rámci svojich hraníc. Integrita systému znamená, že v určitom podstatnom aspekte „sila“ alebo „hodnota“ spojení prvkov v rámci systému vyššia ako sila alebo hodnota spojení prvkov systému s prvkami vonkajšie systémy alebo streda.

    Spolupráca, vznik, holizmus, systémový účinok- vzhľad v systéme vlastností, ktoré nie sú vlastné prvkom systému; zásadná neredukovateľnosť vlastností systému na súčet vlastností jeho zložiek. Schopnosti systému presahujú súčet schopností jeho jednotlivých častí; celkový výkon alebo funkčnosť systému je lepšia ako jednoduchý súčet prvkov.

    Hierarchia- každý prvok systému možno považovať za systém; samotný systém možno považovať aj za prvok nejakého supersystému (supersystému).

Expertné systémy – logický popis štruktúry a obsahu medicínskych poznatkov pomocou systému produkčných pravidiel (pravidlá logického vyvodzovania).

Poradenstvo v špecifickej oblasti na úrovni vedomostí, ktoré presahujú úroveň používateľa; - využívanie počítačových technológií „umelá inteligencia“; - tvorba vedomostnej bázy vo forme systémov heuristických pravidiel; - vysvetlenie odôvodnenia v procese získavania rozhodnutia.

Lekárske informačné systémy (MIS). Podľa účelu sa tieto systémy delia do troch skupín: 1) systémy, ktorých hlavnou funkciou je zhromažďovanie údajov a informácií

2) diagnostické a poradenské systémy

3) systémy, ktoré poskytujú lekársku starostlivosť

Lekársky informačný systém (MIS) - súbor informačných, organizačných, softvérových a hardvérových nástrojov určených na automatizáciu medicínskych procesov a (alebo) organizácií

Úlohy medicínskych informačných systémov

      Zber dát

      Registrácia a dokumentácia údajov

      Zabezpečenie výmeny informácií

      Sledovanie priebehu ochorenia (dozor lekára)

      Sledovanie implementácie technológie liečebného a diagnostického procesu (technologická kontrola)

      Ukladanie a získavanie informácií (archivácia)

      Analýza dát

      Podpora rozhodovania

      Školenie

2. Zdravotnícky systém ako riadiaci systém. Princíp spätnej väzby v riadiacich systémoch. Miesto metód a prostriedkov informatiky v systéme medicínskeho manažmentu.

Teória riadenia- náuka o princípoch a metódach riadenia rôznych systémov, procesov a objektov. Základom teórie riadenia je kybernetika (veda o všeobecných zákonitostiach procesov riadenia a prenosu informácií v rôznych systémoch, či už ide o stroje, živé organizmy alebo spoločnosť) a teória informácie.

Proces riadenia možno rozdeliť do niekoľkých etáp:

1. Zber a spracovanie informácií.

2. Analýza, systematizácia, syntéza.

3. Stanovenie cieľov na tomto základe. Výber metódy riadenia, prognóza.

4. Implementácia zvolenej metódy riadenia.

5. Hodnotenie efektívnosti zvoleného spôsobu riadenia (spätná väzba).

Konečným cieľom teórie riadenia je univerzalizácia, čo znamená konzistentnosť, optimalizáciu a čo najefektívnejšie fungovanie systémov.

Metódy riadenia, o ktorých uvažuje teória riadenia technických systémov a iných objektov, sú založené na troch základných princípoch:

1. Princíp riadenia s otvorenou slučkou (softvér),

2. Princíp kompenzácie (kontrola rušenia)

3. Princíp spätnej väzby.

Manažment možno rozdeliť do dvoch typov:

spontánny: vplyv nastáva ako výsledok interakcie subjektov (synergický manažment);

pri vedomí: plánovaný vplyv objektu (hierarchické riadenie).

V hierarchickom riadení je cieľ fungovania systému stanovený jeho supersystémom.

Lekárska kybernetika je vedecký smer spojený s využívaním myšlienok, metód a technických prostriedkov kybernetiky v medicíne a zdravotníctve.

Bežne môže byť lekárska kybernetika reprezentovaná nasledujúcimi skupinami:

Počítačová diagnostika chorôb

Táto časť je spojená s využitím výpočtovej techniky pri spracovaní informácií z biologického objektu za účelom stanovenia diagnózy. Prvým krokom je vyvinúť metódy na formálny popis zdravotného stavu pacienta, vykonať dôkladnú analýzu na objasnenie klinických parametrov a príznakov používaných pri diagnostike. Tu majú prvoradý význam tie charakteristiky, ktoré nesú kvantitatívne odhady. Výpočtová diagnostika vyžaduje okrem kvantifikácie fyziologických, biochemických a iných charakteristík pacienta aj informácie o frekvencii klinických syndrómov (z apriórnych údajov) a diagnostických znakoch o ich klasifikácii, hodnotení účinnosti diagnostiky atď.

Automatizované riadiace systémy a možnosti ich aplikácie pre organizáciu zdravotnej starostlivosti a ja

Tu je cieľom vytvoriť odvetvovo špecifické automatizované systémy (OSAU). Takéto systémy sú vytvorené pre taký dôležitý priemysel, akým je „zdravotníctvo“. Charakteristickým rysom OSAU v zdravotníctve je, že by mala obsahovať tak riadiacu jednotku, ako aj ďalšie prvky: prevenciu, liečbu (s diagnostikou), lekársku vedu, personál, materiálne zabezpečenie. Medzi primárne úlohy OSAU Healthcare patrí automatizácia zberu a analýzy štatistických informácií o hlavných oblastiach medicínskej činnosti a optimalizácia niektorých riadiacich procesov.

3. Pojem informačná entropia.

Entropia (informačná) je mierou náhodnosti informácie, neistoty vzhľadu akéhokoľvek symbolu primárnej abecedy. Pri absencii strát informácií sa číselne rovná množstvu informácií na symbol prenášanej správy.

Vezmime si teda napríklad postupnosť znakov, ktoré tvoria akúkoľvek vetu v ruštine. Každý symbol sa objavuje s inou frekvenciou, preto je neistota vzhľadu pre niektoré symboly väčšia ako pre iné. Ak vezmeme do úvahy, že niektoré kombinácie symbolov sú veľmi zriedkavé, potom sa neistota ešte zníži.

Pojmy informácie a entropia majú medzi sebou hlboké prepojenie, no napriek tomu vývoj teórií v štatistickej mechanike a teórii informácie trval mnoho rokov, kým boli navzájom konzistentné.

Zavedenie pojmu entropia je založené na použití pravdepodobnostnej miery rôznych experimentov. Na získanie vzorca pre informačnú entropiu môžete použiť nasledujúcu techniku. Nech existuje postupnosť N udalostí (napríklad text s N písmenami), z ktorých každý má jeden z M stavov (M je počet písmen v abecede). Potom . Pravdepodobnosť prejavu tohto stavu pre dostatočne dlhý reťazec udalostí nájdeme ako, i = 1, ¼, M. Celkový počet rôznych sekvencií N písmen abecedy M ... Formálne je výskyt každej z R sekvencií ekvipravdepodobný, preto na určenie množstva informácií v takomto reťazci udalostí používame Hartleyho vzorec pre ekvipravdepodobné výsledky (1). Pre náš prípad sú všetky N a všetky N i dostatočne veľké, keďže len vtedy majú všetky p i ako pravdepodobnosti zmysel. Preto aplikujeme Stirlingovu transformáciu rovnakým spôsobom, ako sa to robí v štatistickej fyzike. Použitím všetkých vyššie uvedených premis a znížením logaritmu (1) na prirodzenú bázu získame Shannonov vzorec ¾ informačná entropia na každý z M možných stavov.

V budúcnosti môže byť koncept entropie použitý na riešenie problémov výpočtu neistoty (a tým aj informačnej záťaže) rôznych experimentov. Ak získaná informácia úplne odstráni neistotu experimentu, potom sa jej množstvo považuje za rovné entropii daného experimentu. Preto môže použitie pojmu entropia slúžiť na určenie hodnoty rôznych predpovedí. A ešte zaujímavejšie a užitočnejšie je použiť koncept entropie (z praktického hľadiska) na stanovenie kritéria na hodnotenie efektívnosti reálneho kódu a ako nástroj na vývoj štíhlych kódov.

5. Základné pojmy základných informačných procesov: uchovávanie, prenos informácií, spracovanie.

Informačný proces - proces získavania, vytvárania, zhromažďovania, spracovanie, akumulácia, skladovanie, Vyhľadávanie, prenos a používanie informácií.

Bez ohľadu na informačnú činnosť, do ktorej sa ľudia zapájajú, všetko závisí od implementácie troch procesov: ukladanie, prenos a spracovanie informácií. Tieto procesy sa nazývajú základné.

Skladovanie

Ukladanie informácií treba chápať ako obsah informácie vo vonkajšej pamäti počítača.

Ukladanie informácií je spojené s pojmami ako pamäťové médium, interná pamäť, externá pamäť, ukladanie informácií. Pamäťové médium je fyzické médium, ktoré priamo uchováva informácie. Hlavným nositeľom informácií pre človeka je jeho vlastná biologická pamäť (ľudský mozog). Dá sa to nazvať interná pamäť. Všetky ostatné typy nosičov informácií možno nazvať externými (vo vzťahu k osobe).

Informačný sklad je súbor údajov organizovaný určitým spôsobom na externých médiách určený na dlhodobé uchovávanie a trvalé používanie. Príkladmi úložísk sú archívy dokumentov, knižnice, referenčné knihy, kartotéky. Hlavnou informačnou jednotkou úložiska je určitý fyzický dokument – ​​dotazník, kniha, prípad, dokumentácia, správa atď. poriadok, triedenie uložených dokumentov. Takáto organizácia je potrebná pre pohodlie údržby úložiska: doplnenie novými dokumentmi, vymazanie nepotrebných dokumentov, vyhľadávanie informácií atď.

Hlavnými vlastnosťami úložiska informácií sú množstvo uložených informácií, spoľahlivosť úložiska, čas prístupu a dostupnosť ochrany informácií.

Informácie uložené na pamäťových zariadeniach počítača sa zvyčajne nazývajú údajov... Organizované dátové úložiská na externých pamäťových zariadeniach počítača sa zvyčajne nazývajú databázy.

V moderných počítačoch sú hlavným pamäťovým médiom pre externú pamäť magnetické a optické disky.

Jednotky na ukladanie údajov. Pri ukladaní údajov sa riešia dva problémy: ako uchovávať údaje v čo najkompaktnejšej forme a ako k nim poskytnúť pohodlný a rýchly prístup. Pre poskytnutie prístupu je potrebné, aby údaje mali usporiadanú štruktúru a v tomto prípade je potrebné dodatočne evidovať údaje o adrese. Bez nich nie je možné získať prístup k požadovaným dátovým prvkom zahrnutým v štruktúre.

Keďže údaje o adrese sú tiež veľké a musia sa tiež uchovávať, je nepohodlné ukladať údaje v malých jednotkách, ako sú bajty. Je nepohodlné ich ukladať vo väčších jednotkách (kilobajty, megabajty atď.), pretože neúplné zaplnenie jednej pamäťovej jednotky vedie k neefektívnosti ukladania.

Jednotkou ukladania údajov je objekt s premenlivou dĺžkou nazývaný súbor. Súbor je sekvencia ľubovoľného počtu bajtov s jedinečným vlastným názvom. Údaje patriace do rovnakého typu sú zvyčajne uložené v samostatnom súbore. V tomto prípade typ údajov určuje typ súboru.

Vysielanie

Proces prenosu informácií sa uvažuje v rámci sedemvrstvového referenčného modelu známeho ako model OSI (Open System Intercongtion). Veľká pozornosť sa venuje protokolom rôznych úrovní, ktoré poskytujú potrebnú úroveň štandardizácie:

1. Spodná vrstva (kanálové a fyzické vrstvy OSI, napríklad NDIS, ODI)

2. Stredná vrstva (sieťová, transportná a relačná vrstva OSI, napríklad protokoly relácie a datagramu)

3. Vrchná vrstva (prezentačná vrstva a aplikačná vrstva OSI)

    Fyzická vrstva implementuje fyzickú kontrolu a odkazuje na fyzický okruh, napríklad telefónny okruh, cez ktorý sa prenášajú informácie. Na tejto úrovni OSI model definuje fyzické, elektrické, funkčné a procedurálne charakteristiky komunikačných obvodov, ako aj požiadavky na sieťové adaptéry a modemy.

    Linková vrstva. Na tejto úrovni je riadené sieťové spojenie (kanál) a bloky (súbor bitov) informácií sa odosielajú cez fyzické spojenie. Vykonáva také kontrolné postupy, ako je určenie začiatku a konca bloku, zisťovanie chýb prenosu, adresovanie správ atď.

    Sieťová vrstva označuje virtuálny (imaginárny) okruh, ktorý nemusí fyzicky existovať. Softvér na tejto úrovni zabezpečuje určenie trasy prenosu paketov v sieti. Smerovače, ktoré hľadajú optimálnu cestu na základe analýzy informácií o adrese, fungujú na sieťovej vrstve modelu OSI, nazývanej most.

    Transportná vrstva. Transportná vrstva riadi postupnosť paketov správ a ich vlastníctvo. V procese výmeny medzi počítačmi sa teda zachováva virtuálna komunikácia, podobne ako pri telefónnom prepínaní.

    Úroveň relácie. Na tejto úrovni sú koordinované a štandardizované procesy vytvárania relácie, riadenia prenosu a prijímania paketov správ a ukončenia relácie. Softvér na tejto úrovni konvertuje dáta z interného formátu odosielajúceho počítača do interného formátu prijímajúceho počítača, ak sa tieto formáty navzájom líšia. Okrem prevodu formátov na tejto úrovni sa prenášané dáta komprimujú a rozbalia.

    Aplikačná úroveň sa týka funkcií, ktoré poskytujú podporu používateľovi na vyšších aplikačných a systémových úrovniach, napríklad: organizovanie prístupu k zdieľaným sieťovým zdrojom: informácie, disková pamäť, softvérové ​​aplikácie, externé zariadenia (tlačiarne, streamery atď.); všeobecná správa siete (riadenie konfigurácie, diferenciácia prístupu k zdieľaným sieťovým zdrojom, obnova po poruchách a poruchách, správa výkonu); prenos elektronických správ.

Liečba

Spracovaním informácie sa rozumie jej transformácia s cieľom pripraviť ju na praktické využitie. Niekedy je spracovanie informácií definované ako prevádzka údajov podľa určitých pravidiel.

V procese spracovania informácií sa vždy rieši nejaký informačný problém, ktorý spočíva v získaní finálnych informácií na základe prvotných údajov. Procesom prechodu od počiatočných údajov k výsledku je spracovanie informácií. Subjekt vykonávajúci spracovanie je vykonávateľom spracovania. Účinkujúcim môže byť človek, alebo môže ísť o špeciálne technické zariadenie, medzi ktoré patrí aj počítač.

Spracovanie informácií je zvyčajne účelový proces. Pre úspešné vykonanie spracovania informácií musí exekútor poznať spôsob spracovania, t.j. postupnosť činností, ktoré je potrebné vykonať, aby sa dosiahol požadovaný výsledok. Opis takejto postupnosti akcií v informatike sa zvyčajne nazýva algoritmus spracovania.

Zvyčajne existujú dva typy situácií spracovania informácií.

Prvým typom je spracovanie spojené so získavaním nového znalostného obsahu. Tento typ spracovania zahŕňa riešenie matematických problémov. Spôsob spracovania, t.j. Algoritmus na riešenie problému je určený matematickými vzorcami, ktoré sú interpretovi známe. Tento typ spracovania informácií zahŕňa riešenie rôznych problémov pomocou logického uvažovania.

Druhým typom je spracovanie spojené so zmenou formy, nie však zmenou obsahu. Tento typ spracovania informácií zahŕňa napríklad preklad textu z jedného jazyka do druhého. Forma sa mení, no obsah treba zachovať. Dôležitým typom spracovania pre informatiku je kódovanie... Kódovanie je transformácia informácií do symbolickej podoby, vhodnej na ich ukladanie, prenos, spracovanie. Kódovanie sa aktívne využíva v technických prostriedkoch práce s informáciami (telegraf, rádio, počítače).

Spracovanie informácií sa týka štruktúrovania údajov. Štruktúrovanie je spojené so zavedením určitého poriadku, určitej organizácie v ukladaní informácií. Príkladom štruktúrovania je usporiadanie údajov v abecednom poradí, zoskupenie podľa niektorých klasifikačných kritérií a použitie tabuľkovej prezentácie.

Ďalším dôležitým typom spracovania informácií je vyhľadávanie. Úlohou vyhľadávania je vybrať potrebné informácie, ktoré spĺňajú určité podmienky vyhľadávania v dostupnom informačnom úložisku. Algoritmus vyhľadávania závisí od spôsobu, akým sú informácie usporiadané. Ak sú informácie štruktúrované, vyhľadávanie je rýchlejšie, môžete zostaviť optimálny algoritmus.

V závislosti od účelu sa teda pri spracúvaní informácií môže meniť forma ich prezentácie alebo ich obsah. Procesy zmeny formy prezentácie informácie sa často redukujú na procesy jej kódovania a dekódovania a prebiehajú súčasne s procesmi zberu a prenosu informácií. Proces zmeny obsahu informácií zahŕňa postupy ako numerické výpočty, editovanie, zoraďovanie, zovšeobecňovanie, systematizácia atď. Ak sú pravidlá na konverziu informácií prísne formalizované a existuje algoritmus na ich implementáciu, môžete vytvoriť zariadenie na automatizované spracovanie informácií.

Treba spomenúť heterogenitu informačných zdrojov charakteristickú pre mnohé tematické oblasti. Jedným zo spôsobov riešenia tohto problému je objektovo orientovaný prístup, v súčasnosti najčastejšie. Stručne zvážime jeho hlavné ustanovenia. Rozklad na základe objektovo orientovaný prístup na základe výberu týchto základných pojmov: objekt, trieda, inštancia.

Objekt je abstrakciou mnohých objektov reálneho sveta, ktoré majú rovnaké vlastnosti a zákony správania. Objekt charakterizuje typický nedefinovaný prvok takejto množiny. Hlavnou charakteristikou objektu je zloženie jeho atribútov (vlastností).

Atribúty- sú to špeciálne objekty, prostredníctvom ktorých môžete nastaviť pravidlá pre popis vlastností iných objektov.

Inštancia objektu je špecifickým prvkom zostavy. Napríklad objekt môže byť poznávacia značka auta a inštanciou tohto objektu môže byť konkrétne číslo K 173 PA.

Trieda- je to súbor objektov skutočného sveta, ktoré sú spojené spoločnou štruktúrou a správaním. Prvok triedy je špecifický prvok danej množiny. Napríklad trieda evidenčných čísel vozidiel.

Informácie sa prenášajú vo forme signálov. Signál je fyzický proces, ktorý prenáša informácie. Signál môže byť zvukový, svetelný, vo forme poštovej zásielky a pod.

Podľa typov (typov) signálov sa rozlišujú:

analógový

digitálny

diskrétne

Analógový signál:

Analógový signál je prirodzený. Dá sa fixovať pomocou rôznych typov snímačov. Napríklad senzory prostredia (tlak, vlhkosť) alebo mechanické senzory (zrýchlenie, rýchlosť)

Digitálny signál:

Digitálne signály sú umelé, t.j. možno ich získať len konverziou analógového elektrického signálu.

Diskrétny signál:

Diskrétny signál je stále ten istý konvertovaný analógový signál, len nie je nevyhnutne kvantovaný na úrovni.

Vzorkovanie- premena spojitého funkcie v diskrétne.

Použité v hybridné výpočtové systémy a digitálne zariadenia s pulzným kódom modulácia signálov v systémoch prenosu údajov ... Pri prenose obrazu sa používa na prevod spojitého analógový signál na diskrétny alebo diskrétne spojitý signál.

7. Kódovanie informácií. Abeceda. Slovo. Slovník. Binárne kódovanie.

1. Kódovanie informácií sa zvyčajne používa na transformáciu správ z formy, ktorá je vhodná na priame použitie, na formu, ktorá je vhodná na prenos, ukladanie alebo automatické spracovanie

Všetky informácie, s ktorými moderná výpočtová technika pracuje, sa prevádza na čísla v binárnej číselnej sústave.

Faktom je, že fyzické zariadenia (registre, pamäťové bunky) môžu byť v dvoch stavoch, ktoré zodpovedajú 0 alebo 1. Pomocou množstva podobných fyzických zariadení môžete do pamäte počítača uložiť takmer akékoľvek číslo v binárnej číselnej sústave. Počítačové kódovanie celých čísel, zlomkových a záporných, ako aj symbolov (písmená atď.) má pre každý typ svoje vlastné charakteristiky. Vždy by ste však mali pamätať na to, že akékoľvek informácie (číselné, textové, grafické, zvukové atď.) v pamäti počítača sú v binárnej číselnej sústave reprezentované číslami (takmer vždy). Vo všeobecnom zmysle môže byť kódovanie informácií definované ako preklad informácie reprezentovanej správou v primárnej abecede do postupnosti kódov.

Zvyčajne sa správy prenášajú a zaznamenávajú pomocou postupnosti znakov - znakov.

Abeceda jazyk interpretácie správ - konečný súbor znakov v ňom zahrnutých, zvyčajne špecifikovaných ich priamym výpisom. Konečná postupnosť znakov v abecede sa nazýva slovo v abecede. Počet znakov v slove určuje dĺžku slova. Tvorí sa mnoho rôznych platných slov slovná zásoba (slovná zásoba) abeceda. Každá abeceda má usporiadaný tvar, znaky sú usporiadané postupne v prísnom poradí, čím je v slovníku zabezpečené abecedné zoradenie všetkých slov.

Ako dĺžka kódu na kódovanie znakov bolo zvolených 8 bitov alebo 1 bajt. Preto jeden znak textu zodpovedá jednému bajtu pamäte.

Môže existovať 28 = 256 rôznych kombinácií 0 a 1 s dĺžkou kódu 8 bitov, takže pomocou jednej vyhľadávacej tabuľky nie je možné zakódovať viac ako 256 znakov. S dĺžkou kódu 2 bajty (16 bitov) je možné zakódovať 65 536 znakov. Na zakódovanie jedného znaku sa použije množstvo informácií rovnajúce sa 1 bajtu, to znamená I = 1 bajt = 8 bitov. Pomocou vzorca, ktorý spája počet možných udalostí K a množstvo informácií I, je možné vypočítať, koľko rôznych symbolov je možné zakódovať K = 2I = 28 = 256, teda abecedu s kapacitou 256 znakov používa sa na reprezentáciu textových informácií.

Podstatou kódovania je, že každému znaku je priradený binárny kód od 00000000 do 11111111 alebo zodpovedajúci desiatkový kód od 0 do 255. K rovnakému binárnemu kódu sú priradené rôzne znaky.

9. Množstvo informácií. Miera množstva informácií a ich vlastností. Hartleyho vzorec.

Množstvo informácií - číslo, ktoré primerane charakterizuje množstvo diverzity (súbor stavov, alternatív a pod.) v posudzovanom systéme.

Miera informácií - vzorec, kritérium hodnotenia množstva informácií.

Miera informácie je zvyčajne daná nejakou nezápornou funkciou definovanou na množine udalostí, ktorá je aditívna, to znamená, že miera konečného spojenia udalostí (množín) sa rovná súčtu mier každej udalosti. Množstvo informácií je číslo, ktoré adekvátne charakterizuje množstvo diverzity (súbor stavov, alternatív a pod.) v posudzovanom systéme.

Množstvo informácií

Úvod

2. Neistota, množstvo informácií a entropia

3. Shannonov vzorec

4. Hartleyho vzorec

5. Množstvo informácií prijatých počas správy

Zoznam použitej literatúry

Úvod

Podľa A.D. Uršula - "informácie sú odrazenou odrodou." Množstvo informácií je kvantitatívnym meradlom rozmanitosti. Môže ísť o rôzne obsahy kumulatívnej pamäte; rozmanitosť signálu vnímaného v procese konkrétnej správy; rôzne výsledky v konkrétnej situácii; rozmanitosť prvkov určitého systému ... je posudzovaním rozmanitosti v najširšom zmysle slova.

Akákoľvek správa medzi zdrojom a príjemcom informácií má určité trvanie v čase, ale množstvo informácií, ktoré prijímateľ v dôsledku správy dostane, nie je v konečnom dôsledku charakterizované dĺžkou správy, ale rôznorodosťou signálu. generované v prijímači touto správou.

Pamäť nosiča informácií má určitú fyzickú kapacitu, v ktorej je schopná akumulovať obrazy, a množstvo informácií nahromadených v pamäti je v dôsledku toho charakterizované rôznorodosťou naplnenia tejto kapacity. Pre predmety neživej prírody je to rozmanitosť ich histórie, pre živé organizmy je to rozmanitosť ich skúseností.

Rôznorodosť je pri sprostredkovaní informácií nevyhnutná. Nedá sa natrieť bielou na bielom, samotný stav nestačí. Ak je pamäťová bunka schopná byť len v jednom (počiatočnom) stave a nie je schopná zmeniť svoj stav pod vonkajším vplyvom, znamená to, že nie je schopná vnímať a zapamätať si informácie. Informačná kapacita takejto bunky je 0.

Minimálna rozmanitosť je zabezpečená prítomnosťou dvoch stavov. Ak je pamäťová bunka schopná v závislosti od vonkajšieho vplyvu zaujať jeden z dvoch stavov, ktoré sa bežne označujú ako „0“ a „1“, má minimálnu informačnú kapacitu.

Informačná kapacita jednej pamäťovej bunky, ktorá môže byť v dvoch rôznych stavoch, sa berie ako jednotka na meranie množstva informácie - 1 bit.

1 bit (bit - skratka pre angl. Binary digit - binárne číslo) je mernou jednotkou informačnej kapacity a množstva informácie a tiež ešte jedna veličina - informačná entropia, s ktorou sa zoznámime neskôr. Bit, jedna z najviac bezpodmienečných jednotiek merania. Ak by sa jednotka merania dĺžky dala zadať ľubovoľne: lakeť, noha, meter, potom by jednotka merania informácie nemohla byť v podstate žiadna iná.

Na fyzickej úrovni je bit pamäťovou bunkou, ktorá je v každom okamihu v jednom z dvoch stavov: „0“ alebo „1“.

Ak každý bod nejakého obrázku môže byť iba čierny alebo biely, takýto obrázok sa nazýva bitový obrázok, pretože každý bod je 1-bitová pamäťová bunka. Trochu symbolizuje aj svetlo, ktoré môže buď „zapnúť“, alebo „vypnúť“. Klasickým príkladom ilustrujúcim 1 bit informácie je množstvo informácií získaných ako výsledok hodu mincou – „hlavy“ alebo „chvosty“.

Množstvo informácie rovnajúce sa 1 bitu je možné získať v odpovedi na otázku typu „áno“ / „nie“. Ak pôvodne existovali viac ako dve možnosti odpovede, množstvo prijatých informácií v konkrétnej odpovedi bude viac ako 1 bit, ak budú možnosti odpovede menšie ako dve, t.j. sám, potom to nie je otázka, ale vyhlásenie, preto nie sú potrebné informácie, pretože neexistuje žiadna neistota.

Informačná kapacita pamäťovej bunky schopnej vnímať informácie nemôže byť menšia ako 1 bit, ale množstvo prijatých informácií môže byť menšie ako 1 bit. Stáva sa to vtedy, keď možnosti odpovede „áno“ a „nie“ nie sú rovnako pravdepodobné. Nerovnosť je zasa dôsledkom toho, že k tejto problematike sú už k dispozícii nejaké predbežné (a priori) informácie získané napríklad na základe doterajších životných skúseností. Vo všetkých argumentoch predchádzajúceho odseku by sa teda malo brať do úvahy jedno veľmi dôležité upozornenie: platia len pre ekvipravdepodobný prípad.

Množstvo informácie označíme symbolom I, pravdepodobnosť označíme symbolom P. Pripomeňme, že celková pravdepodobnosť celej skupiny udalostí je 1.

2.Neistota, množstvo informácií a entropia

Zakladateľ teórie informácie Claude Shannon definoval informáciu ako odstránenú neistotu. Presnejšie povedané, získanie informácií je nevyhnutnou podmienkou na odstránenie neistoty. Neistota vzniká v situácii voľby. Úlohou, ktorá sa rieši pri odstraňovaní neistoty, je zníženie počtu zvažovaných možností (zníženie diverzity) a v dôsledku toho výber jednej možnosti zodpovedajúcej situácii z možných. Odstránenie neistoty vám umožní robiť informované rozhodnutia a konať. Toto je vedúca úloha informácií.

Situácia maximálnej neistoty predpokladá prítomnosť viacerých rovnako pravdepodobných alternatív (opcií), t.j. ani jedna možnosť nie je preferovaná. Navyše, čím viac rovnako pravdepodobných možností sa pozoruje, tým väčšia je neistota, tým ťažšie je urobiť jednoznačný výber a tým viac informácií je potrebných na to, aby sa to dalo získať. Pre N variantov je táto situácia opísaná nasledujúcim rozdelením pravdepodobnosti: (1 / N, 1 / N,… 1 / N).

Minimálna neistota je 0, t.j. toto je situácia úplnej istoty, čo znamená, že výber bol urobený a boli prijaté všetky potrebné informácie. Rozdelenie pravdepodobnosti pre situáciu úplnej istoty vyzerá takto: (1, 0,… 0).

Veličina charakterizujúca mieru neistoty v teórii informácie sa označuje symbolom H a nazýva sa entropia, presnejšie informačná entropia.

Entropia (H) je miera neistoty vyjadrená v bitoch. Entropiu možno považovať aj za mieru rovnomernosti rozdelenia náhodnej premennej.

Ryža. 1. Správanie sa entropie

pre prípad dvoch alternatív.

Obrázok 1 ukazuje správanie sa entropie pre prípad dvoch alternatív, keď sa pomer ich pravdepodobností (p, (1-p)) mení.

Entropia dosahuje svoju maximálnu hodnotu v tomto prípade, keď sú obe pravdepodobnosti navzájom rovnaké a rovné ?, nulová hodnota entropie zodpovedá prípadom (p0 = 0, p1 = 1) a (p0 = 1, p1 = 0).

Ryža. 2. Vzťah medzi entropiou a množstvom informácií.

Množstvo informácie I a entropia H charakterizujú rovnakú situáciu, ale z kvalitatívne opačných strán. I je množstvo informácií potrebných na odstránenie neistoty H. Podľa definície Leona Brillouina je informácia negatívna entropia (negentropia).

Keď sa neistota úplne odstráni, množstvo informácií, ktoré som dostal, sa rovná pôvodne existujúcej neistote H.

Pri čiastočnom odstránení neistoty sa množstvo prijatých informácií a zostávajúca neodhalená neistota sčítajú k pôvodnej neistote. Ht + It = H.

Z tohto dôvodu vzorce, ktoré budú uvedené nižšie na výpočet entropie H, sú zároveň vzorcami na výpočet množstva informácie I, t.j. pokiaľ ide o úplné odstránenie neistoty, H v nich môže byť nahradené I.

3.Shannonov vzorec

Vo všeobecnom prípade entropia H a množstvo informácií, ktoré som získal ako výsledok odstránenia neistoty, závisia od počiatočného počtu uvažovaných možností N a predchádzajúcich pravdepodobností realizácie každej z nich P: (p0, p1,… pN-1), tj H = F (N, P). Výpočet entropie sa v tomto prípade vykonáva podľa Shannonovho vzorca, ktorý navrhol v roku 1948 v článku „Matematická teória komunikácie“.

V konkrétnom prípade, keď sú všetky možnosti rovnako pravdepodobné, zostáva závislosť len od počtu zvažovaných možností, t.j. H = F (N). V tomto prípade je Shannonov vzorec značne zjednodušený a zhoduje sa s Hartleyho vzorcom, ktorý ako prvý navrhol americký inžinier Ralph Hartley v roku 1928, t.j. 20 rokov skôr.

Shannonov vzorec je nasledujúci:

Ryža. 3. Nájdenie logaritmu b so základom a je nájdenie mocniny, na ktorú je potrebné zvýšiť a, aby sa dostalo b.

Pripomeňme si, čo je logaritmus.

Logaritmický základ 2 sa nazýva binárny:

log2 (8) = 3 => 23 = 8

log2 (10) = 3,32 => 23,32 = 10

Logaritmický základ 10 sa nazýva desiatkový:

log10 (100) = 2 => 102 = 100

Základné vlastnosti logaritmu:

1.log (1) = 0, pretože akékoľvek číslo s nulovým stupňom dáva 1;

2.log (ab) = b * log (a);

3. log (a * b) = log (a) + log (b);

4. log (a / b) = log (a) - log (b);

5.log (1/b) = 0-log (b) = - log (b).

Znamienko mínus vo vzorci (1) neznamená, že entropia je záporná. Vysvetľuje to skutočnosť, že pi1 je podľa definície a logaritmus čísla menšieho ako jedna je záporný. Na základe vlastnosti logaritmu teda možno tento vzorec zapísať v druhej verzii bez mínusu pred súčtom.

sa interpretuje ako súkromné ​​množstvo informácií získaných v prípade implementácie i-tej možnosti. Entropia v Shannonovom vzorci je priemerná charakteristika - matematické očakávanie rozdelenia náhodnej premennej (I0, I1,… IN-1).

Príklad výpočtu entropie pomocou Shannonovho vzorca. Nech je v nejakej inštitúcii zloženie zamestnancov rozdelené takto:? - ženy, ? - muži. Potom sa neistota, napríklad pokiaľ ide o to, koho prvého stretnete pri vstupe do inštitúcie, vypočíta pomocou série akcií uvedených v tabuľke 1.

Stôl 1.

Ii = log2 (1 / pi), bit

pi * log2 (1 / pi), bit

Ak je a priori známe, že v inštitúcii sú rovnaké časti mužov a žien (dve rovnako pravdepodobné možnosti), potom pri výpočte pomocou rovnakého vzorca by sme mali dostať neistotu 1 bit. Tento predpoklad je overený v tabuľke 2.

Tabuľka 2

Ii = log2 (1 / pi), bit

pi * log2 (1 / pi), bit

4 Hartleyho vzorec

Hartleyho vzorec je špeciálnym prípadom Shannonovho vzorca pre ekvipravdepodobné alternatívy.

Dosadením do vzorca (1) namiesto pi jeho (v ekvipravdepodobnom prípade, nezávisle od i) hodnotu, dostaneme:

Hartleyho vzorec teda vyzerá veľmi jednoducho:

Z neho jednoznačne vyplýva, že čím väčší počet alternatív (N), tým väčšia neistota (H). Tieto množstvá sú vo vzorci (2) spojené nie lineárne, ale prostredníctvom binárneho logaritmu. Prevedenie logaritmu na základ 2 a prevod počtu možností na informačné jednotky - bity.

Entropia bude celé číslo len vtedy, ak N je mocnina 2, t.j. ak N patrí do série: (1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024, 2048 ...)

Ryža. 3. Závislosť entropie od počtu rovnako pravdepodobných volieb (ekvivalentných alternatív).

Na riešenie inverzných problémov, keď je známa neistota (H) alebo množstvo informácií (I) získané v dôsledku jej odstránenia a je potrebné určiť, koľko ekvipravdepodobných alternatív zodpovedá výskytu tejto neistoty, inverzný Hartleyov vzorec sa používa, ktorý je odvodený v súlade s definíciou logaritmu a vyzerá ešte jednoduchšie:

Napríklad, ak je známe, že v dôsledku určenia, že Kolja Ivanov, ktorý nás zaujíma, žije na druhom poschodí, boli prijaté 3 bity informácií, potom počet poschodí v dome možno určiť podľa vzorca (3 ), keďže N = 23 = 8 poschodí.

Ak je otázka takáto: „v dome s 8 poschodiami, koľko informácií sme dostali, keď sme sa dozvedeli, že Kolja Ivanov, ktorý nás zaujíma, býva na druhom poschodí?“, Musíte použiť vzorec (2): I = log2 (8) = 3 bity.

5. Množstvo informácií prijatých počas správy

Doteraz boli na výpočet entropie (neistoty) H uvedené vzorce, ktoré naznačujú, že H v nich možno nahradiť I, pretože množstvo informácií získaných s úplným odstránením neistoty určitej situácie sa kvantitatívne rovná počiatočnému entropia tejto situácie.

Ale neistotu možno odstrániť len čiastočne, takže množstvo informácií, ktoré som dostal z určitej správy, sa vypočítava ako pokles entropie, ktorý nastáva v dôsledku prijatia tejto správy.

Pre ekvipravdepodobný prípad pomocou Hartleyho vzorca na výpočet entropie dostaneme:

Druhá rovnosť je odvodená z vlastností logaritmu. V ekvipravdepodobnom prípade teda závisím od toho, koľkokrát sa zmenil počet zvažovaných možností (uvažovaná odroda).

Na základe (5) môžeme odvodiť nasledovné:

Ak teda - úplné odstránenie neistoty, množstvo informácií prijatých v správe sa rovná neistote, ktorá existovala pred prijatím správy.

Ak sa teda neistota nezmenila, neboli prijaté žiadne informácie.

Ak, potom =>, ak, =>. Tie. množstvo prijatých informácií bude kladná hodnota, ak sa v dôsledku prijatia správy počet zvažovaných alternatív znížil, a záporná, ak sa zvýšil.

Ak sa počet zvažovaných alternatív v dôsledku prijatia správy znížil na polovicu, t.j. , potom I = log2 (2) = 1 bit. Inými slovami, príjem 1 bitu informácie vylučuje z úvahy polovicu ekvivalentných možností.

Uvažujme ako príklad experiment s balíčkom 36 kariet.

Ryža. 4. Ilustrácia pre experiment s balíčkom 36 kariet.

Nechajte niekoho ťahať jednu kartu z balíčka. Zaujíma nás, ktorú z 36 kariet vytiahol. Počiatočná neistota vypočítaná podľa vzorca (2) je H = log2 (36) 5,17 bitov. Ten, kto vytiahne kartu, nám povie niektoré informácie. Pomocou vzorca (5) určíme, koľko informácií získame z týchto správ:

Možnosť A. „Toto je červená karta.“

I = log2 (36/18) = log2 (2) = 1 bit (polovica červených kariet v balíčku, neistota sa znížila 2-krát).

Možnosť B. „Toto je piková karta“.

I = log2 (36/9) = log2 (4) = 2 bity (piky tvoria štvrtinu balíčka, neistota sa znížila 4-krát).

Možnosť C. "Toto je jedna z najvyšších kariet: jack, dáma, kráľ alebo eso."

I = log2 (36) -log2 (16) = 5,17-4 = 1,17 bitov (neistota sa znížila viac ako dvakrát, takže množstvo prijatých informácií je viac ako jeden bit).

Možnosť D. "Toto je jedna karta z balíčka."

I = log2 (36/36) = log2 (1) = 0 bit (neistota sa neznížila - správa nie je informatívna).

Možnosť D. „Toto je Piková dáma“.

I = log2 (36/1) = log2 (36) = 5,17 bitov (neistota je úplne odstránená).

V akomkoľvek procese riadenia a prenosu sa vstupné informácie premieňajú na výstupné informácie. Informáciou sa zvyčajne rozumejú nejaké informácie, symboly, znaky. Štatistická teória: Pojem informácie je charakterizovaný ako eliminácia nejednoznačnosti.

Informácie sú definované ako zmiešavanie je predmetom uchovávania, prenosu a príjmu. Informácie sa prenášajú pomocou signálu. Kvantitatívne hodnotenie získavania informácií je založené na myšlienke prenosu správy ako náhodného stochastického procesu v čase.

Neistotu eliminujte testovaním, čím vyššia neistota, tým vyššia hodnota informácie.

Stupeň neistoty závisí od počtu hodnôt, ktoré môže veľkosť nadobudnúť, a od výsledku udalostí.

Pre mieru množstva informácií sa určí náhodná premenná H (A):

kde -pravdepodobnosť odchodu.

Znamienko mínus predstavuje kompenzáciu za H (A) - to je entropia experimentu A (vzorec vynašiel Claude Chinon).

Čím viac H (A), tým väčšia miera nevedomosti.

Hromadenie informácií o určitom systéme znižuje entropiu. Informácie sú jednoznačným príspevkom k entropii.

Nech je daný x-systém.

ak
, potom

kde

Získavanie informácií je objektívnym zobrazením stavu systému a možno ich použiť na prenos, riadenie, rozhodovanie atď.

Informácie nie sú hmotnou alebo energetickou kategóriou, nie sú vtedy, keď nevznikajú, ale sa len vysielajú a prijímajú, ale môžu sa stratiť, zaniknúť.

Podľa druhého zákona termodynamiky sa entropia zvyšuje súbežne s deštrukciou organizovaných štruktúr, čo vedie k chaotickému pravdepodobnostnému stavu.

Jednotkou merania je množstvo informácií obsiahnutých v nejakej náhodnej premennej, ktoré je akceptované s rovnakou pravdepodobnosťou. Jednotkou stupňa neistoty je entropia elementárnej udalosti, ktorá má dva výsledky s rovnakou pravdepodobnosťou dvoch rôznych hodnôt.

-binárny jeden alebo bit.

x-systém prepojený

y-systém

I (x, y) = H (x) + H (y) -H (x, y), kde

H (x, y) -entropia jednotného systému.

, kde,

Pre nepretržitý signál.

kde (x) je hustota pravdepodobnosti veličiny x. Chinonský prístup neberie do úvahy sémantický obsah.

33. Pojem ergodický zdroj. Nadbytok.

V praxi existujú ergodické zdroje, v ktorých sa korelácie rozširujú na konečný počet predchádzajúcich zdrojov. V ergodickom zdroji
neexistujú žiadne korelácie, t.j.

Matematická reprezentácia správ generovaných ergodickými zdrojmi je Markov reťaz.

Markov reťaz n-poradie sa nazýva postupnosť, závislosť testov, v ktorých je pravdepodobnosť určitého výsledku
v skúške závisí od výsledkov akýchkoľvek predchádzajúcich skúšok, ale nie od skorších výsledkov.

V ergodickom zdroji je distribučný poriadok
pre k = 1,2,…, m nezostáva konštantné, ale závisí od posledných n písmen správ.

pravdepodobnosť výberu q písmena z abecedy.

Počet možných stavov je určený:
, kde m je abeceda, n je poradie, M je počet možných stavov zdroja.

Na určenie celkovej entropie musíte:

ak M = 1, potom dostaneme klasický Chinonov vzorec.

Korelácia v ergodickom zdroji je nevyhnutne sprevádzaná zmenou rozdelenia pravdepodobnosti, výberom prvku správy zo stavu do stavu, čo vedie aj k zníženiu entropie, čo znamená, že časť informácií prenášaných zdrojom je možné predvídať. , čo znamená, že sa nemôže prenášať, keďže môže byť obnovená na prijímacej strane. Čím nižšia je entropia zdroja, tým viac informácií generuje.

R-redundancia, ukazuje účinnosť zdroja.

Dôvodom pre R je jednoznačnosť a podpora pravdepodobnosti výberu medzi správami.

Entropia (teória informácie)

entropia (informačná)- miera náhodnosti informácie, neistota výskytu akéhokoľvek symbolu primárnej abecedy. Pri absencii strát informácií sa číselne rovná množstvu informácií na symbol prenášanej správy.

Napríklad v sekvencii písmen, ktoré tvoria akúkoľvek vetu v ruštine, sa objavujú rôzne písmená s rôznou frekvenciou, takže neistota vzhľadu niektorých písmen je menšia ako u iných. Ak vezmeme do úvahy, že niektoré kombinácie písmen (v tomto prípade hovoria o entropii n-tého rádu, pozri) sú veľmi zriedkavé, potom sa neistota ďalej znižuje.

Na ilustráciu pojmu informačná entropia môžete použiť aj príklad z oblasti termodynamickej entropie s názvom Maxwellov démon. Pojmy informácie a entropia majú medzi sebou hlboké prepojenie, no napriek tomu vývoj teórií v štatistickej mechanike a teórii informácie trval mnoho rokov, kým boli navzájom konzistentné.

Formálne definície

Definovanie pomocou vlastných informácií

Je tiež možné určiť entropiu náhodnej premennej najprv zavedením konceptu rozdelenia náhodnej premennej X s konečným počtom hodnôt:

ja(X) = - log P X (X).

Potom bude entropia definovaná ako:

Jednotka merania informácie a entropie závisí od základu logaritmu: bit, nat alebo hartley.

Informačná entropia pre nezávislé náhodné udalosti X s n možné stavy (od 1 do n) sa vypočíta podľa vzorca:

Toto množstvo sa nazýva aj priemerná entropia správy... Množstvo je tzv súkromná entropia iba charakterizujúce i-e štát.

Teda entropia udalosti X je súčet s opačným znamienkom všetkých súčinov relatívnych frekvencií výskytu udalosti i vynásobené ich binárnymi logaritmami (základ 2 bol zvolený len pre pohodlie práce s informáciami prezentovanými v binárnej forme). Táto definícia pre diskrétne náhodné udalosti môže byť rozšírená na funkciu rozdelenia pravdepodobnosti.

Všeobecne b-árna entropia(kde b rovná sa 2, 3, ...) zdroj s pôvodnou abecedou a diskrétnym rozdelením pravdepodobnosti, kde p i je pravdepodobnosť a i (p i = p(a i) ) sa určuje podľa vzorca:

Definícia Shannonovej entropie súvisí s pojmom termodynamická entropia. Boltzmann a Gibbs urobili veľký kus práce v štatistickej termodynamike, ktorá prispela k prijatiu slova „entropia“ v teórii informácie. Medzi termodynamickou a informačnou entropiou existuje súvislosť. Napríklad aj Maxwellov démon odporuje termodynamickej entropii informácií a príjem akéhokoľvek množstva informácií sa rovná stratenej entropii.

Alternatívna definícia

Ďalší spôsob, ako definovať funkciu entropie H je toho dôkazom H je jednoznačne definovaný (ako už bolo uvedené) vtedy a len vtedy H spĺňa podmienky:

Vlastnosti

Je dôležité si uvedomiť, že entropia je veličina definovaná v kontexte pravdepodobnostného modelu pre zdroj údajov. Napríklad hod mincou má entropiu - 2 (0,5 log 2 0,5) = 1 bit na jeden hod (za predpokladu, že je nezávislý). Zdroj, ktorý generuje reťazec pozostávajúci iba z písmen „A“, má nulovú entropiu: ... Napríklad empiricky sa dá zistiť, že entropia anglického textu je 1,5 bitu na znak, čo sa samozrejme bude líšiť pre rôzne texty. Stupeň entropie zdroja údajov znamená priemerný počet bitov na dátový prvok potrebný na jeho zašifrovanie bez straty informácií pri optimálnom kódovaní.

  1. Niektoré dátové bity nemusia niesť informácie. Napríklad dátové štruktúry často uchovávajú redundantné informácie alebo majú identické sekcie bez ohľadu na informácie v dátovej štruktúre.
  2. Množstvo entropie nie je vždy vyjadrené ako celé číslo bitov.

Matematické vlastnosti

Efektívnosť

Pôvodná abeceda, s ktorou sa stretávame v praxi, má rozdelenie pravdepodobnosti, ktoré nie je ani zďaleka optimálne. Keby mala pôvodná abeceda n symbolov, potom sa dá porovnať s „optimalizovanou abecedou“, ktorej rozdelenie pravdepodobnosti je rovnomerné. Pomer entropie originálu k optimalizovanej abecede je účinnosť pôvodnej abecedy, ktorú možno vyjadriť v percentách.

Z toho vyplýva, že účinnosť pôvodnej abecedy s n symboly možno jednoducho definovať ako rovnaké n-árna entropia.

Entropia obmedzuje maximálnu možnú bezstratovú (alebo takmer bezstratovú) kompresiu, ktorú možno dosiahnuť pomocou teoreticky - typickej sady alebo v praxi - Huffmanovho kódovania, Lempel-Ziv-Welchovho kódovania alebo aritmetického kódovania.

Variácie a zovšeobecnenia

Podmienená entropia

Ak nasledujúce znaky abecedy nie sú nezávislé (napríklad vo francúzštine po písmene „q“ takmer vždy nasleduje „u“ a za slovom „vodca“ v sovietskych novinách zvyčajne nasleduje slovo „výroba“ alebo "práca"), množstvo informácií, ktoré nesie sekvenciu takýchto symbolov (a teda aj entropiu), je zjavne menšie. Na vysvetlenie takýchto skutočností sa používa podmienená entropia.

Podmienená entropia prvého rádu (podobne ako pre Markovov model prvého rádu) je entropia pre abecedu, kde sú známe pravdepodobnosti výskytu jedného písmena za druhým (t. j. pravdepodobnosti dvojpísmenových kombinácií):

kde i je stav závislý od predchádzajúceho znaku a p i (j) je pravdepodobnosť j, za predpokladu, že i bola predchádzajúca postava.

Takže pre ruský jazyk bez písmena "".

Čiastočné a všeobecné podmienené entropie sa používajú na úplný opis straty informácií počas prenosu údajov v hlučnom kanáli. Na to slúži tzv kanálové matice... Takže, aby ste opísali stratu zo zdroja (to znamená, že vyslaný signál je známy), zvážte podmienenú pravdepodobnosť prijatia symbolu prijímačom b j za predpokladu, že bol symbol odoslaný a i... V tomto prípade má kanálová matica nasledujúci tvar:

b 1 b 2 b j b m
a 1
a 2
a i
a m

Je zrejmé, že pravdepodobnosti umiestnené na diagonále opisujú pravdepodobnosť správneho príjmu a súčet všetkých prvkov stĺpca poskytne pravdepodobnosť výskytu zodpovedajúceho symbolu na strane prijímača - p(b j) ... Strata na prenesený signál a i, sú opísané prostredníctvom čiastočnej podmienenej entropie:

Na výpočet prenosovej straty pre všetky signály sa používa všeobecná podmienená entropia:

Znamená to entropiu zo strany zdroja, podobne sa uvažuje - entropia zo strany prijímača: namiesto toho, aby sa všade uvádzala (sčítaním prvkov reťazca, môžete získať p(a i) , a prvky uhlopriečky znamenajú pravdepodobnosť, že bol odoslaný presne ten symbol, ktorý bol prijatý, teda pravdepodobnosť správneho prenosu).

Vzájomná entropia

Vzájomná entropia, príp entropia únie, je určený na výpočet entropie prepojených systémov (entropia spoločného výskytu štatisticky závislých správ) a označuje sa H(AB) , kde A, ako vždy, charakterizuje vysielač, a B- prijímač.

Vzťah medzi vysielanými a prijímanými signálmi je opísaný pravdepodobnosťou spoločných udalostí p(a i b j) a na úplný opis charakteristík kanála je potrebná iba jedna matica:

p(a 1 b 1) p(a 1 b 2) p(a 1 b j) p(a 1 b m)
p(a 2 b 1) p(a 2 b 2) p(a 2 b j) p(a 2 b m)
p(a i b 1) p(a i b 2) p(a i b j) p(a i b m)
p(a m b 1) p(a m b 2) p(a m b j) p(a m b m)

Vo všeobecnejšom prípade, keď nie je opísaný kanál, ale jednoducho interagujúce systémy, matica nemusí byť štvorcová. Je zrejmé, že súčet všetkých prvkov stĺpca je očíslovaný jp(b j) , súčet riadku s číslom i existuje p(a i) a súčet všetkých prvkov matice sa rovná 1. Spoločná pravdepodobnosť p(a i b j) diania a i a b j vypočítané ako súčin pôvodnej a podmienenej pravdepodobnosti,

Podmienené pravdepodobnosti sa vytvárajú pomocou Bayesovho vzorca. Existujú teda všetky údaje na výpočet entropií zdroja a prijímača:

Vzájomná entropia sa vypočíta sekvenčným riadkovým (alebo stĺpcovým) súčtom všetkých pravdepodobností matíc vynásobených ich logaritmom:

H(AB) = − p(a i b j) denník p(a i b j).
i j

Jednotkou merania je bit/dva znaky, je to spôsobené tým, že vzájomná entropia popisuje neistotu pre dvojicu znakov – odoslaný a prijatý. Jednoduchými transformáciami získame aj

Vzájomná entropia má vlastnosť úplnosť informácií- z neho môžete získať všetky uvažované hodnoty.

História

Poznámky (upraviť)

pozri tiež

Odkazy

  • Claude E. Shannon. Matematická teória komunikácie
  • S. M. Korotajev.

Otázka vzťahu medzi entropiou a informáciou je diskutovaná už dlho, vlastne už od čias, keď bol sformulovaný paradox s „Maxwellovým démonom“. Problém sa chvíľu zdal abstraktný. Teraz sa však stáva aktuálnou, keďže sa ukazuje, že súvisí s celkom špecifickými otázkami: aká je entropická (a energia) platba za informácie, aké sú minimálne veľkosti informačnej bunky atď.

Tieto otázky sú obzvlášť akútne v súvislosti s biologickými špecifikami. Po prvé, informačné systémy v živej prírode sú malé (mikroskopické). Po druhé, fungujú pri normálnej teplote, t.j. v podmienkach, keď teplotné výkyvy nie sú zanedbateľné. Po tretie, v biológii má zapamätanie a uchovávanie informácií osobitný význam. Všimnite si, že v technológii sú problémy prenosu informácií relevantnejšie; na príklade optimalizácie prenosu boli vyvinuté hlavné ustanovenia teórie informácie. Menej pozornosti sa venovalo otázkam prijímania a uchovávania informácií. Naopak, v biológii sa tieto otázky stávajú prvoradými.

Bez predstierania striktnej definície pojmu „informácia“, zdôrazňujeme dva z jeho nevyhnutných atribútov: 1) informácia predpokladá výber jednej (alebo viacerých) možností z mnohých možných, 2) vykonaný výber treba pamätať. Zdôraznime: veľmi dôležitá je druhá podmienka – zapamätanie si informácií. Prvýkrát na to upozornil Kastler [P26] v roku 1960. V procesoch prenosu informácií hrá „zapamätanie“ menšiu úlohu ako pri prijímaní, spracovávaní a uchovávaní informácií. Vysielací systém je totiž povinný zapamätať si informácie iba počas prenosového času, ktorý môže byť v zásade krátky. V biológii hrá, naopak, významnú úlohu podmienka dlhodobého zapamätania.

Množstvo informácií sa nazýva množstvo

kde je celkový počet možných možností, počet vybratých možností. Množstvo informácií je nenulové, ak je známe, že z nejakého dôvodu bola implementovaná jedna z apriórnych možností (nie je však známe, ktorá). Tento počet je maximálny, ak je známe, že bola implementovaná (vybraná) jedna konkrétna možnosť. Množstvo, ak

Nič nie je známe. Základ logaritmu (tj binárny systém) je vybraný pre pohodlie; jednotka informácie v tomto systéme je jeden bit; zodpovedá výberu jednej možnosti z dvoch možných.

Výraz (12.8) sa dá ľahko zovšeobecniť na prípad, keď a priori N variant môže byť realizovaných s pravdepodobnosťou a sú realizované a posteriori s pravdepodobnosťou potom

Výber alebo implementácia zadných variantov sa môže uskutočniť dvoma rôznymi spôsobmi; buď v dôsledku pôsobenia vonkajších síl - v tomto prípade hovoria o prijímaní informácií z iného (vonkajšieho) systému, alebo spontánne, v dôsledku nestabilného správania samotného systému - v tomto prípade zrod. prebieha (vznik) nových informácií.

Informačný systém by mal byť schopný: a) prijímať informácie, b) uchovávať, alebo teda zapamätať si informácie, c) vydávať informácie pri interakcii s iným príjemcom vo vzťahu k posudzovanému systému. Z toho vyplýva, že informačný systém musí byť multistacionárny.

Počet stabilných stacionárnych stavov určuje informačnú kapacitu, t.j. maximálne množstvo informácií, ktoré môže systém prijať:

Systém musí byť disipatívny. To znamená, že reálne časti všetkých charakteristických čísel stacionárnych stavov sú záporné; je to predpoklad na zapamätanie si informácií. Príkladom takéhoto systému je čínsky biliard. Je to loptička na doske so stranami, dierkami a kolíkmi. Príslušnosť lopty ku konkrétnej jamke je informáciou o stave systému.

Na mikroskopickej (molekulárnej) úrovni sa problém návrhu informačného systému stáva netriviálnym. Po prvé, v multistacionárnom systéme sa každá z fázových trajektórií nachádza len v určitej časti fázového priestoru (v oblasti príťažlivosti daného stavu). Celý fázový objem nie je dostupný pre každú z trajektórií. To znamená, že informačný systém nie je úplne ergodický a termodynamicky rovnovážny. Mali by existovať vyhradené stupne slobody, ktoré si dlho zachovávajú svoje hodnoty a neopakujú všetky možné.

Vysvetlime si to na príklade čínskeho biliardu. Tu zvýraznené stupne voľnosti sú súradnice lopty. Zmena v x a y je obmedzená na okraje otvorov; loptička sa nemôže presunúť do inej jamky bez vonkajšieho zásahu. V čom

iné stupne voľnosti spojené s vibráciami atómov lopty aj dosky môžu (a mali by byť) ergodické.

Po druhé, stav disipability, ako sme videli, súvisí s nestabilitou (a teda chaosom) mikroskopických pohybov. To znamená, že zodpovedajúce stupne voľnosti musia byť ergodické. Fázový priestor informačného systému by sa teda mal rozvrstviť na ergodické a dynamické podsystémy. Takáto stratifikácia však nemôže byť vykonaná absolútne striktne, vždy sú navzájom spojené rôzne stupne voľnosti. Prejavuje sa to tým, že dynamické (informačné) stupne voľnosti kolíšu a existuje určitá pravdepodobnosť ich radikálnej zmeny (napríklad hod loptičky do inej jamky) vplyvom ergodického subsystému (tj teplotných výkyvov) .

V makroskopických informačných systémoch je táto pravdepodobnosť zanedbateľná, no v mikroskopických systémoch s ňou treba počítať. Podmienky multistacionárnosti a disipatívnosti teda nemôžu byť splnené absolútne striktne súčasne; sú voliteľné. To znamená, že podmienka „zapamätania“ nemôže byť absolútna, o zapamätávaní sa dá hovoriť len s určitou pravdepodobnosťou na určitý (nie nekonečne dlhý) čas. Inými slovami, informačný systém si nemôže pamätať navždy. V reálnych informačných systémoch charakteristický čas zapamätania závisí od ich konštrukcie, teploty a voľnej energie.

Vo svetle vyššie uvedeného sa otázka vzťahu medzi entropiou a informáciou ukazuje ako netriviálna. Fyzická entropia je logaritmus fázového objemu dostupného systému (berúc do úvahy konvenčnosť tohto konceptu - pozri vyššie), meraný v jednotkách, kde počet stupňov voľnosti a veľkosť minimálnej (kvantovej) bunky fázy priestor. Formálne môže byť entropia reprezentovaná ako

Množstvo je entropia, meraná v bitoch; počet buniek vo fázovom priestore. Na druhej strane informačná kapacita môže byť zapísaná vo forme

kde je veľkosť fázového priestoru jednej informačnej bunky. Porovnanie vzorcov (12.11) a (12.12) ukazuje, že entropia a informácie sa líšia koeficientom aj veľkosťou bunky.

Formálna zhoda (12.11) a (12.12) slúžila ako základ pre tvrdenie o identite pojmov informácia a entropia. Presnejšie povedané, tvrdí sa, že pri entropii chýbajú informácie o stave systému a (alebo) informácii chýba entropia, teda rozdiel medzi maximálnou entropiou, ktorá

by mal systém bez informácií a skutočnú entropiu, ktorú má systém, ktorý má prijaté informácie. V tejto súvislosti sa používa pojem neoentropia, ktorý sa považuje za identický s informáciou.

Mnohí však nie sú spokojní s týmito tvrdeniami a otázka vzťahu medzi informáciou a entropiou zostáva kontroverzná.

Poďme diskutovať o probléme podrobnejšie.

V prvom rade je zarážajúci veľký kvantitatívny rozdiel medzi informáciami obsiahnutými v systéme a jeho entropiou.

Blumenfeld (pozri [P61) na množstve biologických príkladov (bunka, organizmus atď.) ukázal, že entropia obsiahnutá v objekte je mnohonásobne (niekoľko rádov) vyššia ako informácie, ktoré má k dispozícii. V moderných neživých informačných systémoch je rozdiel ešte väčší (napr. v tlačenom texte entropia prevyšuje informáciu asi 1010-krát).

Takýto veľký kvantitatívny rozdiel nie je náhodný. Súvisí to so skutočnosťou, že objem fázového priestoru informačnej bunky je veľký v porovnaní s hodnotou informačnej bunky v dôsledku skutočnosti, že informačná bunka musí obsahovať ergodický subsystém, a preto zaberá veľkú (v porovnaní s jednotkovou bunkou) objem.

Rozdiel v mierkach entropie a informácie teda nie je náhodný, ale súvisí s ich zásadným rozdielom. Entropia je miera množiny tých stavov systému, v ktorých by mal systém zabudnúť. informácia je mierou množiny tých stavov, v ktorých si systém musí pamätať.

Pozrime sa, ako súvisia zmeny entropie a informácie na príklade čínskeho biliardu. Obmedzme naše úvahy na životnosť systému. Faktom je, že každý informačný systém, ktorý je nerovnovážny, sa uvoľňuje a kolabuje podľa štruktúrnych stupňov voľnosti, to znamená, že prestáva byť informačný.

Štrukturálny čas relaxácie je väčší (alebo rovný) času zapamätania. V našom príklade hovoríme o samovoľnom zničení bariér medzi otvormi; charakteristický čas tohto procesu je dostatočne dlhý. Počas tejto doby sa štrukturálne stupne voľnosti nemenia, preto neprispievajú k entropii. (Časť fázového priestoru spojená s týmito stupňami voľnosti je momentálne nedostupná.) V tomto prípade je entropia spojená iba so stupňami voľnosti, ktoré sa rýchlo uvoľňujú. Ich správanie nezávisí od toho, v ktorej z jamiek sa loptička nachádza a či je umiestnená v nejakej jamke alebo leží v jej blízkosti. Fyzická entropia systému je vo všetkých prípadoch rovnaká, ale množstvo informácií je odlišné: rovná sa nule, ak loptička nie je umiestnená v jamke, a rovná sa, ak leží v určitej jamke.

Proces prijímania informácií (v našom prípade umiestnenie loptičky do určitého otvoru) si vyžaduje vynaloženie práce, ktorá sa mení na teplo (inak by príjem nebol nezvratný). V dôsledku toho sa pri príjme fyzická entropia systému zvyšuje (o množstvo a súčasne

informácie pribúdajú (o množstvo Zvyčajne, ale inak nie sú nijako prepojené. Pri prijímaní informácií sa teda nedodržiava pomer.

V prípade objavenia sa nových informácií je situácia o niečo komplikovanejšia. Systém schopný generovať informáciu musí mať všetky vlastnosti informácie a navyše spĺňať podmienku: určitá vrstva jeho fázového priestoru musí byť zgodická, vrátane zvolených (informačných) stupňov voľnosti. Práve v tomto prípade sú nastavené počiatočné podmienky pre spontánne generovanie informácií.

Príkladom je rovnaký čínsky biliard s kolíkmi. Ak je najprv kinetická energia loptičky dostatočne veľká (viac prekážok medzi jamkami), potom sa loptička pohybuje po hracej ploche bez toho, aby uviazla v jamkách. Kvôli nestabilite odrazu od vláseniek (v sinajskom biliarde plnia úlohu konkávnych plôch, obr. 12.2) je pohyb gule stochastický a na počiatočné podmienky sa rýchlo zabúda. Keď sa kinetická energia zníži (v dôsledku disipability systému, v tomto prípade v dôsledku trenia a kolízií) na hodnotu rádovo výšky bariéry, loptička spadne do oblasti príťažlivosti jedného z otvorov a zostane v ňom. Takto sa vybraný stav „zapamätá“, čo je zrod informácie. Rovnaký princíp sa používa v rulete a iných hracích automatoch.

Vo všetkých týchto prípadoch je kritériom na oddelenie ergodickej vrstvy počiatočných podmienok od informačnej vrstvy hodnota počiatočnej voľnej energie (v biliarde je to kinetická energia lopty). Určuje tiež nárast entropie systému v procese generovania informácií. Odhadnime hodnotu Ak je informačná kapacita systému malá: potom hlavným obmedzením zdola je podmienka, kde je bariéra medzi dierami. Bariéry určujú čas „zapamätania“ podľa pomeru

Pre dostatočne veľkú (makroskopickú) hodnotu c je bariéra

V tomto prípade sa teda zvýšenie entropie na jeden bit informácie rovná

alebo v informačných jednotkách:

V prípade, že je informačná kapacita veľká (t. j. treba brať do úvahy ešte jednu podmienku: pred „vybraním“ určitého stavu musí systém aspoň raz navštíviť oblasť vplyvu každého z možných stavov .

Nechajte energiu rozptýliť sa pri prechode každého zo stavov. Minimálna hodnota je rádovo energie tepelných výkyvov: V tomto prípade je zdola obmedzená podmienkou

Nárast entropie na bit informácie sa rovná

V prípade, že sa objaví informácia, je potrebné za ňu „zaplatiť“ zvýšením entropie tak, aby však nenastali vzťahy typu „prírastok informácie sa rovná poklesu entropie“. aj v tomto prípade.

Poďme diskutovať o situácii, ktorá nastane, ak opustíme podmienku uchovávania informácií. V tomto prípade môžeme hovoriť o informáciách o okamžitých hodnotách súradníc a hybnosti všetkých atómov v systéme. Na odlíšenie týchto „informácií“ od skutočných (zapamätaných) Lizer navrhol termín mikroinformácie, zapamätané informácie sa označujú ako makroinformácie.

Ak je známe, že v danom momente sa systém nachádza v jednej (možnej) určitej bunke fázového priestoru, potom je množstvo mikroinformácií maximálne a rovná sa

V tomto prípade je entropia systému rovná nule, pretože všetky ostatné bunky v súčasnosti možno považovať za „neprístupné“.

Ak je známe, že v danom momente sa systém nachádza v niektorej z možných buniek, ale nie je známe v ktorej, potom sa mikroinformácia rovná nule a entropia je maximálna a rovná sa

Ak je známe, že v súčasnosti je systém v jednej (ktorejkoľvek) z buniek, potom

a medzi mikroinformáciami a entropiou existuje jednoduchý vzťah:

Mikroinformácie možno v zásade premeniť na makroinformácie ich prijatím iným informačným systémom. Napríklad fotografovaním vzoru Brownovho pohybu je možné zachytiť (zapamätať si) okamžité súradnice častíc na fotografický film. Tieto informácie potom možno použiť na akékoľvek (aj nesúvisiace s pohybom častíc)

Ciele. Dôležité je, že v tomto prípade treba v procese príjmu (premena mikroinformácií na makro-) vynaložiť prácu a zvýšiť entropiu celého systému o množstvo, ktoré zjavne prevyšuje množstvo uložených informácií.

Práve tento proces – premena mikroinformácií na makroinformácie a ich využitie na riadenie – je základom paradoxu s „Maxwellovým démonom“. Jeho riešením je, že proces prijímania mikroinformácií a ich využívania na riadenie je sprevádzaný nárastom entropie celého systému / prevyšovaním informácií.

V súvislosti s takým výrazným rozdielom medzi mikro a makroinformáciami sa používajú aj dva pojmy entropia. Spolu s fyzickou entropiou sa používa informačná entropia, ktorá je definovaná ako

kde je počet stacionárnych stabilných makrostavov, o ktorých je známe, že sa systém nachádza v jednom z nich (nie je však známe v ktorom).

Podľa definície informačná entropia súvisí s informáciou pomerom

Nárast informácie (pri jej zachovaní je vždy sprevádzaný rovnakým poklesom informačnej entropie. Termín Informačná entropia je vhodné použiť pri vzniku informácie a usporiadaní systému. Práve v tomto zmysle sa používa v Kapitola 2. Zdôrazňujeme, že s fyzikálnou entropiou táto veličina vo všeobecnosti nesúvisí.

Základom rozdielu medzi fyzikálnou entropiou a informáciou (kvalitatívne aj kvantitatívne) je teda podmienka zapamätania a z toho vyplývajúci veľký objem fázového priestoru informačnej bunky v porovnaní s elementárnou.

Je zaujímavé odhadnúť veľkosť "zásoby". Vo všeobecnosti je to teraz ťažké. Možno si však myslieť, že optimálna veľkosť bola realizovaná v živej prírode (teda minimálna, ale vyhovujúca požiadavkám). Dá sa odhadnúť pomocou skutočných údajov.

V molekule DNA je bunka obsahujúca dva bity informácií párom komplementárnych nukleotidov. Obsahuje asi atómov. Entropia spojená s vibračnými stupňami voľnosti je trochu alebo entropia na bit informácie je asi 60 bitov. Objem fázového priestoru na bit sa teda rovná