Ruské kódy znakov ASCII. Kódovanie ASCII (americký štandardný kód pre výmenu informácií) - základné kódovanie textu pre latinku

  • 02.08.2019

Unicode (v angličtine Unicode) je štandard kódovania znakov. Jednoducho povedané, ide o tabuľku zhody textových znakov (, písmen, interpunkčné prvky) binárne kódy. Počítač rozumie len postupnosti núl a jednotiek. Aby vedel, čo presne má na obrazovke zobraziť, je potrebné priradiť každej postave jedinečné číslo. V osemdesiatych rokoch sa znaky kódovali do jedného bajtu, teda do ôsmich bitov (každý bit je 0 alebo 1). Ukázalo sa teda, že jedna tabuľka (aka kódovanie alebo sada) môže obsahovať iba 256 znakov. To nemusí stačiť ani na jeden jazyk. Preto sa objavilo veľa rôznych kódovaní, zmätok, ktorý často viedol k tomu, že namiesto čitateľného textu sa na obrazovke objavili nejaké zvláštne krakozyabry. Bol potrebný jeden štandard, ktorý sa stal Unicode. Najpoužívanejšie kódovanie je UTF-8 (Unicode Transformation Format), ktoré používa 1 až 4 bajty na zobrazenie znaku.

Symboly

Znaky v tabuľkách Unicode sú číslované hexadecimálnymi číslami. Napríklad veľké písmeno M v cyrilike je označené U + 041C. To znamená, že stojí na priesečníku čiary 041 a stĺpca C. Môžete ho jednoducho skopírovať a potom niekam prilepiť. Aby ste sa nehrabali v niekoľkokilometrovom zozname, mali by ste použiť vyhľadávanie. Keď prejdete na stránku so symbolom, uvidíte jeho číslo v kóde Unicode a spôsob, akým je nakreslený rôznymi typmi písma. Samotný znak môžete tiež zatlačiť do vyhľadávacieho panela, aj keď je namiesto neho nakreslený štvorec, aspoň aby ​​ste zistili, čo to bolo. Na tejto stránke sú na uľahčenie používania aj špeciálne (a - náhodné) sady ikon rovnakého typu, zhromaždené z rôznych sekcií.

Štandard Unicode je medzinárodný. Obsahuje znaky z takmer všetkých skriptov na svete. Vrátane tých, ktoré sa už nepoužívajú. Egyptské hieroglyfy, germánske runy, mayské písmo, klinové písmo a abecedy starovekých štátov. Prezentované a označovanie mier a váh, notový zápis, matematické pojmy.

Samotné Unicode Consortium nevymýšľa nové postavy. Do tabuliek sa pridávajú tie ikony, ktoré nachádzajú svoje uplatnenie v spoločnosti. Napríklad znak rubľa sa pred pridaním do Unicode aktívne používal šesť rokov. Piktogramy emotikony (emotikony) boli tiež prvýkrát široko používané v Japonsku a predtým, ako boli zahrnuté do kódovania. Ochranné známky a logá spoločností sa však v zásade nepridávajú. Dokonca také bežné ako jablko Apple alebo vlajka Windowsu. Dnes je vo verzii 8.0 zakódovaných asi 120 tisíc znakov.

Ako viete, počítač ukladá informácie v binárnej forme a predstavuje ich ako postupnosť jednotiek a núl. Aby sa informácie previedli do formy, ktorá je vhodná pre ľudské vnímanie, každá jedinečná sekvencia čísel sa pri zobrazení nahradí zodpovedajúcim symbolom.

Jedným zo systémov na koreláciu binárnych kódov s tlačiteľnými a riadiacimi znakmi je

Pri súčasnej úrovni rozvoja výpočtovej techniky sa od používateľa nevyžaduje poznať kód každého špecifického symbolu. Všeobecné pochopenie toho, ako sa kódovanie vykonáva, je však mimoriadne užitočné a pre niektoré kategórie špecialistov dokonca nevyhnutné.

vytváranie ASCII

Vo svojej pôvodnej podobe bolo kódovanie vyvinuté v roku 1963 a potom dvakrát aktualizované v priebehu 25 rokov.

V pôvodnej verzii ASCII znaková tabuľka obsahovala 128 znakov, neskôr sa objavila rozšírená verzia, kde bolo uložených prvých 128 znakov a dovtedy chýbajúce znaky boli priradené kódom so zapojeným ôsmym bitom.

Po mnoho rokov je toto kódovanie najpopulárnejšie na svete. V roku 2006 zaujal vedúcu pozíciu Latin 1252 a od konca roku 2007 až do súčasnosti si vedúcu pozíciu pevne drží Unicode.

Počítačová reprezentácia ASCII

Každý znak ASCII má svoj vlastný kód pozostávajúci z 8 znakov, ktoré predstavujú nulu alebo jednotku. Minimálne číslo v takejto reprezentácii je nula (osem núl v dvojkovej sústave), čo je kód prvého prvku v tabuľke.

Dva kódy v tabuľke boli vyhradené na prepínanie medzi štandardným US-ASCII a jeho národnou verziou.

Potom, čo ASCII začalo obsahovať nie 128, ale 256 znakov, sa rozšíril variant kódovania, v ktorom bola pôvodná verzia tabuľky uložená v prvých 128 kódoch s nulovým 8. bitom. Znaky národného písma sa držali v hornej polovici tabuľky (pozície 128-255).

Používateľ nemusí poznať kódy znakov ASCII priamo. Zvyčajne stačí, aby vývojár softvéru poznal číslo prvku v tabuľke, aby v prípade potreby vypočítal jeho kód pomocou binárneho systému.

ruský jazyk

Po vývoji kódovania pre škandinávske jazyky, čínštinu, kórejčinu, gréčtinu atď. na začiatku 70. rokov začal svoju vlastnú verziu vytvárať aj Sovietsky zväz. Čoskoro bola vyvinutá verzia 8-bitového kódovania s názvom KOI8, ktorá zachováva prvých 128 kódov znakov ASCII a prideľuje rovnaký počet pozícií pre písmená národnej abecedy a ďalšie znaky.

Pred zavedením Unicode dominoval KOI8 v ruskom segmente internetu. K dispozícii boli možnosti kódovania pre ruskú aj ukrajinskú abecedu.

Problémy ASCII

Keďže počet prvkov ani v rozšírenej tabuľke nepresahoval 256, nebolo možné umiestniť niekoľko rôznych skriptov do jedného kódovania. V 90. rokoch sa v Runete objavil problém „crocozyabr“, keď sa texty napísané v ruských znakoch ASCII zobrazovali nesprávne.

Problém bol v tom, že kódy rôznych ASCII variantov sa navzájom nezhodovali. Pripomeňme, že pozície 128-255 mohli obsahovať rôzne znaky a pri zmene jedného kódovania cyriliky na iné boli všetky písmená textu nahradené inými, ktoré mali rovnaké číslo v inej verzii kódovania.

Aktuálny stav

S príchodom Unicode popularita ASCII prudko klesla.

Dôvodom je skutočnosť, že nové kódovanie umožnilo prispôsobiť znaky takmer všetkých písaných jazykov. V tomto prípade prvých 128 znakov ASCII zodpovedá rovnakým znakom v Unicode.

V roku 2000 bolo ASCII najpopulárnejším kódovaním na internete a používalo sa na 60 % webových stránok indexovaných spoločnosťou Google. Do roku 2012 podiel takýchto stránok klesol na 17 % a Unicode (UTF-8) zaujalo miesto najobľúbenejšieho kódovania.

ASCII je teda dôležitou súčasťou histórie informačných technológií, no jej využitie v budúcnosti sa javí ako neperspektívne.

Počítač rozumie procesu svojej transformácie do formy, ktorá umožňuje organizovať pohodlnejší prenos, ukladanie alebo automatické spracovanie týchto údajov. Na tento účel sa používajú rôzne tabuľky. Kódovanie ASCII je prvý systém vyvinutý v Spojených štátoch na prácu s textom v anglickom jazyku, ktorý sa následne rozšíril po celom svete. Nasledujúci článok je venovaný jeho popisu, vlastnostiam, vlastnostiam a ďalšiemu použitiu.

Zobrazenie a ukladanie informácií v počítači

Symboly na monitore počítača alebo ten či onen mobilný digitálny prístroj sú tvorené na základe súborov vektorových foriem všetkých druhov znakov a kódu, ktorý vám umožňuje nájsť medzi nimi symbol, ktorý je potrebné vložiť na správne miesto. Je to séria bitov. Každý znak teda musí jednoznačne zodpovedať množine núl a jednotiek, ktoré stoja v špecifickom, jedinečnom poradí.

Ako to všetko začalo

Historicky prvé počítače boli v angličtine. Na zakódovanie symbolickej informácie v nich stačilo použiť iba 7 bitov pamäte, pričom na tento účel bol pridelený 1 bajt, pozostávajúci z 8 bitov. Počet znakov, ktorým počítač rozumel, sa v tomto prípade rovnal 128. Počet takýchto znakov zahŕňal anglickú abecedu s jej interpunkčnými znamienkami, číslami a niektorými špeciálnymi znakmi. Sedembitové kódovanie v anglickom jazyku s príslušnou tabuľkou (kódovou stránkou), vyvinuté v roku 1963, dostalo názov American Standard Code for Information Interchange. Zvyčajne sa na jeho označenie používala skratka „ASCII encoding“ a používa sa dodnes.

Prechod k viacjazyčnosti

Postupom času sa počítače začali vo veľkej miere používať aj v neanglicky hovoriacich krajinách. V tejto súvislosti vznikla potreba kódovania, ktoré by umožňovalo používanie národných jazykov. Bolo rozhodnuté znovu nevynájsť koleso a ako základ použiť ASCII. Tabuľka kódovania v novom vydaní sa výrazne rozšírila. Použitie 8. bitu umožnilo preložiť do počítačového jazyka 256 znakov.

Popis

Kódovanie ASCII má tabuľku, ktorá je rozdelená na 2 časti. Len prvá polovica sa považuje za všeobecne uznávaný medzinárodný štandard. Obsahuje:

  • Znaky s radovými číslami od 0 do 31, kódované postupnosťami od 00000000 do 00011111. Sú vyhradené pre riadiace znaky, ktoré riadia proces zobrazovania textu na obrazovke alebo tlačiarni, vydávania zvukového signálu atď.
  • Znaky s NN v tabuľke od 32 do 127, kódované sekvenciami od 00100000 do 01111111, tvoria štandardnú časť tabuľky. Patria sem medzera (N 32), písmená latinskej abecedy (malé a veľké), desaťmiestne čísla od 0 do 9, interpunkčné znamienka, zátvorky rôznych štýlov a iné symboly.
  • Znaky s poradovými číslami od 128 do 255, zakódované postupnosťami od 10000000 do 11111111. Patria sem písmená národných abecied iných ako latinka. Práve táto alternatívna časť tabuľky sa používa v kódovaní ASCII na prevod ruských znakov do počítačovej podoby.

Niektoré vlastnosti

K zvláštnostiam kódovania ASCII patrí rozdiel medzi písmenami „A“ – „Z“ malých a veľkých písmen len o jeden bit. Táto okolnosť značne zjednodušuje prevod registra, ako aj jeho kontrolu príslušnosti k určenému rozsahu hodnôt. Okrem toho sú všetky písmená v systéme kódovania ASCII reprezentované vlastnými poradovými číslami v abecede, ktoré sú zapísané 5 číslicami v binárnom zápise, pred ktorými sú 011 2 pre malé písmená a 010 2 pre veľké písmená.

Medzi vlastnosti kódovania ASCII možno považovať zobrazenie 10 číslic - "0" - "9". V druhom číselnom systéme začínajú 00112 a končia 2 číslami. Napríklad 0101 2 je ekvivalentné desiatkovej päťke, takže znak „5“ sa zapíše ako 0011 01012. Na základe toho môžete jednoducho previesť BCD na reťazec ASCII pridaním 00112 ku každému kúsku naľavo.

"Unicode"

Ako viete, na zobrazenie textov v jazykoch skupiny juhovýchodnej Ázie sú potrebné tisíce znakov. Takýto počet z nich nie je v žiadnom prípade opísaný v jednom byte informácií, takže ani rozšírené verzie ASCII už nedokázali uspokojiť zvýšené potreby používateľov z rôznych krajín.

Vznikla tak potreba vytvoriť univerzálne kódovanie textu, ktoré vyvinulo konzorcium Unicode v spolupráci s mnohými lídrami globálneho IT priemyslu. Jeho špecialisti vytvorili systém UTF 32. V ňom bolo na kódovanie 1 znaku alokovaných 32 bitov, ktoré tvorili 4 bajty informácie. Hlavnou nevýhodou bolo prudké zvýšenie množstva potrebnej pamäte až o 4-násobok, čo prinieslo veľa problémov.

Zároveň pre väčšinu krajín s úradnými jazykmi patriacimi do indoeurópskej skupiny je počet znakov rovný 2 32 viac ako nadbytočný.

V dôsledku ďalšej práce špecialistov z konzorcia Unicode sa objavilo kódovanie UTF-16. Stal sa možnosťou transformácie symbolických informácií, ktorá vyhovovala každému tak z hľadiska množstva potrebnej pamäte, ako aj počtu kódovaných znakov. To je dôvod, prečo bol štandardne akceptovaný UTF-16 a vyžaduje, aby boli pre jeden znak vyhradené 2 bajty.

Aj táto pomerne pokročilá a úspešná verzia „Unicode“ mala určité nedostatky a po prechode z rozšírenej verzie ASCII na UTF-16 zdvojnásobila váhu dokumentu.

V tejto súvislosti sa rozhodlo použiť kódovanie s premennou dĺžkou UTF-8. V tomto prípade je každý znak zdrojového textu zakódovaný sekvenciou s dĺžkou 1 až 6 bajtov.

Vzťah s americkým štandardným kódom pre výmenu informácií

Všetky znaky latinskej abecedy v UTF-8 s premenlivou dĺžkou sú zakódované do 1 bajtu, ako v systéme kódovania ASCII.

Zvláštnosťou UTP-8 je, že v prípade textu v latinke bez použitia iných znakov vám ho stále umožnia prečítať aj programy, ktoré nerozumejú Unicode. Inými slovami, základná časť kódovania textu ASCII je jednoducho zlúčená do nového UTF s premenlivou dĺžkou. Cyrilické znaky v UTP-8 zaberajú 2 bajty a napríklad gruzínske - 3 bajty. Vytvorenie UTF-16 a 8 vyriešilo hlavný problém vytvorenia jednotného kódového priestoru vo fontoch. Odvtedy môžu výrobcovia písiem vyplniť tabuľku len vektorovými formami textových znakov podľa svojich potrieb.

V rôznych operačných systémoch sú preferované rôzne kódovania. Aby bolo možné čítať a upravovať texty napísané v inom kódovaní, používajú sa programy na konverziu ruského textu. Niektoré textové editory obsahujú vstavané transkodéry a umožňujú vám čítať text bez ohľadu na kódovanie.

Teraz viete, koľko znakov je v ASCII a ako a prečo bol vyvinutý. Samozrejme, dnes je najrozšírenejším štandardom na svete „Unicode“. Netreba však zabúdať, že bol vytvorený na báze ASCII, preto treba oceniť prínos jeho vývojárov do oblasti IT.

Pripomeňme si niektoré fakty, ktoré poznáme:

Súbor symbolov, pomocou ktorých sa píše text, sa nazýva abeceda.

Počet znakov v abecede je jej mohutnosť.

Vzorec na určenie množstva informácií: N = 2 b,

kde N je mohutnosť abecedy (počet znakov),

b - počet bitov (informačná váha znaku).

Do abecedy s kapacitou 256 znakov sa zmestia takmer všetky potrebné znaky. Takáto abeceda sa nazýva dostatočná.

Pretože 256 = 28 , potom je váha 1 znaku 8 bitov.

8-bitová jednotka bola pomenovaná 1 bajt:

1 bajt = 8 bitov.

Binárny kód každého znaku v počítačovom texte zaberá 1 bajt pamäte.

Ako sú textové informácie reprezentované v pamäti počítača?

Kódovanie znamená, že každému znaku je priradený jedinečný desiatkový kód od 0 do 255 alebo zodpovedajúci binárny kód od 00000000 do 11111111. Človek teda rozlišuje znaky podľa ich štýlu a počítač podľa ich kódu.

Pohodlie bajtového kódovania znakov je zrejmé, pretože bajt je najmenšia adresovateľná časť pamäte, a preto môže procesor pristupovať ku každému znaku samostatne a vykonávať spracovanie textu. Na druhej strane, 256 znakov je celkom postačujúce číslo na reprezentáciu širokej škály informácií o znakoch.

Teraz vyvstáva otázka, aký druh osembitového binárneho kódu priradiť ku každému znaku.

Je jasné, že ide o podmienenú záležitosť, môžete prísť s mnohými metódami kódovania.

ASCII tabuľka sa stala medzinárodným štandardom pre PC (čítaj asci) (Americký štandardný kód pre výmenu informácií).

Medzinárodným štandardom je len prvá polovica tabuľky, t.j. znaky s číslami od 0 (00000000) do 127 (01111111).

Sériové číslo

Symbol

00000000 - 00011111


Ich funkciou je riadenie procesu zobrazovania textu na obrazovke alebo tlače, vydávania zvukového signálu, označovania textu atď.

32 - 127

00100000 - 01111111


128 - 255

10000000 - 11111111


Druhá polovica tabuľky kódov ASCII, nazývaná kódová stránka (128 kódov, počnúc 10000000 a končiac 11111111), môže mať rôzne varianty, pričom každý variant má svoje vlastné číslo.


Upozorňujem na skutočnosť, že v tabuľke kódovania sú písmená (veľké a malé písmená) usporiadané v abecednom poradí a čísla sú usporiadané vo vzostupnom poradí hodnôt. Toto dodržiavanie lexikografického poriadku v usporiadaní znakov sa nazýva princíp sekvenčného kódovania abecedy.


V súčasnosti je najbežnejším kódovaním Microsoft Windows, skrátene CP1251.

Od konca 90. rokov sa problém štandardizácie kódovania znakov rieši zavedením nového medzinárodného štandardu s názvom Unicode. ... Ide o 16-bitové kódovanie t.j. každému znaku prideľuje 2 bajty pamäte. Tým sa samozrejme zdvojnásobí množstvo použitej pamäte. Ale na druhej strane takáto kódová tabuľka umožňuje zahrnúť až 65536 znakov. Kompletná špecifikácia štandardu Unicode zahŕňa všetky existujúce, zaniknuté a umelo vytvorené abecedy sveta, ako aj mnohé matematické, hudobné, chemické a iné symboly.

Skúsme si pomocou tabuľky ASCII predstaviť, ako budú slová vyzerať v pamäti počítača.

Slová

Pamäť

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Pri zadávaní textových informácií do počítača sa znaky (písmená, čísla, znaky) kódujú pomocou rôznych kódovacích systémov, ktoré pozostávajú zo sady kódových tabuliek umiestnených na príslušných stránkach noriem pre kódovanie textových informácií. V takýchto tabuľkách je každému znaku priradený špecifický číselný kód v hexadecimálnom alebo desiatkovom zápise, to znamená, že kódové tabuľky odrážajú zhodu medzi obrázkami znakov a číselnými kódmi a sú určené na kódovanie a dekódovanie textových informácií. Pri zadávaní textových informácií pomocou klávesnice počítača sa každý vstupný znak zakóduje, to znamená, že sa prevedie na číselný kód; keď sa textová informácia vypíše na výstupné zariadenie počítača (displej, tlačiareň alebo ploter), vytvorí sa jeho obraz pomocou číselný kód znaku. Priradenie špecifického číselného kódu k symbolu je výsledkom dohody medzi príslušnými organizáciami v rôznych krajinách. V súčasnosti neexistuje jednotná univerzálna kódová tabuľka, ktorá by vyhovovala písmenám národných abecied rôznych krajín.

Moderné tabuľky kódov zahŕňajú medzinárodné a národné časti, to znamená, že obsahujú písmená latinskej a národnej abecedy, čísla, znaky aritmetických operácií a interpunkcie, matematické a riadiace znaky, pseudografické symboly. Medzinárodná časť tabuľky kódov na základe normy ASCII (americký štandardný kód pre výmenu informácií), zakóduje prvú polovicu znakov tabuľky kódov číselnými kódmi 0 až 7 F 16, alebo v desiatkovom zápise od 0 do 127. Funkčným klávesom (F1, F2, F3 atď.) klávesnice PC sú priradené kódy od 0 do 20 16 (0? 32 10). Na obr. 3.1 ukazuje medzinárodnú časť kódových tabuliek na základe normy ASCII. Bunky tabuľky sú očíslované v desiatkovej a šestnástkovej sústave.

Obr. 3.1. Medzinárodná časť tabuľky kódov (štandard ASCII) s číslami buniek v desiatkovom (a) a hexadecimálnom (b) číselnom systéme


Národná časť tabuliek kódov obsahuje kódy národných abecied, ktoré sa nazývajú aj tabuľka znakovej sady. (znaková sada).

V súčasnosti na podporu písmen ruskej abecedy (cyrilika) existuje niekoľko kódových tabuliek (kódovaní), ktoré používajú rôzne operačné systémy, čo je značná nevýhoda a v niektorých prípadoch vedie k problémom spojeným s operáciami dekódovania čísel. hodnoty znakov. Tabuľka 3.1 uvádza názvy kódových stránok (noriem), na ktorých sa nachádzajú kódové tabuľky (kódovania) azbuky.

Tabuľka 3.1

Jedným z prvých štandardov pre kódovanie azbuky na počítačoch bol štandard KOI8-R. Národná časť tabuľky kódov pre túto normu je znázornená na obr. 3.2.

Ryža. 3.2. Národná časť kódovej tabuľky normy KOI8-R


V súčasnosti sa používa aj kódová tabuľka umiestnená na stránke CP866 štandardu pre kódovanie textových informácií používaných v operačnom systéme. MS DOS alebo reláciu MS DOS na zakódovanie azbuky (obr. 3.3, a).

Ryža. 3.3. Národná časť tabuľky kódov, ktorá sa nachádza na strane CP866 (a) a na strane CP1251 (b) štandardu kódovania textových informácií


V súčasnosti sa najpoužívanejšia kódová tabuľka na kódovanie cyriliky nachádza na stránke CP1251 zodpovedajúceho štandardu, ktorý sa používa v operačných systémoch rodiny Windows firmy Microsoft(obr. 3.2, b). Vo všetkých uvedených tabuľkách kódov, okrem štandardnej tabuľky Unicode, Na zakódovanie jedného znaku je priradených 8 binárnych číslic (8 bitov).

Koncom minulého storočia sa objavil nový medzinárodný štandard Unicode, v ktorej je jeden znak reprezentovaný dvojbajtovým binárnym kódom. Aplikácia tohto štandardu je pokračovaním vývoja univerzálneho medzinárodného štandardu, ktorý umožňuje riešiť problém kompatibility kódovania národných znakov. Pomocou tohto štandardu je možné zakódovať 2 16 = 65536 rôznych znakov. Na obr. 3.4 je kódová tabuľka 0400 (ruská abeceda) normy Unicode.

Ryža. 3.4. Tabuľka kódov 0400 štandardu Unicode


Objasnime to, čo bolo povedané o kódovaní textových informácií, na príklade.

Príklad 3.1

Zakódujte slovo „Počítač“ ako postupnosť desiatkových a hexadecimálnych čísel pomocou kódovania CP1251. Aké znaky sa zobrazia v tabuľkách kódov CP866 a KOI8-R pri použití prijatého kódu.

Sekvencie hexadecimálnych a binárnych kódov slova „Počítač“ na základe kódovacej tabuľky CP1251 (pozri obr. 3.3, b) bude vyzerať takto:

Výsledkom tejto kódovej sekvencie v kódovaní CP866 a KOI8-R bude zobrazenie nasledujúcich znakov:

Na prevod textových dokumentov v ruskom jazyku z jedného štandardu kódovania textu na druhý sa používajú špeciálne programy - konvertory. Prevodníky sú zvyčajne zabudované do iných programov. Príkladom môže byť prehliadač - Internet Explorer (IE), ktorý má zabudovaný prevodník. Program prehliadača je špeciálny program na prezeranie obsahu internetové stránky v globálnej počítačovej sieti Internet. Pomocou tohto programu potvrdíme výsledok zobrazenia symbolov získaných v príklade 3.1. Za týmto účelom vykonáme nasledujúce akcie.

1. Spustite program Poznámkový blok (Poznámkový blok). Program Poznámkový blok v operačnom systéme Windows XP sa spustí príkazom: [Tlačidlo Štart- Programy - Štandardné - Poznámkový blok]. V otvorenom okne programu Poznámkový blok zadajte slovo „Počítač“ pomocou syntaxe značkovacieho jazyka hypertextových dokumentov - HTML (Hyper Text Markup Language). Tento jazyk sa používa na vytváranie dokumentov na internete. Text by mal vyzerať takto:

Compywater

, kde

a

tagy (špeciálne konštrukcie) jazyka Html na označenie hlavičiek. Na obr. 3.5 ukazuje výsledok týchto akcií.

Ryža. 3.5. Zobrazenie textu v okne programu Poznámkový blok


Tento text uložíme vykonaním príkazu: [Súbor - Uložiť ako ...] v príslušnom priečinku počítača, pri ukladaní textu priradíme súboru názov - Pribl s príponou súboru. html.

2. Spustite program Internet Explorer, vykonaním príkazu: [Tlačidlo Štart- Programy - Internet Explorer]. Po spustení programu sa zobrazí okno zobrazené na obr. 3.6

Ryža. 3.6. Offline prístupové okno


Vyberte a aktivujte tlačidlo Offline v tomto prípade nebude počítač pripojený ku globálnemu internetu. Zobrazí sa hlavné okno programu Microsoft Internet Explorer, znázornené na obr. 3.7.

Ryža. 3.7. Hlavné okno programu Microsoft Internet Explorer


Spustite nasledujúci príkaz: [Súbor - Otvoriť], zobrazí sa okno (obr. 3.8), v ktorom musíte zadať názov súboru a kliknúť OK alebo stlačte tlačidlo Prehľad… a nájdite súbor App.html.

Ryža. 3.8. Otvoriť okno


Hlavné okno programu Internet Explorer bude mať podobu znázornenú na obr. 3.9. V okne sa zobrazí slovo „Počítač“. Ďalej pomocou horného menu programu Internet Explorer, vykonajte nasledujúci príkaz: [View - Encoding - Cyrillic (DOS)]. Po vykonaní tohto príkazu v okne programu Internet Ехplorer symboly zobrazené na obr. 3.10. Pri vykonávaní príkazu: [View - Encoding - Cyrillic (KOI8-R)] v okne programu internet Explorer symboly zobrazené na obr. 3.11.

Ryža. 3.9. Znaky zobrazené pri kódovaní CP1251


Ryža. 3.10. Znaky zobrazené, keď je povolené kódovanie CP866 pre sekvenciu kódov reprezentovanú v kódovaní CP1251


Ryža. 3.11. Znaky zobrazené, keď je zapnuté kódovanie KOI8-R pre kódovú sekvenciu reprezentovanú v kódovaní CP1251


Takto získané s programom internet Explorer sekvencie znakov sa zhodujú so sekvenciami znakov získanými pomocou tabuliek kódov CP866 a KOI8-R v príklade 3.1.

3.2. Grafické kódovanie informácií

Grafické informácie prezentované vo forme kresieb, fotografií, diapozitívov, pohyblivých obrázkov (animácia, video), diagramov, kresieb je možné vytvárať a upravovať pomocou počítača, pričom sú vhodne zakódované. V súčasnosti existuje pomerne veľké množstvo aplikácií na spracovanie grafických informácií, ale všetky implementujú tri typy počítačovej grafiky: rastrová, vektorová a fraktálna.

Ak sa bližšie pozriete na grafický obrázok na obrazovke monitora počítača, môžete vidieť veľké množstvo viacfarebných bodov (pixelov - z angličtiny. pixel, vzdelaný z obrazový prvok - obrazový prvok), ktoré po zložení tvoria daný grafický obrázok. Z toho môžeme vyvodiť záver: grafický obrázok v počítači je určitým spôsobom zakódovaný a musí byť prezentovaný vo forme grafického súboru. Súbor je hlavnou štrukturálnou jednotkou organizácie a ukladania údajov v počítači av tomto prípade by mal obsahovať informácie o tom, ako reprezentovať túto množinu bodov na obrazovke monitora.

Súbory vytvorené na základe vektorovej grafiky obsahujú informácie vo forme matematických závislostí (matematické funkcie popisujúce lineárne vzťahy) a príslušné údaje o tom, ako zostrojiť obraz objektu pomocou úsečiek (vektorov), keď je zobrazený na monitore počítača. .

Súbory vytvorené na základe rastrovej grafiky predpokladajú uloženie údajov o každom jednotlivom bode na obrázku. Na zobrazenie rastrovej grafiky nie sú potrebné zložité matematické výpočty, stačí získať údaje o každom bode obrázka (jeho súradnice a farbu) a zobraziť ich na obrazovke počítača.

V procese kódovania obrazu sa vykonáva jeho priestorové vzorkovanie, to znamená, že obraz je rozdelený na samostatné body a každému bodu je priradený farebný kód (žltá, červená, modrá atď.). Na zakódovanie každého bodu farebného grafického obrázku sa uplatňuje princíp rozkladu ľubovoľnej farby na jej hlavné zložky, ktorými sú tri základné farby: červená (anglické slovo červená, označovať písmenom TO), zelená (Zelená, označovať písmenom G), Modrá (Modrá, označovať bukom V). Akákoľvek bodová farba vnímaná ľudským okom môže byť získaná aditívnym (proporcionálnym) pridaním (zmiešaním) troch základných farieb – červenej, zelenej a modrej. Tento kódovací systém sa nazýva farebný systém. RGB. Grafické súbory, ktoré používajú systém farieb RGB, predstavujú každý bod obrázku ako trojica farieb - tri číselné hodnoty R, G a V, zodpovedajúce intenzite červenej, zelenej a modrej farby. Proces kódovania grafického obrazu sa uskutočňuje pomocou rôznych technických prostriedkov (skener, digitálny fotoaparát, digitálna videokamera atď.); výsledkom je bitmapa. Pri reprodukcii farebnej grafiky na farebnom monitore počítača sa farba každého bodu (pixelu) takéhoto obrázka získa zmiešaním troch základných farieb. R, G a B.

Kvalitu rastrového obrázku určujú dva hlavné parametre – rozlíšenie (počet bodov horizontálne a vertikálne) a použitá farebná paleta (počet špecifikovaných farieb pre každý bod obrázku). Rozlíšenie sa nastavuje určením počtu bodov horizontálne a vertikálne, napríklad 800 x 600 bodov.

Existuje vzťah medzi počtom farieb špecifikovaných pre bod v rastrovom obrázku a množstvom informácií, ktoré je potrebné vybrať na uloženie farby bodu, ktorý je určený vzťahom (vzorec R. Hartleyho):

kde ja- množstvo informácií; N - počet farieb daný bodu.

Množstvo informácií potrebných na uloženie farby bodu sa tiež nazýva farebná hĺbka alebo kvalita farieb.

Takže, ak je počet farieb určený pre bod obrázka N = 256, potom sa množstvo informácií potrebných na ich uloženie (farebná hĺbka) v súlade so vzorcom (3.1) bude rovnať ja= 8 bitov.

Počítače používajú na zobrazenie grafických informácií rôzne režimy grafického zobrazenia. Tu treba poznamenať, že okrem grafického režimu monitora existuje aj textový režim, v ktorom je obrazovka monitora konvenčne rozdelená na 25 riadkov po 80 znakov na riadok. Tieto grafické režimy sa vyznačujú rozlíšením obrazovky monitora a kvalitou farieb (farebná hĺbka). Nastavenie grafického režimu obrazovky monitora v operačnom systéme MS Windows XP musíte vykonať príkaz: [Tlačidlo Štart- Nastavenia - Ovládací panel - Obrazovka]. V dialógovom okne „Vlastnosti: Zobrazenie“, ktoré sa zobrazí (obr. 3.12), vyberte kartu „Parametre“ a pomocou posúvača „Rozlíšenie obrazovky“ vyberte príslušné rozlíšenie obrazovky (800 x 600 pixelov, 1024 x 768 pixelov atď.). ). Pomocou rozbaľovacieho zoznamu "Kvalita farieb" môžete vybrať farebnú hĺbku - "Najvyššia (32 bit)", "Stredná (16 bit)" atď., pričom počet farieb priradených ku každému bodu na obrázku bude sa rovná 2 32 (4294967296), 2 16 (65536) atď.

Ryža. 3.12. Dialógové okno Vlastnosti zobrazenia


Na implementáciu každého z grafických režimov obrazovky monitora je potrebný určitý informačný objem videopamäte počítača. Požadovaný informačný objem video pamäte (V) sa určuje zo vzťahu

kde TO - počet obrazových bodov na obrazovke monitora (K = A. B); A - počet vodorovných bodov na obrazovke monitora; V - počet vertikálnych bodov na obrazovke monitora; ja- množstvo informácií (farebná hĺbka).

Takže, ak má obrazovka monitora rozlíšenie 1024 x 768 pixelov a paletu pozostávajúcu zo 65 536 farieb, potom farebná hĺbka v súlade so vzorcom (3.1) bude I = log 2 65 538 = 16 bitov, počet obrázkov body sa budú rovnať: K = 1024 x 768 = 786432 a požadovaný informačný objem videopamäte v súlade s (3.2) sa bude rovnať

V = 786432 16 bitov = 12582912 bitov = 1572864 bajtov = 1536 KB = 1,5 MB.

Na záver treba poznamenať, že okrem uvedených charakteristík sú najdôležitejšími charakteristikami monitora geometrické rozmery jeho obrazovky a obrazové body. Geometrické rozmery obrazovky sú dané uhlopriečkou monitora. Veľkosť uhlopriečky monitorov sa udáva v palcoch (1 palec = 1 "= 25,4 mm) a môže nadobudnúť hodnoty rovné: 14", 15", 17", 21" atď. Moderné technológie výroby monitorov môžu poskytnúť veľkosť pixelu 0,22 mm.

Pre každý monitor teda existuje fyzicky maximálne možné rozlíšenie obrazovky, ktoré je dané veľkosťou jeho uhlopriečky a veľkosťou obrazového bodu.

Cvičenie na sebarealizáciu

1.Pomocou programu MS Excel previesť tabuľky kódov ASCII, CP866, CP1251, KOI8-R na tabuľky formulára: do buniek prvého stĺpca tabuliek napíšte v abecednom poradí veľké a potom malé písmená latinky a cyriliky, do buniek druhého stĺpca - kódy zodpovedajúce písmenám v desiatkovej číselnej sústave, v bunkách tretí stĺpec - písmená zodpovedajúce kódom v šestnástkovej číselnej sústave. Hodnoty kódu sa musia vybrať z príslušných tabuliek kódov.

2. Zakódujte a zapíšte nasledujúce slová ako postupnosť čísel v desiatkovej a šestnástkovej sústave:

a) Internet Explorer, b) Microsoft Office; v) CorelDRAW.

Vykonajte kódovanie pomocou modernizovanej kódovacej tabuľky ASCII získanej v predchádzajúcom cvičení.

3. Dekódujte postupnosti čísel zapísaných v hexadecimálnej číselnej sústave pomocou modernizovanej kódovacej tabuľky KOI8-R:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Ako bude vyzerať slovo „Kybernetika“ napísané v kódovaní CP1251 pri použití kódovania CP866 a KOI8-R? Skontrolujte výsledky získané pomocou programu Internet Explorer.

5. Pomocou kódovej tabuľky znázornenej na obr. 3.1 a, dekódujte nasledujúce kódové sekvencie napísané v binárnom zápise:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Určite informačný objem slova „Economy“ zakódovaného pomocou kódových tabuliek CP866, CP1251, Unicode a KOI8-R.

7. Určte informačný objem súboru získaného skenovaním farebného obrázka 12x12 cm Rozlíšenie skenera použitého na skenovanie tohto obrázka je 600 dpi. Skener nastaví pixelovú farebnú hĺbku obrázka na 16 bitov.

Rozlíšenie skenera 600 dpi (bodový palec - bodov na palec) určuje schopnosť skenera s takýmto rozlíšením rozlíšiť 600 bodov na 1-palcovom segmente.

8. Určite objem informácií súboru získaného skenovaním farebného obrázka veľkosti A4. Rozlíšenie skenera použitého na skenovanie tohto obrázku je 1200 dpi. Skener nastaví pixelovú farebnú hĺbku obrázka na 24 bitov.

9. Určte počet farieb v palete pri farebných hĺbkach 8, 16, 24 a 32 bitov.

10. Určite požadované množstvo video pamäte pre grafické režimy zobrazenia monitora 640 x 480, 800 x 600, 1024 x 768 a 1280 x 1024 pixelov pri farebnej hĺbke obrazového bodu 8, 16, 24 a 32 bitov. Výsledky sú uvedené v tabuľke. Rozvíjať sa v MS Excel program na automatizáciu výpočtov.

11. Určite maximálny počet farieb, ktoré možno použiť na uloženie obrázka s rozmermi 32 x 32 pixelov, ak má počítač pre obrázok pridelené 2 KB pamäte.

12. Určte maximálne možné rozlíšenie obrazovky monitora s dĺžkou uhlopriečky 15" a veľkosťou pixelov 0,28 mm.

13. Aké grafické režimy prevádzky monitora môže poskytnúť 64 MB video pamäť?

Spaľovanie

I. História kódovania informácií ……………………………… ..3

II. Kódovanie informácií ………………………………………… 4

III. Kódovanie textových informácií ………………………………… .4

IV. Typy kódovacích tabuliek ………………………………………… ... 6

V. Výpočet množstva textových informácií ……………………… 14

Zoznam použitej literatúry ………………………………… ..16

ja . História kódovania informácií

Ľudstvo používa šifrovanie (kódovanie) textu od chvíle, keď sa objavili prvé tajné informácie. Pred vami je niekoľko metód kódovania textu, ktoré boli vynájdené v rôznych štádiách vývoja ľudského myslenia:

Kryptografia je tajné písanie, systém úpravy písmena s cieľom urobiť text nezrozumiteľným pre nezasvätených;

Morseova abeceda alebo nepravidelný telegrafný kód, v ktorom je každé písmeno alebo znak reprezentovaný vlastnou kombináciou čipov s krátkym elektrickým prúdom (bodky) a čipov s trojnásobným trvaním (čiarky);

posunkový jazyk je posunkový jazyk, ktorý používajú ľudia so sluchovým postihnutím.

Jedna z prvých známych metód šifrovania je pomenovaná po rímskom cisárovi Juliusovi Caesarovi (1. storočie pred Kristom). Táto metóda je založená na nahradení každého písmena zašifrovaného textu iným, posunutím abecedy od pôvodného písmena o pevný počet znakov a abeceda sa číta v kruhu, teda za písmenom i je a zvážiť. Takže slovo "byte" pri posunutí o dva znaky doprava je zakódované slovom "gvlf". Obrátený proces dekódovania daného slova - je potrebné nahradiť každé zašifrované písmeno druhým naľavo od neho.

II. Kódovanie informácií

Kód je súbor konvencií (alebo signálov) na zaznamenávanie (alebo prenos) niektorých vopred definovaných konceptov.

Kódovanie informácií je proces vytvárania špecifickej reprezentácie informácií. V užšom zmysle sa pojem „kódovanie“ často chápe ako prechod od jednej formy prezentácie informácií k inej, vhodnejšej na uchovávanie, prenos alebo spracovanie.

Zvyčajne je každý obrázok pri kódovaní (niekedy hovoria - zašifrovaný) reprezentovaný samostatným znakom.

Znak je prvkom konečného súboru odlišných prvkov.

V užšom zmysle sa pojem „kódovanie“ často chápe ako prechod od jednej formy prezentácie informácií k inej, vhodnejšej na uchovávanie, prenos alebo spracovanie.

Počítač dokáže spracovať textové informácie. Po zadaní do počítača je každé písmeno zakódované určitým číslom a pri výstupe na externé zariadenia (obrazovka alebo tlač) sa pomocou týchto čísel vytvárajú obrázky písmen pre ľudské vnímanie. Korešpondencia medzi súborom písmen a číslic sa nazýva kódovanie znakov.

Všetky čísla v počítači sú spravidla reprezentované nulami a jednotkami (a nie desiatimi číslicami, ako je to u ľudí zvykom). Inými slovami, počítače zvyčajne pracujú v binárnom číselnom systéme, pretože zariadenia na ich spracovanie sú oveľa jednoduchšie. Zadávanie čísel do počítača a ich výstup na čítanie človekom sa môže vykonávať v obvyklom desiatkovom tvare a všetky potrebné transformácie vykonávajú programy bežiace na počítači.

III. Kódovanie textových informácií

Rovnaké informácie môžu byť prezentované (zakódované) v niekoľkých formách. S príchodom počítačov bolo potrebné zakódovať všetky typy informácií, s ktorými sa zaoberá jednotlivec aj ľudstvo ako celok. Ale ľudstvo začalo riešiť problém kódovania informácií dávno pred príchodom počítačov. Obrovské úspechy ľudstva - písanie a aritmetika - nie sú ničím iným ako systémom kódovania reči a číselných informácií. Informácie sa nikdy neobjavia v čistej forme, vždy sú nejako prezentované, nejako zakódované.

Binárne kódovanie je jedným z bežných spôsobov reprezentácie informácií. V počítačoch, robotoch a numericky riadených obrábacích strojoch sú spravidla všetky informácie, s ktorými zariadenie pracuje, zakódované vo forme slov v binárnej abecede.

Od konca 60. rokov sa počítače čoraz viac využívajú na spracovanie textových informácií av súčasnosti sa väčšina osobných počítačov vo svete (a väčšina) zaoberá spracovaním textových informácií. Všetky tieto typy informácií v počítači sú reprezentované v binárnom kóde, to znamená, že sa používa abeceda s mocninou dvoch (iba dva znaky 0 a 1). Je to spôsobené tým, že je vhodné reprezentovať informácie vo forme sekvencie elektrických impulzov: neexistuje impulz (0), existuje impulz (1).

Takéto kódovanie sa zvyčajne nazýva binárne a samotné logické postupnosti núl a jednotiek sa nazývajú strojový jazyk.

Z pohľadu počítača sa text skladá z jednotlivých znakov. Symboly zahŕňajú nielen písmená (veľké alebo malé písmená, latinka alebo ruština), ale aj čísla, interpunkčné znamienka, špeciálne znaky ako „=“, „(“, „&“ atď., a dokonca (venujte zvláštnu pozornosť!) medzery medzi slová.

Texty sa zadávajú do pamäte počítača pomocou klávesnice. Písmená, čísla, interpunkčné znamienka a iné symboly sú napísané na klávesoch. Zadávajú RAM v binárnom kóde. To znamená, že každý znak je reprezentovaný 8-bitovým binárnym kódom.

Tradične sa na zakódovanie jedného znaku používa množstvo informácií rovnajúce sa 1 bajtu, to znamená I = 1 bajt = 8 bitov. Pomocou vzorca, ktorý spája počet možných udalostí K a množstvo informácií I, môžete vypočítať, koľko rôznych symbolov je možné zakódovať (za predpokladu, že symboly sú možné udalosti): K = 2 I = 2 8 = 256, tj. , pre Reprezentáciu textových informácií možno použiť abecedu s kapacitou 256 znakov.

Tento počet znakov je dostatočný na vyjadrenie textových informácií vrátane veľkých a malých písmen ruskej a latinskej abecedy, čísel, znakov, grafických symbolov atď.

Kódovanie znamená, že každému znaku je priradený jedinečný desiatkový kód od 0 do 255 alebo zodpovedajúci binárny kód od 00000000 do 11111111. Človek teda rozlišuje znaky podľa ich štýlu a počítač podľa ich kódu.

Pohodlie bajtového kódovania znakov je zrejmé, pretože bajt je najmenšia adresovateľná časť pamäte, a preto môže procesor pristupovať ku každému znaku samostatne a vykonávať spracovanie textu. Na druhej strane, 256 znakov je celkom postačujúce číslo na reprezentáciu širokej škály informácií o znakoch.

V procese zobrazovania znaku na obrazovke počítača sa vykonáva opačný proces - dekódovanie, teda premena kódu znaku na jeho obraz. Je dôležité, aby priradenie špecifického kódu k symbolu bolo vecou konvencie, ktorá je pevne stanovená v tabuľke kódov.

Teraz vyvstáva otázka, aký druh osembitového binárneho kódu priradiť ku každému znaku. Je jasné, že ide o podmienenú záležitosť, môžete prísť s mnohými metódami kódovania.

Všetky znaky počítačovej abecedy sú očíslované od 0 do 255. Každé číslo zodpovedá osemmiestnemu binárnemu kódu od 00000000 do 11111111. Tento kód je jednoducho poradové číslo znaku v dvojkovej sústave.

IV ... Typy kódovacích tabuliek

Tabuľka, v ktorej sú všetkým znakom počítačovej abecedy priradené sériové čísla, sa nazýva tabuľka kódovania.

Pre rôzne typy počítačov sa používajú rôzne kódovacie tabuľky.

Ako medzinárodný štandard bola prijatá kódová tabuľka ASCII (American Standard Code for Information Interchange), ktorá kóduje prvú polovicu znakov číselnými kódmi od 0 do 127 (kódy od 0 do 32 nie sú priradené symbolom, ale funkčným klávesom ).

ASCII tabuľka je rozdelená na dve časti.

Medzinárodným štandardom je len prvá polovica tabuľky, t.j. znaky s číslami od 0 (00000000) do 127 (01111111).

Štruktúra tabuľky kódovania ASCII

Sériové číslo kód Symbol
0 - 31 00000000 - 00011111

Symboly s číslami od 0 do 31 sa zvyčajne nazývajú riadiace znaky.

Ich funkciou je riadenie procesu zobrazovania textu na obrazovke alebo tlače, vydávania zvukového signálu, označovania textu atď.

32 - 127 0100000 - 01111111

Štandardná časť tabuľky (angličtina). To zahŕňa malé a veľké písmená latinskej abecedy, desatinné číslice, interpunkčné znamienka, všetky druhy zátvoriek, obchodné a iné symboly.

Znak 32 je medzera, t.j. prázdne miesto v texte.

Všetky ostatné sa odrážajú v určitých znakoch.

128 - 255 10000000 - 11111111

Alternatívna časť tabuľky (ruština).

Druhá polovica tabuľky kódov ASCII, nazývaná kódová stránka (128 kódov, počnúc 10000000 a končiac 11111111), môže mať rôzne varianty, pričom každý variant má svoje vlastné číslo.

Kódová stránka sa primárne používa na prispôsobenie sa iným národným abecedám ako latinka. V ruských národných kódovaniach táto časť tabuľky obsahuje symboly ruskej abecedy.

Prvá polovica tabuľky ASCII

Upozorňujeme na skutočnosť, že v tabuľke kódovania sú písmená (veľké a malé písmená) usporiadané v abecednom poradí a čísla sú usporiadané vo vzostupnom poradí hodnôt. Toto dodržiavanie lexikografického poriadku v usporiadaní znakov sa nazýva princíp sekvenčného kódovania abecedy.

Pre písmená ruskej abecedy sa dodržiava aj princíp sekvenčného kódovania.

Druhá polovica tabuľky ASCII

Bohužiaľ, v súčasnosti existuje päť rôznych kódovaní azbuky (KOI8-R, Windows, MS-DOS, Macintosh a ISO). Z tohto dôvodu často vznikajú problémy s prenosom ruského textu z jedného počítača do druhého, z jedného softvérového systému do druhého.

Chronologicky jedným z prvých štandardov na kódovanie ruských písmen na počítačoch bol KOI8 ("Kód výmeny informácií, 8-bit"). Toto kódovanie sa používalo už v 70. rokoch na počítačoch počítačovej série ES a od polovice 80. rokov sa začalo používať v prvých rusifikovaných verziách operačného systému UNIX.

Zo začiatku 90. rokov, doby dominancie operačného systému MS DOS, zostáva kódovanie CP866 ("CP" znamená "Code Page").

Počítače Apple so systémom Mac OS používajú svoje vlastné kódovanie Mac.

Okrem toho Medzinárodná organizácia pre normalizáciu (International Standards Organization, ISO) schválila ďalšie kódovanie s názvom ISO 8859-5 ako štandard pre ruský jazyk.

V súčasnosti je najbežnejším kódovaním Microsoft Windows, skrátene CP1251. Predstavené spoločnosťou Microsoft; berúc do úvahy širokú distribúciu operačných systémov (OS) a iných softvérových produktov tejto spoločnosti v Ruskej federácii, našla širokú distribúciu.

Od konca 90. rokov sa problém štandardizácie kódovania znakov rieši zavedením nového medzinárodného štandardu s názvom Unicode.

Ide o 16-bitové kódovanie t.j. každému znaku prideľuje 2 bajty pamäte. Tým sa samozrejme zdvojnásobí množstvo použitej pamäte. Ale na druhej strane takáto kódová tabuľka umožňuje zahrnúť až 65536 znakov. Kompletná špecifikácia štandardu Unicode zahŕňa všetky existujúce, zaniknuté a umelo vytvorené abecedy sveta, ako aj mnohé matematické, hudobné, chemické a iné symboly.

Vnútorná reprezentácia slov v pamäti počítača

pomocou tabuľky ASCII

Niekedy sa stáva, že text pozostávajúci z písmen ruskej abecedy, prijatý z iného počítača, nie je možné prečítať - na obrazovke monitora je viditeľný nejaký druh „blbnutia“. Je to spôsobené tým, že počítače používajú rôzne kódovanie znakov ruského jazyka.

Každé kódovanie je teda špecifikované vlastnou kódovou tabuľkou. Ako vidíte z tabuľky, rovnakému binárnemu kódu sú priradené rôzne symboly v rôznych kódovaniach.

Napríklad postupnosť číselných kódov 221, 194, 204 v kódovaní CP1251 tvorí slovo „počítač“, zatiaľ čo v iných kódovaniach pôjde o nezmyselnú množinu znakov.

Našťastie sa používateľ vo väčšine prípadov nemusí obávať konverzie textových dokumentov, pretože to robia špeciálne programy na konverziu zabudované v aplikáciách.

V ... Výpočet množstva textových informácií

Cieľ 1: Kódujte slovo „Rím“ pomocou kódovacích tabuliek KOI8-R a CP1251.

Riešenie:

Cieľ 2: Za predpokladu, že každý znak je zakódovaný v jednom byte, odhadnite objem informácií v nasledujúcej vete:

„Môj strýko má tie najčestnejšie pravidlá,

Keď je vážne chorý,

Vzbudil si rešpekt

A nevedel som si to predstaviť lepšie."

Riešenie: Táto fráza má 108 znakov vrátane interpunkčných znamienok, úvodzoviek a medzier. Toto číslo vynásobíme 8 bitmi. Získame 108 * 8 = 864 bitov.

Cieľ 3: Oba texty obsahujú rovnaký počet znakov. Prvý text je napísaný v ruštine a druhý v jazyku kmeňa Naguri, ktorého abeceda pozostáva zo 16 znakov. Koho text obsahuje viac informácií?

Riešenie:

1) I = K * a (informačný objem textu sa rovná súčinu počtu znakov informačnou váhou jedného znaku).

2) Pretože oba texty majú rovnaký počet znakov (K), rozdiel závisí od informatívnosti jedného znaku abecedy (a).

3) 2 a1 = 32, t.j. a 1 = 5 bitov, 2 a2 = 16, t.j. a 2 = 4 bity.

4) I1 = K * 5 bitov, I2 = K * 4 bity.

5) To znamená, že text napísaný v ruštine obsahuje 5/4 krát viac informácií.

Úloha 4: Veľkosť správy, ktorá obsahovala 2048 znakov, bola 1/512 MB. Určte mohutnosť abecedy.

Riešenie:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bitov - informačný objem správy bol prevedený na bity.

2) a = I / K = 16384/1024 = 16 bitov - pripadá na jeden znak abecedy.

3) 2 * 16 * 2048 = 65536 znakov - sila použitej abecedy.

Úloha 5: Laserová tlačiareň Canon LBP tlačí priemernou rýchlosťou 6,3 Kbps. Ako dlho bude trvať tlač 8-stranového dokumentu, ak je známe, že na jednej strane je v priemere 45 riadkov, 70 znakov na riadok (1 znak - 1 bajt)?

Riešenie:

1) Nájdite množstvo informácií obsiahnutých na 1 stránke: 45 * 70 * 8 bitov = 25200 bitov

2) Nájdite množstvo informácií na 8 stranách: 25200 * 8 = 201600 bitov

3) Privedieme k jednotným jednotkám merania. Ak to chcete urobiť, preložte Mbity na bity: 6,3 * 1024 = 6451,2 bit / s.

4) Nájdite čas tlače: 201600: 6451,2 = 31 sekúnd.

Bibliografia

1. Ageev V.M. Teória informácie a kódovania: diskretizácia a kódovanie informácií o meraní. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Základy teórie informácie a kódovania. - Kyjev, škola Vishcha, 1986.

3. Najjednoduchšie metódy šifrovania textu / D.М. Zlatopolský. - M .: Chistye Prudy, 2007 - 32 s.

4. Ugrinovič N.D. Informatika a informačné technológie. Učebnica pre ročníky 10-11 / N.D. Ugrinovich. - M .: BINOM. Vedomostné laboratórium, 2003 .-- 512 s.

5.http: //school497.spb.edu.ru/uchint002/les10/les.html#n

Materiál na samoštúdium súvisiaci s prednáškami 2

Kódovanie ASCII

Tabuľka kódov ASCII (ASCII - American Standard Code for Information Interchange - Americký štandardný kód pre výmenu informácií).

Celkovo je možné pomocou kódovacej tabuľky ASCII zakódovať 256 rôznych znakov (obrázok 1). Táto tabuľka je rozdelená na dve časti: hlavnú (s kódmi od OOh do 7Fh) a doplnkovú (od 80h do FFh, kde písmeno h označuje, že kód patrí do hexadecimálnej číselnej sústavy).

Obrázok 1

Na zakódovanie jedného znaku z tabuľky je alokovaných 8 bitov (1 bajt). Pri spracovaní textových informácií môže jeden bajt obsahovať kód určitého symbolu - písmená, číslice, interpunkčné znamienko, znak akcie atď. Každý znak má svoj vlastný kód vo forme celého čísla. V tomto prípade sú všetky kódy zhromaždené v špeciálnych tabuľkách nazývaných kódovacie tabuľky. S ich pomocou sa kód znaku prevedie na jeho viditeľnú reprezentáciu na obrazovke monitora. Výsledkom je, že akýkoľvek text v pamäti počítača je reprezentovaný ako sekvencia bajtov s kódmi znakov.

Napríklad slovo ahoj! budú kódované nasledovne (tabuľka 1).

stôl 1

Binárny kód

Desatinný kód

Obrázok 1 zobrazuje znaky zahrnuté v štandardnom (anglickom) a rozšírenom (ruskom) kódovaní ASCII.

Prvá polovica ASCII tabuľky je štandardizovaná. Obsahuje kontrolné kódy (00h až 20h a 77h). Tieto kódy boli z tabuľky odstránené, pretože sa nevzťahujú na textové prvky. Nachádzajú sa tu aj interpunkčné a matematické znamienka: 2lh -!, 26h - &, 28h - (, 2Bh - +, ..., veľké a malé latinské písmená: 41h - A, 61h - a.

Druhá polovica tabuľky obsahuje národné písma, pseudografické symboly, z ktorých možno zostaviť tabuľky, a špeciálne matematické znaky. Spodnú časť kódovacej tabuľky je možné vymeniť pomocou príslušných ovládačov - riadiacich pomocných programov. Táto technika vám umožňuje používať viacero typov písma a ich typov.

Displej pre každý znakový kód musí zobrazovať obrázok znaku na obrazovke – nielen digitálny kód, ale aj obrázok, ktorý mu zodpovedá, keďže každý znak má svoj vlastný tvar. Popis tvaru každého symbolu je uložený v špeciálnej pamäti displeja - generátora znakov. Napríklad zvýraznenie symbolu na obrazovke IBM PC sa vykonáva pomocou bodiek, ktoré tvoria symbolickú maticu. Každý pixel v takejto matici je prvkom obrazu a môže byť jasný alebo tmavý. Tmavý bod je kódovaný číslom 0, svetlý (svetlý) - 1. Ak znázorňujete tmavé pixely bodkou v maticovom poli znamienka a svetlé pixely hviezdičkou, môžete graficky znázorniť tvar symbolu .

Ľudia v rôznych krajinách používajú symboly na písanie slov vo svojom rodnom jazyku. Väčšina aplikácií v súčasnosti, vrátane e-mailových systémov a webových prehliadačov, je čisto 8-bitových, čo znamená, že dokážu zobraziť a interpretovať iba 8-bitové znaky podľa normy ISO-8859-1.

Na svete je viac ako 256 znakov (ak vezmeme do úvahy cyriliku, arabčinu, čínštinu, japončinu, kórejčinu a thajčinu) a objavuje sa čoraz viac znakov. A to vytvára pre mnohých používateľov nasledujúce medzery:

V tom istom dokumente nie je možné použiť znaky z rôznych sád kódovania. Keďže každý textový dokument používa vlastnú sadu kódovaní, s automatickým rozpoznávaním textu sú veľké problémy.

Objavujú sa nové symboly (napríklad: Euro), v dôsledku čoho ISO vyvíja nový štandard ISO-8859-15, ktorý je veľmi podobný štandardu ISO-8859-1. Rozdiel je nasledovný: z tabuľky kódovania starej normy ISO-8859-1 boli odstránené symboly na označenie starých mien, ktoré sa v súčasnosti nepoužívajú, aby sa uvoľnilo miesto pre novoobjavené symboly (ako napr. ). V dôsledku toho môžu mať používatelia na svojich diskoch rovnaké dokumenty, ale v rôznych kódovaniach. Riešením týchto problémov je prijatie jediného medzinárodného súboru kódovania nazývaného univerzálne kódovanie alebo Unicode.

Kódovanie Unicode

Normu navrhlo v roku 1991 Unicode Consortium, Unicode Inc., nezisková organizácia. Použitie tohto štandardu umožňuje zakódovať veľké množstvo znakov z rôznych písiem: v dokumentoch Unicode môžu koexistovať čínske znaky, matematické znaky, písmená gréckej abecedy, latinky a cyriliky, takže prepínanie kódových stránok nie je potrebné.

Štandard pozostáva z dvoch hlavných častí: univerzálna znaková sada (UCS) a transformačný formát Unicode (UTF). Univerzálna znaková sada definuje vzájomnú zhodu znakov s kódmi - prvky kódového priestoru, ktoré predstavujú nezáporné celé čísla. Rodina kódovaní definuje strojovú reprezentáciu sekvencie UCS kódov.

Štandard Unicode bol vyvinutý s cieľom vytvoriť jednotné kódovanie znakov pre všetky moderné a mnohé staroveké písané jazyky. Každý znak v tomto štandarde je zakódovaný 16 bitmi, čo mu umožňuje pokryť neporovnateľne väčší počet znakov ako doteraz akceptované 8-bitové kódovania. Ďalším dôležitým rozdielom medzi Unicode a inými kódovacími systémami je to, že nielenže priraďuje každému znaku jedinečný kód, ale definuje aj rôzne charakteristiky tohto znaku, napríklad:

    typ znaku (veľké písmeno, malé písmeno, číslo, interpunkčné znamienko atď.);

    atribúty znakov (zobrazenie zľava doprava alebo sprava doľava, medzera, zalomenie riadku atď.);

    zodpovedajúce veľké alebo malé písmeno (pre malé a veľké písmená);

    zodpovedajúcu číselnú hodnotu (pre číselné znaky).

Celý rozsah kódov od 0 do FFFF je rozdelený do niekoľkých štandardných podskupín, z ktorých každá zodpovedá buď abecede určitého jazyka, alebo skupine špeciálnych znakov, ktoré sú si podobné vo svojich funkciách. Nižšie uvedený diagram poskytuje všeobecný zoznam podmnožín Unicode 3.0 (obrázok 2).

Obrázok 2

Štandard Unicode je základom pre ukladanie a text v mnohých moderných počítačových systémoch. Nie je však kompatibilný s väčšinou internetových protokolov, pretože jeho kódy môžu obsahovať ľubovoľné bajtové hodnoty a protokoly zvyčajne používajú bajty 00 - 1F a FE - FF ako réžiu. Na dosiahnutie interoperability bolo vyvinutých niekoľko transformačných formátov Unicode (UTF, Unicode Transformation Formats), z ktorých je dnes najrozšírenejší UTF-8. Tento formát definuje nasledujúce pravidlá pre prevod každého kódu Unicode na sadu bajtov (jeden až tri) vhodné na prenos internetovými protokolmi.

Tu x, y, z označujú bity zdrojového kódu, ktoré by sa mali extrahovať, počnúc od najmenej významného a vložené do výsledných bajtov sprava doľava, kým sa nezaplnia všetky špecifikované pozície.

Ďalší vývoj štandardu Unicode je spojený s pridávaním nových jazykových rovín, t.j. znaky v rozsahoch 10000 - 1FFFF, 20000 - 2FFFF atď., kde sa predpokladá, že bude obsahovať kódovanie pre skripty mŕtvych jazykov, ktoré nie sú zahrnuté v tabuľke vyššie. Na kódovanie týchto dodatočných znakov bol vyvinutý nový formát UTF-16.

Existujú teda 4 hlavné spôsoby kódovania bajtov Unicode:

UTF-8: 128 znakov je zakódovaných v jednom byte (formát ASCII), 1920 znakov je zakódovaných v 2 bajtoch ((rímčina, gréčtina, cyrilika, koptčina, arménčina, hebrejčina, arabské znaky), 63488 znakov je zakódovaných v 3 bajtoch (čínština , japončina a iné) Zvyšných 2 147 418 112 znakov (zatiaľ nepoužitých) možno zakódovať 4, 5 alebo 6 bajtmi.

UCS-2: Každý znak predstavuje 2 bajty. Toto kódovanie obsahuje iba prvých 65 535 znakov z formátu Unicode.

UTF-16: Toto je rozšírenie UCS-2 a obsahuje 1 114 112 znakov Unicode. Prvých 65 535 znakov predstavuje 2 bajty, zvyšok 4 bajty.

USC-4: Každý znak je zakódovaný v 4 bajtoch.

Pre kompetentné používanie ASCII je potrebné rozširovať poznatky v tejto oblasti a o možnostiach kódovania.

Čo to je?

ASCII je kódovacia tabuľka tlačených znakov (pozri snímku obrazovky č. 1) napísaná na klávesnici počítača na prenos informácií a niektorých kódov. Inými slovami, abeceda a desatinné číslice sú zakódované do zodpovedajúcich symbolov, ktoré predstavujú a nesú potrebné informácie.

Kódovanie ASCII bolo vyvinuté v Amerike, takže štandardná tabuľka kódovania zvyčajne obsahuje anglickú abecedu s číslami, spolu asi 128 znakov. Potom však vyvstáva spravodlivá otázka: čo robiť, ak je potrebné kódovanie národnej abecedy?

Na riešenie týchto problémov boli vyvinuté ďalšie verzie tabuľky ASCII. Napríklad pre jazyky s cudzojazyčnou štruktúrou boli písmená anglickej abecedy buď odstránené, alebo k nim boli pridané ďalšie znaky vo forme národnej abecedy. Takže v kódovaní ASCII môžu byť ruské písmená pre národné použitie (pozri snímku obrazovky č. 2).

Kde sa používa systém kódovania ASCII?

Tento systém kódovania je potrebný nielen na písanie textových informácií na klávesnici. Používa sa aj v grafike. Napríklad v programe ASCII Art Maker sa grafické obrázky rôznych rozšírení skladajú zo spektra znakov ASCII (pozri snímku obrazovky č. 3).


Spravidla je možné takéto programy rozdeliť na tie, ktoré vykonávajú funkciu grafických editorov, invertujú obrázok na text, a tie, ktoré konvertujú obrázok na grafiku ASCII. Známy emotikon (alebo ako sa tiež nazýva „ usmievavá ľudská tvár") Je tiež príkladom kódovacieho znaku.

Táto metóda kódovania môže byť užitočná aj pri písaní alebo vytváraní dokumentu HTML. Napríklad zadáte špecifickú a potrebnú sadu znakov a pri zobrazení samotnej stránky sa na obrazovke zobrazí znak zodpovedajúci tomuto kódu.

Okrem iného je tento typ kódovania nevyhnutný pri vytváraní viacjazyčnej stránky, pretože znaky, ktoré nie sú zahrnuté v tej či onej národnej tabuľke, bude potrebné nahradiť ASCII kódmi. Ak má čitateľ priamy vzťah k informačným a komunikačným technológiám (IKT), bude pre neho užitočné oboznámiť sa s takými systémami, ako sú:

  1. Prenosná znaková sada;
  2. riadiace znaky;
  3. EBCDIC;
  4. VISCII;
  5. YUSCII;
  6. Unicode;
  7. umenie ASCII;
  8. KOI-8.

Vlastnosti tabuľky ASCII

Ako každý systematizovaný program, aj ASCII má svoje charakteristické vlastnosti. Napríklad desiatková číselná sústava (číslice od 0 do 9) sa prevedie na dvojkovú číselnú sústavu (t. j. každá desiatková číslica sa prevedie na binárne 288 = 1001000).

Písmená umiestnené v hornom a dolnom stĺpci sa od seba líšia len o kúsok, čo výrazne znižuje náročnosť kontroly a úpravy malých a veľkých písmen.

So všetkými týmito vlastnosťami funguje kódovanie ASCII ako osembitové, hoci pôvodne sa predpokladalo ako sedembitové.

Aplikácia ASCII v programoch balíka Microsoft Office:

V prípade potreby je možné túto možnosť kódovania informácií použiť v programe Microsoft Notepad a Microsoft Office Word. V rámci týchto aplikácií je možné dokument uložiť vo formáte ASCII, v tomto prípade však nebude možné pri písaní využívať niektoré funkcie.

Najmä výber tučným a tučným písmom bude nedostupný, pretože kódovanie zachováva iba význam zadaných informácií, nie všeobecný vzhľad a formu. Takéto kódy môžete do dokumentu pridať pomocou nasledujúcich softvérových aplikácií:

  • Microsoft Excel;
  • Microsoft FrontPage;
  • Microsoft InfoPath
  • Microsoft OneNote
  • Microsoft Outlook;
  • Microsoft PowerPoint;
  • Microsoft Project.

Treba mať na pamäti, že pri písaní ASCII kódu v týchto aplikáciách musíte podržať kláves ALT na klávesnici.

Všetky potrebné kódy si samozrejme vyžadujú dlhšie a podrobnejšie štúdium, ale to už je nad rámec nášho dnešného článku. Dúfam, že to považujete za užitočné.

Dobudúcna!

Dobrý zlý