ascii tabuľka 256 znakov binárneho kódu. Kódovanie ASCII (americký štandardný kód pre výmenu informácií) - základné kódovanie textu pre latinku

13.10.2019

dec	hex	Symbol	dec	hex	Symbol
000	00	špecialista. NOP	128	80	Ђ
001	01	špecialista. SOH	129	81	Ѓ
002	02	špecialista. STX	130	82	‚
003	03	špecialista. ETX	131	83	ѓ
004	04	špecialista. EOT	132	84	„
005	05	špecialista. ENQ	133	85	…
006	06	špecialista. ACK	134	86	†
007	07	špecialista. BEL	135	87	‡
008	08	špecialista. BS	136	88	€
009	09	špecialista. TAB	137	89	‰
010	0A	špecialista. LF	138	8A	Љ
011	0B	špecialista. VT	139	8B	‹ ‹
012	0C	špecialista. FF	140	8C	Њ
013	0D	špecialista. ČR	141	8D	Ќ
014	0E	špecialista. SO	142	8E	Ћ
015	0F	špecialista. SI	143	8F	Џ
016	10	špecialista. DLE	144	90	ђ
017	11	špecialista. DC1	145	91	‘
018	12	špecialista. DC2	146	92	’
019	13	špecialista. DC3	147	93	“
020	14	špecialista. DC4	148	94	”
021	15	špecialista. NAK	149	95
022	16	špecialista. SYN	150	96	–
023	17	špecialista. ETB	151	97	—
024	18	špecialista. MÔCŤ	152	98
025	19	špecialista. EM	153	99	™
026	1A	špecialista. SUB	154	9A	љ
027	1B	špecialista. ESC	155	9B	›
028	1C	špecialista. FS	156	9C	њ
029	1D	špecialista. GS	157	9D	ќ
030	1E	špecialista. RS	158	9E	ћ
031	1F	špecialista. USA	159	9F	џ
032	20	spojka SP (vesmír)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	Jo
041	29	)	169	A9	©
042	2A	*	170	AA	Є
043	2B	+	171	AB	«
044	2C	,	172	AC	¬
045	2D	-	173	AD
046	2E	.	174	AE	®
047	2F	/	175	AF	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	joj
057	39	9	185	B9	№
058	3A	:	186	BA	є
059	3B	;	187	BB	»
060	3C	<	188	pred Kr	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	BE	ѕ
063	3F	?	191	bf	ї
064	40	@	192	C0	ALE
065	41	A	193	C1	B
066	42	B	194	C2	IN
067	43	C	195	C3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	F
071	47	G	199	C7	W
072	48	H	200	C8	A
073	49	ja	201	C9	Y
074	4A	J	202	CA	TO
075	4B	K	203	CB	L
076	4C	L	204	CC	M
077	4D	M	205	CD	H
078	4E	N	206	CE	O
079	4F	O	207	CF	P
080	50	P	208	D0	R
081	51	Q	209	D1	OD
082	52	R	210	D2	T
083	53	S	211	D3	o
084	54	T	212	D4	F
085	55	U	213	D5	X
086	56	V	214	D6	C
087	57	W	215	D7	H
088	58	X	216	D8	W
089	59	Y	217	D9	SCH
090	5A	Z	218	DA	Kommersant
091	5B	[	219	D.B.	S
092	5C	\	220	DC	b
093	5D	]	221	DD	E
094	5E	^	222	DE	YU
095	5F	_	223	D.F.	ja
096	60	`	224	E0	ale
097	61	a	225	E1	b
098	62	b	226	E2	v
099	63	c	227	E3	G
100	64	d	228	E4	d
101	65	e	229	E5	e
102	66	f	230	E6	dobre
103	67	g	231	E7	h
104	68	h	232	E8	A
105	69	i	233	E9	th
106	6A	j	234	EA	do
107	6B	k	235	EB	l
108	6C	l	236	EÚ	m
109	6D	m	237	ED	n
110	6E	n	238	EE	o
111	6F	o	239	EF	P
112	70	p	240	F0	R
113	71	q	241	F1	od
114	72	r	242	F2	T
115	73	s	243	F3	pri
116	74	t	244	F4	f
117	75	u	245	F5	X
118	76	v	246	F6	c
119	77	w	247	F7	h
120	78	X	248	F8	w
121	79	r	249	F9	SCH
122	7A	z	250	FA	b
123	7B	{	251	Facebook	s
124	7C	\|	252	FC	b
125	7D	}	253	FD	uh
126	7E	~	254	F.E.	Yu
127	7F	Špecialista. DEL	255	FF	ja

ASCII tabuľka kódov znakov systému Windows.
Popis špeciálnych (riadiacich) znakov

Treba poznamenať, že spočiatku sa riadiace znaky ASCII tabuľky používali na zabezpečenie výmeny údajov pomocou teletypu, vstupu údajov z diernej pásky a na najjednoduchšie ovládanie externých zariadení.
V súčasnosti väčšina ASCII riadiacich znakov tabuľky už túto záťaž nenesie a možno ich použiť na iné účely.

Kód	Popis
NUL, 00	Nulová, prázdna
SO-01	Začiatok smerovania
STX 02	Začiatok TeXtu, začiatok textu.
ETX 03	Koniec TeXtu
EOT, 04	Koniec prenosu
ENQ, 05	Opýtajte sa. Prosím Potvrď
ACK, 06	Poďakovanie. Potvrdzujem
B.E.L. 07	Bell, zavolaj
B.S. 08	Backspace, návrat o jeden znak späť
TAB, 09	Tab, horizontálne tablo
LF, 0A	Line Feed, line feed. Teraz sa vo väčšine programovacích jazykov označuje ako \n
VT, 0B	Vertical Tab, vertikálna tabuľka.
FF, 0C	Informačný kanál formulára, kanál stránky, nová stránka
ČR, 0D	Vrátenie vozíka Teraz sa vo väčšine programovacích jazykov označuje ako \r
TAK, 0E	Shift Out, zmeňte farbu atramentovej pásky v tlačiarni
SI, 0F	Shift In, vráťte farbu atramentovej pásky v tlačovom zariadení späť
DLE, 10	Data Link Escape, prepnutie kanála na prenos dát
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Device Control, symboly ovládania zariadenia
N.A.K. 15	Negatívne potvrdenie, nepotvrdzujem.
SYN, 16	synchronizácia. Symbol synchronizácie
ETB, 17	Koniec textového bloku, koniec textového bloku
CAN, 18	Zrušiť, zrušenie predtým prejdenej
EM, 19	Koniec média
SUB, 1A	Nahradiť, nahradiť. Umiestnené namiesto postavy, ktorej hodnota sa počas prenosu stratila alebo poškodila
ESC, 1B	Úniková sekvencia úniku
FS, 1C	Oddeľovač súborov, oddeľovač súborov
GS, 1D	Oddeľovač skupín, oddeľovač skupín
RS, 1E	Oddeľovač záznamov
USA, 1F	Oddeľovač jednotiek, oddeľovač jednotiek
DEL, 7F	Vymazať, vymazať posledný znak.

Prekrytie symbolov

Vďaka znaku BS (back step) môže tlačiareň tlačiť jeden znak na druhý. ASCII poskytuje pridávanie diakritiky k písmenám týmto spôsobom, napríklad:

a BS " → a
a BS ` → a
a BS ^ → â
o BS / → ø
c BS , → ç
n BS ~ → ñ

Poznámka: v starších typoch písma bol apostrof " zošikmený doľava a vlnovka ~ bola posunutá nahor, takže presne zodpovedali úlohe prízvuku a vlnovky navrchu.

Ak je rovnaký znak prekrytý znakom, efekt bude tučný, a ak znak prekryje podčiarknutie, získa sa podčiarknutý text.

a BS a → a
a BS_→ a

Poznámka: toto sa používa napríklad v systéme pomoci mužovi.

Národné varianty ASCII

Norma ISO 646 (ECMA-6) poskytuje možnosť umiestnenia národných symbolov @ [ \ ] ^ ` { | } ~ . Okrem toho na mieste # možno umiestniť £ a na mieste $ - ¤ . Tento systém je vhodný pre európske jazyky, kde je potrebných len niekoľko ďalších znakov. Variant ASCII bez národných znakov sa nazýva US-ASCII alebo „medzinárodná referenčná verzia“.

Následne sa ukázalo ako pohodlnejšie použiť 8-bitové kódovania (kódové stránky), kde spodnú polovicu kódovej tabuľky (0-127) zaberajú znaky US-ASCII a hornú polovicu (128-255) je obsadené ďalšími znakmi vrátane súboru národných znakov. Horná polovica tabuľky ASCII sa teda pred rozšíreným prijatím Unicode vo veľkej miere používala na reprezentáciu lokalizovaných znakov, písmen miestneho jazyka. Neexistencia jednotného štandardu pre umiestňovanie znakov azbuky do ASCII tabuľky spôsobila veľa problémov s kódovaním (KOI-8, Windows-1251 a iné). Ostatné jazyky s nelatinkovým písmom tiež trpeli prítomnosťou niekoľkých rôznych kódovaní.

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.A	.B	.C	.D	.E	.F
0.	NUL	SOM	EOA	EOM	EQT	WRU	EN	BELL	BKSP	HT	LF	VT	FF	ČR	SO	SI
1.	DC 0	DC 1	DC 2	DC 3	DC 4	ERR	SYNC	LEM	S0	S1	S2	S3	S4	S5	S6	S7
2.
3.
4.	PRÁZDNÝ	!	"	#	$	%	&	"	(	)	*	+	,	-	.	/
5.	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
6.
7.
8.
9.
A.	@	A	B	C	D	E	F	G	H	ja	J	K	L	M	N	O
b.	P	Q	R	S	T	U	V	W	X	Y	Z	[	\	]		←
C.
D.
E.		a	b	c	d	e	f	g	h	i	j	k	l	m	n	o
F.	p	q	r	s	t	u	v	w	X	r	z				ESC	DEL

Na tých počítačoch, kde minimálna adresovateľná jednotka pamäte bola 36-bitové slovo, sa najskôr používali 6-bitové znaky (1 slovo = 6 znakov). Po prechode na ASCII začali takéto počítače umiestňovať do jedného slova buď 5 sedembitových znakov (1 bit zostal nadbytočný), alebo 4 deväťbitové znaky.

Kódy ASCII sa tiež používajú na určenie, ktorý kláves bol stlačený pri programovaní. Pre štandardnú QWERTY klávesnicu vyzerá tabuľka kódov takto:

Podľa Medzinárodnej telekomunikačnej únie v roku 2016 s rôznou pravidelnosťou využívalo internet tri a pol miliardy ľudí. Väčšina z nich ani neuvažuje o tom, že všetky správy, ktoré posielajú cez PC alebo mobilné miniaplikácie, ako aj texty, ktoré sa zobrazujú na najrôznejších monitoroch, sú v skutočnosti kombináciami 0 a 1. Táto reprezentácia informácií sa nazýva kódovanie. Poskytuje a výrazne uľahčuje realizáciu jeho ukladania, spracovania a prenosu. V roku 1963 bolo vyvinuté americké kódovanie ASCII, ktoré je predmetom tohto článku.

Reprezentácia informácií v počítači

Z pohľadu každého elektronického počítača je text súborom jednotlivých znakov. Patria sem nielen písmená, vrátane veľkých písmen, ale aj interpunkčné znamienka, čísla. Okrem toho sa používajú špeciálne znaky „=“, „&“, „(“ a medzery.

Súbor znakov, ktoré tvoria text, sa nazýva abeceda a ich počet sa nazýva mocnina (označuje sa ako N). Na jej určenie sa používa výraz N = 2^b, kde b je počet bitov alebo informačná váha konkrétneho znaku.

Je dokázané, že abeceda s kapacitou 256 znakov vám umožňuje reprezentovať všetky potrebné znaky.

Keďže 256 je 8. mocnina 2, váha každého znaku je 8 bitov.

Merná jednotka 8 bitov sa nazýva 1 bajt, preto sa zvykne tvrdiť, že akýkoľvek znak v texte uloženom v počítači zaberá jeden bajt pamäte.

Ako sa robí kódovanie

Akékoľvek texty sa vkladajú do pamäte osobného počítača pomocou klávesov klávesnice, na ktorých sa píšu čísla, písmená, interpunkčné znamienka a iné symboly. Prenášajú sa do RAM v binárnom kóde, t.j. každému znaku je priradený desiatkový kód známy ľuďom, od 0 do 255, čo zodpovedá binárnemu kódu - od 00000000 do 11111111.

Kódovanie znakov bajt po byte umožňuje textovému procesoru pristupovať ku každému znaku jednotlivo. Zároveň 256 znakov stačí na reprezentáciu akejkoľvek informácie o znakoch.

kódovanie znakov ASCII

Táto skratka v angličtine znamená kód pre výmenu informácií.

Dokonca aj na úsvite informatizácie bolo zrejmé, že môžete prísť s rôznymi spôsobmi kódovania informácií. Na prenos informácií z jedného počítača do druhého však bolo potrebné vyvinúť jednotný štandard. Takže v roku 1963 sa v Spojených štátoch objavila kódovacia tabuľka ASCII. V ňom má každý symbol počítačovej abecedy priradené svoje poradové číslo v binárnom vyjadrení. Spočiatku sa kódovanie ASCII používalo iba v Spojených štátoch a potom sa stalo medzinárodným štandardom pre počítače.

ASCII kódy sú rozdelené na 2 časti. Len prvá polovica tejto tabuľky sa považuje za medzinárodnú normu. Obsahuje znaky so sériovými číslami od 0 (kódované ako 00000000) do 127 (kód 01111111).

Sériové číslo	ASCII kódovanie textu	Symbol
	0000 0000 - 0001 1111	Znaky s N od 0 do 31 sa nazývajú riadiace znaky. Ich funkciou je „riadiť“ proces zobrazovania textu na monitore alebo tlačiarni, vydávania zvukového signálu atď.
	0010 0000 - 0111 1111	Symboly s N od 32 do 127 (štandardná časť tabuľky) sú veľké a malé písmená latinskej abecedy, 10. číslice, interpunkčné znamienka, ako aj rôzne zátvorky, obchodné a iné symboly. Symbol 32 označuje medzeru.
	1000 0000 - 1111 1111	Znaky s N od 128 do 255 (alternatívna časť tabuľky alebo kódová stránka) môžu mať rôzne varianty, z ktorých každý má svoje číslo. Kódová stránka sa používa na špecifikovanie národných abecied, ktoré sa líšia od latinky. Najmä s jeho pomocou sa vykonáva kódovanie ASCII pre ruské znaky.

V tabuľke sú kódovania veľké a nasledujú za sebou v abecednom poradí a čísla sú vo vzostupnom poradí. Tento princíp je zachovaný pre ruskú abecedu.

Riadiace znaky

Kódovacia tabuľka ASCII bola pôvodne vytvorená na príjem a prenos informácií cez také zariadenie, ktoré sa dlho nepoužívalo, ako napríklad teletyp. V tejto súvislosti boli do znakovej sady zahrnuté netlačiteľné znaky, ktoré sa používajú ako príkazy na ovládanie tohto zariadenia. Podobné príkazy sa používali v takých metódach odosielania správ pred počítačom, ako je Morseova abeceda atď.

Najbežnejším znakom „ďalekopisu“ je NUL (00, „nula“). Vo väčšine programovacích jazykov sa dodnes používa a označuje znamenie konca riadku.

Kde sa používa kódovanie ASCII?

Americký štandardný kód je potrebný na viac ako len zadávanie textových informácií na klávesnici. Používa sa aj v grafike. Najmä v programe ASCII Art Maker predstavujú obrázky rôznych rozšírení spektrum znakov ASCII.

Takéto produkty sú dvoch typov: tie, ktoré plnia funkciu grafických editorov prevodom obrázka na text a prevodom „kresieb“ do grafiky ASCII. Napríklad známy emotikon je ukážkovým príkladom kódovacieho znaku.

ASCII je možné použiť aj pri vytváraní HTML dokumentu. V tomto prípade môžete zadať určitú množinu znakov a pri prezeraní stránky sa na obrazovke objaví znak, ktorý zodpovedá tomuto kódu.

ASCII je tiež potrebné na vytváranie viacjazyčných stránok, pretože znaky, ktoré nie sú zahrnuté v špecifickej národnej tabuľke, sú nahradené kódmi ASCII.

Niektoré funkcie

Na kódovanie textových informácií v kódovaní ASCII sa pôvodne používalo 7 bitov (jeden zostal prázdny), no dnes to funguje ako 8-bitové.

Písmená umiestnené v stĺpcoch umiestnených nad a pod sa navzájom líšia iba jedným bitom. To výrazne znižuje zložitosť overovania.

Používanie ASCII v Microsoft Office

V prípade potreby je možné tento typ kódovania textových informácií použiť v textových editoroch spoločnosti Microsoft, ako sú Poznámkový blok a Office Word. Pri písaní však v takomto prípade nebude možné využívať niektoré funkcie. Nebudete môcť napríklad nastaviť tučné písmo, pretože ASCII iba zachováva význam informácie a ignoruje jej všeobecný vzhľad a formu.

Štandardizácia

Organizácia ISO prijala normy ISO 8859. Táto skupina definuje osembitové kódovanie pre rôzne jazykové skupiny. Najmä ISO 8859-1 je rozšírený kód ASCII, čo je tabuľka pre Spojené štáty americké a krajiny západnej Európy. A ISO 8859-5 je tabuľka používaná pre azbuku, vrátane ruštiny.

Z viacerých historických dôvodov sa norma ISO 8859-5 používala veľmi krátko.

Pre ruský jazyk sa v súčasnosti používajú kódovania:

CP866 (kódová stránka 866) alebo DOS, ktoré sa často označuje ako alternatívne kódovanie GOST. Aktívne sa používal až do polovice 90. rokov minulého storočia. V súčasnosti sa prakticky nepoužíva.
KOI-8. Kódovanie bolo vyvinuté v 70. a 80. rokoch 20. storočia av súčasnosti je všeobecne akceptovaným štandardom pre e-mailové správy v RuNet. Je široko používaný v operačných systémoch rodiny Unix, vrátane Linuxu. „Ruská“ verzia KOI-8 sa nazýva KOI-8R. Okrem toho existujú verzie pre iné cyrilické jazyky, napríklad ukrajinčinu.
Kódová stránka 1251 (CP 1251, Windows - 1251). Vyvinutý spoločnosťou Microsoft na poskytovanie podpory pre ruský jazyk v prostredí Windows.

Hlavnou výhodou prvého štandardu CP866 bolo zachovanie pseudografických znakov na rovnakých pozíciách ako v Extended ASCII. To umožnilo bez zmeny spúšťať cudzie textové programy, ako napríklad známy Norton Commander. V súčasnosti sa CP866 používa pre programy vyvinuté v systéme Windows, ktoré pracujú v textovom režime na celú obrazovku alebo v textových oknách, vrátane FAR Manager.

Počítačové texty napísané v kódovaní CP866 sú v poslednej dobe pomerne zriedkavé, ale práve to sa používa pre ruské názvy súborov v systéme Windows.

"unicode"

V súčasnosti je toto kódovanie najpoužívanejšie. Kódy Unicode sú rozdelené do oblastí. Prvý z nich (U+0000 až U+007F) obsahuje znaky ASCII s kódmi. Potom nasledujú oblasti znakov rôznych národných písiem, ako aj interpunkčných znamienok a technických symbolov. Okrem toho sú niektoré kódy "Unicode" vyhradené pre budúce začlenenie nových znakov.

Teraz už viete, že v kódovaní ASCII je každý znak reprezentovaný ako kombinácia 8 núl a jednotiek. Neodborníkom sa tieto informácie môžu zdať zbytočné a nezaujímavé, ale nechcete vedieť, čo sa deje v „mozgoch“ vášho PC?!

[8-bitové kódovania: ASCII, KOI-8R a CP1251] Prvé kódovacie tabuľky vytvorené v USA nepoužívali ôsmy bit v byte. Text bol prezentovaný ako postupnosť bajtov, ale ôsmy bit sa nebral do úvahy (slúžil na oficiálne účely).

Stôl sa stal akceptovaným štandardom. ASCII(Americký štandardný kód pre výmenu informácií). Prvých 32 znakov ASCII tabuľky (00 až 1F) bolo použitých pre netlačiteľné znaky. Boli určené na ovládanie tlačového zariadenia a podobne. Zvyšok - od 20 do 7F - sú bežné (tlačiteľné) znaky.

Tabuľka 1 - ASCII kódovanie

dec	hex	okt	Char	Popis
0	0	000		nulový
1	1	001		začiatok kurzu
2	2	002		začiatok textu
3	3	003		koniec textu
4	4	004		koniec prenosu
5	5	005		vyšetrovanie
6	6	006		potvrdiť
7	7	007		zvonček
8	8	010		backspace
9	9	011		horizontálna záložka
10	A	012		Nový riadok
11	B	013		vertikálna záložka
12	C	014		nová stránka
13	D	015		návrat vozňa
14	E	016		vysunúť
15	F	017		zaradiť sa
16	10	020		únik dátového spojenia
17	11	021		ovládanie zariadenia 1
18	12	022		ovládanie zariadenia 2
19	13	023		ovládanie zariadenia 3
20	14	024		ovládanie zariadenia 4
21	15	025		negatívne priznať
22	16	026		synchrónny voľnobeh
23	17	027		koniec prekl. blokovať
24	18	030		Zrušiť
25	19	031		koniec média
26	1A	032		náhrada
27	1B	033		uniknúť
28	1C	034		oddeľovač súborov
29	1D	035		oddeľovač skupín
30	1E	036		oddeľovač záznamov
31	1F	037		oddeľovač jednotiek
32	20	040		priestor
33	21	041	!
34	22	042	"
35	23	043	#
36	24	044	$
37	25	045	%
38	26	046	&
39	27	047	"
40	28	050	(
41	29	051	)
42	2A	052	*
43	2B	053	+
44	2C	054	,
45	2D	055	-
46	2E	056	.
47	2F	057	/
48	30	060	0
49	31	061	1
50	32	062	2
51	33	063	3
52	34	064	4
53	35	065	5
54	36	066	6
55	37	067	7
56	38	070	8
57	39	071	9
58	3A	072	:
59	3B	073	;
60	3C	074	<
61	3D	075	=
62	3E	076	>
63	3F	077	?

dec	hex	okt	Char
64	40	100	@
65	41	101	A
66	42	102	B
67	43	103	C
68	44	104	D
69	45	105	E
70	46	106	F
71	47	107	G
72	48	110	H
73	49	111	ja
74	4A	112	J
75	4B	113	K
76	4C	114	L
77	4D	115	M
78	4E	116	N
79	4F	117	O
80	50	120	P
81	51	121	Q
82	52	122	R
83	53	123	S
84	54	124	T
85	55	125	U
86	56	126	V
87	57	127	W
88	58	130	X
89	59	131	Y
90	5A	132	Z
91	5B	133	[
92	5C	134	\
93	5D	135	]
94	5E	136	^
95	5F	137	_
96	60	140	`
97	61	141	a
98	62	142	b
99	63	143	c
100	64	144	d
101	65	145	e
102	66	146	f
103	67	147	g
104	68	150	h
105	69	151	i
106	6A	152	j
107	6B	153	k
108	6C	154	l
109	6D	155	m
110	6E	156	n
111	6F	157	o
112	70	160	p
113	71	161	q
114	72	162	r
115	73	163	s
116	74	164	t
117	75	165	u
118	76	166	v
119	77	167	w
120	78	170	X
121	79	171	r
122	7A	172	z
123	7B	173	{
124	7C	174	\|
125	7D	175	}
126	7E	176	~
127	7F	177	DEL

Ako môžete ľahko vidieť, v tomto kódovaní sú zastúpené iba latinské písmená a tie, ktoré sa používajú v angličtine. Nechýbajú ani aritmetické a iné servisné symboly. Neexistujú však žiadne ruské písmená alebo dokonca špeciálne latinské písmená pre nemčinu alebo francúzštinu. To sa dá ľahko vysvetliť – kódovanie bolo vyvinuté ako americký štandard. Keď sa po celom svete začali používať počítače, bolo potrebné zakódovať ďalšie znaky.

Na tento účel bolo rozhodnuté použiť ôsmy bit v každom byte. K dispozícii teda bolo 128 ďalších hodnôt (od 80 do FF), ktoré bolo možné použiť na kódovanie znakov. Prvá z osembitových tabuliek je „rozšírená ASCII“ ( rozšírené ASCII) - zahŕňal rôzne varianty latinských znakov používaných v niektorých jazykoch západnej Európy. Mal aj ďalšie ďalšie znaky, vrátane pseudografiky.

Pseudografické znaky umožňujú zobrazením iba textových znakov poskytnúť určitú podobu grafiky. Pomocou pseudografiky funguje napríklad program na správu súborov FAR Manager.

V rozšírenej ASCII tabuľke neboli žiadne ruské písmená. V Rusku (predtým ZSSR) a v iných štátoch boli vytvorené vlastné kódovania, ktoré umožnili reprezentovať špecifické „národné“ znaky v 8-bitových textových súboroch - latinské písmená poľského a českého jazyka, cyrilika (vrátane ruských písmen) a iné abecedy.

Vo všetkých kódovaniach, ktoré sa rozšírili, je prvých 127 znakov (tj bajtové hodnoty s ôsmym bitom rovným 0) rovnakých ako ASCII. Takže súbor ASCII funguje v ktoromkoľvek z týchto kódovaní; písmená anglického jazyka sú zastúpené rovnakým spôsobom.

Organizácia ISO(International Standardization Organization - International Organization for Standards) prijala skupinu noriem ISO 8859. Definuje 8-bitové kódovanie pre rôzne skupiny jazykov. Takže ISO 8859-1 je rozšírená ASCII tabuľka pre USA a západnú Európu. A ISO 8859-5 je tabuľka pre azbuku (vrátane ruštiny).

Z historických dôvodov sa však kódovanie ISO 8859-5 neuchytilo. V skutočnosti sa pre ruský jazyk používajú nasledujúce kódovania:

Kódová stránka 866 ( CP866), je tiež „DOS“, je tiež „alternatívne kódovanie GOST“. Široko používaný až do polovice 90. rokov; teraz v obmedzenom používaní. Prakticky sa nepoužíva na distribúciu textov na internete.
- KOI-8. Vyvinutý v 70-tych a 80-tych rokoch. Je to všeobecne akceptovaný štandard pre odosielanie poštových správ na ruskom internete. Je tiež široko používaný v operačných systémoch rodiny Unix, vrátane Linuxu. Verzia KOI-8, určená pre ruštinu, sa nazýva KOI-8R; existujú verzie pre iné cyrilické jazyky (napríklad KOI8-U je variant pre ukrajinský jazyk).
- Kódová stránka 1251, CP1251, Windows-1251. Vyvinutý spoločnosťou Microsoft na podporu ruského jazyka v systéme Windows.

Hlavnou výhodou CP866 bolo zachovanie pseudografických znakov na rovnakých miestach ako v Extended ASCII; preto cudzie textové programy, napríklad slávny Norton Commander, mohli fungovať bez zmien. CP866 sa v súčasnosti používa pre programy Windows spustené v textových oknách alebo v textovom režime na celú obrazovku, vrátane FAR Manager.

Texty v CP866 sú v posledných rokoch dosť zriedkavé (ale používa sa na kódovanie ruských názvov súborov v systéme Windows). Preto sa zastavíme pri dvoch ďalších kódovaniach - KOI-8R a CP1251.

Ako vidíte, v tabuľke kódovania CP1251 sú ruské písmená usporiadané v abecednom poradí (s výnimkou písmena YO). Toto usporiadanie veľmi uľahčuje abecedné triedenie počítačových programov.

Ale v KOI-8R sa poradie ruských písmen zdá byť náhodné. Ale v skutočnosti to tak nie je.

V mnohých starších programoch sa pri spracovaní alebo prenose textu stratil 8. bit. (V súčasnosti sú takéto programy prakticky „vymreté“, ale koncom 80. a začiatkom 90. rokov boli rozšírené). Na získanie 7-bitovej hodnoty z 8-bitovej hodnoty stačí odpočítať 8 od číslice vyššieho rádu; napríklad E1 sa zmení na 61.

Teraz porovnajte KOI-8R s tabuľkou ASCII (tabuľka 1). Zistíte, že ruské písmená sú v prísnom súlade s latinskými. Ak ôsmy bit zmizne, malé ruské písmená sa zmenia na veľké latinské písmená a veľké ruské písmená na malé latinské písmená. Takže E1 v KOI-8 je ruské „A“, zatiaľ čo 61 v ASCII je latinské „a“.

KOI-8 vám teda umožňuje zachovať čitateľnosť ruského textu so stratou 8. bitu. „Ahoj všetci“ sa zmení na „pRIWET WSEM“.

V poslednej dobe tak abecedné poradie znakov v kódovacej tabuľke, ako aj čitateľnosť so stratou 8. bitu stratili rozhodujúci význam. Ôsmy bit v moderných počítačoch sa nestráca ani pri prenose, ani pri spracovaní. A abecedné triedenie sa vykonáva s prihliadnutím na kódovanie a nie na jednoduché porovnanie kódov. (Mimochodom, kódy CP1251 nie sú úplne zoradené podľa abecedy - písmeno Y nie je na svojom mieste).

Vzhľadom na to, že existovali dve bežné kódovania, pri práci s internetom (pošta, prehliadanie webových stránok) niekedy namiesto ruského textu môžete vidieť nezmyselnú sadu písmen. Napríklad „Ja som SBYFEMHEL“. Sú to len slová „s úctou“; ale boli zakódované v kódovaní CP1251 a počítač dekódoval text podľa tabuľky KOI-8. Ak by boli rovnaké slová, naopak, zakódované v KOI-8 a počítač dekódoval text podľa tabuľky CP1251, výsledkom by bolo „U HCHBTSEOEN“.

Niekedy sa stane, že počítač dešifruje ruské písmená a dokonca aj podľa tabuľky, ktorá nie je určená pre ruský jazyk. Potom sa namiesto ruských písmen objaví nezmyselná sada znakov (napríklad latinské písmená východoeurópskych jazykov); často sa im hovorí „krokos“.

Vo väčšine prípadov si moderné programy dokážu určiť kódovanie internetových dokumentov (e-mailov a webových stránok) samy. Niekedy však „zlyhajú“ a potom môžete vidieť zvláštne sekvencie ruských písmen alebo „krokodíla“. Na zobrazenie skutočného textu v takejto situácii spravidla stačí manuálne zvoliť kódovanie v ponuke programu.

Pre článok boli použité informácie zo stránky http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Materiál prevzatý zo stránky:

Každý počítač má svoju vlastnú znakovú sadu, ktorú implementuje. Takáto sada obsahuje 26 veľkých a malých písmen, číslice a špeciálne znaky (bodka, medzera atď.). Symboly pri preklade na celé čísla sa nazývajú kódy. Normy boli vyvinuté tak, aby počítače mali rovnaké sady kódov.

štandard ASCII

ASCII (American Standard Code for Inmormation Interchange) je americký štandardný kód pre výmenu informácií. Každý znak ASCII má 7 bitov, takže maximálny počet znakov je 128 (tabuľka 1). Kódy 0 až 1F sú riadiace znaky, ktoré sa netlačia. Na prenos údajov je potrebných veľa netlačiteľných znakov ASCII. Správa môže napríklad pozostávať zo začiatočného znaku hlavičky SOH, samotnej hlavičky a začiatočného znaku textu STX, samotného textu a koncového znaku textu ETX a koncového znaku prenosu EOT. Dáta sa však po sieti prenášajú v paketoch, ktoré sú samy zodpovedné za začiatok a koniec prenosu. Takže netlačiteľné znaky sa takmer vôbec nepoužívajú.

Tabuľka 1 - Tabuľka kódov ASCII

číslo	Príkaz	Význam	číslo	Príkaz	Význam
0	NUL	nulový ukazovateľ	10	DLE	Opustenie prenosovej sústavy
1	SOH	začiatok hlavičky	11	DC1	Správa zariadenia
2	STX	Začiatok textu	12	DC2	Správa zariadenia
3	ETX	Koniec textu	13	DC3	Správa zariadenia
4	EOT	Koniec prenosu	14	DC4	Správa zariadenia
5	ACK	Dopyt	15	NAK	Nepotvrdenie prijatia
6	BEL	Potvrdenie o prijatí	16	SYN	Jednoduché
7	BS	Symbol zvončeka	17	ETB	Koniec bloku prenosu
8	HT	Odsadenie chrbta	18	MÔCŤ	značka
9	LF	Vodorovná karta	19	EM	Koniec médií
A	VT	Preklad riadkov	1A	SUB	dolný index
B	FF	Vertikálna karta	1B	ESC	Výkon
C	ČR	Preklad stránky	1C	FS	Oddeľovač súborov
D	SO	Vrátenie vozíka	1D	GS	Oddeľovač skupín
E	SI	Prechod na ďalší register	1E	RS	Oddeľovač záznamov
	SI	Prechod na štandardný prípad	1F	USA	Oddeľovač modulov

číslo	Symbol	číslo	Symbol	číslo	Symbol	číslo	Symbol	číslo	Symbol	číslo	Symbol
20	priestor	30	0	40	@	50	P	60	.	70	p
21	!	31	1	41	A	51	Q	61	a	71	q
22	‘	32	2	42	B	52	R	62	b	72	r
23	#	33	3	43	C	53	S	63	c	73	s
24	φ	34	4	44	D	54	T	64	d	74	t
25	%	35	5	45	E	55	A	65	e	75	A
26	&	36	6	46	F	56	V	66	f	76	v
27	‘	37	7	47	G	57	W	67	g	77	w
28	(	38	8	48	H	58	X	68	h	78	X
29	)	39	9	49	ja	59	Y	69	i	70	r
2A	‘	3A	;	4A	J	5A	Z	6A	j	7A	z
2B	+	3B	;	4B	K	5B	[	6B	k	7B	{
2C	‘	3C	<	4C	L	5C	\	6C	l	7C	\|
2D	—	3D	=	4D	M	5D	]	6D	m	7D	}
2E		3E	>	4E	N	5E	—	6E	n	7E	~
2F	/	3F	g	4F	O	5F	_	6F	o	7F	DEL

Štandard Unicode

Predchádzajúce kódovanie je skvelé pre angličtinu, ale nie je vhodné pre iné jazyky. Napríklad nemčina má prehlásky, zatiaľ čo francúzština má akcenty. Niektoré jazyky majú úplne odlišné abecedy. Prvým pokusom o rozšírenie ASCII bol IS646, ktorý rozšíril predchádzajúce kódovanie o ďalších 128 znakov. Latinské písmená boli pridané s ťahmi a diakritikou a bol nazvaný - Latin 1. Ďalším pokusom bol IS 8859 - ktorý obsahoval kódovú stránku. Stále existovali pokusy o rozšírenie, ale nebolo to univerzálne. Bolo vytvorené kódovanie UNICODE (je 10646). Myšlienkou kódovania je priradiť každému znaku jednu konštantnú 16-bitovú hodnotu, ktorá sa nazýva − ukazovateľ kódu. Celkovo bolo získaných 65536 ukazovateľov. Aby sme ušetrili miesto, použili sme Latin-1 pre kódy 0-255, čím sme jednoducho zmenili ASII na UNICODE. Tento štandard vyriešil veľa problémov, ale nie všetky. V súvislosti s príchodom nových slov, napríklad pre japončinu, je potrebné zvýšiť počet výrazov o cca 20 tis.. Treba povoliť aj Braillovo písmo.

Najnovšie články

2022-03-23 06:03:04
Čo je to zariadenie a ako sa líši od gadgetu
2022-03-23 06:03:04
Prehľad základnej dosky MSI P35 NEO MSI P35 Neo a MSI P35 Neo Combo – základné dosky založené na čipovej sade Intel P35
2022-03-17 22:04:42
Praktická práca na návrhu textových dokumentov obsahujúcich tabuľky

Populárne články

Voľba redaktora

2022-03-12 11:39:54

Ako vypnúť funkciu TalkBack?
Operačný systém Android má množstvo funkcií, o ktorých si bežní používatelia ani neuvedomujú. Jeden z tých "čipov"...
2022-03-12 11:39:54

Prehľad alternatívneho firmvéru HTC Desire A8181 Bravo Ako nainštalovať súbor firmvéru pre HTC Desire
Som šťastným majiteľom HTC Desire A8181. Keď som si ho pred rokom kupoval, moja radosť nemala hraníc. Po chvíli vyšiel Samsung ...
2022-03-12 11:39:54

Blikajúci alebo blikajúci telefón, smartfón a tablet Alcatel
Alcatel sa špecializuje na výrobu trendových mobilných telefónov, smartfónov a tabletov sprevádzaných nielen vynikajúcimi...
2022-03-12 11:39:54

Ako resetovať údaje (tvrdý reset, obnovenie továrenských nastavení) na Samsung Galaxy
Dostupnosť tvrdého resetu: K dispozícii Existuje mnoho dôvodov, prečo možno budete musieť vykonať tvrdý reset na výrobné nastavenia vášho smartfónu (Tvrdý...
2022-03-12 11:39:54

Najlepší firmvér pre HTC Desire so Sense shell - Runnymede a RuHD Inštalácia RuHD pre Desire
Ano, trochu mimo temy, ale aj tak som inokedy blysol vlastnym, uz dost starym, smarfonom a mam skusenosti. Ako sa hovorí, rovnaký firmvér má niečo spoločné s ...

rzdoro.ru