ascii tablosu 256 karakter ikili kod. ASCII kodlaması (bilgi değişimi için Amerikan standart kodu) - Latince için temel metin kodlaması

  • 13.10.2019
Aralık altıgen Sembol Aralık altıgen Sembol
000 00 uzman. NOP 128 80 Ђ
001 01 uzman. SOH 129 81 Ѓ
002 02 uzman. STX 130 82
003 03 uzman. ETX 131 83 ѓ
004 04 uzman. EOT 132 84
005 05 uzman. ENQ 133 85
006 06 uzman. ACK 134 86
007 07 uzman. BEL 135 87
008 08 uzman. BS 136 88
009 09 uzman. SEKME 137 89
010 0Auzman. LF 138 8AЉ
011 0Buzman. VT 139 8B‹ ‹
012 0Cuzman. FF 140 8CЊ
013 0Duzman. CR 141 8DЌ
014 0Euzman. BÖYLE 142 8EЋ
015 0Fuzman. Sİ 143 8FЏ
016 10 uzman. DLE 144 90 ђ
017 11 uzman. DC1 145 91
018 12 uzman. DC2 146 92
019 13 uzman. DC3 147 93
020 14 uzman. DC4 148 94
021 15 uzman. NAK 149 95
022 16 uzman. SYN 150 96
023 17 uzman. ETB 151 97
024 18 uzman. YAPABİLMEK 152 98
025 19 uzman. EM 153 99
026 1 Auzman. ALT 154 9Aљ
027 1Buzman. ESC 155 9B
028 1Cuzman. FS 156 9Cњ
029 1Buzman. GS 157 9Dќ
030 1Euzman. RS 158 9Eћ
031 1Fuzman. BİZ 159 9Fџ
032 20 debriyaj SP (Boşluk) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 A2ў
035 23 # 163 A3Ћ
036 24 $ 164 A4¤
037 25 % 165 A5Ґ
038 26 & 166 A6¦
039 27 " 167 A7§
040 28 ( 168 A8sen
041 29 ) 169 A9©
042 2A* 170 AAЄ
043 2B+ 171 AB«
044 2C, 172 AC¬
045 2B- 173 AD­
046 2E. 174 AE®
047 2F/ 175 AFЇ
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8sen
057 39 9 185 B9
058 3 A: 186 BAє
059 3B; 187 BB»
060 3C< 188 M.Öј
061 3 boyutlu= 189 BDЅ
062 3E> 190 OLMAKѕ
063 3F? 191 sevgiliї
064 40 @ 192 C0 ANCAK
065 41 A 193 C1 B
066 42 B 194 C2 AT
067 43 C 195 C3 G
068 44 D 196 C4 D
069 45 E 197 C5 E
070 46 F 198 C6 VE
071 47 G 199 C7 W
072 48 H 200 C8 Ve
073 49 ben 201 C9 Y
074 4AJ 202 CA İle
075 4BK 203 CB L
076 4CL 204 CC M
077 4DM 205 CD H
078 4EN 206 CE Ö
079 4FÖ 207 CF P
080 50 P 208 D0 R
081 51 Q 209 D1 İTİBAREN
082 52 R 210 D2 T
083 53 S 211 D3 saat
084 54 T 212 D4 F
085 55 sen 213 D5 X
086 56 V 214 D6 C
087 57 W 215 D7 H
088 58 X 216 D8 W
089 59 Y 217 D9 SCH
090 5AZ 218 DA Kommersant
091 5B[ 219 D.B. S
092 5C\ 220 DC b
093 5D] 221 DD E
094 5E^ 222 DE YU
095 5F_ 223 D.F. ben
096 60 ` 224 E0 a
097 61 a 225 E1 b
098 62 b 226 E2 içinde
099 63 c 227 E3 G
100 64 d 228 E 4 d
101 65 e 229 E5 e
102 66 f 230 E6 ve
103 67 g 231 E7 h
104 68 h 232 E8 ve
105 69 i 233 E9 inci
106 6Aj 234 EA ile
107 6Bk 235 EB ben
108 6Cben 236 AB m
109 6Dm 237 ED n
110 6En 238 EE hakkında
111 6FÖ 239 EF P
112 70 p 240 F0 R
113 71 q 241 F1 İle birlikte
114 72 r 242 F2 t
115 73 s 243 F3 de
116 74 t 244 F4 f
117 75 sen 245 F5 X
118 76 v 246 F6 c
119 77 w 247 F7 h
120 78 x 248 F8 ş
121 79 y 249 F9 sch
122 7Az 250 FA b
123 7B{ 251 Facebook s
124 7C| 252 FC b
125 7D} 253 FD uh
126 7E~ 254 F.E. Yu
127 7FUzman. DEL 255 FF ben

Windows karakter kodlarının ASCII tablosu.
Özel (kontrol) karakterlerin açıklaması

Başlangıçta ASCII tablosunun kontrol karakterlerinin teletip yoluyla veri alışverişi, delikli bir banttan veri girişi ve harici cihazların en basit kontrolü için kullanıldığına dikkat edilmelidir.
Şu anda, tablonun ASCII kontrol karakterlerinin çoğu artık bu yükü taşımamaktadır ve başka amaçlar için kullanılabilir.
kod Tanım
SIFIR, 00boş, boş
SO-01Başlama Başlangıcı
STX 02TeXt'in başlangıcı, metnin başlangıcı.
ETX 03Metin Sonu
EOT, 04İletimin Sonu
ENQ, 05Sormak. Lütfen onaylayın
ACK, 06teşekkür. onaylıyorum
B.E.L.07Çan, ara
Lisans 08Geri al, bir karakter geri git
SEKME, 09Sekme, yatay sekme
LF, 0ASatır Besleme, satır besleme.
Artık çoğu programlama dilinde \n olarak gösterilir.
VT, 0BDikey Sekme, dikey tablolama.
FF, 0CForm beslemesi, sayfa beslemesi, yeni sayfa
CR, 0DSatırbaşı
Artık çoğu programlama dilinde \r olarak gösterilir.
SO, 0EShift Out, yazıcıdaki mürekkep şeridinin rengini değiştirin
SI, 0FShift In, yazdırma aygıtındaki mürekkep şeridinin rengini geri döndürün
10Data Link Escape, veri iletimine kanal geçişi
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Cihaz Kontrolü, cihaz kontrol sembolleri
NAK 15Olumsuz Onay, onaylamıyorum.
SYN, 16senkronizasyon. senkronizasyon sembolü
ETB, 17Metin Bloğunun Sonu, metin bloğunun sonu
CAN, 18İptal, daha önce geçmiş bir işlemi iptal etme
EM, 19Orta Sonu
ALT, 1AYerine koymak, ikame etmek. İletim sırasında değeri kaybolan veya bozulan bir karakterin yerine yerleştirilir
ESC, 1Bkaçış kaçış dizisi
FS, 1CDosya Ayırıcı, dosya ayırıcı
GS, 1DGrup Ayırıcı, grup ayırıcı
RS, 1EKayıt Ayırıcı
ABD, 1FBirim Ayırıcı, birim ayırıcı
DEL, 7FSil, son karakteri sil.

Sembol yerleşimi

BS (back step) karakteri sayesinde yazıcı bir karakteri diğerinin üzerine yazdırabilir. ASCII, harflere bu şekilde aksan eklemek için sağlanmıştır, örneğin:

  • bir BS " → bir
  • bir BS ` → bir
  • bir BS ^ → â
  • o BS / → ø
  • c BS , → ç
  • n BS ~ → ñ

Not: eski yazı tiplerinde kesme işareti " sola eğik ve tilde ~ yukarı kaydırıldı, bu yüzden sadece vurgu ve tilde rolüne uyuyorlar.

Aynı karakter bir karakterin üzerine bindirilirse, efekt kalın olur ve karakterin üzerine bir alt çizgi bindirilirse, altı çizili metin elde edilir.

  • bir BS bir → a
  • bir BS_ → a

Not: bu, örneğin man yardım sisteminde kullanılır.

ASCII'nin ulusal varyantları

ISO 646 (ECMA-6) standardı, ulusal sembolleri yerine yerleştirme imkanı sağlar. @ [ \ ] ^ ` { | } ~ . Bunun yanında yerinde # yerleştirilebilir £ , ve yerinde $ - ¤ . Bu sistem, yalnızca birkaç ek karakterin gerekli olduğu Avrupa dilleri için çok uygundur. ASCII'nin ulusal karakterler içermeyen bir çeşidi, US-ASCII veya "Uluslararası Referans Sürümü" olarak adlandırılır.

Daha sonra, kod tablosunun alt yarısının (0-127) US-ASCII karakterleri ve üst yarısının (128-255) işgal edildiği 8 bitlik kodlamaların (kod sayfaları) kullanılması daha uygun olduğu ortaya çıktı. bir dizi ulusal karakter de dahil olmak üzere ek karakterler tarafından işgal edilir. Bu nedenle, Unicode'un yaygın olarak benimsenmesinden önce ASCII tablosunun üst yarısı, yerel dilin harflerini, yerelleştirilmiş karakterleri temsil etmek için yoğun bir şekilde kullanılıyordu. Kiril karakterlerini ASCII tablosuna yerleştirmek için tek bir standardın olmaması, kodlamalarla ilgili birçok soruna neden oldu (KOI-8, Windows-1251 ve diğerleri). Latin alfabesi olmayan diğer diller de birkaç farklı kodlamanın varlığından dolayı zarar gördü.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F
0. NUL SOM EOA EOM EQT WRU TR ZİL BKSP HT LF VT FF CR BÖYLE
1. DC 0 DC1 DC 2 DC 3 DC 4 HATA SENKRON LEM S0 S1 S2 S3 S4 S5 S6 S7
2.
3.
4. BOŞLUK ! " # $ % & " ( ) * + , - . /
5. 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
6.
7.
8.
9.
A. @ A B C D E F G H ben J K L M N Ö
b. P Q R S T sen V W X Y Z [ \ ]
C.
D.
E. a b c d e f g h i j k ben m n Ö
F. p q r s t sen v w x y z ESC DEL

Adreslenebilir minimum bellek biriminin 36 bitlik bir kelime olduğu bilgisayarlarda, ilk başta 6 bitlik karakterler kullanıldı (1 kelime = 6 karakter). ASCII'ye geçişten sonra, bu tür bilgisayarlar ya bir kelimeye 5 yedi bit karakter (1 bit gereksiz kaldı) veya 4 dokuz bit karakter yerleştirmeye başladı.

ASCII kodları ayrıca programlama yapılırken hangi tuşa basıldığını belirlemek için kullanılır. Standart bir QWERTY klavye için kod tablosu şöyle görünür:

Uluslararası Telekomünikasyon Birliği'ne göre, 2016'da üç buçuk milyar insan interneti değişen düzenliliklerle kullandı. Çoğu, PC veya mobil cihazlar aracılığıyla gönderdikleri mesajların yanı sıra her türlü monitörde görüntülenen metinlerin aslında 0 ve 1 kombinasyonları olduğu gerçeğini bile düşünmüyorlar. Bu bilgi temsiline kodlama denir. Depolama, işleme ve iletiminin uygulanmasını sağlar ve büyük ölçüde kolaylaştırır. 1963 yılında bu yazının konusu olan Amerikan ASCII kodlaması geliştirildi.

Bilgisayarda bilginin temsili

Herhangi bir elektronik bilgisayarın bakış açısından, metin bir dizi bireysel karakterdir. Bunlar, yalnızca büyük harfler dahil olmak üzere harfleri değil, aynı zamanda noktalama işaretlerini, sayıları da içerir. Ayrıca özel karakterler "=", "&", "(" ve boşluklar kullanılır.

Metni oluşturan karakter kümesine alfabe denir ve sayılarına güç denir (N ile gösterilir). Bunu belirlemek için, N = 2^b ifadesi kullanılır; burada b, belirli bir karakterin bit sayısı veya bilgi ağırlığıdır.

256 karakter kapasiteli alfabenin, gerekli tüm karakterleri temsil etmenize izin verdiği kanıtlanmıştır.

256, 2'nin 8. kuvveti olduğundan, her karakterin ağırlığı 8 bittir.

8 bitlik bir ölçü birimine 1 bayt denir, bu nedenle bir bilgisayarda depolanan metindeki herhangi bir karakterin bir bayt bellek kapladığını söylemek gelenekseldir.

kodlama nasıl yapılır

Herhangi bir metin, kişisel bilgisayarın hafızasına sayılar, harfler, noktalama işaretleri ve diğer sembollerin yazıldığı klavye tuşları vasıtasıyla girilir. İkili kodda RAM'e aktarılırlar, yani, her karaktere, 0 ila 255 arasında, ikili bir koda karşılık gelen, 00000000 ila 11111111 arasında, insanlara tanıdık bir ondalık kod atanır.

Bayt bayt karakter kodlaması, bir metin işlemcisinin her bir karaktere ayrı ayrı erişmesini sağlar. Aynı zamanda, herhangi bir karakter bilgisini temsil etmek için 256 karakter yeterlidir.

ASCII karakter kodlaması

İngilizce'deki bu kısaltma, bilgi alışverişi için kod anlamına gelir.

Bilgisayarlaşmanın şafağında bile, bilgiyi kodlamak için çeşitli yollar bulabileceğin aşikar hale geldi. Ancak bir bilgisayardan diğerine bilgi aktarmak için tek bir standart geliştirmek gerekiyordu. Böylece, 1963'te Amerika Birleşik Devletleri'nde bir ASCII kodlama tablosu ortaya çıktı. İçinde, bilgisayar alfabesinin herhangi bir sembolü, ikili gösterimde sıra numarasına atanır. Başlangıçta, ASCII kodlaması yalnızca Amerika Birleşik Devletleri'nde kullanıldı ve daha sonra PC'ler için uluslararası standart haline geldi.

ASCII kodları 2 bölüme ayrılmıştır. Bu tablonun yalnızca ilk yarısı Uluslararası Standart olarak kabul edilir. 0'dan (00000000 olarak kodlanmıştır) 127'ye (kod 01111111) kadar seri numaralarına sahip karakterleri içerir.

Seri numarası

ASCII metin kodlaması

Sembol

0000 0000 - 0001 1111

0'dan 31'e kadar N olan karakterlere kontrol karakterleri denir. İşlevleri, bir monitörde veya yazıcıda metin görüntüleme, ses sinyali verme vb. sürecini "yönetmektir".

0010 0000 - 0111 1111

32'den 127'ye kadar N olan semboller (tablonun standart kısmı), Latin alfabesinin büyük ve küçük harfleri, 10. basamak, noktalama işaretleri ve ayrıca çeşitli parantezler, ticari ve diğer sembollerdir. 32 sembolü bir boşluğu ifade eder.

1000 0000 - 1111 1111

128'den 255'e kadar N olan karakterlerin (tablonun veya kod sayfasının alternatif kısmı), her biri kendi numarasına sahip olan farklı varyantları olabilir. Kod sayfası, Latin alfabesinden farklı ulusal alfabeleri belirtmek için kullanılır. Özellikle, Rus karakterleri için ASCII kodlamasının gerçekleştirilir.

Tabloda kodlamalar büyük harf olup alfabetik sırayla birbirini takip eder ve sayılar artan sıradadır. Bu ilke Rus alfabesi için korunmuştur.

Kontrol karakterleri

ASCII kodlama tablosu aslında teletype gibi uzun süredir kullanılmayan bir cihaz üzerinden bilgi almak ve iletmek için oluşturulmuştur. Bu bağlamda, bu cihazı kontrol etmek için komutlar olarak kullanılan karakter setine yazdırılamayan karakterler dahil edildi. Mors kodu vb. gibi bilgisayar öncesi mesajlaşma yöntemlerinde benzer komutlar kullanıldı.

En yaygın "teletype" karakteri NUL'dur (00, "sıfır"). Bu güne kadar çoğu programlama dilinde hala kullanılmaktadır ve bir satırın sonunun işaretini ifade etmektedir.

ASCII kodlaması nerede kullanılır?

Amerikan Standart Kodu, klavyede metinsel bilgi girmekten daha fazlası için gereklidir. Grafiklerde de kullanılır. Özellikle, ASCII Art Maker programında, çeşitli uzantıların görüntüleri, bir ASCII karakter yelpazesini temsil eder.

Bu tür ürünler iki türdür: bir görüntüyü metne dönüştürerek ve "çizimleri" ASCII grafiklerine dönüştürerek grafik düzenleyicilerin işlevini yerine getirenler. Örneğin, iyi bilinen ifade, kodlama karakterinin başlıca örneğidir.

ASCII, bir HTML belgesi oluştururken de kullanılabilir. Bu durumda belirli bir karakter kümesi girebilirsiniz ve sayfayı görüntülerken ekranda bu koda karşılık gelen bir karakter belirecektir.

ASCII ayrıca çok dilli siteler oluşturmak için de gereklidir, çünkü belirli bir ulusal tabloya dahil olmayan karakterler ASCII kodları ile değiştirilir.

Bazı özellikler

Metinsel bilgileri ASCII kodlamasında kodlamak için başlangıçta 7 bit kullanıldı (biri boş kaldı), ancak bugün 8 bit gibi çalışıyor.

Üstte ve altta yer alan sütunlarda yer alan harfler birbirinden sadece bir bit farklıdır. Bu, doğrulamanın karmaşıklığını büyük ölçüde azaltır.

ASCII'yi Microsoft Office'te Kullanma

Gerekirse, bu tür metinsel bilgi kodlaması, Not Defteri ve Office Word gibi Microsoft metin düzenleyicilerinde kullanılabilir. Ancak böyle bir durumda yazarken bazı fonksiyonları kullanmak mümkün olmayacaktır. Örneğin, ASCII genel görünümünü ve biçimini göz ardı ederek yalnızca bilginin anlamını koruduğu için onu kalın yapamazsınız.

Standardizasyon

ISO organizasyonu, ISO 8859 standartlarını benimsemiştir.Bu grup, farklı dil grupları için sekiz bitlik kodlamalar tanımlar. Özellikle ISO 8859-1, Amerika Birleşik Devletleri ve Batı Avrupa ülkeleri için bir tablo olan Genişletilmiş ASCII'dir. ISO 8859-5, Rusça dahil Kiril alfabesi için kullanılan bir tablodur.

Bir dizi tarihsel nedenden dolayı, ISO 8859-5 standardı çok kısa bir süre kullanıldı.

Rus dili için şu anda kodlamalar kullanılmaktadır:

  • CP866 (Kod Sayfası 866) veya DOS, genellikle GOST alternatif kodlaması olarak anılır. Geçen yüzyılın 90'lı yıllarının ortalarına kadar aktif olarak kullanıldı. Şu anda pratik olarak kullanılmamaktadır.
  • KOI-8. Kodlama 1970'lerde ve 80'lerde geliştirildi ve şu anda RuNet'te e-posta mesajları için genel kabul görmüş standarttır. Linux dahil olmak üzere Unix işletim sistemleri ailesinde yaygın olarak kullanılmaktadır. KOI-8'in "Rus" versiyonuna KOI-8R denir. Ek olarak, Ukraynaca gibi diğer Kiril dilleri için de sürümleri vardır.
  • Kod Sayfası 1251 (CP 1251, Windows - 1251). Windows ortamında Rus diline destek sağlamak için Microsoft tarafından geliştirilmiştir.

İlk CP866 standardının ana avantajı, psödografik karakterlerin Genişletilmiş ASCII ile aynı konumlarda korunmasıydı. Bu, iyi bilinen Norton Commander gibi yabancı kaynaklı metin programlarının değiştirilmeden çalıştırılmasına izin verdi. Şu anda, CP866, Windows altında geliştirilen ve FAR Manager dahil olmak üzere tam ekran metin modunda veya metin pencerelerinde çalışan programlar için kullanılmaktadır.

CP866 kodlamasıyla yazılan bilgisayar metinleri son zamanlarda oldukça nadirdir, ancak Windows'ta Rusça dosya adları için kullanılan budur.

"Unicode"

Şu anda, bu kodlama en yaygın kullanılanıdır. Unicode kodları bölgelere ayrılmıştır. İlki (U+0000 - U+007F), kodlu ASCII karakterlerini içerir. Bunu, çeşitli ulusal yazıların karakterlerinin yanı sıra noktalama işaretleri ve teknik sembollerin alanları takip eder. Ayrıca, bazı "Unicode" kodları, gelecekte yeni karakterlerin eklenmesi için ayrılmıştır.

Artık ASCII kodlamasında her karakterin 8 sıfır ve bir kombinasyonu olarak temsil edildiğini biliyorsunuz. Uzman olmayanlar için bu bilgi gereksiz ve ilgisiz görünebilir, ancak bilgisayarınızın "beyninde" neler olduğunu bilmek istemez misiniz?!

[8 bit kodlamalar: ASCII, KOI-8R ve CP1251] ABD'de oluşturulan ilk kodlama tabloları bir bayttaki sekizinci biti kullanmıyordu. Metin bir bayt dizisi olarak sunuldu, ancak sekizinci bit dikkate alınmadı (resmi amaçlar için kullanıldı).

Tablo kabul edilen standart haline geldi. ASCII(Bilgi değişimi için Amerikan Standart kodu). ASCII tablosunun ilk 32 karakteri (00 - 1F) yazdırılmayan karakterler için kullanılmıştır. Bir baskı cihazını ve benzerlerini kontrol etmek için tasarlandılar. Gerisi - 20'den 7F'ye - normal (yazdırılabilir) karakterlerdir.

Tablo 1 - ASCII kodlaması

AralıkaltıgenEkimkarakterTanım
0 0 000 hükümsüz
1 1 001 başlığın başlangıcı
2 2 002 metnin başlangıcı
3 3 003 metnin sonu
4 4 004 iletimin sonu
5 5 005 soruşturma
6 6 006 kabullenmek
7 7 007 zil
8 8 010 geri almak
9 9 011 yatay sekme
10 A 012 Yeni hat
11 B 013 dikey sekme
12 C 014 yeni sayfa
13 D 015 satırbaşı
14 E 016 dışarı kaydırmak
15 F 017 vardiya
16 10 020 veri bağlantısı kaçış
17 11 021 cihaz kontrolü 1
18 12 022 cihaz kontrolü 2
19 13 023 cihaz kontrolü 3
20 14 024 cihaz kontrolü 4
21 15 025 olumsuz kabul
22 16 026 senkron rölanti
23 17 027 trans'ın sonu. engellemek
24 18 030 iptal etmek
25 19 031 ortanın sonu
26 1 A 032 vekil
27 1B 033 kaçmak
28 1C 034 dosya ayırıcı
29 1B 035 grup ayırıcı
30 1E 036 kayıt ayırıcı
31 1F 037 birim ayırıcı
32 20 040 Uzay
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2B 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3 A 072 :
59 3B 073 ;
60 3C 074 <
61 3 boyutlu 075 =
62 3E 076 >
63 3F 077 ?
AralıkaltıgenEkimkarakter
64 40 100 @
65 41 101 A
66 42 102 B
67 43 103 C
68 44 104 D
69 45 105 E
70 46 106 F
71 47 107 G
72 48 110 H
73 49 111 ben
74 4A 112 J
75 4B 113 K
76 4C 114 L
77 4D 115 M
78 4E 116 N
79 4F 117 Ö
80 50 120 P
81 51 121 Q
82 52 122 R
83 53 123 S
84 54 124 T
85 55 125 sen
86 56 126 V
87 57 127 W
88 58 130 X
89 59 131 Y
90 5A 132 Z
91 5B 133 [
92 5C 134 \
93 5D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 a
98 62 142 b
99 63 143 c
100 64 144 d
101 65 145 e
102 66 146 f
103 67 147 g
104 68 150 h
105 69 151 i
106 6A 152 j
107 6B 153 k
108 6C 154 ben
109 6D 155 m
110 6E 156 n
111 6F 157 Ö
112 70 160 p
113 71 161 q
114 72 162 r
115 73 163 s
116 74 164 t
117 75 165 sen
118 76 166 v
119 77 167 w
120 78 170 x
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

Kolayca görebileceğiniz gibi, bu kodlamada sadece Latin harfleri ve İngilizce'de kullanılanlar temsil edilmektedir. Aritmetik ve diğer hizmet sembolleri de vardır. Ancak Rusça harfler, hatta Almanca veya Fransızca için özel Latin harfleri yoktur. Bunu açıklamak kolaydır - kodlama bir Amerikan standardı olarak geliştirilmiştir. Bilgisayarlar dünya çapında kullanılmaya başladığından, diğer karakterlerin kodlanması gerekiyordu.

Bunu yapmak için her baytta sekizinci bitin kullanılmasına karar verildi. Böylece karakterleri kodlamak için kullanılabilecek 128 değer daha (80'den FF'ye) mevcuttu. Sekiz bitlik tablolardan ilki “genişletilmiş ASCII”dir ( genişletilmiş ASCII) - Batı Avrupa'nın bazı dillerinde kullanılan Latin karakterlerinin çeşitli türevlerini içeriyordu. Ayrıca, sözde grafikler de dahil olmak üzere başka ek karakterlere de sahipti.

Sözde grafik karakterler, yalnızca metin karakterlerini görüntüleyerek, bir miktar grafik benzerliği sağlamaya izin verir. Sözde grafikleri kullanarak, örneğin, FAR Manager dosya yönetimi programı çalışır.

Genişletilmiş ASCII tablosunda Rusça harfler yoktu. Rusya'da (eski adıyla SSCB) ve diğer eyaletlerde, 8 bitlik metin dosyalarında belirli “ulusal” karakterleri temsil etmeyi mümkün kılan kendi kodlamaları oluşturuldu - Lehçe ve Çek dillerinin Latin harfleri, Kiril (Rus harfleri dahil) ve diğer alfabeler.

Yaygınlaşan tüm kodlamalarda ilk 127 karakter (yani sekizinci bitin 0'a eşit olduğu bayt değerleri) ASCII ile aynıdır. Dolayısıyla bir ASCII dosyası bu kodlamalardan herhangi birinde çalışır; İngiliz dilinin harfleri aynı şekilde temsil edilir.

organizasyon ISO(Uluslararası Standardizasyon Örgütü - Uluslararası Standartlar Örgütü) bir grup standardı benimsemiştir. ISO 8859. Farklı dil grupları için 8 bitlik kodlamaları tanımlar. Bu nedenle, ISO 8859-1, ABD ve Batı Avrupa için bir tablo olan Genişletilmiş ASCII'dir. Ve ISO 8859-5, Kiril (Rusça dahil) için bir tablodur.

Ancak, tarihsel nedenlerden dolayı ISO 8859-5 kodlaması tutmadı. Gerçekte, Rus dili için aşağıdaki kodlamalar kullanılır:

Kod Sayfa 866 ( CP866), aynı zamanda “DOS”, aynı zamanda “alternatif GOST kodlaması”. 1990'ların ortalarına kadar yaygın olarak kullanılan; şimdi sınırlı kullanımda. İnternette metinlerin dağıtımı için pratik olarak kullanılmaz.
- KOI-8. 70'li ve 80'li yıllarda geliştirildi. Rus İnternetinde posta mesajları göndermek için genel kabul görmüş bir standarttır. Ayrıca, Linux dahil olmak üzere Unix ailesinin işletim sistemlerinde yaygın olarak kullanılmaktadır. Rusça için tasarlanmış KOI-8 versiyonuna denir KOI-8R; diğer Kiril dilleri için sürümler vardır (örneğin, KOI8-U, Ukrayna dilinin bir çeşididir).
- Kod Sayfası 1251, CP1251, Windows-1251. Windows sisteminde Rus dilini desteklemek için Microsoft tarafından geliştirilmiştir.

CP866'nın ana avantajı, Genişletilmiş ASCII ile aynı yerlerde psödografik karakterlerin korunmasıydı; bu nedenle, yabancı metin programları, örneğin ünlü Norton Commander, değişiklik yapmadan çalışabilir. CP866 şu anda metin pencerelerinde veya FAR Yöneticisi de dahil olmak üzere tam ekran metin modunda çalışan Windows programları için kullanılmaktadır.

CP866'daki metinler son yıllarda oldukça nadirdir (ancak Windows'ta Rusça dosya adlarını kodlamak için kullanılır). Bu nedenle, diğer iki kodlama üzerinde duracağız - KOI-8R ve CP1251.



Gördüğünüz gibi, CP1251 kodlama tablosunda, Rusça harfler alfabetik sıraya göre düzenlenmiştir (ancak YO harfi hariç). Bu düzenleme, bilgisayar programlarının alfabetik olarak sıralanmasını çok kolaylaştırır.

Ancak KOI-8R'de Rus harflerinin sırası rastgele görünüyor. Ama aslında öyle değil.

Birçok eski programda, metin işlenirken veya iletilirken 8. bit kayboldu. (Artık bu tür programlar pratik olarak “soyu tükenmiştir”, ancak 80'lerin sonunda ve 90'ların başında yaygındı). 8 bitlik bir değerden 7 bitlik bir değer elde etmek için, yüksek sıralı basamaktan 8 çıkarmak yeterlidir; örneğin, E1 61 olur.

Şimdi KOI-8R'yi ASCII tablosuyla karşılaştırın (Tablo 1). Rus harflerinin Latin harfleriyle tam bir uyum içinde olduğunu göreceksiniz. Sekizinci bit kaybolursa, küçük Rus harfleri büyük Latin harflerine ve büyük Rus harfleri küçük Latin harflerine dönüşür. Yani, KOI-8'deki E1 Rusça "A" iken, ASCII'deki 61 Latince "a"dır.

Böylece KOI-8, 8. bit kaybıyla Rusça metnin okunabilirliğini korumanıza izin verir. "Herkese merhaba", "pRIWET WSEM" olur.

Son zamanlarda hem kodlama tablosundaki karakterlerin alfabetik sırası hem de 8. bitin kaybolmasıyla okunabilirlik belirleyici önemini yitirmiştir. Modern bilgisayarlarda sekizinci bit, aktarım sırasında veya işleme sırasında kaybolmaz. Alfabetik sıralama, basit bir kod karşılaştırması değil, kodlama dikkate alınarak yapılır. (Bu arada, CP1251 kodları tamamen alfabetik olarak sıralanmamıştır - Y harfi yerinde değildir).

İki yaygın kodlama olduğu için, İnternet ile çalışırken (posta, Web sitelerinde gezinme), bazen Rusça metin yerine anlamsız bir dizi harf görebilirsiniz. Örneğin, "Ben SBYFEMHEL'im". Sadece "saygılarımla" kelimeleri; ancak bunlar CP1251 kodlamasında kodlanmıştır ve bilgisayar metnin kodunu KOI-8 tablosuna göre çözmüştür. Aynı kelimeler KOI-8'de kodlanmış olsaydı ve bilgisayar metnin kodunu CP1251 tablosuna göre çözseydi, sonuç “U HCHBTSEOEN” olurdu.

Bazen bir bilgisayar Rusça harflerin şifresini çözer ve hatta Rus dili için tasarlanmamış bir tabloya göre olur. Ardından, Rusça harfler yerine anlamsız bir dizi karakter belirir (örneğin, Doğu Avrupa dillerinin Latin harfleri); genellikle "timsah" olarak adlandırılırlar.

Çoğu durumda, modern programlar İnternet belgelerinin (e-postalar ve Web sayfaları) kodlamalarını kendi başlarına belirlemeyi başarır. Ama bazen "yanlış ateş ederler" ve sonra garip Rus harfleri veya "timsah" dizileri görebilirsiniz. Kural olarak, böyle bir durumda gerçek metni görüntülemek için, program menüsünde kodlamayı manuel olarak seçmek yeterlidir.

Makale için http://open-office.edusite.ru/TextProcessor/p5aa1.html sayfasındaki bilgiler kullanılmıştır.

Siteden alınan malzeme:

Her bilgisayarın uyguladığı kendi karakter seti vardır. Böyle bir küme 26 büyük ve küçük harf, sayı ve özel karakter (nokta, boşluk vb.) içerir. Tam sayılara çevrilen sembollere kod denir. Standartlar, bilgisayarların aynı kod setlerine sahip olması için geliştirildi.

ASCII standardı

ASCII (Inmormation Interchange için Amerikan Standart Kodu), bilgi değişimi için Amerikan standart kodudur. Her ASCII karakterinin 7 biti vardır, bu nedenle maksimum karakter sayısı 128'dir (Tablo 1). 0 ila 1F arasındaki kodlar, yazdırılmayan kontrol karakterleridir. Verileri aktarmak için birçok yazdırılamayan ASCII karakteri gerekir. Örneğin, bir mesaj başlık başlangıç ​​karakteri SOH, başlığın kendisi ve metin başlangıç ​​karakteri STX, metnin kendisi ve metin bitiş karakteri ETX ve iletim bitiş karakteri EOT'den oluşabilir. Bununla birlikte, veriler ağ üzerinden, aktarımın başlangıcından ve sonundan kendileri sorumlu olan paketler halinde iletilir. Yani yazdırılamayan karakterler neredeyse hiç kullanılmaz.

Tablo 1 - ASCII kod tablosu

Sayı Takım Anlam Sayı Takım Anlam
0 NUL boş işaretçisi 10 DLE İletim sisteminden çıkış
1 SOH başlık başlangıcı 11 DC1 Cihaz yönetimi
2 STX Metnin başlangıcı 12 DC2 Cihaz yönetimi
3 ETX Metnin sonu 13 DC3 Cihaz yönetimi
4 EOT İletim sonu 14 DC4 Cihaz yönetimi
5 ACK Rica etmek 15 NAK Resepsiyonun onaylanmaması
6 BEL Kabul onayı 16 SYN Basit
7 BS çan sembolü 17 ETB İletim bloğunun sonu
8 HT Geri girinti 18 YAPABİLMEK işaret
9 LF Yatay sekme 19 EM Medya Sonu
A VT Satır çevirisi 1 A ALT alt simge
B FF Dikey sekme 1B ESC çıkış
C CR Sayfa çevirisi 1C FS Dosya ayırıcı
D BÖYLE Satırbaşı 1B GS Grup ayırıcı
E Ek bir kayıt defterine geçiş 1E RS Kayıt ayırıcı
Standart register'a geçiş 1F BİZ Modül ayırıcı
Sayı Sembol Sayı Sembol Sayı Sembol Sayı Sembol Sayı Sembol Sayı Sembol
20 Uzay 30 0 40 @ 50 P 60 . 70 p
21 ! 31 1 41 A 51 Q 61 a 71 q
22 32 2 42 B 52 R 62 b 72 r
23 # 33 3 43 C 53 S 63 c 73 s
24 φ 34 4 44 D 54 T 64 d 74 t
25 % 35 5 45 E 55 Ve 65 e 75 ve
26 & 36 6 46 F 56 V 66 f 76 v
27 37 7 47 G 57 W 67 g 77 w
28 ( 38 8 48 H 58 X 68 h 78 x
29 ) 39 9 49 ben 59 Y 69 i 70 y
2A 3 A ; 4A J 5A Z 6A j 7A z
2B + 3B ; 4B K 5B [ 6B k 7B {
2C 3C < 4C L 5C \ 6C ben 7C |
2B 3 boyutlu = 4D M 5D ] 6D m 7D }
2E 3E > 4E N 5E 6E n 7E ~
2F / 3F g 4F Ö 5F _ 6F Ö 7F DEL

Unicode standardı

Önceki kodlama İngilizce için harikadır, ancak diğer diller için uygun değildir. Örneğin, Almanca'da noktalı harfler bulunurken, Fransızca'da aksan vardır. Bazı dillerin tamamen farklı alfabeleri vardır. ASCII'yi genişletmeye yönelik ilk girişim, önceki kodlamayı 128 karakter daha genişleten IS646 idi. Latin harfleri, vuruşlar ve aksanlarla eklendi ve Latince 1 olarak adlandırıldı. Bir sonraki girişim, bir kod sayfası içeren IS 8859 idi. Hala genişleme girişimleri vardı, ancak bu evrensel değildi. UNICODE kodlaması (10646'dır) oluşturuldu. Kodlama fikri, her karaktere 16 bitlik tek bir sabit değer atamaktır, buna − kod işaretçisi. Toplamda 65536 işaretçi elde edilir. Yer kazanmak için, 0-255 kodları için Latin-1'i kullandık, ASII'yi kolayca UNICODE'a değiştirdik. Bu standart birçok sorunu çözdü, ancak hepsini değil. Örneğin Japonca için yeni kelimelerin gelişiyle bağlantılı olarak, terim sayısını yaklaşık 20 bin artırmanız gerekiyor, ayrıca Braille'i etkinleştirmeniz gerekiyor.




Bilgisayar yardım web sitesi

© Telif hakkı 2022,
rzdoro.ru - Bilgisayar yardım sitesi

  • Kategoriler
  • Ütü
  • Windows 10
  • Tarama
  • Windows 7
  • Ütü
  • Windows 10
  • Tarama
  • Windows 7