Sa calcula cât de mult ai nevoie de caractere pentru a afișa informații pe ecran. Punct de vedere istoric, primii dezvoltatori de calculatoare au fost vorbitori nativi de limba engleza. Că era necesar să se prevadă ieșire la monitor? În primul rând, cele 26 de litere ale alfabetului (cu litere mici), și pe de altă parte, 26 de litere mari, 9 semne de punctuație ;, spațiu, 10 cifre, 5 caractere de operații aritmetice (+, -, *, /, ^ ( „()).. ) și caractere speciale (№% _ # $, și așa mai departe ^ > 7 (128 produse), care a fost făcut. tabel de corespondență a primit numele ASCII (A Merican S tandard C ode pentru I nformation I nterchange). Ca parte a tabelului ASCII pentru a crea documente multilingve este foarte problematică, iar în cele mai multe cazuri de sarcini destul de imposibil.
Luați în considerare structura tabelul ASCII. Pentru comoditatea personajelor în ea sunt numerotate în notație hexazecimală de la 0 - 7F. Prima Familiaritatea în tabelul ocupă netipăribilă caractere (0 la 7F), urmat de caractere imprimabile (20 - 7F).
ASCII TABEL
caractere neimprimabile
Cu toate acestea, un set de bază de coduri nu a fost suficient de repede. Creșterea deficitului familiaritate în tabelul ASCII standard a cerut extinderea imediată. Ca rezultat, un nou tabel de codare, cunoscut sub numele de „masă ASCII extins“, numărul de celule de caractere care a crescut până la 8 februarie (a 256 familiaritate). Acest tabel se numește IS 646 standard internațional, și codul de opt biți - Latin-1. Acesta a fost adăugat la principalele litere cu accente și accidente vasculare cerebrale. În curând, noul IS 8859 standard, care introduce conceptul de „pagina de cod“, adică un set de 256 de caractere pentru a determina limba sau grup de limbi, și anume IS 8859-1 este Latin-1. IS 8859-2 a inclus slavă latine limbi alfabet (Cehă, Polonia, vergersky), IS 8859-3 a inclus, limbi Esperanto galiciană Turcă, malteză, etc. Dezavantajul acestei abordări este că software-ul ar trebui să urmeze paginile de cod, se amestecă limbi atunci când acest lucru nu este posibil, cu excepția cazului nu au fost create pagina de cod a limbilor japoneze și chineze.
standardul UNICODE 4.0 este un nou sistem de codificare a caracterelor, afișate pe un ecran de monitor sau imprimantă, permițând pentru a codifica 1114112 de caractere (standard a numite puncte de cod). Cele mai multe dintre caracterele utilizate în principalele limbi ale lumii ocupă 65.536 puncte de cod, formând Multilingual Plane de bază (BMP) (nivel de bază poliglot - traducerea mea). Restul (peste un milion) de puncte de cod este suficient pentru a codifica toate personaje cunoscute, inclusiv limbi mai puțin comune și personaje istorice. UNICODE este susținută de trei formulare standard, pe 32 de biți (UTF-32), 16-bit (UTF-16) și 8 biți (UTF-8). Formularul de opt biți UTF-8 a fost proiectat pentru compatibilitate ușoară cu sistemele de codificare ASCII-orientare. standardul UNICODE este compatibil cu standardul internațional de Standardul Internațional ISO / IEC 10646.
Cea mai simplă formă este aranjată UTF-32. În ea, fiecare caracter este codificat folosind blocul de 32 de biți. Datorită acestui fapt, fiecare personaj are o corespondență UTF-32-unu între simbolul decodificat și un bloc de cod. Această formă are o lungime fixă de familiaritate. Acesta acoperă toate UNICODE cod spațiu - 0. 10FFFF16. Acest lucru asigură compatibilitatea deplină cu UTF-16 și UTF-8. Forma UTF-32 este cel mai preferat pentru majoritatea platformelor UNIX.
standardul UNICODE conține 96,382 de caractere, le ia fonturi globale. Aceste caractere mai mult de dostatono pentru comunicarea în toate limbile cunoscute ale lumii, precum și pentru scrierea de fonturi clasice (historical) in mai multe limbi. fonturi UNICODE vsklyuchaet un alfabete europene, scrisoarea din Asia Centrală trimis de la dreapta la stânga, fonturi asiatice, și multe altele. Un subset de caractere (puncte de cod) HUN conține 70,207 de caractere ideografice definite de standardele naționale și ale industriei din China, Japonia, Coreea, Taiwan, Vietnam și Singapore. Mai mult, UNICODE conține semne de punctuație, simboluri matematice, simboluri tehnice, fotmy germetricheskie și etichete grafice (dingbats), simboluri fonetice.
Mai jos este un tabel comparativ al codurilor ASCII și UNICODE. luate dintr-un fragment din specificația UNICODE 4.0 (Unicode Standard, versiunea 4.0), plasat pe site-ul Unicode Consortium.
tabelul de coduri pentru chirilica este prezentat în figura de mai jos (prelevată dintr-un fragment al specificației UNICODE 4.0 (Unicode Standard, versiunea 4.0), plasat pe site-ul Unicode Consortium.