Codarea în documentul xml

Documentele XML pot conține caractere în diverse codificări internaționale.

Pentru a evita erorile, trebuie să specificați ce codificare este folosită în documentul XML sau să salvați fișierul în codarea universală UTF-8.

Codificarea caracterelor

Codificarea caracterelor definește un cod binar unic pentru diferitele caractere utilizate în document.

În termeni de computere, codificarea caracterelor se numește de asemenea un set de caractere, un aspect simbolic, un set de coduri și un cod de pagină.

Unicode este standardul industrial pentru codarea de caractere a unui document text. Definește (aproape) toate simbolurile internaționale posibile după nume și număr.

Unicode are două versiuni: UTF-8 și UTF-16.

UTF = Format de transformare Unicode.

UTF-8 utilizează un octet (8 biți) pentru a reprezenta simboluri comune și doi (sau trei) octeți pentru toate celelalte caractere.

UTF-16 utilizează doi octeți (16 biți) pentru majoritatea caracterelor și trei octeți pentru orice altceva.

UTF-8 - standard bazat pe Web

UTF-8 este un cod de caractere standard pe Internet.

Codificarea documentelor XML

Prima linie din documentul XML se numește prolog:

Prologul este opțional și de obicei conține numărul versiunii XML.

În plus, acesta poate conține informații despre codificarea unui document XML. Următorul prolog definește codarea UTF-8:

Standardizarea XML stabilește că toate aplicațiile XML trebuie să înțeleagă codificările UTF-8 și UTF-16.

UTF-8 este codificarea implicită pentru documente XML fără informații de codificare.

În plus, majoritatea sistemelor de aplicații XML funcționează cu codificări precum ISO-8859-1, Windows-1252 și ASCII.

Erori XML

Foarte adesea, documentele XML sunt create pe un singur computer, serverul este descărcat de la celălalt și în browser sunt afișate pe al treilea computer.

Dacă codarea este interpretată incorect de către cele trei computere, atunci browserul va afișa un set de caractere fără semnificație sau, în general, va afișa un mesaj de eroare.

Cea mai bună alegere în acest caz este utilizarea codării UTF-8. UTF-8 vă permite să afișați aproape toate simbolurile internaționale și, în plus, este considerată codificarea implicită, cu excepția cazului în care este specificată o altă codificare.

concluzie

Când scrieți un document XML:

Articole similare