Atunci când se imprimă un document text pe teletipuri vechi, trecerea la o nouă linie a fost efectuată prin mutarea liniei (deplasând vertical) și returnarea căruciorului (deplasându-se orizontal). Fiecare acțiune avea propriul cod în ASCII. Pentru a crește productivitatea, mulți programatori au folosit doar unul dintre aceste coduri pentru a indica sfârșitul unei linii într-un fișier text. De exemplu, dacă toată lumea este de acord să marcheze sfârșitul unei linii doar cu un simbol de returnare a carului, atunci în fișiere text va fi posibil să salvați opt biți pe fiecare linie. Când tipăriți un fișier, trebuie să vă amintiți că de fiecare dată când apare un caracter de returnare a carului, trebuie să introduceți și un caracter nou.
Astfel de acorduri există în sistemele moderne. În mod special, în sistemul de operare UNIX se presupune că sfârșitul liniei este indicat numai de caracterul de alimentare liniară, în timp ce în sistemele dezvoltate de Apple Computer, Inc. Numai caracterul de returnare a caroseriei este utilizat, iar în sistemele de operare Microsoft sunt necesare ambele caractere - retur de transport și feed de linie. Ca rezultat, trebuie să efectuați conversii pentru a transfera fișiere dintr-un sistem în altul. Aceasta este diferența dintre fișierele text și fișierele binare atunci când le transferați pe Internet prin FTP (File Transfer Protocol, protocolul de transfer de fișiere). În timp ce utilizați FTP, un fișier text este un fișier pentru care este necesară o astfel de conversie și un fișier binar este transmis fără conversie. În special, fișierele create de procesoarele de text trebuie să fie transmise ca fiind cele binare, deoarece aceste fișiere utilizează propriile instrumente de codificare a textului.
Un astfel de fișier este denumit fișier text. În mod tipic, fișierele text sunt codificate utilizând o masă de cod ASCII, adică un singur octet este necesar pentru a scrie un caracter. Cu toate acestea, astăzi popularitatea Unicode conduce la apariția fișierelor text, unde sunt necesare două caractere pentru a codifica un caracter. Astfel, termenul general al unui fișier text este înlocuit uneori cu definiții mai precise ale unui fișier ASCII sau al unui fișier Unicode care reflectă sistemul de codificare care stă la baza acestuia.
Simplitatea fișierelor text le-a făcut o alegere populară pentru diverse aplicații. Într-adevăr, un fișier text este adesea structura care stă la baza implementării unor fișiere secvențiale mai complexe, cum ar fi înregistrările angajaților. Numai necesară pentru a dezvolta un format standardizat pentru raportarea informațiilor despre fiecare angajat ca un șir de caractere de text, informația de codificare în conformitate cu formatul și rezultate înregistrările secvențiale de scriere ale angajaților într-o singură linie de text. De exemplu, puteți crea un fișier de simplu personal, gândindu-se că fiecare înregistrare angajat - este un șir de 31 de caractere, în cazul în care lungimea câmpului de 25 de caractere conțin numele angajatului (în cazul în care numele este mai scurt de 25 de caractere, spațiul rămas este umplut cu spații), iar următoarele 6 caractere - numărul său de identificare . Fișierul final va arăta ca un șir lung de caractere codate, în care fiecare bloc de 31 de caractere reprezintă informații despre un angajat (Figura 8.4). Informațiile pot fi extrase din fișier în termeni de înregistrări logice cu o lungime de 31 de caractere.
Câmpurile individuale din fiecare bloc diferă în funcție de formatul unificat, conform căruia au fost create blocurile.
Simplitatea fișierelor text a dus la dezvoltarea unor metode de codificare a materialelor non-textuale, de exemplu, lucrări muzicale, sub formă de fișiere text. La prima vedere, sistemul de instrumente muzicale, bare și note, prin care textele muzicale sunt reprezentate în mod obișnuit, nu corespunde formatului de caractere al fișierelor text. Dar această problemă poate fi rezolvată prin dezvoltarea unui sistem alternativ de notare. Mai exact, putem desemna începutul taberei muzicale ca
puteți codifica clipul muzical prezentat în Fig. 8.5. Cu acest sistem de notare, fragmentele de muzică pot fi codificate, modificate, înregistrate și transmise prin Internet ca fișiere text. În plus, puteți scrie o aplicație care poate reprezenta conținutul acestor fișiere într-o formă muzicală tradițională și chiar să redați muzică pe sintetizator.
Rețineți că sistemul nostru de codificare muzicală este realizat într-un anumit stil. Se separă termenii (numiți etichete) care identifică componentele prin simbolurile "<» и «>“. În același mod, vom nota structurile de început și de sfârșit (de exemplu, personalul de muzică, cu personaje cheie, muzică și bare) - o etichetă de închidere este caracterizat printr-o bară oblică (de exemplu, tag-ul
Limba extensibilă de marcare XML (extensible Markup Language) este un stil standardizat (similar stilului din exemplul nostru muzical) pentru dezvoltarea de sisteme de notare și de reprezentare a datelor sub formă de fișiere text. (De fapt, XML - o versiune simplificată a unui set mai vechi de standarde numit Standard Generalized Markup Language, SGML.) Următoarele standarde XML au fost elaborate de către sistemul de notare, numit limbaj de marcare pentru reprezentarea expresii matematice (MathML), prezentari multimedia (SMIL), muzică (4ML) și pagini web (XHTML). (XHTML este o versiune îmbunătățită a HTML care satisface standardele XML, de exemplu, HTML presupune că începutul unui nou paragraf, notat de etichetă <р>, completează paragraful anterior, dar în XHTML, înainte de începerea unui nou paragraf, trebuie să terminați în mod explicit paragraful curent cu o etichetă <р>.)
XML este un bun exemplu de standarde dezvoltate pentru aplicații de diferite tipuri. În loc de limbi individuale, care nu au legătură markup pentru a codifica diferite tipuri de documente, cum ar fi muzica, text, expresii matematice, XML oferă un limbaj comun de marcare standard, cu care vă puteți dezvolta aplicații pentru o varietate de limbi. Un stil unificat al limbajelor de marcare creat în acest mod le permite să fie combinate pentru a obține limbi potrivite pentru aplicații complexe, de exemplu documente text care conțin fragmente muzicale și expresii matematice.