Parametrii cantitativi ai documente de tip text

Cuvinte cheie:

4.6.1. Prezentarea informațiilor de text în memoria calculatorului

Textul este format din caractere - litere, cifre, semne de punctuație, etc. care o deslușește în formă ... Calculatorul face distincția între caracterele tastate prin codul lor binar. Apeși pe tasta de caractere al tastaturii și computerul primește o anumită secvență de impulsuri electrice de intensitate variabilă, care poate fi reprezentat ca un șir de opt zerouri și cele (cod binar).

Am vorbit deja despre acest cod binar biți i și numărul de combinații posibile de cod N sunt legate de: 2 i = N. cod binar Opt biți vă permite să obțineți 256 de combinații diferite de cod: 08 februarie = 256.

Cu un astfel de număr mare de combinații de cod poate codifica toate caracterele aflate pe tastatura calculatorului - litere mari și mici română și engleză, numere, semne de punctuație, operatori aritmetici, paranteze, etc precum și unele caractere de control, care sunt indispensabile pentru crearea .. document text (ștergând caracterul anterior, linia de alimentare, spațiu etc.).

Corespondența între imagini de caractere și coduri de caractere setate folosind tabele de codificare.

Toate tabelele de cod utilizate în toate computerele și toate sistemele de operare, sunt supuse standardelor internaționale de codificare a caracterelor.

tabelul de coduri conține codurile pentru 256 de caractere diferite, numerotate de aproximativ 255. Primele 128 de coduri în toate tabelele de coduri corespund aceluiași simbol:

• Codurile de numere de la O la 32 corespund simbolurilor de control;
• Codurile cu indici de la 33 la 127 corespund simbolurilor reprezentate - litere latine, semne de punctuație, numere, simboluri, operații aritmetice, etc ...

Aceste coduri au fost dezvoltate în SUA și a primit numele ASCII (American Codul Standart pentru schimbul de informații - American Standard Code pentru schimbul de informații).

Tabelul 4.1 conține fragmentul de codificare ASCII.

Parametrii cantitativi ai documente de tip text

Numerele Codurile 128-255 sunt utilizate pentru codificarea literele alfabetului naționale, simbolurile monetare și m. P. Prin urmare, în tabelele de coduri pentru diferite limbi pentru același cod corespunde cu caractere diferite. Mai mult decât atât, pentru mai multe limbi există mai multe versiuni ale tabelelor de cod (de exemplu, aproximativ o duzină dintre ei! Pentru limba română).

Tabelul 4.2 prezintă zecimale și coduri binare română mai multe litere ale alfabetului în două codificări diferite.

Parametrii cantitativi ai documente de tip text

De exemplu, o secvență de coduri binare

11010010 11001010 11010001 11000101 11010010

în codificare pentru Windows se va potrivi cu cuvântul „TEXT“, iar în KOI-8 - un set de caractere lipsite de sens „reyyar“.

Ca o regulă, utilizatorul nu trebuie să vă faceți griji cu privire la recodificare documente de tip text, deoarece face speciale grame pro- convertoare integrate în sistemul de operare și aplicații.

Codificarea octetul au o limitare serioasă: numărul de coduri diferite caractere în aceste codificări nu este suficient de mare pentru a putea utiliza simultan mai mult de două limbi. Pentru a depăși această limitare a dezvoltat un nou caracter standard de codare Unicode a primit numele. În Unicode, fiecare caracter este codificat cod binar hexazecimal. Acest lucru permite numărul de biți pentru a codifica 65.536 caractere diferite:

Primele 128 de caractere în Unicode coincid cu tabelul ASCII; aranjate în continuare alfabetelor tuturor limbilor moderne, precum și toate celelalte notație științifică și matematică simbolică. In fiecare an, Unicode este tot mai răspândită.

care vă va ajuta să vizualizați modul în care se formează codul de caractere, introdus de la tastatura.

4.6.2. Volumul de informare al fragmentului de text

Știați că volumul de informații de mesaje I este egal cu produsul dintre numărul de caractere dintr-un mesaj de la informațiile privind simbolul greutății alfabetului I: I = K • i.

În funcție de greutățile informative biți de codificare utilizate de caractere de text. creată pe calculator, poate fi egal cu:

• 8 biți (1 octet) - o codificare de opt cifre;

• 16 biți (2 octeți) - codarea hexazecimal.

Informații bucată Volumul de text va fi numit numărul de biți, octeți, sau derivate de unități (kilobytes, MB, și așa mai departe. D.) necesare pentru înregistrarea fragmentului în avans metoda convenită de codificare binară.

Sarcina 1. Presupunând că fiecare simbol este codificată de un octet, determina care este volumul de informații următor enunț Jean-Jacques Rousseau

Mii de căi duce la confuzie, la adevăr - singura.

Decizie. În acest text, 57 de caractere (inclusiv spații și semne de punctuație). Fiecare caracter este codificat de un singur octet. Prin urmare, un volum de informații al întregului text - 57 octeți.

Problema 2. În caracterul Unicode pentru fiecare alocat doi octeți. Se determină cantitatea de informație a textului de 24 caractere în această codificare.

Problema 3. Dispozitiv automat implementat recodare mesaj de informare în limba rusă scrisă inițial în codul de 8 biți, codificarea 16 biți Unicode. În acest caz, un mesaj de informare a crescut cu 2.048 de octeți. Care a fost cantitatea de mesaje date de conversie?

Decizie. Greutatea Informații fiecare simbol din 16 biți codificat de două ori simbolul informații în greutate într-o codificare de 8 biți. De aceea, când transcodare informațiilor bloc original dintr-o codificare de 8 biți în volumul său de informații pe 16 biți a crescut de două ori, cu alte cuvinte, o cantitate egală cu volumul de informații originale. Prin urmare, un volum de informații de mesaje înainte de conversie este de 2048 octeți = 2 KB.

Sarcina 4. Express volum de megabytes de informații textuale în „dicționar contemporană de cuvinte străine“ din paginile 740, dacă se află într-o medie de 60 de linii de 80 de caractere (inclusiv spațiile) pe o singură pagină. Luați în considerare faptul că capacitatea de înregistrare a alfabetului a fost utilizat de 256 de caractere.

Decizie. Informații greutate capacitate simbol alfabet 256 este de opt biți (un octet). Numărul de caractere în întregul dicționar este egal cu 740 • 80 • 60 = 3552 LLC. Prin urmare, cantitatea de text în octeți este egal cu 3,552 bytes Ltd. 3 = 468.75 Kbytes ≈ 3,39 Mb.

CELE MAI IMPORTANTE

Textul este format din caractere - litere, cifre, semne de punctuație, etc. care o deslușește în formă ... Calculatorul face distincția între caracterele tastate prin codul lor binar. Corespondența între imagini și coduri de caractere setate folosind tabele de codificare.

În funcție de greutatea utilizat simbolul de text bit de informație de codificare generată pe un computer poate fi egal cu:

• 8 biți (1 octet) - o codificare de opt cifre;
• 16 biți (2 octeți) - codarea hexazecimal.

fragment de text Volumul informație - este numărul de biți, octeți (kilobytes, megaocteți) necesare pentru înregistrarea fragmentului care codifică modul convenit.

Întrebări și Sarcini

1. Examinați materialele de prezentare la punctul conținute în aplicația electronică a manualului. Utilizarea acestor materiale în pregătirea răspunsurilor la întrebări și sarcini.

2. De ce codificarea în care fiecare caracter este codificat de un lant de opt zerouri și cele, altfel cunoscut ca un singur octet?

3. Ce a fost introdus scop codificarea Unicode? Găsiți mai multe informații despre această codificare.

4. Pentru informații pe internet pe unul dintre site-urile a fost afișat acest lucru. așa cum se arată mai jos.

Acest lucru sa datorat:

1) instalat pe calculator sistemul de filtrare a conținutului

2) setările monitorului incorecte

3) un invalid codificări pagina definiție

5. Știind că codul ASCII zecimal fiecare cu litere mici de 32 mai cod corespunzător cu majuscule, decoda următorul mesaj:

77 105 107 107 121 32 77 111 117 115 101

6. Presupunând că fiecare simbol este codificată de un octet, determina care este următorul enunț volum de informații Alekseya Tolstogo:

Nu confunda cel care nu face nimic, dar aceasta este principala lui greșeală.

7. Presupunând că fiecare simbol este codificat la 16 biți, rata de volum de informații următoarele fraze A. S. Pushkina în codificarea Unicode:

Obiceiul ne este dat de sus: Înlocuirea fericirea ei.

8. În modul text, ecranul calculatorului este de obicei împărțit în 25 de linii de 80 de caractere pe linie. Se determină volumul textului, care ocupă întregul ecran al monitorului, în Unicode.

9. post ocupă paginile 6 la 40 de linii, fiecare linie conține 60 simboluri. Volumul de informare al întregului mesaj este 28.800 de bytes. Câți biți au fost folosite pentru a codifica un singur caracter?

10. Volumul informațiilor referitoare la mesajele pe care este de 5 octeți, ocupă 4 pagini de 32 de rânduri, fiecare dintre acestea fiind înregistrate la 40 de caractere. Câte caractere în alfabetul limbii în care este scris mesajul?

electronic didactic

Prezentarea „Evaluarea parametrilor cantitativi ai documentelor de text“

Colectarea uniformă a resurselor educaționale digitale

1) Simulator „carte interactivă a problemelor. „Prezentarea informațiilor caracter“ »(N 119265).

resurse FTSIOR

(Notă: Pentru modul de redare trebuie să fie instalat pe resursele informatice player-ul.) Descărcați player FTSIOR resurse

1) un modul de informații cu privire la subiectul „Prezentarea textului în diverse codificări“;

2) un modul practic privind „Prezentarea textului în diverse codificări“;

3) Modulul de control privind „Prezentarea textului în diverse codificări.“

Partea practică a lecției

1) Efectuarea de locuri de muncă № 218, № 219, № 221, № 223, № 225, № 230 RT.

2) Lucrul cu formarea de carte interactivă elevilor de probleme. „Prezentarea informațiilor caracter“ »(N 119265) în modul de practică.

Lucrări practice №12
„Scanarea și recunoașterea documentelor text“

Sarcina 1. Scanarea

1. Deschideți capacul conectat la scaner calculator flatbed. Așezați documentul pe fața scanat sticla scanerului (text) în jos. Închideți ușor capacul scanerului.

2. Porniți programul de scanare livrat împreună cu scanerul. Exploreaza bara de instrumente software-ul de scanare, găsiți butonul Scanare, apoi faceți clic pe ea.

3. Așteptați gradația de scanare.

4. Salvați documentul scanat în personal sub forma unui fișier imagine dosar numit Scan și TIF extensii, BMB, jpg, png și altele.

5. Închideți programul de scanare.

Sarcina 2. Recunoașterea

1. Conectarea la Internet prin rularea browser-ul Chrome.

2. Porniți serviciul online gratuit OCR (www.newocr.com).

Pentru a lucra cu site-ul poate beneficia de un sistem automat de traducere. În cazul în care un interpret nu este inclus, puteți traduce pagina, făcând clic pe butonul din dreapta al mouse-ului și selectați din meniul contextual Traduceți în română.

3. Faceți clic pe butonul Alegeți fișierul. localizați și deschideți fișierul creat în sarcina anterioară.

4. Faceți clic pe butonul. Așteptați Image (); dacă este necesar, porniți-l ().

5. Faceți clic pe butonul. Așteptați până la sfârșitul recunoașterii () și apariția câmpului cu textul recunoscut.

6. Încărcați textul recunoscut în procesor de text Word.

Parametrii cantitativi ai documente de tip text

7. Porniți modul de afișare a caracterelor de formatare ascunse (). Cheltuiți editarea unui document text: eliminați caracterele suplimentare, la sfârșitul paragrafului, nota cuvintele și simbolurile incerte.

8. Salvați munca în fișierul dosarul personal în semn de recunoaștere.

Acum sunteți capabili să:

• documente de tip text de scanare;
• Efectuați recunoașterea documentelor de text scanate utilizând serviciul online.