Principiile de bază ale lucrului cu fisiere pdf - Enciclopedia Traducere

Să luăm în considerare fiecare dintre acești factori mai mult:

Protejat dacă parola PDF trimis

O modalitate mai bună, dar de multe ori nu la fel fără probleme, și consumatoare de timp prețios - se aplică la client cu o cerere de a trimite fișierul nezaparolenny (și, în general, o mai bună sursă). În cazul în care o astfel de cerere este susținută de o creștere a ratei de ocupare cu fișier ciudat, iar clientul doreste treaba este ca, atunci miracole se întâmplă uneori.

Principiile de bază ale lucrului cu fisiere pdf - Enciclopedia Traducere

conținut PDF protejat prin parolă, cu interdicția de copiere

aspect Font standard

Acum, verificați dacă este utilizat în aspectul fișier font standard (Această problemă este mai acută pentru documentele rusești, dar, cu toate acestea, trebuie să-l știm). În cazul în care textul selectat este copiat și inserat într-un alt program corect, aspectul documentului este fontul corect. Dacă vom vedea kryakozyabry medalion sau gol la interior - aspect fonturilor este incorectă. Caută în aceste documente nu vor funcționa prea.

Principiile de bază ale lucrului cu fisiere pdf - Enciclopedia Traducere

PDF cu aspectul fontului greșit

În funcție de dramatismul documentului și numărul de fonturi în ea și semne care necesită corecție după recunoaștere a lucra cu astfel de documente sunt două metode pe care le puteți utiliza: o corecție la aspectul Infix PDF Editor și apoi se extrage și de a salva text sau de recunoaștere. Considerăm al doilea, în timp ce cei care vor găsi informații cu privire la primul.

Există multe în tabelele de documente, ilustrații, caractere personalizate, și așa mai departe. N.

Deoarece nu există tabele în conceptele PDF și apoi să învețe de la ea prin tehnici standard de masă, și imposibil chiar unele PDF -konverterami. Astfel de documente recunosc mai bine. Același lucru se aplică abundența intabulat diviziuni, antete și note de subsol, ilustrații cu subtitrări, textul simplificat. Se extrage toate acestea în mod corespunzător în textul convertoarelor standard nu pot, iar costurile de a aduce rezultatele unei astfel de extracție în aspectul normal de multe ori sa depaseasca timpul necesar pentru OCR manuală în FineReader. Cu toate acestea, dezvoltatorii de nor TM Smartcat amenință să facă un miracol, dar mi se pare că acest lucru ar fi nașterea unui alt munte mouse-ului.

Principiile de bază ale lucrului cu fisiere pdf - Enciclopedia Traducere

Rezultatul de copiere a datelor tabelare dintr-un PDF

Principiile de bază ale lucrului cu fisiere pdf - Enciclopedia Traducere

Rezultatul recunoașterii manuale de masă PDF

Document coloană

Aici, de asemenea, trebuie să ne uităm. De multe ori cu extragerea directă și FineReader recunoaștere automată mai multe coloane se încadrează într-o singură unitate, iar rezultatul de ieșire este teribil. Dar, spre deosebire de mijloacele standard de extragere text din PDF. FineReader ne permite să personalizați unitățile care urmează să fie recunoscute. Selectați cu atenție textul columnar dintr-un document în Acrobat Reader va fi mai rapid pe volumul de documente de până la 30 de pagini. Cu toate acestea, un astfel de proces va text, după (linia de legătură rupte, etc.). Prelucrarea poate, desigur, să fie automatizate, de exemplu, folosind expresii regulate. Dar acest lucru este dincolo de domeniul de aplicare al acestui document.

ieșire Format solicitat


Deci, ne-am decis. Avem un document complex - va recunoaște. Sarcina - de a traduce în engleză, română pentru a insera în loc de francezi, a primit lucrarea anglo-ruso-german paginate originalul. Formatul documentului rezultat - MS Word doc (x). Traducerea textului din imagine pentru a da placa „original - traducere“ sub imagine.

Deci, dacă ne uităm la document, vom vedea că este de trei coloane, iar fiecare coloană este o limbă separată. Cel mai simplu mod de a o mai bună tabele de text pentru layout-ul, în cazul în care fiecare coloană este o limbă separată.

Dacă ne uităm mai mult la circuitul de procesare a documentelor PDF, vom vedea că structura în cazul în care săgețile care vizează etapele înainte și după transfer. Ce înseamnă?

Pentru a impune documentul final poate fi atât înainte, cât și după transfer. Fiecare soluție are argumente pro și contra.

Beneficii aspect după traducere

Mai puțin timp petrecut pe vorstku ca document direct în copie culegătorie curat. Când vorstke pre după traducerea multe elemente datorită lungimii mai mari a textul în limba română, comparativ cu originalul și caracteristicile limba engleză (de exemplu, câmp mic) poate pluti departe sau se mută în altă pagină. Acest lucru va necesita corecturi în procesul de corectură.

Puteți lucra cu text simplu, fără tgov.

Este posibil să se îmbunătățească în continuare lizibilitatea textului finit în layout.

Dacă face revizuiri semnificative la traducerea trebuie să fie lăsați TM brut sau încă impune, fie în paralel pentru a corecta și TM și textul, care nu contribuie la nici calitatea sau eficiența.

Toate punctele de enumerare (marcatori și numerotate) se află în TM, creând interferențe inutile pentru segmente de similitudine algoritmi de evaluare.

Prin utilizarea câmpurile din document sunt prevăzute în textul documentului nesvorstannom tradus va fi mai mult.

Traducerea merge, tind să fie (erori de recunoaștere a sensurilor) text mai eronate și anume A.. La vorstke erorii este eliminat. Acest lucru din nou, nu este cel mai bun mod afectează bazate pe conținut perechi de traducere (de ex., Memorii N. traducere).

segmentarea Imperfect, nerecuperabilă în unele programe TM.

Poziționarea la traducerea

Aici imaginea este inversată. timpul necesar pentru ambele metode sunt aproximativ aceleași, iar alegerea este destul de dependentă de procesul în sine - cineva obișnuit să facă rapid un proiect de TM, și apoi „ling“, în paralel cu impunerea ei în MS Word sau OO Writer. Pentru a curăța este nevoie de copie în TM, pre vorstke nici o altă alternativă. Vino și vom urma această cale.


Dacă ați înțeles corect ideile prezentate mai sus, FineReader nevoie pentru a obține ceva de genul imaginea de mai jos:

Principiile de bază ale lucrului cu fisiere pdf - Enciclopedia Traducere

bloc de suprapunere schemă și rezultatul recunoașterii în FineReader

Imaginea din centru se obține prin combinarea celulelor din tabel și setarea „celulă Treat ca imagine“ pavilion.

Poti compara cu rezultatele procesării fișierului automatizat FineReader. Acest exemplu, deși el este un fel de situație extremă, o bună ilustrare a capacității de convertoare automate răspunde provocărilor momentului. Dar astfel de probleme în majoritate de traducere tehnică.

Exportați rezultatele Word în „Tabele, paragrafe, fonturi“ modul (în versiunile ulterioare, aceasta se numește „Text simplu“) pentru a salva imaginea se va face pregătirea pentru a fi importate în TM.

Principiile de bază ale lucrului cu fisiere pdf - Enciclopedia Traducere

Setările pentru ferestre salvarea rezultatelor de recunoaștere în setările MS Word în FineReader 8

În primul rând, eliminați spațiile duplicat (cea mai recentă versiune a FineReader face acest lucru în mod automat atunci când exportați, dar nu elimină cratimele - au nevoie, de asemenea, să fie șterse manual), ștergeți textul din coloana franceză, și corecta problemele în cealaltă. punctele Bulletirovannye bulletiruem

Principiile de bază ale lucrului cu fisiere pdf - Enciclopedia Traducere
, Listele cu marcatori enumera mașină
Principiile de bază ale lucrului cu fisiere pdf - Enciclopedia Traducere
, numere de capitole și enumerate la sfârșitul documentului (după cazul) file detașabile opționale.


Principiile de bază ale lucrului cu fisiere pdf - Enciclopedia Traducere
Principiile de bază ale lucrului cu fisiere pdf - Enciclopedia Traducere
Efectuarea de subsol. Vă rugăm să rețineți, este diferit pentru pagini pare și impare. Este mai bine pentru a face un tabel cu două coloane cu o singură linie.


Principiile de bază ale lucrului cu fisiere pdf - Enciclopedia Traducere
După aceea, că în TM, am stat doar ne dorim la text, selectați toate (Ctrl + A), și setați atributul fontului „ascunse» (ascunse). Permite afișarea caracterelor invizibile
Principiile de bază ale lucrului cu fisiere pdf - Enciclopedia Traducere
, pre-configura afișarea textului ascuns atunci când pe ecranul de caractere ascunse, și să continue să lucreze.

Copiați numele în limba engleză în loc de franceză și elimina atributul „ascuns“. Se repetă operația pentru toate celulele din masa noastră. Salvați fișierul rezultat.


Principiile de bază ale lucrului cu fisiere pdf - Enciclopedia Traducere
Deschidem TM nostru, am luat DejaVuX3, de exemplu, (30 de zile versiune de încercare complet funcțională poate fi descărcat de pe site-ul oficial), a crea un proiect, adăugați fișiere și apăsați butonul Properties steaguri (Proprietăți) .Ustanavlivaem și Ignorați Text ascuns în documente (Ignoră textul ascuns) (în zadar suntem care a lucrat) și, în cazul DejaVuX2, Run Sode Zapper (acest lucru este un macro care să înlăture etichetele de gunoi).


Pentru utilizatorii de alte programe TM opțiuni de import și adaptarea corespunzătoare a formatului documentului original va lasa temele.

Principiile de bază ale lucrului cu fisiere pdf - Enciclopedia Traducere

Importate în programul TM (aici DejaVuX3) documentul

Nu frumusetea arata ca imaginea de mai jos

Principiile de bază ale lucrului cu fisiere pdf - Enciclopedia Traducere

documente EXEMPLU taguri înfundate (în DejaVuX)

Traducere, export, și dacă totul este în regulă, vom obține traducerea finit. Dimensiunile de câmp sunt suficiente pentru a transfera nu este împins pagina. Deoarece calitatea imaginii este slabă, aceasta va trebui să traducă manual.

Verificați dacă totul este în regulă. remedieri de erori. Descoperit Dacă textul nu se potrivește pe pagina, puteți împinge doar coloana a tabelului (în cazul în care câmpul permite), reduce ușor fontul (cu 0,5 puncte), selectați fontul compactat. Opțiunea 2 Mai preferat, dar documentul uitat, fontul va trebui să fie reduse pentru întregul text rusesc.

Principiile de bază ale lucrului cu fisiere pdf - Enciclopedia Traducere

Pe aceasta și lecția este finalizată.

Am înțeles că problemele de lucru în FineReader, și layout în MS Word, am acoperit foarte vagi, dar fiecare dintre ele necesită 5-7 pagini de imprimare fin. Poate altă dată.

articole similare