Una dintre principalele aplicații practice ale programului OCR Pad este curățarea și lipirea (finisarea) textului după programele de recunoaștere a textului. OCR Pad - un asistent indispensabil în digitizarea cărților.
Caracteristici principale:
1. Suport complet Unicode.
Plus 5 tastaturi virtuale: greacă, matematică, vest-europeană, est-europeană și diferite personaje exotice.
2. Căutați cuvinte rău din lista de utilizatori. Două tipuri: ca recursive (cu afișarea fiecărui cuvânt găsit) și un semn tăcut al tuturor cuvintelor găsite.
3. Găsiți / înlocuiți cu suportul Unicode complet și căutarea regulată (RegExp). Acesta acceptă stocarea a patru istorii separate de căutări / înlocuiri (aduce aminte până la ultimele 50 Găsire / Înlocuire pentru fiecare dintre cele patru):
căutare: istoricul regulat și istoricul RegExp
înlocuirea: istoricul regulat și istoricul RegExp
Ferestrele de istorie sunt deschise făcând clic pe butoanele săgeată în jos. Când fereastra de istoric este deschisă, clic dreapta în interiorul ferestrei oferă acces la meniul managerului istoric.
RegExp este o jucărie puternică, iar cei care le înțeleg vor putea să facă foarte bine. În general, foarte recomand, înțelegeți - veți simți imediat diferența. Mai mult, instrumentul de experimentare este acum la îndemână: deschideți Căutare / Înlocuire, marcați RegExp, introduceți expresia dvs., apoi găsiți - și vedeți imediat rezultatul.
În principiu, RegExp este ușor de înțeles, însă dezvoltarea scripturilor RegExp necesită îngrijire și depanare atentă. Prin urmare, atunci când scrieți fișierele pentru Book Cleaner, este recomandat ca acestea să fie depanate de linii. Pentru aceasta există o coloană de utilizare: numai acelea
expresii în care se observă utilizarea.
Ei bine, cei care doresc să învețe mai multe despre RegExp - o referință detaliată asupra teoriei și practicii sale este disponibilă prin "help -> expressions regular". Există două referințe combinate: limba rusă - de la Gribov și engleza - de la Bill.
4. Ei bine, pentru heap, am făcut o inserție de imagini: "Insert -> picture"
P.S. În fereastra principală există două butoane, cu săgețile sus și jos. Aceasta este pentru o cotitură exactă a paginii.
P.P.S. Da, am uitat să spun. Nu utilizați funcția Găsire / Înlocuire și Cartea de curățare în modul de afișare a caracterelor invizibile (sfârșitul liniei și nbsp): pot exista eșecuri.
P.P.P.S. În exemplele fișierelor Cleaner din cărți despre numerele hexate scrise, dar despre particularitățile RegExp-căutare pentru scrisori ruse și alte exotice pe numere hex - a uitat să spun. Acest lucru nu este adesea necesar, dar doar pentru caz ...
Se face așa. Cursorul este plasat în fața simbolului, după care numărul său hexazecimal apare în a doua bară de stare. Dacă numărul conține mai puțin de 4 cifre, atunci se adaugă zerouri înainte. Apoi, \ u este adăugat la cifra rezultată și această expresie este utilizată în RegExp.
De exemplu, Ts rusesc. Starea este hex: 426. De aceea, pentru a specifica C în RegExp, trebuie să utilizați \ u0426.
Un alt exemplu: micul alfa grec. Pe status - hex: 3b1. Pentru RegExp - \ u03b1
Cel de-al treilea exemplu este integrarea dublă a tastaturii matematice. Pe status - hex: 222c. Pentru RegExp - \ u222c.
În ceea ce privește specificitatea Unicode RegExp este descrisă într-un detaliu într-un certificat de la Bill.