Astăzi, mulți vorbesc despre importanța digitizării fondurilor de bibliotecă și arhivă. Noi, cei din ABBYY, știm ce înseamnă digitalizarea unei întregi biblioteci și sunt gata să clarifice unele aspecte ale acestei sarcini pe scară largă și complexă.
Despre motivul pentru care este atât de important să digitizăm cărțile și să le facem corect, spune Dmitry Shushkin, director general adjunct al ABBYY Russia, pe site-ul Forbes. Puteți citi articolul în blogul nostru, sperăm că veți fi interesat!
Aspectele legate de siguranța și accesibilitatea patrimoniului cultural în trecut impus la nivelul guvernului și a ministerelor de resort. Cu toate acestea, majoritatea discuțiilor au fost foarte generale. Participanții lor adesea nu înțeleg ce înseamnă digitizarea unei întregi biblioteci. Trebuie să ABBYY este o experiență reală de participare la astfel de proiecte noi au fost active în digitalizarea proiectelor internaționale la scară largă din Rusia și bibliotecile și partenerii de tehnologie străine au fost individuale, pentru a conserva patrimoniul cultural - Gutenberg și META-e.
Voi încerca să clarifice unele aspecte pur tehnice și valoroase - în toate sensurile - ale digitalizării bibliotecilor și arhivelor care vor dezvălui amploarea și complexitatea reală a problemei.
De ce trebuie să digitizați
Prima sarcină este de a salva cărțile scanându-le. Desigur, tomuri vechi, raritate bibliografică nu pot fi salvate pe deplin ca o copie digitală, care le-a furnizat textura hârtiei, valoarea artistică a imaginilor, jocul de lumina pe pergament, etc. Dar, în alte cazuri, cartea - .. Este, în primul rând, o sursă de cunoaștere, informații, .
A doua sarcină este de a face cărțile la dispoziția unei game largi de cititori. Și pentru asta nu trebuie doar să scanați textul, ci și să îl recunoașteți. Deoarece oamenii de obicei, nu au nevoie de imagini de pagini, și anume informația propriu-zisă, care pot fi descărcate pentru digitizare în format electronic corect, și într-o măsură mult mai mică decât sub formă de scanări.
În bibliotecile din Rusia, arhivele cele mai mari și cele mai valoroase, precum și procesul de digitalizare a acestora au început deja. De exemplu, RSL a scanat deja în jur de un milion de publicații și documente (în total fiind de aproximativ 45,5 milioane de unități). Ritmul este lent, dar începutul a fost făcut.
Cum să digitalizați cărțile
Înainte de scanare, trebuie să decideți ce vor fi digitalizate. Dacă se dovedește că unele cărți sunt în stare proastă și pot pur și simplu să se prăbușească la scanare, trebuie să aveți grijă de aceasta și, dacă este posibil, să le restaurați și să le restaurați.
Dacă ne scanați sau să fotografiați cărțile vechi și dărăpănate, chiar și renovate, această etapă necesită condiții speciale de muncă și echipamente speciale - aveți nevoie pentru a utiliza dispozitive „magice“, cu pat în formă de V pentru cărți și sistemul de pagini de cotitură, inclusiv pe calea aerului. Costul acestor scanere poate depăși 100.000 €.
Desigur, nu toate documentele necesită un tratament atât de atent și costisitor.
Majoritatea documentelor din secolele XIX-XXI pot fi scanate într-un mod mai convențional. Dar, în orice caz, tot echipamentul pentru scanarea cărților este lent, deoarece documentele nu sunt trase prin scaner, ci sunt rotite automat sau manual prin pagină. Deci, scanarea cărților nu merge în comparație cu scanarea unui pachet de contracte. Acesta este un proces foarte consumator de timp și costisitor.
Verificarea rezultatelor recunoașterii este o lucrare destul de lungă și consumatoare de timp, care, totuși, poate fi realizată cu ajutorul aglomerării, încredințând-o publicului larg. De exemplu, atunci când am digitizat o carte de 90 de volume a lui Leo Tolstoy cu 3000 de voluntari, am reușit să digitizăm peste 45.000 de pagini într-un an și jumătate.
Cum se creează o bibliotecă digitală la nivel național
Programul de digitizare a fondurilor de bibliotecă și de arhivă la nivel național necesită o abordare sistematică și un plan bine dezvoltat.
De exemplu, cum să decidem care sunt materialele la cifră? Pe de o parte, modalitatea corectă de a traduce în forma electronică este ceea ce se citește și se ia cel mai adesea - cele mai populare cărți și documente. Pe de altă parte, este clar că trebuie să păstrați cărți unice și valoroase care există într-o singură copie.
Cum de a reduce riscul de duplicare a muncii în diferite biblioteci - pentru că pentru a digitiza cartea nu este ieftin?
Mi se pare că în prima etapă a unui astfel de proiect este necesar să se creeze un singur catalog sau un registru al tuturor obiectelor de stocare. Și este mai bine să o implementăm "de jos". De exemplu, în acest fel: bibliotecile și arhivele își vor formula nevoile de digitizare, pe baza cărora se va colecta o anumită colecție de aplicații. După reconciliere, rezolvarea problemelor cu dublarea și sistematizarea numelor, acest pool va deveni catalogul nostru.
În acest stadiu, apropo, puteți lua în considerare și activitatea deja realizată de biblioteci: în primul rând le scanează cataloagele astfel încât cititorii să poată citi lista de cărți de la distanță. Prin urmare, unele părți ale catalogului nostru unic sunt deja pregătite.
Apoi, pe baza unui singur catalog, va fi posibil să se dezvolte un plan detaliat de digitizare, care ar trebui să fie integrat și unificat pentru toate arhivele și bibliotecile de stat.
Cati bani au nevoie
Dacă ați experimentat vreodată scanarea în flux, știți cât de ușor este. Un scaner puternic pune un teanc de documente, scanarea și recunoașterea apar aproape complet automat și, în cele din urmă, obțineți o arhivă de birou complet digitizată. În plus, trebuie să fie verificată, adică să reconcilieze datele recunoscute, se poate face automat sau manual. În orice caz, prin această metodă, costul digitizării va fi de câteva ruble pe pagină.
Cărți - chiar și copii mai rare si vechi - astfel încât să nu se poate scana, am vorbit despre mai sus. Datorită scanerului mai complexe caracteristici de recunoaștere (fonturi ciudate, fundaluri complexe, etc.) sau mai mult de munca grea a oamenilor creșterile de prețuri la pagina de zeci digitizarea și chiar sute de ruble.
Pentru a nu complica calculele, să luăm suma de 50 de ruble - atât de mult în medie, putem lucra la digitizarea unei pagini a unui fond de bibliotecă istorică condiționată. Să presupunem că cartea medie din bibliotecă conține 500 de pagini. Ce va fi de ajuns pentru 100 de milioane de ruble? Aproximativ 4000 de cărți cu complexitate medie. Repet, vorbim despre "cărți sferice într-un vid", adică pentru fiecare bibliotecă aceasta va fi suma proprie. Dar ordinea aproximativă a cifrelor, cred, este de înțeles.
Pentru claritate, voi spune că răniți de foc biblioteca principală inionului, potrivit cifrelor oficiale, conținea 14,7 milioane de cărți, din care seifului în Nakhimovsky Avenue a fost de 10,2 milioane. Diferența, după cum vom vedea, trei ordine de mărime.
Digitizarea în alte țări
Unul dintre cele mai cunoscute proiecte străine privind digitizarea cărților și a documentelor este Gutenberg. lansat în 1971. În cadrul său, voluntarii digitalizează și salvează în text formate diferite lucrări de literatură mondială care sunt disponibile în mod liber. Acum, pe site-ul proiectului puteți descărca gratuit 45 000 de cărți în toate formatele populare. Și contorul propriu al proiectului arată 4,5 milioane de descărcări în ultima lună.
Un alt proiect de digitizare a cărților vechi, care merită menționat, este META-e. A fost, de asemenea, conceput și implementat de către țările UE. În cadrul acestui proiect, banii au fost alocați pentru dezvoltarea unui sistem de programe informatice pentru recunoașterea oricărui tip de texte europene tipărite în secolele XVI-XIX folosind fonturi aproape non-gotice.
În timp ce bibliotecile europene sunt digitalizate mult mai mult decât cele rusești.
De exemplu, pe site-ul Bibliotecii Naționale a Franței, care are un fond comparabil cu INION, sunt disponibile mai mult de 3 milioane de cărți și documente. Să sperăm că bibliotecile noastre în viitorul apropiat vor putea să se laude cu astfel de cifre.
Imaginea 1: Sharon Nikki McCutcheon, www.flickr.com
Foto 2: Michael D Beckwith, www.flickr.com