Tema (subiect) de căutare. Principiile fundamentale.
În practica internațională, crearea sistemelor informatice, inclusiv - biblioteca, care caută subiecte și subiecte alocate unei specii distincte, care, în esență, este de căutare semantică sau, mai precis, o căutare cu privire la conținutul de text. În același timp, o distincție clară între noțiunile de „subiect“ și „subiect“ de căutare nu există.
Sarcina de căutare tematice în bibliotecile digitale (DL) este diferită de cea în crearea de cataloage electronice (CE) nu este atât de fundamental, pare multora, mai ales că căutarea în DL cea mai mare parte bazat pe aceleași înregistrări bibliografice (KB) în CE sau corespunzătoare de metadate de conținut, structurat în alte moduri (de exemplu, folosind un limbaj de marcare XML text sau HTML). Uneori, cu toate acestea, adăugate la datele bibliografice pentru a găsi unele părți suplimentare ale documentului (de exemplu, tabelul cuprins).
Explicația teoretică a ceea ce de căutare gratuit de cuvinte cheie (COP) în CE sau în conformitate cu textele integrale ale documentelor electronice nu pot oferi completitudinea mare de indicatori, este ca urmare legile imuabile ale comunicării lingvistice:
Căutare în Biblioteci tematice tehnologic digitale (DL) este pus în aplicare:
- prin cataloage electronice convenționale EB folosind fonduri le-au primit;
- Metadate nu au fost prezentate sub formă de înregistrări ale CE (XML, HTML - markup);
- pentru documente full-text cu procesoare lingvistice, „baze de cunoștințe“ și fără ele;
- full text fragmentar (de exemplu, titluri, rezumate, adnotări, secțiunile cele mai informative).
Exhaustivitatea și exactitatea regăsire a informațiilor depind de elaborarea resurselor lingvistice ale sistemului, indiferent de metoda de implementare a acesteia.
Rezultate bune oferă metode statistice de procesare de text, utilizarea de evaluare a semnificației termenilor în text prin ierarhizării lor conform unor indicatori de „greutate“. Cu toate acestea, în matrice mari de date full-text pentru a verifica calitatea acestor fonduri este extrem de dificil de a trebui să se bazeze pe o parte din evaluarea probabilistică a rezultatelor căutării.
Pentru a pune în aplicare cerințele caracteristicilor căutării temă (subiect), folosind diverse informații de limbi de recuperare (IRL) - limbaje artificiale, special concepute pentru a furniza informații pentru prelucrarea mecanică și recuperarea acestor informații în AIS.
Desigur, elementele de date pentru căutare subiect în sistem informatic primesc automat formatul de etichetă sau un text de marcare.