Disciplina: „Baze de date“
Specialitatea: №08080165
„Informatică Aplicată (în economie)“
documentar
bază de date
Institutul de Informatica, sisteme de inovare și de afaceri
Departamentul de Sisteme de informare și Aplicată
Informatică
Lector superior O. Bogdanova
concepte de bază
Deoarece informația nu a fost întotdeauna prezentată sub forma
date structurate, există o nevoie
organizarea datelor, altele decât cele de fapt.
Sistemele informatice care stochează documente
formate diferite sunt numite documentar
Sisteme de recuperare (dips) informații.
concepte de bază
bază documentară tip de date poate fi
organizat:
• stocarea documentului original (text integral);
(Bibliografic, abstract)
• Fără spațiu de stocare a documentelor (DB-indicatori).
concepte de bază
căutare de informații în astfel de sisteme este
o listă de documente care conțin răspuns la o
cererea utilizatorului. sau informații de la documente
Informațiile reprezintă o cerere de utilizator
o valoare particulară a informațiilor solicitate în
timp, și-a exprimat în
limbaj natural.
concepte de bază
Pertinența - potrivire conținut semantic
Informatiile Document nevoile utilizatorului.
Relevanța - că conținutul documentului
solicitare de informații.
concepte de bază
Prezentarea formală a informațiilor
conținut cerere - o instrucțiune de căutare (PP)
O reprezentare formală a informațiilor de bază
Conținutul documentului - imaginea de căutare
Document (AML)
Un set de reguli care determină gradul de semantică
SUB de proximitate și PP - criteriul sensului
corespondență
Automatizarea proceselor
anchetă
căutare
imagine
=
nu
mesaj
exploratorie
ordin
criteriu
sens
corespondență
da
structură funcțională
anchetă
subsistemul
prelucrare
subsistemul
de intrare și
de înregistrare
căutare
imagine
exploratorie
ordin
subsistemul
căutare
căutare
imagine
KCC
dicționar
index
subsistemul
magazin
bază
date
structură funcțională
Subsistemul de stocare este simplu de magazine niciodată
colecție de fapte, cataloage distribuite, ca
aceasta poate provoca problema de a găsi informații și
utilizarea ineficientă a spațiului pe disc.
Acest subsistem utilizează întotdeauna Compact și
Reprezintă un set de SGBD
mijloace de arhivare etc.
structură funcțională
subsistemul de prelucrare este creat pentru fiecare document,
căuta o imagine care este salvată cu indicele.
Indicele logic este un tabel în cazul în care rândurile
Documente relevante și coloane cu informații
recomandate.
structură funcțională
Subsistemul de căutare este de a găsi în index
Document Căutare de imagini de căutare satisfăcătoare
prescripție în ceea ce privește criteriul sensului
conformitatea.
ID-uri de documente relevante găsite
ieșire subsistemul de căutare este transmis la intrarea
Subsistemul de stocare, care prevede eliberat efectiv
documente pentru utilizator.
limbi de regăsire a informațiilor
Limba de regăsire a informațiilor numit
limbaj specializat pentru descrierea
conținutul semantic al mesajelor primite de către sistem
pentru a permite căutarea lor secvențială.
Cele două tipuri principale:
limbi de clasificare;
limba descriptor
• Gramatica cu și fără gramatică
• vocabular controlat și gratuit
Procesarea textuale intrare
informații
Procesul de traducere unui document cu limbaj natural
informații limbă regăsire se numește
rubritcirovanie sau indexare.
indexare automată
automat
indexare
documente
putea
bazat pe un simplu, cu un singur cuvânt sau mai multe cuvinte
compozit
ceea ce privește
(Fraze).
Termeni Expresii
mai mult
semnificative, au o mai mare putere de discriminare.
Procesarea textuale intrare
informații
Procesul de traducere unui document cu limbaj natural
informații limbă regăsire se numește
rubritcirovanie sau indexare.
Rubritcirovanie izolat documentul 2 majore
abordare:
1. rubritcirovanie bazată pe cunoaștere;
2. formarea bazată pe rubritcirovanie
exemple.
Procesarea textuale intrare
informații
Două modele de bază de reprezentare a cunoștințelor:
1. O rețea semantică (SS)
Tezaur - rețea ierarhică a conceptelor și a relațiilor dintre
le.
2. Modelul de producție (PM)
Alocați 2 grupe:
rubritcirovanie statică
metode ale rețelei neuronale
Procesarea textuale intrare
informații
rubritcirovanie statistică - definirea gradului
conformitatea și terminologia documentului portret
portret terminologică bazat pe o coloană
comparând caracteristicile statistice ale subiecților
Tehnicile de rețele neuronale sunt utilizate rubritcirovanie
rețele neuronale ca un antrenament clasificatorul.
Există o selecție de texte, fiecare dintre acestea este marcat ca fiind
relevante sau irelevante pentru coloana.
Modele de căutare de bază
• Modelul boolean este un set de documente
termeni care apar în index, fiecare dintre acestea
considerat ca un boolean
• Model seturi impare permite parțială
un element aparținând setului
• spațiu vectorial, având în vedere totalitatea
documente ca un set de vectori în spațiu este determinată din
n vectori pe termen normalizat
• model probabilistic determină probabilitatea vhozheniya
termen în documentul