Prezentare pe tema: "9.1 Tezaure: Principii de bază pentru dezvoltarea, crearea și utilizarea tezaurelor tradiționale de recuperare a informațiilor: exemple de tezaure". - Transcriere:
1 9.1. Tezaure. Principiile de bază ale dezvoltării, creării și utilizării tezaurelor tradiționale de recuperare a informațiilor. Exemple de tezaure.
2 Sistemul conceptual al ariei de studiu Bazele oricărei discipline sunt sistemul de concepte din acest domeniu. Definirea unui concept: Un concept este un gând care reflectă într-o formă generalizată obiecte și fenomene ale realității prin stabilirea proprietăților și a relațiilor lor; acestea din urmă (proprietăți și relații) apar în concept ca trăsături generale și specifice, corelate cu clasele de obiecte și fenomene (dicționar lingvistic)
3 Concepte și termeni Pentru a exprima conceptul de domeniu în texte, se folosesc cuvinte sau expresii numite termeni. Un set de termeni din aria tematică formează sistemul său terminologic. Relația unui termen concret cu alți termeni ai unui sistem terminologic de domeniu este definită printr-o definiție
4 Definițiile termenului? Word (sau o combinație de cuvinte), care este descrierea exactă a unei anumite noțiuni de o sferă specială de știință, tehnologie, arta, viața socială, etc. || Un cuvânt sau o expresie specială care se referă la ceva. în acest sau în acel mediu, o profesie (Marele Dicționar al limbii ruse)
5 Termeni - numele exacte ale conceptelor De obicei fiecare concept al unei regiuni corespunde cel puțin unui termen unic înțeles, a cărui semnificație este acest concept. - termeni, în sensul teoriei tradiționale a terminologiei Proprietățile termenilor - numele exact al conceptelor - termenul trebuie să se refere direct la concept, trebuie să exprime clar conceptul; - semnificația termenului ar trebui să fie precisă și nu trebuie să se suprapună cu alte termeni; - sensul termenului nu trebuie să depindă de context. Termenii care se referă cu exactitate la un concept sunt supuși studiului terminologiei terminologice
6 Termeni de text În textele din domeniul real, pe lângă termenii principali, pot fi folosite o varietate de expresii de limbă pentru a se referi la conceptul pe care noi îl numim termeni de text: - variante formative sintactice: destinatarul fondurilor bugetare; - variante lexicale - debit direct, scutire fără îndoială; - expresii multi-evaluate, în funcție de contextul care servește ca referință la diferite concepte ale zonei, de exemplu, cuvântul valută în contexte diferite poate însemna o monedă națională sau o monedă străină.
7 Valoare concept-termen Definiție Denumire neechivocă = termen în sensul termenilor teoriei terminologiei
Tezaurele de regăsire a informațiilor Tezaurul de recuperare a informațiilor este un dicționar controlat al termenilor de domeniu creat pentru a îmbunătăți calitatea regăsirii informațiilor în zona de date dată
10 Exemple de tezaur tezaure ONU - UNBIS Tezaur Tezaur al Uniunii Europene - EuroVoc Tezaur al Congresului SUA Serviciul de Cercetare - LIV URSS -Pravovoy tezaur -INION -Shemakin „tezaur tehnic» Standarde ISO, GOST
11 Tezaurele tradiționale de regăsire a informațiilor pentru indexarea manuală: structură Concepte de bază Descriptori PO Sinonime condiționate - ascriptori - Relații de echivalență ascriptor - descriptor Relațiile dintre descriptori
13 Descriptori cu pui Gunoiul - o parte din macaralele de etichete de nume (echipamente de ridicat) vs macarale (păsări) cochilii (structuri) - compararea diferitelor expresii Preferințe thesauri: înregistrări -Phonograph vs. înregistrări (fonografice) Închis și plural: Lemn (material) Lemn (zone împădurite)
14 Selectarea denumirii descriptorilor Cunoștințe curente și frecvența utilizării Neutralitate: dezvoltarea națiunilor vs. țările subdezvoltate Alte surse: dicționare, legislație, tezaure - bugetul bugetului - bugetul municipal
15 Selectarea denumirii descriptor-2 Form full vs. Reducerea neologismelor, argou, jargon Mărci comerciale - vs. Aspirină, Xerox Denumire comună și științifică Cuvinte împrumutate
16 Includerea descriptori pe baza termenului expresii prolix de despicare crește ambiguitate: plantelor sensul alimentar al expresiei depinde de ordinea cuvintelor: Știința informației - informații științifice Unul dintre cuvintele componente este în afara domeniului de aplicare al tezaurului sau prea generale: prim ajutor relații descriptor nu decurge din structura sa: - Rinichi artificiali, statutul de refugiat, semafoare
17 Relații ierarhice Relație Rodovidovaya Întreaga-Organe organice-Obiecte geografice -Discipine-Structuri ierarhice (regiment-batalion-companie) Relația dintre exemplu: - Himalaya - munți
18 Relații Asociative Industrie - actor -Matematika - Matematica Disciplina - -Nevrologiya obiect de studiu - sistemul nervos de acțiune - un agent sau instrumentul -Hunting - Hunter de acțiune - rezultatul -Tkachestvo - acțiune tesatura - gol -Perepletnye de lucru - carte de cauză-efect - Moarte - Valoare funerară - unitate de măsură - intensitate curentă - ampere Acțiune - contrapartidă - Allergen - medicament antialergic etc.
19 Informații tezaur regăsire: etapele de dezvoltare: Prima etapă: indexatorii descrie tema principală a textului cuvinte și expresii aleatoare a primit mai multe texte termenii aduse împreună în rândul familiei, în sensul termenilor selectat cele mai reprezentative Unele dintre sinonimele rămase sunt condiționate, iar restul se elimină termenii specifici care nu sunt în general incluse
20 Informații tezaur regăsire: dezvoltarea artei de descriptori - termeni care sunt necesare pentru exprimarea principalelor teme ale documentului sinonimele includ numai cele mai necesare (de exemplu, să înceapă cu o altă literă), astfel încât să nu obstrucționeze activitatea indexatorul Related termeni ar trebui să fie redusă la un singur termen, pentru a evita indexarea subiectivității Nivelurile de ierarhie, includerea unor termeni specifici sunt limitate
22 Tezaurele de recuperare a informațiilor: utilizarea relațiilor Indexatorul selectează cel mai precis descriptor pentru descrierea conținutului documentului Expansiune automată a interogării. Probleme cu asociațiile
23 IPT tradițională: aplicarea la prelucrarea automată a lipsei de cunoștințe despre limbajul real PONehvatka cunoștințe despre limba reală a software-ului legislativ Vocabularul indexării: Indexarea legislativă Vocabular: Trupele de text -în - FORȚELOR Tezaur MILITARE -in textul CAPITAL - capitala, dar capitalul în tezaur se propune: Fiecare descriptor să completeze listele de cuvinte și termenii propuși: fiecare descriptor să completeze listele de cuvinte și termeni, dar: ambiguitatea sau cu privire la diferitele descriptori. Dar: multi-evaluate sau legate de descriptori diferite. Rezoluție multiplă
24 IPT tradițional: extinderea automată a interogărilor Problema cu asociațiile Se recomandă: să introduceți greutăți pentru a introduce greutăți pentru a introduce numele relației: obiect, proprietate etc. introduceți numele relației: obiect, proprietate etc. CONCLUZIE: trebuie să învățați cum să construiți resurse lingvistice special pentru prelucrarea automată a colecțiilor de text
25 Tezaur EUROVOC - Tezaur multilingv Tezaur al Comunității Europene în 9 limbi Versiunea rusă - EUROVOC + 5000 concepte care reflectă specificul rus multilingv Tezaur -Deskriptor - nume în diferite limbi -Askriptory - pentru unele limbi
29 Întrebări pentru prelegere Listează principalele tipuri de relații în IPT. De ce tradiționalul IPT este puțin utilizat pentru indexarea automată a textului. Metode de utilizare a IPT tradiționale în tehnologii automate de procesare a textului (interogări).