carcase Introducere și lingvistică corpus - studopediya

Doctore. filol. Științe LN Belyaev (Rus. Gos. Ped. Univ-le. Herzen)

Cand. Fil. Stiinte SA Koval (Sankt-Petersburg. Stat. Univ)

Tipărit de comandă

Universitatea de Stat din Sankt-Petersburg

Pentru studenții universitare și postuniversitare specializate în domeniul lingvisticii aplicate și a sistemelor automate de prelucrare a textului.

1. Concepte de bază

Introducere: Adăpost și lingvistică corpus

Corpus lingvistică - secțiune lingvistică computațională, angajată în dezvoltarea principiilor generale de construcție și utilizare a corpusurilor lingvistice (corpus), cu utilizarea tehnologiei de calculator. Sub numele de lingvistică, sau limbaj, corpus se referă la o mare, prezentată în format electronic, un marcaj unificat, structurat, filologic competente matrice de date de limbă, concepute pentru a aborda problemele lingvistice specifice. Conceptul de „corpul de text“ include, de asemenea, un sistem de gestionare a datelor de text și lingvistice, care, în ultimul timp este adesea numit un shell-manager (sau manager de caz) (manager de ing. Corpus). Acesta este un motor de căutare de specialitate, care include instrumente software pentru recuperarea datelor în caz, informații statistice, și să furnizeze rezultatele pentru utilizator într-o formă convenabilă.

Fezabilitatea instituirii sensul utilizării clădirilor este definit de următoarele ipoteze:

1) este suficient de mare (reprezentativ) volumul carcasei asigură date reprezentative și oferă întregul spectru de fenomene lingvistice reprezentare plinătate;

2) date de diferite tipuri se găsesc în organism în forma sa contextul natural, care creează posibilitatea unui studiu cuprinzător și obiectiv;

3) odată create și pregătite de o serie de date pot fi utilizate în mod repetat, mulți cercetători și pentru diferite scopuri.

Putem spune că toate cercetările moderne lingvistice și de lucru privind elaborarea de dicționare și gramatici într-un fel concentrat pe utilizarea organismelor reprezentative ale textelor. Dezvoltarea sistemelor moderne de software inteligente pentru procesare de text în limbaj natural necesită, de asemenea, o mulțime de baze lingvistice experimentale. Cererea de date de locuințe a coincis cu apariția de capacități tehnice corespunzătoare.

În prima jumătate a anilor '90. lingvistică corpus în cele din urmă format ca o ramură separată a științei limbajului. Cu toate acestea, ea lucrează în strânsă colaborare cu lingvistică computațională, folosind realizările sale și, la rândul său, îmbogățindu-l.

Putem spune că lingvistica corpus are ca obiect de bază și practice teoretice modalitățile de crearea și utilizarea de matrice reprezentative de date lingvistice destinate cercetării lingvistice în interesul unei game largi de utilizatori.

articole similare