Care este organul național al limbii române (www.ruscorpora.ru)?
Pentru a răspunde la întrebarea, ce este corpul național al limbii române, trebuie mai întâi să răspundem la întrebarea, ceea ce este organismul în general și, în special, Corpus Național. Carcasa unei limbi - o colecție de texte în această limbă, în format electronic și prevăzute cu aparatură științifică. Aparat, „construit“ în organism, numit de obicei „marcare“ sau „rezumat“ al carcasei; corp mai bun decât mai completă și mai perfectă abstract lui. De fapt, știința carcaselor ( „lingvisticii corpus“) - este în primul rând știința modul de a face un bun marcaje ale corpului.
Ziarul profesorului
În etapa finală a concursului va avea loc în timpul antrenamentului. Câștigătorul va primi un premiu dicționare și cărți de referință pentru a finaliza contul personal. Toti finalistii vor primi premii, și toți participanții - certificatele comemorative.
Acesta este doar unul, foarte simplu exemplu care arată ce poate fi marcaje necesare. De fapt, un text bine marcat până la un specialist este complet nepretuit. Într-adevăr, în lingviștii lor de cercetare depind în primul rând de cantitatea și calitatea materialului colectat. Mulți își amintesc încă zilele în care exemplele au fost evacuate din text și înregistrate pe card. Acum, cardurile sunt plecat, dar procedura de selecție a exemplelor din textul realizat de către om și dificil de automatizat. corp Marcat - primul instrument serios pentru a accelera și simplifica foarte mult procedura. Cu alte cuvinte, ceea ce cercetătorii din generațiile anterioare au luat săptămâni sau chiar luni de munca grea, cu ajutorul corpului se poate face în câteva minute.
Este clar că organismul național ar trebui să fie deosebit de mare: volumul său se măsoară în sute de milioane de jetoane (pentru comparație, putem spune că, de exemplu, operele complete ale lui Dostoievski are „doar“ aproximativ două milioane de cuvinte). Dar, în plus, el - și este chiar mai important - să fie reprezentativ. Cu alte cuvinte, aceasta ar trebui să includă toate tipurile de texte prezentate într-o anumită limbă într-o perioadă istorică dată, și, în același timp, păstrați-le în proporția corectă.
Membru corespondent al Academiei Ruse de Științe, șef al Departamentului de Lingvistică Corpus
și poetici lingvistice ale Institutului de limba română
Clubul nostru cunoscători din România