În ultimul număr am vorbit despre recunoașterea vorbirii, astăzi vom discuta problema inversă. Deci, cum apare sinteza vorbirii, sau, cu alte cuvinte, transformarea unui text arbitrar într-un voce - despre el în emisiunea de astăzi!
Atunci când transcrierea este compusă, calculatorul calculează câte cadre conține sau, cu alte cuvinte, fragmente de lungime de 25 milisecunde. Apoi, fiecare cadru este descris printr-un set de parametri: ce fel de fonem este, ce loc ocupă, care introduce syllabilul acestui fonem. De asemenea, descrie impactul sau lipsa impactului fonemului, dacă acesta este o vocală. În plus, sistemul creează intonația corectă, folosind datele despre frază și propoziție.
Sistemul utilizează apoi modelul acustic pentru a citi textul pregătit. Ea stabilește corespondențe între foneme cu anumite caracteristici și sunete. Modelul acustic știe să pronunțe corect fonemul și să dea intonația corectă propoziției datorită învățării mecanice. Cu cât mai multe date învață modelul, cu atât mai bine rezultatul este dat.
În ceea ce privește vocile, timbrul, care depinde în primul rând de trăsăturile structurii organelor aparatului de vorbire, le face recunoscute. Timbrul oricărei voci poate fi modelat, adică să descrie caracteristicile sale - pentru asta este suficient să citiți o mică cantitate de texte în studio. După aceasta, datele tonului pot fi folosite pentru a sintetiza vorbirea în orice limbă. Când sistemul are nevoie să spună ceva, utilizează un generator de undă sonoră - un vocoder. Încarcă informații despre caracteristicile de frecvență ale sintagmei primite de la modelul acustic, precum și despre datele despre timbră, care dă vocii o culoare recunoscută.
Este demn de remarcat faptul că tehnologiile moderne de sinteză a vorbirii au unele probleme. Primul dintre ele este artificialitate. Orice discurs sintetizat este perceput de o persoană cu dificultate și el este forțat să folosească resurse suplimentare pentru ao înțelege. Astfel, oamenii pot lua în mod normal vorbire sintetizată numai pentru aproximativ 20 de minute. De asemenea, vorbirea sintetizată, ca regulă, nu are culori emoționale și are o imunitate scăzută la zgomot. Cu alte cuvinte, orice, chiar și cel mai mic zgomot străin interferează cu percepția discursului sintetizat.
Cum funcționează? | | Sinteza discursului Hi-News.ru