Как работи, за синтезиране на говор - интересни и информативни факти за

В последния брой говорихме за разпознаване на реч, днес ще обсъди обратният проблем. И така, как синтез на реч, или, с други думи, превръщането на произволен текст към глас - за това в днешния си брой!

Когато се направи транскрипцията, компютърът изчислява колко го рамки, или, с други думи, фрагменти от 25 милисекунди. Освен това, всеки кадър е описан от набор от параметри: част от фонема е, какво място заема във всяка част на тази фонема сричка. Той също описва как подчерта или ненапрег фонема, ако тя е гласна. В допълнение, системата създава правилната интонация, като се използват данни за фразата и изречение.

След това системата използва акустичен модел е да се чете готов текст. Той установява съответствия между фонеми с определени характеристики и звуци. Акустична модел знае как правилно да произнася фонема и да даде правилната интонация на предложението поради машинно обучение. Колкото повече данни, която се изучава модела, толкова по-добре резултата, издаден от него.

Що се отнася до гласуването, това ги прави разпознаваеми, на първо място, с глас, който е зависим от структурните характеристики на органите на апарата за реч. Тембърът на всеки глас може да се симулира, това е, за да се опише нейните характеристики - това е достатъчно, за да се чете в студиото малко количество текст. След това, по данни тембъра може да се използва в синтеза на реч на всеки език. Когато системата трябва да каже нещо, той използва звукови вълни генератор - вокодер. Той зарежда информацията фраза честотни характеристики, получени от акустични модели, както и данните за тембъра, която дава глас разпознаваем цвят.

Заслужава да се отбележи, че днешната синтез реч технология има някои проблеми. Първият от тях е изкуствено. Всеки синтезирана реч се възприема от човек с трудност и той е принуден да се използват допълнителни ресурси за неговото разбиране. По този начин, хората могат да възприемат нормално синтезирани реч само около 20 минути. Също така, синтезира речта, като правило, не е емоционално оцветяване, и тя има нисък имунитет. С други думи, възприятието на синтезирания говор пречат на всяко лице, дори и най-малките шумове.

Как става това? | синтез на реч Hi-News.ru

Свързани статии