Синтезатори на реч в Linux

Синтезатори на реч, за Linux

влизане

Предлагаме Ви малък преглед на системите за текст в реч за Linux. Изглежда, че тази тема все още не е обсъдено в руски език Интернет. Дори и с впечатлението, че тази област не съществува, или най-малкото е много слабо развита. В действителност не е така.

Първите персоналните компютри се появиха играчка. И за дълго време и тя се използва - за игри, а дори и за писане. Звукова карта е екзотична и когато аудио и CD-ROM се превърне в норма, те все още са подходящи само за игри и слушане на музика. Говора технологии, които изискват значителна изчислителна мощност може да бъде наето само мейнфрейм. Такива проекти не обещават бърз търговски успех, следователно, разработен главно в университетите и изследователските центрове, които работят в дългосрочен план. Това е всичко, и си отиват.

Сега силата на настолни системи се е увеличил толкова много, че говорни технологии са на разположение на почти всеки компютър. Брой на приложения, използващи реч, бързо се увеличава, а качеството се увеличава. Ето един пример за използването на висококачествени синтезатор на реч - руски език саундтрак към анимационен филм "Ледена епоха" на DVD а. Повечето зрители не са наясно, че героите казват "компютър" глас. Развитието на речта технология обещава промяна във всички области на живота. Например, тя вече се е появило преводачи от един език на другия, които работят в "система за разпознаване на реч - речник - реч система синтез".

Няколко думи за това как да реч синтезатори работа

Смята се, че човешкия език се състои главно от една сричка и две срички звуци (alofonov и diphones). Такъв набор от звуци можете да създадете на всеки език. Това е много повече от азбуката на френски език, например, им okolo1200. Звуци са взети от запис на истински човешки глас, а под формата на аудио файлове са организирани в база данни.

Във всеки език има думи с нестандартни правила произношение. За тези думи на специално речник - лексика. Разбор на текстови компютърно издирване на дума на първо място в речника, и ако това не е там, то е звуците в съответствие с правилата за езика.

Какво е бил открит в мрежата

Сега нека да видим какво има в тази област за Linux. Това е, което даде на Google:

Фестивалният Озвучаване System - фестивал е общ многоезичен синтез реч система, разработена в смесител. Той разполага с пълния текст на речта система с различни интерфейси, както и среда за развитие и проучване на техники за синтезиране на говор.

Проектът Festvox - Безплатни софтуерни инструменти и документация за изграждане на нови гласове синтез реч на английски и други езици. От Карнеги Мелън.

Unix за разпознаване на реч - Специална Synapse TAP Workstation превежда реч в миши събития и клавиши за контрол на всички среди - Unix, mainfame и Mac с разпознаване на реч.

Говорител - текст в реч за Konqueror - A текст в реч включете за десктоп файл мениджъра на KDE под Linux.

Flite - Flite (фестивал-Lite) е малък, бърз по време на изпълнение синтез двигател, разработен в CMU и предназначени основно за малки вградени машини и / или големи сървъри.

FreeTTS 1.1.1 - А синтезатор на реч написана изцяло на езика за програмиране JavaTM

KVoiceControl - просто го казвам! - Kvoicecontrol е система за разпознаване на реч, която позволява на потребителите да конвертират гласови команди за Linux / Unix команди. За KDE и X прозорци.

Проектът MBROLA - Многоезично текст в реч синтез. Безплатна многоплатформен софтуер за сваляне за изследователски цели.

FreeSpeech - безплатен за разпознаване на реч за Linux - Openmind (Freespeech) е проект на свободното слово признание за Linux. Той ще бъде проектиран така, че да могат лесно да бъдат интегрирани в приложението или мениджър на прозорци, както и десктоп среди KDE и Ggnome.

IBM ViaVoice SDK за Linux - Комплектът ViaVoice осигури необходимите инструменти за разработване на приложения, които включват разпознаване на реч, използвайки Linux

Признаване DDLinux реч по електронна поща - Обявления на софтуер за разпознаване на реч за Linux.

Бабел Technologies - Спецификата на MBROLA пребивава в оригиналната процес се използва за генериране на синтетични diphones. Този подход, който се основава на Multi-Band Развълнуван (MBE) анализ позволява спектрален изглаждане на точките за конкатенация, създавайки много по-естествен глас, отколкото с някакви други concatenative системи.

Байон - Телефонен сървър на проекта GNU - Байон е безплатна мулти-телефония сървъра на проекта GNU. Изходният код на разположение за Linux / Unix насочена към съобщения, IVR със значителна разтегливост. Байон подкрепя модулна архитектура, роден на скриптове и TGI.

Не е много, но тук има признаване, така и за синтезиране на говор. В този преглед, ние смятаме, системата за синтез.

Преглед на синтезиране на реч системи в текста

На първо място в списъка е проект на фестивал Озвучаване система (Фестивал Озвучаване на System). Тази изследователска програма, която има за цел да проучи процеса на човешки глас синтез на компютъра. Фестивал проектиран и разработен под Unix.

В момента наличните езици: Американски и британски английски, уелски, испански. Следва да се отбележи, че англичаните работи по-добре от други. Поддържа четене на текстове от различен тип, като се вземат предвид интонацията, четене на думи с нестандартна произношение. Можете да се свържете база език MBROLA (виж. По-долу).

Разпределението включва:

пълен C ++ код,
лексикони и CMULEX OALD (за нетърговски цели)
ниско ниво C ++ Единбург говора Инструменти Библиотека
diphone база за американски и британски английски и френски език,
пълен набор от документация.

Фестивал е включен с много Линукс дистрибуции. За да го изпробвате, как работи, можете, например, да се зареди от диска вече добре познати в Knoppix. Там той и RedHat 9 като об-пакет на втория инсталация диск. Ако имате нужда само функцията на четене на текста, което правим
об -iv /. /festival-1.4.2-16.i386.rpm
об -iv /. /festival-devel-1.4.2-16.i386.rpm

Ако искате да изследвате фестивал дълбоко, по-добре е да се инсталира на системата от източника. При монтажа, трябва да изтеглите пакетите:
фестивал-1.4.3-release.tar.gz - действителната глас синтезатора.
speech_tools-1.2.3-release.tar.gz - ниско ниво библиотека на глас означава Единбург говора инструменти.
festvox_NAME.tar.gz - гласът на база данни и лексикони. Предлага се в различни (с различна политика размножаване). Всеки глас може да изисква някои допълнения, като например специално лексикон. Освен това, на базата на различно качество на синтезирания глас и организацията му. Ето някои:
- festlex_en_1.tar.gz- британски английски, мъжки глас
- festvox_us_1.tar.gz- американски английски женски глас
- festvox_kedlpc16k.tar.gz - американски английски, мъжки глас
- festvox_rablpc16k.tar.gz - британски английски, мъжки глас
- festlex_CMU.tar.gz - Лексикон
- festlex_OALD.tar.gz - Лексикон
- festlex_POSLEX.tar.gz - Лексикон
festdoc_1.4.0.tar.gz - Фестивал документация и говора Tools.
За да създадете нов вот е необходим festvox-2.0-release.tar.gz с пакет документацията.

Всички източници трябва да разопакова в отделна директория, например / изберат / фестивал. две поддиректории трябва да могат да:
speech_tools /
фестивал /
Ако е инсталирано и festvox, ще има трета поддиректория.

Първо трябва да се състави библиотека на глас означава Единбург говора инструменти.
CD / изберат / фестивал / speech_tools /
./ конфигуриране
правя
Изпълними файлове не се движат, но остават тук.
Тогава компилиран фестивал:
CD / изберат / фестивал / фестивал /
./ конфигуриране
правя
По същия начин ние се пристъпи festvox, което е необходимо, както вече бе споменато само за създаване на нов глас, и не е необходим за синтез на реч, използвайки съществуващата база данни.
Пътят на изпълними файлове, които искате да се заключва в файл / и т.н. / профил. Добавя се подходящо място линии:
pathmunge / изберат / фестивал / speech_tools / бин
pathmunge / изберат / фестивал / фестивал / бин

Сега нека да се опитаме да прочете нещо. Цялата работа се извършва в командния ред. За да влезете в програмата, моля обадете се на:
фестивал
Тя се осъществява в собствена черупка, която може да се види, за да промените командния ред:
фестивал>
По подразбиране, се оказва по английски език. Изкрещи текст може да бъде, както следва:
фестивал> (SayText "Hello World")
нищо не се случва в началото. В документа се казва, че програмата трябва да се справят с целия текст, преди да започне да говори. За да избегнете това, при условие че използването на така наречения режим на глас спулер. Тя е включена опция (audio_mode асинхронен). След това се случи веднага, без да се чака за анализ на текста до края. Се е случило? Сега нека да се опитаме на руски:
фестивал> (SayText "фестивал govorit PO russki")
Можете да направите, но. Както може да се очаква, са необходими diphones руската база и руски синтез правило. За това - малко по-късно.
Може да се каже файл, разбира се, ако тя е на английски език (марка "***", разбира се, трябва да се заменят с нещо от собствения си):
фестивал> (TTS "***. TXT" нула) (audio_mode асинхронен)
Излизане:
Или С-г (откажат) или Exit Festiva л
Фестивал може да се използва направо от черупката:
фестивал --tts ./***.txt
text2wave полезност конвертира в текстов файл звука.
/ Opt / фестивал / фестивал / хамбар / text2wave

Фестивал може да се използва самостоятелно (както в този пример, кратък сесия), и може да се вгражда в други приложения, включително Java технология, която се поддържа от версия 1.4.0. Възможностите са много, но за да получите нови, разполага с всички средства. Липсата на руски език, разбира се, отрицателни, но не и на разработчиците, а по-скоро за нас. Както се казва спасяването на удавяне. и т.н. Както вече споменахме, всичко, което е необходимо да се създаде нов глас, има.

Фестивал на проекта не е единственият областта на говорни технологии за Unix-подобни системи. Нека да видим какво друго е в списъка.

FreeTTS - разработчик на реч интеграция Група на Sun Microsystems Laboratories. Multi-платформа, отворен проект източник на базата на Java и току-що спомена Flight, който, както знаем, има своя произход от проекта фестивал. Ето защо, отново е на разположение на базата данни на тези проекти и MBROLA.

Бабел Technologies

Бабел Technologies - мулти-синтезатор на реч, базирани на технологиите и глас базата данни на MBROLA. Тя извършва строителството на нови гласове (в допълнение към това, което имаме в белгийската проекта). Да се надяваме, че руската воля. Но изглежда, че това е търговски проект.

IBM ViaVoice

IBM ViaVoice. Този проект е известно само, че на руски език не е там.

местни проекти

Може би това може да завърши прехвърлянето на гласови синтезатори, които са съвместими с Linux. Очевидно е, че има много да избирате. Проблемът е, че макар и да няма руски глас. Дали сме абсолютно никой не се занимава в синтеза на руската реч?
Не съвсем. Ето две връзки:
Клуб глас на MSU Technologies име. MV Ломоносов Московския държавен университет, Москва.
Фирма "тайнство", Минск.
За съжаление, както аз го разбирам, това са търговски проекти, насочени към Windows. Ще се радвам да бъде погрешно. (H с тон той компания Тайнство вече предлагат Sakrament Text-To-Speech SDK Linux Edition. 1.0 (руска версия)).

Но не всичко е толкова тъжно. Има ентусиасти и сред домашните програмисти. На системата на руски синтез реч за Linux, разработен от Игор и Дмитрий Poretsky Paduchikh може да се прочете тук.

Възможно ли е да се изгради нов глас?

Както вече беше споменато, по-специално за създаване на нов глас има набор от софтуерни инструменти - FestVox. Разбира се, че е необходимо да се разбере. Разбира се, цялата документация на английски език. Разбира се, това ще бъде много ръчен труд, защото не всички стъпки са автоматизирани. Естествено, че е необходимо да се разбере и как да се свържете с глас синтезатор, и как да се осигури подкрепа за кирилицата. Но във всичко това няма нищо невъзможно.

Има ли смисъл да се направи това? Безспорно. Тази работа има потенциал да влезе дистрибуции на Linux, поне в otechectvennye. Наличието на гласови технологии в конкретна дистрибуция ще я дам значителни предимства пред другия. След интеграция с Open Office, Mozila и други приложения, се отваря напълно нови възможности за потребителя. Този, който преди другите ще показват пътя към всички тези чудеса, няма да бъдат забравени.

Още малко за създаването на нов глас. Ето какво същите разработчиците са посъветвани Фестивален и MBROLA.

Работата по новия глас отнема време, постоянство и точност (и която не изисква?). Има някои функции, които трябва да знаете.

След това - в съответствие с инструкциите, които са в проектната документация и фестивал FestVox. В резултат на това трябва да се получи diphone база и формира правилната дума и синтеза на предложения. След това нов глас е свързан със звуков синтезатор.