Распознавание речи Text-to-speech - заказать подключение в Аллтел24

С помощью синтеза речи можно читать любой текст максимально естественным голосом. Чтобы сделать синтезированную речь естественной, необходимо улучшить тембр, смоделировать ударения и паузы, проработать интонацию и другие аспекты.

Для этого используются два метода:

Сопоставление - записанные аудиоклипы сшиваются вместе. Этот синтезированный голос отличается высоким качеством, но требует большого количества данных для машинного обучения.
Параметризация - строится вероятностная модель для соответствия акустических свойств звукового сигнала заданному тексту. С помощью этого метода можно создать речь, практически неотличимую от человеческой.

Как работает преобразование текста в речь

Для преобразования текста в речь система должна пройти три этапа: преобразование текста в слова, выполнение транскрипции речи и преобразование транскрипции в речь.

Преобразование текста в речь

Специальный алгоритм должен подготовить текст и преобразовать его в читаемый формат. Проблема в том, что исходный текст содержит, помимо текста, цифры, сокращения, даты и т.д. Такие компоненты должны быть расшифрованы и записаны в виде текста. Затем алгоритм разбивает текст на отдельные фразы, которые система затем читает в правильном тоне. Для этого при создании фраз робот ориентируется на пунктуацию и устойчивую структуру текста.

Выполнение фонетических транскрипций

После того как алгоритм разобрал текст на фразы, ему необходимо выполнить транскрипцию речи. Каждое предложение может иметь разное произношение, в зависимости от смысла и эмоциональной окраски текста. Кроме того, даже одно слово может быть истолковано по-разному.

Чтобы определить произношение и расположение ударений для каждого слова, он использует встроенный словарь. Если нужное слово не может быть найдено в словаре, компьютер использует академические правила для создания транскрипции самостоятельно. Если и это не помогает, алгоритм основывается на записи диктора и определяет, на какие части слова он ставит ударение.

Затем система подсчитывает, сколько фрагментов длиной 25 миллисекунд содержится в составленном транскрипте. Он описывает каждый фрагмент по различным параметрам: какая фонема является его частью, ее позиция, какой слог является его частью. Затем система использует данные о фразах и предложениях для воссоздания соответствующей интонации.

Преобразование транскрипции в речь

Система использует акустическую модель для чтения подготовленных текстов. Он устанавливает связи между фонемами и звуками, придавая им правильное звучание с помощью машинного обучения. Чтобы что-то сказать, робот использует генератор звуковых волн, в который загружаются все полученные от акустической модели данные о частотных характеристиках фразы.

Text-to-speech

Что такое Text-to-speech

Похожие статьи по теме: