С помощью синтеза речи можно читать любой текст максимально естественным голосом. Чтобы сделать синтезированную речь естественной, необходимо улучшить тембр, смоделировать ударения и паузы, проработать интонацию и другие аспекты.
Для этого используются два метода:
- Сопоставление - записанные аудиоклипы сшиваются вместе. Этот синтезированный голос отличается высоким качеством, но требует большого количества данных для машинного обучения.
- Параметризация - строится вероятностная модель для соответствия акустических свойств звукового сигнала заданному тексту. С помощью этого метода можно создать речь, практически неотличимую от человеческой.
Как работает преобразование текста в речь
Для преобразования текста в речь система должна пройти три этапа: преобразование текста в слова, выполнение транскрипции речи и преобразование транскрипции в речь.
- Преобразование текста в речь
Специальный алгоритм должен подготовить текст и преобразовать его в читаемый формат. Проблема в том, что исходный текст содержит, помимо текста, цифры, сокращения, даты и т.д. Такие компоненты должны быть расшифрованы и записаны в виде текста. Затем алгоритм разбивает текст на отдельные фразы, которые система затем читает в правильном тоне. Для этого при создании фраз робот ориентируется на пунктуацию и устойчивую структуру текста.
- Выполнение фонетических транскрипций
После того как алгоритм разобрал текст на фразы, ему необходимо выполнить транскрипцию речи. Каждое предложение может иметь разное произношение, в зависимости от смысла и эмоциональной окраски текста. Кроме того, даже одно слово может быть истолковано по-разному.
Чтобы определить произношение и расположение ударений для каждого слова, он использует встроенный словарь. Если нужное слово не может быть найдено в словаре, компьютер использует академические правила для создания транскрипции самостоятельно. Если и это не помогает, алгоритм основывается на записи диктора и определяет, на какие части слова он ставит ударение.
Затем система подсчитывает, сколько фрагментов длиной 25 миллисекунд содержится в составленном транскрипте. Он описывает каждый фрагмент по различным параметрам: какая фонема является его частью, ее позиция, какой слог является его частью. Затем система использует данные о фразах и предложениях для воссоздания соответствующей интонации.
- Преобразование транскрипции в речь
Система использует акустическую модель для чтения подготовленных текстов. Он устанавливает связи между фонемами и звуками, придавая им правильное звучание с помощью машинного обучения. Чтобы что-то сказать, робот использует генератор звуковых волн, в который загружаются все полученные от акустической модели данные о частотных характеристиках фразы.