Синтез речи (озвучание речи компьютером)

Синтез речи (озвучение речи компьютером)

Постановка задачи.

Задача синтеза речи заключается в том, чтобы текст, представленный в компьютере в виде символов был бы озвучен и превратился в человеческую речь. При этом машина либо уже имеет исходный текст в виде файла, либо составляет его, руководствуясь каким — либо алгоритмом. Как правило, синтезированная речь затем передается по телефонным линиям, имеющим ограниченный сверху и снизу частотный диапазон, поэтому желательно использовать высокий (женский) голос, т.к. он лучше проходит телефонные линии. Речь должна быть максимально разборчивой и членораздельной, а так же должна учитывать изменения интонации в соответствии с правилами языка.

СИНТЕЗ РЕЧИ — speech synthesis — процесс преобразования текста в речь.

Синтез является одной из форм обработки речи, связанной с задачей чтения абонентской системой записанного в ее памяти электронного текста. Существует несколько методов синтеза речи. Первый из них заключается в построении слов путем комбинирования фонем и аллофон. Полученная фонемная последовательность, после выбора высоты тона и интонации, превращается в речь. При таком подходе генерируется вполне понятная речь, но слушающему пользователю ясно, что их произносит робот. Второй метод синтеза речи заключается в ее имитации с использованием модели голосового тракта Человека. Здесь глухие и звонкие согласные в речи представляются источниками периодических и шумовых сигналов соответственно. Затем сигналы проходят через каскад фильтров.

При синтезе для обеспечения высокого качества речи необходимы высокие скорости обработки данных и большая емкость памяти для хранения данных. Поэтому приходится выбирать компромисс за счет определенного ухудшения качества синтезируемой речи.

Обычно синтез речи производится с учетом особенностей языка с автоматической расстановкой ударений.

ОСНОВНЫЕ ФУНКЦИИ КОМПЬЮТЕРНОЙ ТЕЛЕФОНИИ

Аппаратура или программа?

Семейство плат для компьютерной телефонии

Конкретный пример

Литература

Голосовые компьютерные технологии становятся сегодня все более популярными. Задача обучения компьютера навыкам общения с человеком при помощи обычной речи привлекает внимание, как известных гигантов компьютерной индустрии, так и относительно небольших компаний, специализирующихся исключительно на этой области индустрии телекоммуникаций. Компьютеры уже научились понимать команды человека и озвучивать текстовые файлы. Впрочем, голосовые технологии для настольных систем выглядят чем-то вроде забавы удобно, но при необходимости можно обойтись и без них. А вот для развивающейся необычайно быстрыми темпами компьютерной телефонии голосовые технологии — это насущная необходимость.

Основная идея компьютерной телефонии — сочетание мощи компьютерного интеллекта с простотой и доступностью телефонной связи. Благодаря этой технологии, можно связываться с удаленными компьютерами, и, ответив на несколько вопросов голосового меню, выполнить достаточно широкий набор действий: получить телефонное соединение с любым сотрудником компании-пользователя или оставить голосовое сообщение, осуществить доступ к базе данных и получить информацию либо в голосовом виде, либо по факсу. Помимо этого, компьютерная телефония позволяет производить интеллектуальную коммутацию входящего или исходящего звонка, переключать звонок с одного номера телефона на другой, как в пределах организации, так и «наружу» и производить большое количество других действий. Некоторые возможные приложения компьютерной телефонии описаны в работе [1].

ОСНОВНЫЕ ФУНКЦИИ КОМПЬЮТЕРНОЙ ТЕЛЕФОНИИ Сложные приложения компьютерной телефонии формируются из ограниченного числа относительно простых вызовов функций, реализующих достаточно сложные реальные алгоритмы, базирующиеся на ряде следующих аппаратных и программных средств.

Запись и воспроизведение голоса. Чтобы общаться с человеком по телефону, голосовая система должна уметь записывать и воспроизводить человеческую речь. Простейшим примером такой системы является обыкновенный автоответчик, где голос записывается на магнитную ленту, а потом воспроизводится. В современных системах компьютерной телефонии голос записывается в цифровом виде на диск, обычно по методу PCM (Pulse Code Modulation). Аналоговый электрический сигнал, передающий голос, подвергается цифровому преобразованию через определенные промежутки времени. Согласно известной теореме Найквиста, частота оцифровки или частота выборки должна быть вдвое выше максимальной частоты, присутствующей в спектре оцифровываемого сигнала. Общепринятым стандартом при передаче голоса является сохранение в его спектре частот до 4 кГц — при этом голос, с одной стороны, сохраняет узнаваемость, а с другой — не требует для своей передачи высококачественных линий. Отсюда получается, что частота выборки должна составлять 8 кГц, а общепринятое разрешение аналого-цифрового преобразования составляет 256 уровней. Для кодировки такого преобразования необходимо 8 бит информации. Таким образом, для кодирования голосового сигнала требуется скорость 64 Кбит/с.