Научная статья на тему 'Технология синтеза речи: история и методология исследований'

Технология синтеза речи: история и методология исследований Текст научной статьи по специальности «Математика»

CC BY
1875
315
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СИНТЕЗ РЕЧИ / SPEECH SYNTHESIS / ИСТОРИЯ СИНТЕЗА РЕЧИ / THE HISTORY OF SPEECH SYNTHESIS / МЕТОДЫ СИНТЕЗА РЕЧИ / SPEECH SYNTHESIS METHODS / ФОРМАНТНЫЙ СИНТЕЗ / FORMANT SYNTHESIS / АРТИКУЛЯЦИОННЫЙ СИНТЕЗ / ARTICULATORY SYNTHESIS / КОНКАТЕНАТИВНЫЙ СИНТЕЗ / CONCATENATIVE SYNTHESIS / СЕЛЕКТИВНЫЙ СИНТЕЗ / HMM-BASED SYNTHESIS / СТАТИСТИЧЕСКИЙ ПАРАМЕТРИЧЕСКИЙ СИНТЕЗ / UNIT SELECTION

Аннотация научной статьи по математике, автор научной работы — Соломенник Анна Ивановна

В статье рассматривается зарождение и развитие технологии синтеза речи от первых попыток искусственного создания человеческой речи до наших дней, дается характеристика различных методов и подходов к решению задачи порождения естественно звучащего речевого сигнала, кратко обсуждаются достоинства и недостатки этих методов, а также их историческая преемственность.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Соломенник Анна Ивановна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Speech Synthesis Technologies. The History and Methodology of Studies

The article considers the genesis and evolution of speech synthesis technology beginning with the first attempts at synthesizing human speech until nowadays. Characterization is given of various methods and approaches to solving the problem of generating a naturally sounding speech signal; advantages and disadvantages of these methods are briefly discussed, as well as their historical continuity.

Текст научной работы на тему «Технология синтеза речи: история и методология исследований»

ВЕСТНИК МОСКОВСКОГО УНИВЕРСИТЕТА. СЕР. 9. ФИЛОЛОГИЯ. 2013. № 6

А.И. Соломенник

ТЕХНОЛОГИЯ СИНТЕЗА РЕЧИ:

ИСТОРИЯ И МЕТОДОЛОГИЯ ИССЛЕДОВАНИЙ

В статье рассматривается зарождение и развитие технологии синтеза речи от первых попыток искусственного создания человеческой речи до наших дней, дается характеристика различных методов и подходов к решению задачи порождения естественно звучащего речевого сигнала, кратко обсуждаются достоинства и недостатки этих методов, а также их историческая преемственность.

Ключевые слова: синтез речи, история синтеза речи, методы синтеза речи, формантный синтез, артикуляционный синтез, конкатенативный синтез, селективный синтез, статистический параметрический синтез.

The article considers the genesis and evolution of speech synthesis technology beginning with the first attempts at synthesizing human speech until nowadays. Characterization is given of various methods and approaches to solving the problem of generating a naturally sounding speech signal; advantages and disadvantages of these methods are briefly discussed, as well as their historical continuity.

Key words: speech synthesis, the history of speech synthesis, speech synthesis methods, formant synthesis, articulatory synthesis, concatenative synthesis, unit selection, HMM-based synthesis.

1. Введение

В статье рассматривается зарождение и развитие технологии синтеза речи от первых попыток искусственного создания человеческой речи до наших дней.

Синтез речи — задача, которая издавна интересовала людей. Существуют легенды о «говорящих головах», умевших отвечать на вопросы, которые были созданы Гербертом Орильякским (ок. 946-1003), Альбертом Великим (1198-1280) и Роджером Бэконом (1214-1294) [МаИт§1у, 1974]. Но и достоверная история создания машин, имитирующих человеческую речь, насчитывает уже более двух веков. С течением времени изменялись как и сами механизмы и принципы работы синтезирующих устройств, так и основные области интереса и задачи ученых, занимавшихся созданием и развитием синтеза речи.

2. Первые механические синтезаторы

Первые синтезаторы, появившиеся во второй половине XVIII в., были механическими, они могли порождать отдельные звуки или небольшие фрагменты слитной человекоподобной речи подобно

музыкальным инструментам, т.е. требовали участия оператора-исполнителя. В них посредством различных механических приспособлений воспроизводились основные процессы, происходящие при производстве речи человеком.

В 1779 г. Петербургская Академия наук объявила ежегодную премию за объяснение разницы между пятью основными гласными звуками и за конструирование устройства, их порождающего. Немецкий ученый Христиан Готлиб Кратценштейн (1723-1795), работавший в то время в Петербурге, предложил лучшее решение. Он создал систему резонаторов, которые при помощи пульсирующего воздушного потока порождали русские гласные. Воздушный поток создавался вибрирующими язычками, подобными голосовым связкам человека [Фланаган, 1968]. Независимо от Кратценштейна над механической системой синтеза речи стал работать австрийский изобретатель Вольфганг фон Кемпелен (1734-1804), представивший результат своих трудов в 1791 г. Его машина могла произносить различные звуки и их комбинации. В ней моделировалось продвижение струи воздуха через речевой тракт человека: имелись меха для подачи воздуха на язычок, в результате чего возбуждался резонатор, управляемый рукой. Согласные, в том числе и носовые, получались с помощью четырех каналов, зажимаемых пальцами [Фланаган, 1968]. По утверждению самого Кемпелена, его машина производила 19 хорошо различимых согласных звуков [Кейтер, 1985] и короткие фразы на нескольких языках [Майт§1у, 1974]. Для управления «говорящей

Язычок (голосовые связки)

Камера со сжатым воздухом

Рис. 1. Говорящая машина Кемпелена, построенная Уитстоном [Кейтер, 1985]

машиной» требовался хорошо обученный оператор, и порождение речи можно было сравнить с игрой на органе. Усовершенствованный вариант машины Кемпелена (рис. 1) был создан в 1837 г. английским физиком Чарльзом Уитстоном (1802-1875).

В течение XIX в. в технологии синтеза речи не было каких-либо революционных изменений. Известны исследования английского ученого Роберта Уиллиса (1800-1875), который подобно Кратцен-штейну экспериментировал с синтезом гласных звуков и установил связь между качеством гласных и геометрической формой речевого тракта. В своих работах 1828 г. «О гласных звуках» и «О механизме гортани» Уиллис описал механизм извлечения гласных звуков по аналогии со звукоизвлечением органа. В 1840 г. Джозеф Фабер (ок. 1800 — ок. 1850) представил свою говорящую машину под названием «Эйфония», которая по сообщениям современников могла производить обычную и шепотную речь, а также исполнять песни (см. подробнее: [МаШ^1у, 1974]).

В XX в., несмотря на развитие электрических методов синтеза речи, разработка механических синтезаторов проводилась вплоть до 60-х годов [ЬешшеИу, 1999]. Это было связано, с одной стороны, с малой доступностью сложных электрических компонентов [Кейтер, 1985], а с другой — с необходимостью имитации и измерения нелинейных эффектов в голосе, которые с трудом поддаются расчетам и не могут быть легко смоделированы с помощью линейных устройств [Фланаган, 1968]. Среди наиболее известных устройств следует упо-

Рис. 2. Механический синтезатор Риша [Кейтер, 1985]

мянуть механический синтезатор Р. Риша, продемонстрированный им в 1937 г. (рис. 2). По форме он практически повторял речевой тракт человека, был выполнен из резины и металла и управлялся клавишами, подобными клавишам трубы [Кейтер, 1985].

Таким образом, общим методом создания механических синтезаторов стала имитация или прямое моделирование речевого тракта человека. Основными рабочими компонентами таких моделей были: устройство для подачи воздуха (аналог легких), вибрирующая часть (аналог голосовых связок) и система резонаторов, в большей или меньшей степени точно воссоздававших форму речевого тракта человека. Механические синтезаторы стали прототипом современного артикуляционного синтеза.

3. Первые электрические синтезаторы

В XX в. с освоением электрических устройств и зарождением электроники начались попытки построить синтезаторы речи — электрические аналоги речепроизводящей системы. Самый первый электрический синтезатор был создан Дж. Стюартом в 1922 г. [К1ай, 1987]. Его схема (рис. 3) включала электрический зуммер для моделирования работы голосовых связок и два индуктивно-емкостных резонатора для моделирования резонансов горла и ротовой полости [Кейтер, 1985]. Таким образом генерировались первые две форманты (резонансные частоты речевого тракта), т.е. устройство могло синтезировать только гласные звуки.

Рис. 3. Электрическая модель речевого тракта Стюарта [Кейтер, 1985]

Аналогичный синтезатор, состоящий из четырех подключенных параллельно резонаторов, возбуждаемых прерывателем тока, был создан немецким инженером Карлом Вилли Вагнером (1883-1953) в 1936 г. [Фланаган, 1968].

Следующий важный шаг в формировании технологии синтеза речи связан с развитием радиотехники, построением вокодеров (систем кодирования и декодирования речи, в которых используются различные методы сжатия полосы частот для передачи сигналов, "voice coder") и ЭВМ [Обжелян, Трунин-Донской, 1987]. Первым электрическим синтезатором, способным генерировать фрагменты связной речи, стал «водер» (Voice Operating Demonstrator), созданный американским инженером Гомером Дадли (1896-1987), Р. Ришем и С. Уоткинсом. Водер был основан на вокодере, созданном в Bell Laboratories (США) в середине 30-х годов. От вокодера была взята синтезирующая часть, управлявшаяся вручную посредством тринадцати клавиш, ножной педали и переключателя источника шума на браслете (рис. 4) [Фланаган, 1968]. Водер синтезировал сигналы с заданным спектром посредством десяти включенных параллельно полосовых фильтров, охватывавших весь спектр частот.

Генератор случайного шума

Без голоса

Релансацион-ный генератор

10

резонаторных фильтров

С голосом

t/d

Усилитель

Р/Ь

К/д

Взрывные

звуки

Наручный браслет

Клавиатура "Водера"

/1

N

Громкоговоритель

Клавиша молчания

Переход от глухих звуков к звонким

Педаль управления высотой тона

Рис. 4. Схема синтезатора «водер» [Кейтер, 1985]

Важным этапом в развитии методов экспериментальных фонетических исследований и синтеза речи стала разработка звукового спектрографа в 1946 г. Появилась идея использования спектрограмм для управления оптическим синтезатором речи. В устройстве Л. Шот-та 1948 г. использовался линейный источник света, расположенный

вдоль оси частот спектрограммы и просвечивающим участки изображения с различной степенью прозрачности, а фотоэлементы, расположенные в ряд вплотную друг к другу по другую сторону спектрограммы, являлись источником управляющих сигналов для набора тех же полосовых фильтров, что и в водере. Дополнительные дорожки на спектрограмме управляли переключением тона и шума и несли информацию о частоте основного тона. Подобный метод использовался Дж. Борстом и Ф. Купером в устройстве «водек» (1957) [Фла-наган, 1968]. Наиболее известный «проигрыватель» спектрограмм, синтезатор Pattern Playback (рис. 5), был представлен американскими исследователями Ф. Купером, А. Либерманом и Дж. Борстом в 1951 г. Он состоял из оптической системы для динамической модуляции амплитуд гармоник основного тона в 120 Гц в зависимости от изображений на движущейся прозрачной ленте [Klatt, 1987]. При помощи этого синтезатора, позволявшего производить монотонную, но разборчивую речь, проводились многочисленные эксперименты по оценке значимости для восприятия речи различных акустических характеристик путем упрощения и стилизации подаваемых на синтез фонограмм.

" \ Фоническое колесо

Источник Цилиндрическая света линза

Коллектор света и фотоэлемент (отражение)

Коллектор света (просвечивание)

Громкоговоритель

Усилитель /

\

Рис. 5. Синтезатор Pattern Playback [Klatt, 1987]

В первых электрических синтезаторах уже не моделируется напрямую речевой тракт человека. Вместо этого основным методом создания синтезированной речи является моделирование (или прямое считывание со спектрограммы) акустических характеристик речевого сигнала. Основными рабочими компонентами таких синтезаторов были устройства, генерирующие шум и периодический сигнал, и набор фильтров или резонаторов, усиливающих заранее определенные частотные составляющие. Электрические синтезаторы стали прототипом современного компьютерного параметрического синтеза.

4. ХХ век: синтезаторы первого поколения

Следующей важной вехой в истории синтеза речи стала разработка акустической теории речеобразования (1960), создавшей необходимую теоретическую базу для построения формантных и артикуляционных синтезаторов, а также синтезаторов, использующих линейное предсказание. Эти три метода называют также технологиями синтеза первого поколения [Taylor, 2009]. На основании используемых методов синтезаторы первого поколения можно разделить на две большие группы: акустические (формантный синтез и синтез с использованием линейного предсказания), при создании которых не ставится задача непосредственного отражения в синтезе процессов, связывающих артикуляцию с акустикой речевого сигнала, и артикуляционные.

4.1. Артикуляционный синтез

Артикуляционный (или артикуляторный) синтез продолжил направление, заданное первыми механическими синтезаторами. В нем делается попытка синтезировать речевой сигнал на основе моделирования процесса речеобразования с учетом сведений об артикуляции, количественной оценке формы речевого тракта, его резонансных свойств и характеристик звуковых источников. Затем на основе расчетных данных генерируется речевой сигнал [Кодзасов, Кривнова, 2001]. В артикуляционной модели трубка, соответствующая речевому тракту, обычно разделяется на множество небольших секций и таким образом может быть представлена в качестве неоднородной электрической линии передачи [Фланаган, 1968].

Первые электронные артикуляционные модели были статическими и требовали ручной настройки. Первый синтезатор американского исследователя Х. Данна 1950 г. состоял из 25 одинаковых звеньев, между которыми для учета влияния положения языка можно было ввести переменную индуктивность, а индуктивность на конце линии отражала влияние губ. Для произнесения вокализованных звуков синтезатор возбуждался пилообразным напряжением регулируемой частоты, а шумные звуки получались подключением к соответствующей точке линии белого шума [Фланаган, 1968]. Первый артикуляционный синтезатор с динамическим контролем (рис. 6) DAVO (Dynamic Analog of the VOcal tract) был разработан в 1958 г. в Массачусетсом технологическом институте Д. Розеном. Он управлялся записанными на ленту контролирующими сигналами, созданными вручную [Lemmetty, 1999].

С течением времени артикуляционные синтезаторы совершенствовались, в них вводилось дополнительное моделирование ослабления сигнала в речевом тракте, взаимодействия источника и фильтра,

12,5 см

Носовой тракт

Голосовой тракт

Голосовые связки он

2 £

Фиксированная площадь

1,2

т

Zr

Переменная Фиксированная

площадь 7 8

тт

площ

адь

12 Е

Zr

т =

ш

Обшй выход

Переменная площадь

8 см

Переменная длина , От 8 до 10 см

Рис. 6. Аналог речевого тракта с линией передачи, управляемый непрерывно [Фланаган, 1968]

распространения сигнала от губ и совершенствовалось моделирование параметров голосового источника сигнала. Многие подходы в этом направлении включают моделирование движений и параметров мышц и управления артикуляционной моторикой. Однако из-за сложностей подобного рода моделирования в большинстве современных систем синтеза речи, позволяющих получать искусственную речь высокого качества, используются более «простые» подходы, а артикуляционный синтез чаще применяется в научных исследованиях в области артикуляционной фонетики и физиологии речи.

4.2. Формантный синтез

Первым формантным синтезатором стал PAT (Parametric Artificial Talker) английского исследователя Уолтера Лоуренса, представленный в 1953 г. Этот синтезатор состоял из трех электронных формантных резонаторов, соединенных параллельно, на вход которым подавался шум или гармонический сигнал. Он управлялся шестью временными функциями (три форманты, частота основного тона, амплитуда шума и амплитуда голосового источника), которые считывались с нарисованных на движущейся стеклянной дорожке шаблонов [Klatt, 1987]. Этот синтезатор был первым параллельным формантным синтезатором. Главным преимуществом параллельных синтезаторов была относительная простота управления. Вторым типом формант-ных синтезаторов, позволяющим более точно моделировать передаточную функцию речевого тракта, но имеющих зачастую более сложную структуру, стали каскадные синтезаторы, в которых фор-мантные резонаторы были соединены последовательно [Klatt, 1980]. В параллельном синтезаторе амплитуда каждого формантного резонатора должна контролироваться отдельно. В каскадном выходной сигнал каждого резонатора является входным сигналом следующего.

В том же 1953 г. известный шведский исследователь речи Гуннар Фант, автор классической акустической модели речеобразования «источник-фильтр», продемонстрировал свой каскадный формантный синтезатор OVE I (Orator Verbis Electris). В нем частота двух нижних резонаторов контролировались механической рукой, а амплитуда и частота основного тона определялись ручными потенциометрами [Klatt, 1987]. В дальнейшем оба типа синтезаторов усложнялись и совершенствовались, позволяя каждой новой версии звучать всё ближе к естественной речи. В 1973 г. английскому исследователю Джону Холмсу удалось вручную настроить на своем синтезаторе произнесение предложения "I enjoy the simple life" так хорошо, что обычный слушатель не мог отличить его от произнесения того же текста живым человеком [Lemmetty, 1999]. Однако оставалась проблема с автоматическим контролем работы синтезатора, результат которого не мог приблизиться к ручной настройке произнесения.

С развитием компьютерной техники и появлением доступных вычислительных машин в середине 50-х годов электрические аналоговые синтезаторы стали постепенно замещаться компьютерными программами или специально сконструированной цифровой аппаратурой, позволявшими работать с цифровой формой речевого сигнала. В 1972 г. американский исследователь Д. Клатт предложил компьютерный вариант гибридного формантного синтезатора, в котором сонорные и шумные звуки синтезировались каскадными и параллельными формантными резонаторами соответственно. Публикация исходного кода программы на языке Фортран в 1980 г. позволила ученым в различных исследовательских лабораториях оценить работу этого синтезатора, а также оказалась очень полезной для организации и проведения перцептивных экспериментов в области фонетики [Klatt, 1987].

4.3. Синтезаторы, использующие линейное предсказание

Метод линейного предсказания позволяет напрямую использовать при синтезе искусственной речи параметры передаточной функции речевого тракта и является своеобразной альтернативой формантному синтезу. Первые эксперименты с моделированием речи при помощи коэффициентов линейного предсказания (КЛП) были проведены в середине 60-х годов. Эта технология впервые была использована в недорогих устройствах типа TI Speak'n'Spell (1980) [Lemmetty, 1999].

Для синтеза речевого сигнала в КЛП-синтезаторе используются следующие изменяющиеся во времени параметры: период основного тона, средняя громкость звука, признак тон-шум и определенное заранее количество коэффициентов линейного предсказания. При этом качество синтезированной речи зависит от числа коэффициентов,

точности их вычисления и от того, насколько хорошо моделируются источники возбуждения [Обжелян, Трунин-Донской, 1987]. В общем виде простейший КЛП-синтезатор имеет структурную схему, представленную на рис. 8. Обычно для работы КЛП-синтезатора из оцифрованной речи человека вычисляются все необходимые для синтеза акустические параметры, а далее все базовые единицы синтеза (слова или более короткие единицы) записываются в параметризованном виде в память и затем при синтезе соединяются, или конкатенируются, в определенном порядке. Таким образом, модель линейного предсказания косвенно способствовала развитию технологии кон-катенативного синтеза.

Управление громкостью

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 7. Структурная схема КЛП-синтезатора [Обжелян, Трунин-Донской, 1987]

Синтезаторы первого поколения обычно требовали детального акустического описания того, что должно быть произнесено, и не включали какого-либо автоматического способа получения подобного описания для произвольного сообщения или текста.

5. ХХ век: синтезаторы второго поколения

В середине 60-х годов, в связи с продолжающимся развитием компьютерной техники и возросшими потребностями общества, перед разработчиками автоматического синтеза речи была поставлена более широкая и сложная задача озвучивания любого сообщения, вводимого в компьютер в текстовом виде и неизвестного заранее системе синтеза. Это привело к развитию синтезаторов типа «Текст-Речь» (ТехМо-БреесЬ или сокращенно ТТБ). В синтезаторах такого типа (т.е. синтезаторах речи в современном понимании этого

термина) появился блок лингвистической обработки, независимый от акустического блока и метода генерации речевого сигнала, тогда как самые ранние синтезаторы и синтезаторы первого поколения были ориентированы в основном или полностью на разработку акустического блока, т. е. на задачу генерации речевого сигнала. Первая полноценная система «Текст-Речь» для английского языка была создана в 1968 г. в Японии Норико Умеда и его коллегами. Она была основана на артикуляционной модели акустического блока. Анализ текста и расстановка пауз производились при помощи сложных правил. По свидетельству специалистов, речь, производимая этой системой, была разборчивой, но довольно монотонной [Klatt, 1987]. В дальнейшем алгоритмы лингвистической предобработки текста усложнялись благодаря увеличению скорости компьютерного анализа данных и объема памяти для хранения вспомогательной информации (словарей, речевых баз, моделей и т. п.).

5.1. Конкатенативный синтез

Конкатенативный (или компилятивный) синтез, называемый также техникой второго поколения [Taylor, 2009], смог появиться благодаря тому, что перед создателями систем синтеза уже не стояли такие жесткие ограничения по доступной компьютерной памяти, как в 70-е и 80-е годы. В памяти компьютера стали храниться фрагменты реальных акустических сигналов из речи определенного «диктора-донора», из которых путем склейки (или конкатенации) и создавалась первичная основа синтезируемого акустического сигнала. В дальнейшем эта основа подвергается модификации по правилам, функция которых состоит в том, чтобы придать склеенным фрагментам акустического сигнала нужные просодические характеристики [Кодзасов, Кривнова, 2001]. Различные системы конкатенативного синтеза используют в качестве базовых элементов для склейки звуковые единицы различного размера: фрагменты фонемной размерности (акустические аллофоны), полуслоги, слоги и образцы смешанных типов. Наиболее часто в таких системах используются дифоны — отрезки, начинающиеся в середине одного звука и заканчивающиеся в середине следующего. Дифоны как оптимальная единица для учета эффектов коартикуляции в речевом сигнале были впервые предложены американским исследователем Дж. Петерсоном с коллегами в 1958 г. [Klatt, 1987].

На качество речи, производимой конкатенативным синтезатором, влияет как качество и количество самих единиц для конкатенации, так и используемые алгоритмы просодической модификации речевого сигнала. Наиболее широко используемым методом модификации речи во временной и частотной области является алгоритм PSOLA

(Pitch Synchronous Overlap and Add), разработанный в 1985 г., и его последующие варианты [Lemmetty, 1999]. По современным меркам объем звуковой базы для обычного конкатенативного синтеза речи является относительно небольшим, что позволяет построить синтезатор высокого качества довольно быстро. Главным недостатком систем такого типа является то, что они не обладают достаточной гибкостью в изменении тембра голоса, так как для этого необходимо создавать новую базу акустических образцов для другого диктора-донора [Кодзасов, Кривнова, 2001].

6. ХХ век: синтезаторы третьего поколения

К третьему поколению технологий автоматического синтеза речи обычно относят селективный синтез речи и синтез на основе скрытых Марковских моделей [Taylor, 2009]. Их общей чертой является использование для автоматического синтеза речи больших объемов речевых данных, а также высокая естественность синтезированной речи.

6.1. Селективный синтез речи

В настоящее время доминирующей технологией автоматического синтеза речи является так называемый селективный синтез, так как он позволяет получать синтезированную речь, которая по своим характеристикам наиболее приближена к естественной [Taylor, 2009]. Селективный синтез речи (в англоязычных источниках называемый unit selection) является разновидностью конкатенативного синтеза речи: при синтезе речевого сигнала также используются заранее записанные фонограммы естественной речи диктора-донора. В отличие от конкатенативных синтезаторов второго поколения, порождающих итоговый речевой сигнал из отдельных и специально подготовленных звуковых единиц из небольшого и тщательно подобранного набора слов, при селективном синтезе для каждой целевой единицы синтеза производится выбор наиболее подходящего кандидата из множества вариантов, взятых из озвученных предложений естественного языка. Для этого записываются звуковые базы, размер которых может составлять до нескольких десятков часов звучащей речи. В процессе акустического синтеза алгоритм строит оптимальную последовательность звуковых единиц, учитывая одновременно то, насколько кандидат подходит под описание необходимых характеристик целевого звука (стоимость замены), и то, насколько хорошо выбранные элементы будут конкатенироваться с соседними (стоимость связи). При этом специально, с помощью механизма стоимостей, «поддерживается» ситуация, когда из базы в качестве оптимальных выбираются не отдельные звуки, а их цепочки или даже целые предложения. Такой подход позволяет минимизировать случаи необходимой модифика-

ции речевого сигнала, что повышает естественность синтезируемой речи.

Первыми системами селективного синтеза стали n-Talk [Sagisaka et al., 1992] и CHATR [Black, Taylor, 1994], а в 1996 г. известные специалисты по синтезу речи А. Хант и А. Блэк предложили алгоритм выбора оптимальной последовательности единиц для конкатенации, который стал классическим [Hunt, Black, 1996].

6.2. Статистический параметрический синтез

Статистический параметрический синтез, так же как и описанный выше конкатенативный, является методом, основанным не на правилах, а на имеющихся акустических данных. Однако в отличие от конкатенативного метода, при котором необходимые для синтеза параметры речевого сигнала уже присутствуют в самих хранимых в памяти компьютера единицах конкатенации, в статистическом параметрическом синтезе система обучается на имеющихся речевых данных с целью получения модели соответствия характеристик речи, поступающих на вход акустического блока синтезатора, нужным физическим параметрам звуковых единиц. Получаемая модель дает два преимущества: уменьшение компьютерной памяти для хранения модели вместо самой речевой базы и возможность ее параметрической модификации, например, быстрого изменения тембра голоса [Taylor, 2009].

Наиболее распространенной техникой в данном направлении синтеза является метод, основанный на использовании скрытых Марковских моделей (СММ). Скрытые Марковские модели звуковых единиц применяются в автоматических системах распознавания речи с конца 70-х годов [Lemmetty, 1999]. Работу над автоматическими системами синтеза речи, основанными на СММ, начали в 1995 г. японские ученые К. Токуда с коллегами [Tokuda et al., 1995]. Возможность использования статистического подхода в применении к синтезу речи обусловлена возросшим быстродействием вычислительных машин и объемов носителей информации для хранения больших речевых баз, необходимых для обучения акустических моделей звуковых единиц языка.

7. Заключение

В уже довольно длительной истории технологий синтеза речи значительно менялись приоритеты и направления исследований. Это связано и с задачами, которые ставились перед синтезаторами и их разработчиками: от демонстрации возможности получения звуков, подобных человеческой речи, и моделирования процессов речео-бразования до получения разборчивого, а затем и естественного выразительного чтения компьютером произвольного текста. История и

успехи разработок в области синтеза речи тесно связаны с развитием других научных дисциплин: физики (механики, электродинамики, акустики), математики (статистики), информатики, физиологии, психологии и, конечно же, лингвистики (фонетики, автоматической обработки естественного языка). Основными направлениями современных исследований в области автоматического синтеза речи являются аудиовизуальный синтез, синтез экспрессивной и эмоциональной речи, а также объединение двух подходов к синтезу речи третьего поколения: селективного синтеза и синтеза на основе скрытых Марковских моделей [Taylor, 2009].

Список литературы

Кейтер Дж. Компьютеры — синтезаторы речи. М., 1985. Кодзасов С.В., Кривнова О.Ф. Общая фонетика. М., 2001. Обжелян Н.К., Трунин-Донской В.И. Машины, которые говорят и слушают.

Кишинев, 1987. Фланаган Дж. Анализ, синтез и восприятие речи. М., 1968. Black A., Taylor P. CHATR: A Generic Speech Synthesis System // COLING94. Japan, 1994.

Hunt A., Black A. Unit Selection in a Concatenative Speech Synthesis System

Using a Large Speech Database // Proceedings of ICASSP 96, 1996. Klatt D. Review of Text-to-Speech Conversion for English // JASA. 1987. Vol. 82 (3).

Klatt D.H. Software for a cascade/parallel formant synthesizer // JASA. 1980. Vol. 67.

Lemmetty S. Review of Speech Synthesis Technology. Master's Thesis, Helsinki

University of Technology, 1999. Mattingly I. G. Speech Synthesis for Phonetic and Phonological Models // Current Trends in Linguistics / Ed. by T.S. Sebeok. 1974. Vol. 12. Mouton, The Netherlands.

Sagisaka Y. et al. ATR — n-Talk speech synthesis system // Proceedings of IC-

SLP92, Banff, Canada, 1992. Taylor P. Text-to-Speech Synthesis. Cambridge University Press, 2009. Tokuda K., Masuko T., Yamada T. An algorithm for speech parameter generation from continuous mixture HMMs with dynamic features // Proceedings of Eurospeech-1995, 1995.

Сведения об авторе: Соломенник Анна Ивановна, аспирант кафедры теоретической и прикладной лингвистики филол. ф-та МГУ имени М.В. Ломоносова, научный сотрудник ООО «Речевые технологии» (Минск, Беларусь). E-mail: [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.