58
Фотооптический синтезатор АНС и его роль в развитии методов синтеза речи
Крейчи С.А., научный сотрудник филологического факультета МГУ им. М.В. Ломоносова,
Кривнова О.Ф., доктор филологических наук, старший научный сотрудник филологического факультета МГУ им. М.В. Ломоносова,
Егоров А.М., начальник компьютерного центра филологического факультета МГУ им. М.В. Ломоносова
В работе описана история графического синтеза речи «по правилам», основанного на фотоэлектронном преобразовании модулированного света в звуковой сигнал. Многопараметрический синтезатор АНС, имеющий банк из 720 синусоидальных звуков и позволяющий аддитивно синтезировать по принципу Фурье шумовые и тональные составляющие речевого сигнала, изменяя с помощью графического управления их частотные, амплитудные, спектральные и временные параметры, применялся в лаборатории фонетики и речевой коммуникации филологического факультета МГУ им. М.В. Ломоносова в 60-70-е годы прошлого столетия, для экспериментального изучения слухового восприятия речевых сегментов, синтезированных по теоретическим правилам. В работе приводится также описание компьютерной модели синтезатора АНС и результаты программного синтеза по тем же правилам.
• речь • синтез • фотоэлектронный • АНС • синтезатор • графический
• правило • преобразование • Фурье • шум • тон • синус •аддитивный
• слух • восприятие • сегмент • компьютерный • модель • многопараметрический.
The history of the graphic synthesis of speech "by rules" based on the pho-toelectronic conversion modulated light into the sound signal is described. Multiparametric synthesizer ANS, which has a bank of 720 sine tones and which makes it possible to additively synthesize according to Fourier's principle noise and tone components of speech signal, changing with the aid of graphic control their frequency, amplitude, spectral and time parameters, was adapted in the laboratory of phonetics and speech communication of the philological department of Moscow Lomonosov University in 60-70th years of past century, for the experimental study of the auditory sensation
of the speech segments, synthesized according to the theoretical rules. In the article is given also the description of the computer model of synthesizer ANS and the results of program synthesis according to the same rules.
• speech • synthesis • photoelectronic • ANS • the synthesizer • graphic • rule • conversion • Fourier • noise • tone • the sine • additive • noise • perception • the segment • computer • model • multiparametric.
В конце 20-х - начале 30-х годов прошлого столетия кинематограф стал звуковым. На киноленте появилась «звуковая дорожка» (рис.1).
ЗВУКОВАЯ ДОРОЖКА
Рис. 1. Вид кадра звукового кинофильма
«Великий немой» заговорил благодаря изобретению фотооптической записи звука — фиксации звуковых колебаний на движущейся светочувствительной киноплёнке фотографическим способом. Практически одновременно были предложены два метода фотооптической звукозаписи — метод Тагера (рис. 2А) и метод Шорина (рис. 2Б).1
1 Павел Григорьевич Тагер (1903-1971), советский изобретатель в области звукового кино. Оригинальная система звукового кино «Тагефон» на принципе модуляции светового потока была предложена П.Г. Таге-ром в 1926 году, а в 1928 году была им запатентована.
Александр Фёдорович Шорин (1890-1941) — советский изобретатель системы фотографической звукозаписи для звукового кино (1928).
59
60
Рис. 2. Фрагменты оптических фонограмм на киноленте. А — переменной плотности Б — переменной ширины
Классическая фотооптическая фонограмма, существующая в неизменном виде с появления звукового кинематографа, представляет из себя дорожку переменной ширины, на которой записан звук. Фонограммы переменной плотности в настоящее время не используются.
На рис. 3 изображена упрощённая функциональная схема звукового кинопроектора. Воспроизведение осуществляется с помощью лампы накаливания (1), оптической системы (3), формирующей изображение фонограммы (2), узкой звукочитающей щели (4) поперёк фонограммы и фотоэлектрического датчика (5), преобразующего модулированный световой поток в колебания электрического тока, которые преобразуется в звук с помощью усилителя с акустической системой (6).
2
4
[У
Т\
V_и
Рис. 3. Функциональная схема звукового инопроектора
Звуковая дорожка с переменной шириной оптической фонограммы, отражавшей форму звуковой волны, привела к идее «рисованного звука» — искусственного создания её на киноплёнке. В 1931 году Е.А. Шолпо2 сконструировал музыкальный инструмент, получивший название «вариофон». Вариофон представлял собой оптический синтезатор. Звуки за-
2
Евгений Александрович Шолпо (1891-1951) — советский изобретатель, музыкант и искусствовед.
3
6
5
1
писывались на движущуюся 35-мм плёнку с помощью вырезанных зубчатых дисков разной формы, изменявших очертания звуковой дорожки. Ниже (рис. 4) показаны примеры таких дисков.
Рис. 4. Диски Шолпо, формирующие изображение звуковой волны
Несмотря на трудоёмкость метода создания формы звуковой волны непосредственно в аплитудно-временной области, с помощью вариофона в 30-х годах прошлого столетия были синтезированы фонограммы к ряду мультипликационных фильмов.
Идеи «рисованного звука» были в дальнейшем развиты Е.А. Мурзиным.3 В отличие от Шолпо, Мурзин пошёл по пути синтеза звука в спектрально-временной области путём создания достаточно ёмкого «банка» простейших волн синусоидальной формы, из которых путём сложения (согласно теореме Фурье) можно было бы получить звуковые волны более сложной формы (аддитивный синтез звука).
В отличие от дисков Шолпо, Мурзин создал стеклянный диск, покрытый фотоэмульсией, на котором были размещены, в виде концентрических колец, 144 звуковые дорожки с синусоидальной формой волны. На рис. 5 показан общий вид диска Мурзина и фрагмент звуковых дорожек в увеличенном виде. Реально ширина дорожки на диске Мурзина составляет 0,3 мм, а диаметр самого диска такой же, как у современного CD.
Рис. 5. Диск Мурзина и фрагмент звуковых дорожек в увеличенном виде
Евгений Александрович Мурзин (1914-1970) — изобретатель первого в мире фотоэлектронного синтезатора.
61
ж
Длина периода волны на всех дорожках была практически одинаковой. Небольшие отклонения были вызваны тем, что «сшить» конец и начало кольца надо было так, чтобы не было «перелома» фазы. При вращении диска частота колебаний определялась линейной скоростью кольца, которая при постоянстве угловой скорости вращения возрастала от центра к периферии диска. Расчёт количества периодов на кольце и шага по радиусу диска был сделан таким образом, что разница в частоте колебаний у соседних звуковых дорожек составляла порядка 1%. Таким образом, диапазон 144-х дорожек на диске составлял 2 октавы с дискретностью в 1/6 полутона. Воспроизведение звуковых дорожек с диска Мурзина происходит по той же функциональной схеме, что и в звуковом кинопроекторе. При этом сложение простейших волн со звуковых дорожек (синтез по Фурье) происходит уже после преобразования их в электрические сигналы. В синтезаторе Мурзина, названном «АНС» в честь русского композитора Александра Николаевича Скрябина, вращается 5 одинаковых дисков с фотооптическими фонограммами. Возрастающая в 4 раза от диска к диску скорость вращения обеспечивает диапазон частот от 20Гц до 20кГц. Дискретность по диапазону в 1/6 полутона обеспечивает точность (в пределах разрешения слуха по высоте) синтеза до 16-и гармоник основного тона сигнала. Полная ёмкость «банка» синусоидальных тонов синтезатора АНС составляет 720 дорожек. При одновременном звучании всего «банка» результат воспринимается как «белый» шум.
В отличие от звукового в кинопроектора, в синтезаторе АНС предусмотрено ещё устройство, позволяющее выбирать из 720-и звуковых дорожек только необходимые для звучания в данный момент времени и находящиеся между сформированным изображением фонограммы и читающими фотоэлементами. Это так называемая «партитура» (рис. 6), представляющая собой стеклянную панель, покрытую непрозрачной мастикой, в которой можно делать просветы против нужных в данный момент звуковых дорожек.
Подвижная рама Стеклянная панель с закодированными звуками
62
Рис. 6. Фрагмент партитуры синтезатора АНС
Партитура может двигаться относительно устройства чтения - узкой щели, через которую модулированный свет от звуковых дорожек попадает на фотоэлементы. При движении партитуры прочерченная на ней линия просвета преобразуется в звук определенной высоты и длительности. Кроме того, ширину просвета можно изменять от 0,1 до 1,0 мм, что позволяет регулировать амплитуду синтезированного звука в пределах 20 дБ. То есть, партитура - это трёхмерное рабочее поле синтезатора с координатами, аналогичными динамической спектрограмме (сонограмме). Степень почернения на сонограмме соответствует ширине просвета на партитуре синтезатора АНС, вертикальная (высота звука) и горизонтальная (время звучания) оси совпадают. Для удобства реализации гласных звуков, имеющих гармоническую структуру спектра, в синтезаторе АНС предусмотрено специальное кодирующее устройство - кодер. Это подвижная каретка с установленными на ней 16-ю управляемыми резцами, позволяющими синхронно прочерчивать линии на партитуре напротив дорожек, частоты которых соответствуют частотам гармоник звука дорожки напротив линии, прочерченной 1-м резцом.
Рычажки включения резцов -
Рычаг поворота резцов
Рычаг фиксатора высоты
Указатель высоты звука
Рис. 7. Кодирующее устройство (кодер) синтезатора АНС
Кодер может передвигаться вдоль вертикальной шкалы, проградуированной в полутонах (шкала в виде фортепианной клавиатуры), и фиксироваться на выбранной в данный момент высоте, после чего с его помощью проводится на партитуре линия необходимой длины. Затем операция повторяется для новой высоты и новой длительности.
Промышленный образец синтезатора АНС был готов в 1964 году и предназначался для создания электронной музыки к кинофильмам и театральным постановкам. На базе синтезатора АНС в Москве была открыта Экспериментальная студия электронной музыки (ЭСЭМ), просуществовавшая до 1975 года.
63
64
Рис. 8. Внешний вид синтезатора АНС
1 — блок канальных усилителей с рычажками предустановки уровня звучания; 2 — блок фотоумножителей; 3 — переключатели уровня общего звучания; 4 — клавиши установки режима амплитудной огибающей звука; 5 — рычаг управления механическим приводом «партитуры»; 6 — ручной привод партитуры; 7 — педали переключения режимов работы синтезатора; 8 — педаль начала звучания; 9 — кодирующее устройство (кодер); 10 — шкала кодера; 11 — читающее устройство (система плоских линз); 12 — рабочее поле графического управления синтезом звука (партитура); 13 — клавиши динамического управления звучанием; 14 — рычажки установки режима записи в память; 15 — механический привод кодера.
Дальнейшая судьба синтезатора АНС была связана с Лабораторией фонетики и речевой коммуникации филологического факультета МГУ им. М.В. Ломоносова. Здесь он использовался в комплексной научно-исследовательской программе, включавшей анализ, синтез, восприятие звучащей речи и имевшей такие практические приложения, как автоматическое распознавание речи, идентификация личности говорящего, измерения разборчивости речи в вокодерных каналах связи.
В 60-х годах прошлого столетия появился русский перевод широко известной монографии шведского исследователя речи Г. Фанта «Акустическая теория речеобразования», положившей начало моделированию речевого тракта с помощью электрических аналогов артикуляторных органов. Появилось такое понятие, как синтез речи «по правилам». Под «правилами» имелся в виду алгоритм вычисления изменяющихся параметров элементов электрического аналога речевого тракта в зависимости от
произносимых звуков. Для управляющей ЭВМ правила задавались в виде таблиц изменяющихся параметров.
В этот период синтезатор АНС оказался удобным инструментом для реализации синтеза «по правилам», так как рабочее поле синтезатора позволяло в реальном времени управлять такими параметрами, как основной тон голоса; его спектральный состав; степень усиления или ослабления гармоник в местах спектральных максимумов или минимумов речевого тракта; вставка необходимых шумовых компонентов в местах согласных звуков; длительность каждого отдельного звука. Таким образом, рассчитанные теоретически спектрально-временные параметры высказывания на синтезаторе АНС могут быть реализованы графическим способом в реальном времени. Кроме того, прослушивание результата и корректировка отдельных параметров также осуществляются в реальном времени.
Внешне рисунок речевого высказывания на партитуре синтезатора АНС (рис. 9) аналогичен узкополосной сонограмме, на которой видны гармоники гласных звуков.
С
А
Ш
А
Рис. 9. Вид звуков слова «Саша» на партитуре синтезатора АНС
Из этого следует, что в речевых задачах синтезатор АНС в докомпьютерный период исследований выполнял функции одного из главных компонентов современных систем синтеза речи — акустического модуля или, иначе, модуля генерации речевого сигнала («говорилки»). В компьютерную эпоху синтез речи как необходимый инструмент обеспечения человеко-машинной коммуникации стал одним из важнейших направлений в компьютерных речевых технологиях. Опыт речевых разработок и результаты фонетических исследований, проведенных с использованием синтезатора АНС, оказались особенно полезными для дальнейшего развития таких способов генерации речевого сигнала, как параметрический ресинтез (вокодерного типа) и параметрический синтез произвольного сообщения по правилам.
65
66
Здесь уместно сделать небольшой исторический экскурс. Первые попытки синтеза речи на базе ЭВМ относятся к концу 50-х годов, а первый синтезатор по произвольному тексту типа «текст-речь» был создан в конце 60-х годов прошлого столетия. Современные системы синтеза речи в общем случае состоят из двух главных блоков: блока лингвистической обработки текста (сообщения) и блока озвучивания (акустического модуля), а также интерфейса между ними — управляющего блока [Кривнова и др., 1997]. Более детальная функциональная и архитектурная стратификация синтезатора определяется стратегией формирования речевого сигнала, т.е. устройством блока озвучивания и его взаимодействием с блоком лингвистической обработки текста и модулем управления просодическими (интонационными) параметрами.
Самое крупное разделение стратегий, применяемых в акустических модулях современных синтезаторов речи, связано с целевым объектом моделирования: здесь прежде всего выделяются подходы, которые направлены на построение действующей модели речепроизводящей системы (речевого тракта) человека, и подходы, где ставится задача смоделировать только сам речевой сигнал.
Первый подход известен под названием артикуляторного синтеза. Звуковая волна генерируется в этом случае по математической модели, имитирующей работу речевого аппарата человека (с учетом возникающих при этом аэродинамических и акустических процессов), в соответствии с классической акустической моделью речеобразования «источник-фильтр». В ближайшей перспективе этот метод для практического использования не подходит в силу чрезвычайной сложности моделей и наличия нерешённых теоретических проблем.
Второй подход представляется на сегодняшний день более простым, и потому он лучше изучен; возможно, именно поэтому он является также и более успешным. Внутри него выделяются два основных направления — формантный синтез (очень популярная разновидность параметрического синтеза по правилам) и конкатенативный (компилятивный) синтез4.
Системы, использующие формантный синтез, в течение многих лет признавались наиболее перспективными. Формантные синтезаторы генерируют возбуждающий сигнал (источник звука), который проходит через фильтр (фильтры), построенный (-ые) на нескольких резонансах, похожих на резонансы речевого тракта.
Разделение возбуждающего сигнала и передаточной функции речевого тракта, как известно, составляет основу классической акустической теории речеобразования. Таким образом, при этом подходе моделируется не работа речевых органов, а непосредственно её акустический результат (прежде всего голосовые и спектральные характеристики сигнала, вычисленные или выделенные из готового сигнала на основании модели «источник-фильтр»). Подобная стратегия генерации
В настоящее время наиболее популярен и продуктивен в коммерческом отношении синтез, использующий в том или ином виде готовые, заранее записанные фрагменты дикторской речи, он же конкатенативный (от «конкатенация — «соединение, склейка»). Две главных его разновидности — синтез универсального назначения (по произвольному тексту) и специального (для ограниченной предметной области; например, говорящие часы, автосекретарь, объявления на вокзале и т.п.). Далее эти системы не будут рассматриваться, так как они работают на принципах, совершенно отличных от тех возможностей, что заложены в синтезаторе АНС, см. [Hunt, Black 1996; Кривнова 1998].
речевого сигнала доминировала до начала 1980-х гг. не только в зарубежных [Klatt 1987], но и в отечественных разработках синтеза речи. Более подробно о достижениях и проблемах этого направления речевых технологий можно прочитать в статье [Лобанов 2008]. В настоящее время по основным параметрам качества синтезированной речи формантные синтезаторы уступают более современным технологиям.
В последнее время все большую популярность приобретает параметрический синтез речи по правилам с использованием скрытых Марковских моделей (НММ-СММ-синтез) [Black et al. 2007]. Это и не удивительно, так как многие компьютерные приложения включают функции не только синтеза, но и распознавания речи, а системы последнего типа в основном работают на технологиях с применением акустических СММ языка. В обоих случаях для обучения и формирования статистических акустических моделей звуковых единиц целевого языка используются представительные массивы записанной естественной речи (тренировочные речевые корпуса).
Для синтеза речи в этом случае используются статистические параметры, задаваемые акустическими моделями, а не исходное звучание фрагментов естественной речи. По оценкам экспертов, эта наиболее перспективная и продвинутая технология параметрического синтеза в последние несколько лет сравнялась по уровню качества синтезированной речи с селективным синтезом методом конкатенации, а в некоторых условиях даже может её превосходить (при малых объёмах тренировочного корпуса; по разборчивости в условиях шума). К ее достоинствам относится и то, что в акустических СММ-моделях учитываются все акустически релевантные параметры состояний речевого тракта, параметры звуковых источников и передаточной функции, длительность, энергия и динамика их изменения при переходе из одного состояния в другое (т.н. дельта-параметры), и при этом возможно масштабирование сложности системы (более качественный синтез — выше требования к ресурсам, нет привязки к фиксированному набору донорских голосов).
Однако в акустических модулях таких систем обычно используются вокодеры, что порождает относительно неестественный («металлический», «жужжащий») тембр звучания синтезированной речи, и в этом направлении современный параметрический синтез нуждается в дальнейших усовершенствованиях.
Возвращаясь к обсуждению возможностей параметрического синтезатора АНС, нужно отметить, что в его наиболее востребованный, рабочий период (70-80-е годы прошлого столетия) одним из направлений разработок Лаборатории фонетики и речевой коммуникации МГУ было изучение системы коммуникативных сигналов морских млекопитающих, в частности, свистовых сигналов дельфинов. Целью этих исследований было создание искусственного языка-посредника для более полного объёма выполняемых задач обученным дельфином. Такие работы велись в США, и результаты показывали, что дельфин способен выполнять более сложную программу действий, сообщаемую таким языком, чем по простым командам. В этом плане синтезатор АНС позволял реализовать свистовые сигналы дельфинов и легко изменять их конфигурацию (контур частотно-временной огибающей). Эксперименты по восприятию дельфинами синтезированных свистовых сигналов проводились в дельфинариях, но в 90-х годах все научные программы такого рода были свёрнуты.
Роль синтезатора АНС в речевых исследованиях также заметно снизилась с появлением персональных компьютеров у каждого исследователя и разработкой доступных исследовательских программ типа Speech Analyzer SIL или Praat. Однако идея управления синтезом звука на синтезаторе АНС с помощью графического рисунка продолжала жить, и нашла своё воплощение в оригинальной разработке компьютерного центра филологического факультета МГУ им. М.В. Ломоносова.
67
68
Алгоритмы такого управления должны были воспроизвести, в большей или меньшей степени приближения, механические действия самого синтезатора АНС. В результате была выработана следующая блок-схема модели:
1. Блок, эмулирующий вращающиеся оптические диски, как источника синусоидальных колебаний (см. рис. 5).
2. Графический блок (или «партитура»), как компьютерный аналог стеклянной панели синтезатора (см. рис. 6).
3. Эммулятор кодера (см. рис. 7).
4. Управление синтезом и воспроизведение синтезированного звука.
Это, конечно, очень упрощённая блок-схема, но было интересно, сможет ли она в цифровом виде повторить качества и функциональность свойств аналогового синтезатора?
Поставленные задачи были реализованы на языке C# (си шарп) в среде Microsoft Visual C# 2008. Выполняемый модуль - ANS.exe, объём модуля — 62 килобайта. Первый блок был реализован в виде 720-ти генераторов синусоидального сигнала. Частота каждого генератора соответствует частоте воспроизводимой каждой дорожкой «Диска Мурзина». Для каждго из генераторов задан случайный фазовый сдвиг, а также случайная девиация периода в пределах 5%.
Графический блок или «партитура» представляет собой простой графический редактор, в котором можно с помощью «мыши» рисовать как произвольные фигуры, так и прямые линии. Толщину линий можно регулировать от 1 до 10 пикселей (1 пиксель = размеру точки экрана монитора).
Рис. 10. Общий вид окна ANS.exe с произвольно нарисованными линиями
Вертикальные линии в графическом редакторе соответствуют 0,5 секунды звучания, горизонтальные — одной октаве по частоте звука в логарифмическом режиме шкалы. Имеется возможность переключения частотной шкалы из логарифмического масштаба в линейный.
На рис. 11 представлена спектрограмма синтетезированного сигнала сгенерированная из палитры рис. 10, которая сделана в анализаторе «РЯААТ» в линейном масштабе частотной шкале.
Рис. 11
Эммулятор кодера представляет собой панель с двенадцатью клавишами, т.е. — одна октава. Кодер в пределах окна палитры можно перемещать как с помощью мыши, так и с помощью клавиш перемещения курсора. Сочетания клавиш с Ctrl, Shift и Alt позволяют перемещать кодер по горизонтали на 1/8 сек., на 1/4 сек. и на 1/2 сек. по горизонтали и на 1/2 октавы или 1 октаву по вертикали. Нажатием «мыши» на клавишу кодера опускается или поднимается рисующий маркер, нажатие «мышкой» на символ # в правом нижнем углу переключает маркер в положение рисование / не рисование. Перемещать маркер по палитре можно как с помощью «мышки», нажав и удерживая левую клавишу в области квадратика в правом верхнем углу, так и с помощью клавиатуры. На рис. 12 представлен пример рисования с помощью маркера.
Блок управления синтезом — это алгоритм, преобразующий линии, нарисованные на партитуре, в звук. Окно шириной в один пиксель перемещается по партитуре, при этом включаются те генераторы, где на партитуре располагаются пиксели с оттенком градации серого цвета от 1 бита до 8. Оттенок серого цвета регулирует амплитуду сигнала. Общая длительность сигнала составляет 4 сек. Частотная шкала может быть как логарифмической (по умолчанию), так и линейной.
Рис. 12. Рисование с помощью маркера
69
70
Имеется возможность сохранить звуковой сигнал в формате WAV, а также загрузить рисунок в партитуру или сохранить рисунок в формате TIFF.
Рис. 13. Пример записи отрывка музыкальной композиции в палитре синтезатора ANS
На рис. 13 представлен пример записи отрывка музыкальной композиции Гершена Кингсли «Popcorn» (1969) в палитре синтезатора ANS, а на рис. 14 — результат спектрального анализа синтезированного звука в линейном режиме частотной шкалы, сделанный в анализаторе Praat.
5000
Time (s)
Рис. 14. Спектрограмма синтезированного звука в линейном режиме частотной шкалы, сделанная в анализаторе Pгaat
Синтезатор АНС - уникальный пример технической реализации фотооптического метода звукосинтеза и графического управления параметрами звучания продолжает действовать и в настоящее время является экспонатом Центрального музея музыкальной культуры им. М.И. Глинки.
0
4
Литература
1. Анфилов Г.А. Физика и музыка. М., 1962.
2. Крейчи С.А. Синтез речи, или история говорящих машин // «Комппьютерра», 15, М., 1999. С. 32-33.
3. Крейчи С.А., Ровнер ., А.?. АНС продолжает работать // «Музыкальная Академия», 4,. М. 1999. С. 191-195.
4. Мурзин Е.А. У истоков электронной музыки. М., 2008.
5. Крейчи С.А. История синтезатора АНС// Сб. «А.Н. Скрябин в пространствах культуры ХХ века». М., 2009. С. 193-205.
6. Крейчи С.А., Дмитрюкова Ю.Г. АНС. Музыкальные инструменты// Энциклопедия, М., 2008. С. 30-31.
7. Kreichi Б.А. The ANS Synthesizer: Composing on a Photoelectronic Instrument // «Leonardo», v. 28, 1, 1995, USA. P. 59-62.
8. Vail M. Eugeniu Murzin's ANS // «Keyboard», nov. 2002, USA. P. 120.
9. Лобанов Б.М. О развитии речевых технологий в Белоруссии // «Речевые технологии», 1, 2008. C. 49-59.
10. Кривнова О.Ф., Гладков С.М., Чардин И.С. Узнайте его по голосу (автоматический компьютерный синтез речи по тексту) // «Компьютерра» (компьютерный еженедельник), декабрь 1997.
11. Black A., Zen H., Tokuda K. Statistical parametric Speech Synthesis // ICASSP, 2007, IV. P. 1229-1231.
12. Klatt D. How Klattalk became DECtalk: An Academic's Experiences in the Business World // The Official Proceedings of Speech Tech '87 (New York: Media Dimensions / Penn State), 1987.
13. Hunt A.J., Black A.W. Unit Selection Synthesis in a Concatenative Speech Synthesis system Using a Large Speech Data Base // Proc. of ICASSP-1996. P.1-4.
14. Кривнова О.Ф. Автоматический синтез русской речи по произвольному тексту (вторая версия с женским голосом) // Труды международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям. Казань, 1998. С. 498-511.
Сведения об авторах
Крейчи Станислав Антонович —
научный сотрудник филологического факультета МГУ им. М.В. Ломоносова. Кривнова Ольга Фёдоровна —
доктор филологических наук, старший научный сотрудник филологического факультета МГУ им. М.В. Ломоносова.
Егоров Анатолий Михайлович —
начальник компьютерного центра филологического факультета МГУ им. М.В. Ломоносова.
71