2000.04.021. РЕЧЬ И КОМПЬЮТЕР.
International workshop Speech and computer proceedings (SpeCom — 99).
— Moscow: Moscow state univ., 1999. — 226 p.
Из содерж.:
1. Babkin A., Zakharov L. Testing of "Text — to — Speech" system developed in MSU. — P. 158-162.
2. Darzagin S., Trnka V., Rusko M. The application of Text — to — Speech system in Slovak to singing voice synthesis. — P. 162 — 166.
3. Krivnova O. Main principles and overall structure of TTS system for Russian language. — P. 166-170.
4. Longster J., Sahandi R., Vine D.S.G. Prosody generation and segment concatenation in the time domain. — P. 170 — 174.
5. Morozov V.P., Kpuznetsov Y.M. Emotional colouring of a voice and the phenomenon of quasiharmony of overtones. — P. 191 — 196.
6. Qrlov V.A. A research of person emotional state reflection in spectral characteristics of the speech. — P. 204 — 208.
Настоящий сборник тематических трудов посвящен Международному совещанию "Речь и компьютер", проходившему в Москве с 4 по 7 октября 1999 г.
Материалы сборника объединены общей проблематикой "человек
— компьютер" и отражают новейшие результаты теоретических и экспериментальных исследований ученых всего мира. Более 60 участников из разных стран (Германии, Великобритании, Франции, Японии, России, Румынии и др.) представили на обозрение свои последние достижения в области "человек — машина: голосовая коммуникация". Особое внимание уделено таким вопросам, как модели речевого диалога, интеграция различного рода знаний в процессе понимания речи, мультиязыковые и мультимодальные системы распознавания речи, концепции различных подходов в разработке диалогических обучающих систем и используемые опорные речевые единицы, прикладные системы и новые технологии с учетом различных методов передачи информации, системы синтеза "текст-речь", базы речевых данных, фонетические аспекты диалога с компьютером, системы идентификации и верификации говорящего.
В освещаемых ниже статьях затронут аспект акустической специфики речевых сегментов на базе новых технологий.
В статье (1) рассматривается проблема оценки качества синтеза речи при озвучивании текста. Авторы тестировали систему TTS,
разработанную языковедческой группой специалистов филологи-ческого отделения МГУ. Для проверки данной системы использовались тесты двух видов: тесты для "понимаемости" и тесты для "естественности" речи.
В целях проведения эксперимента авторы создали диагностические таблицы с основным корпусом образцов речи. Каждая таблица служила для тестирования одного звука в различных позициях в слове. В диагностические таблицы включались только те слова из основного корпуса, в которых наблюдалось наибольшее количество ошибочных распознаваний соответствующих звуков.
Полученные данные тестирования для "понимаемости" речи показали, что распознавание звуков находится на высоком уровне. Результаты теста на "естественность" продемонстрировали незначительное расхождение в качестве тестируемых звуков, а качество каждого десятого синтезированного образца было даже выше, чем естественного. Вместе с тем были отмечены некоторые моменты для дальнейшего улучшения системы
В статье (2) авторы представляют систему синтеза человеческого поющего голоса 10, основанную на системе ТТ8 и
разработанную в Словацкой академии наук. Синтез поющего голоса определяется в большинстве случаев как продуцирование звукового сигнала, похожего на человеческое пение, машиной из кода нот и текста песни. Авторы настоящей работы предприняли попытку продуцирования синтетического поющего голоса путем таблично-волнового синтеза. Такой метод генерирует синтетическую форму волн прямым сцеплением образцов, взятых из реальной (записанной) речевой формы волн и хранимой в базе данных синтезируемых элементов.
В ходе эксперимента решались проблемы устойчивости высоты тона певческого голоса, синхронизации музыкальных тонов и фонетических слогов, моделирования высотных контуров с учетом семантического содержания и культурных аспектов высказывания. На основе полученных результатов авторы пришли к выводу, что тестируемая система способна продуцировать синтетический поющий сигнал приемлемого качества, хотя имеют место некоторые недостатки в сравнении с другими современными синтезирующими системами (например, синусоидальной синтезирующей системой).
В статье (3) авторы описывают основные принципы синтеза русской речи с помощью ТТ8, разработанной коллективом специалистов,
филологического факультета МГУ. Система организована как смешение двух методов: метода сцепления — на сегментном уровне (используя лингвистически мотивированные единицы — формы волн аллофонов, соединенных вместе для формирования первоначальной речевой волны) и основанного на правилах метода на просодическом уровне для модификации первоначальной речевой волны в соответствии с просодическими характеристиками фразы, которая должна быть синтезирована.
Автор предлагает проводить синтез произвольного предложения в два этапа. На первом этапе происходит продуцирование фонетической (символической) транскрипции текста, включая его характеристики намерения, акцентуации и ритма. На втором этапе создается нужный акустический сигнал (в цифровой форме) на базе этой фонетической репрезентации.
В процессе синтеза для достижения наибольшего эффекта автор рекомендует использовать модуль текстовой обработки и модуль обработки цифрового сигнала, которые соединены между собой посредством модуля речевого контроля, чьей функцией является генерирование списка кодов аллофонов, снабженного необходимой просодической информацией (частотой основного тона, длительностью, энергией).
В статье (4) авторы рассматривают способы включения просодии в синтез речи методом сцепления сегментов. На сегодняшний день существует много сцепляющих речевых синтезаторов, которые способны продуцировать выход речи, но в большинстве случаев она звучит неестественно ("роботоподобно"). Естественность речи может быть достигнута лишь с помощью просодии, определяемой как лингвистическое использование высоты тона, громкости, темпа и ритма.
Авторы проводят анализ различных подходов просодической генерации и сегментного сцепления, пытаясь найти наиболее подходящий метод продуцирования речи. При этом они сравнивают четыре метода: алгоритм ТО — Р80ЬЛ; алгоритм МБЯ — Р80ЬЛ; подход, основанный на речевом корпусе, и подход, использующий многочисленный высотный инвентарь.
Авторы отмечают, что высокоэффективный алгоритм ТО — Р80ЬЛ генерирует естественный выход звуков, но проявляет малую плавность между сцепленными речевыми сегментами. Алгоритм МБЯ — Р80ЬЛ решает эту проблему путем ресинтезирования сегментного
инвентаря с постоянной высотой тона, но за счёт некоторого зашумления. Альтернативой к применению методов обработки сигнала, вводящих определенное искажение, является использование речевого корпуса, содержащего многочисленные варианты сегментов в различных просодических контекстах. Основной проблемой при этом остается выбор наиболее подходящего сегмента, который соответствовал бы желаемому высказыванию. В качестве наиболее эффективного подхода авторы отмечают метод "многочисленного высотного инвентаря", основанного на использовании инвентаря формы волн, содержащего многочисленные варианты сегментов, записанных на известных высотах тона в изоляции. Типом используемых сегментов в этом методе являются СГ, ГС и СС, которые составлены из двух целых аллофонов и переходных периодов между ними. Высотные неравенства между голосовыми отрезками речи устраняются при помощи синтеза СГС-слогов внутри слова, используя СГ и ГС сегменты одной и той же высоты тона.
В статье (5) авторы исследуют тенденции девиации ряда обертонов голоса от идеального гармонического положения. Считается, что структура обертонов человеческого голоса является гармонической. Однако существуют предпосылки, как теоретические, так и экспериментальные, полагать, что структура обертонов голоса (пение и речь) не является строго гармонической, или "квазигармонической".
В своем исследовании авторы показали, что существуют определенные тенденции к отклонению ряда обертонов голоса от идеальной гармонической позиции. Подобные модификации зависят от формирования различных эмоциональных оттенков в голосе, различных гласных, а также пения в мажорной или минорной тональностях.
В статье (6) автор предпринял попытку обнаружить определенные изменения в спектральных характеристиках, которые соответствуют изменениям в эмоциональном состоянии говорящего. В качестве основного экспериментального материала В. Орлов использовал записи на видеомагнитофоне опросов и очных ставок в исследовательских бюро. Дополнительным экспериментальным материалом являлись цифровые записи говорящих, находящихся в состоянии реального стресса.
В ходе проведенного эксперимента автором была обнаружена корреляция между отдельными спектральными характеристиками и эмоциональным состоянием говорящего; были получены характеристики: "максимумы амплитуд" и "эффективная ширина дисперсии"; разработана
программная система "Детектор голосового ударения" для обнаружения относительного эмоционального состояния говорящего в реальном масштабе времени.
Кроме вышеупомянутых работ в сборник вошло обсуждение таких проблем, как "Речевые технологии и речеведение" (В .Галунов, В.Таубкин); "Системы речевого диалога, предназначенные для автоматизации телефонных центров" (Г.Коккинакис); "Техника распознавания образов с применением статистических методов в целях реализации мультимодального человеко-машинного взаимодействия и обработки многоканальной информации" (Г.Риголь, С.Мюллер); "Экспертная система с устно-речевым вводом, основанная на фонетических знаниях" (Р.Потапова); "Использование скрытых языковых резервов и экстралингвистических знаний при разработке диалоговых речевых систем" (Ю.Косарев, И.Саваж) и др.
В.В.Лиханов