3. ГОСТ 16600 — 72. Передача речи по трактам радиотелефонной связи: Требования к разборчивости речи и методы артикуляционных изменений. М.: Изд-во стандартов, 1973.
4. Лингвистический энциклопедический словарь / Под ред. В. Н. Ярцевой и др. М.: Сов. энциклопедия, 1990.
5. Большой толковый словарь русского языка / Под ред. Д. Н. Ушакова. М.: Альта-принт, 2005.
6. Kagirov I. A., Leontyeva An. B. Grammar-based speech- and word-splitting // Proc. of 3rd Language & Technology Conf., Oct. 5—7, 2007, Poznan, Poland. Poznan: Fundacja Uniwersytetu im. A. Mickiewicza, 2007. P. 413—417.
7. ГОСТ Р50840 — 95. Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. М.: Изд-во стандартов, 1995.
Ильдар Амирович Кагиров Анастасия Борисовна Леонтьева
Поступила в редакцию 06.05.08 г.
УДК 004.522
Сведения об авторах
СПИИРАН, лаборатория речевых и многомодальных интерфейсов; E-mail: [email protected]
СПИИРАН, лаборатория речевых и многомодальных интерфейсов; E-mail: [email protected]
Ал. Б. Леонтьева, И. С. Кипяткова
УЧЕТ ОСОБЕННОСТЕЙ СПОНТАННОЙ РЕЧИ ПРИ СОЗДАНИИ СИСТЕМ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ
Рассматривается подход к автоматической обработке спонтанной русской речи, заключающийся в распознавании нефонемных элементов и моделировании альтернативных вариантов произношения слов. Представлен ряд акустических и лексических моделей, предназначенных для отделения помех от ключевых слов и учитывающих возможные элементы спонтанной речи. Приведен алгоритм создания альтернативных транскрипций с помощью расширенных правил транскрибирования. Представлены результаты экспериментов.
Ключевые слова: распознавание речи, альтернативная транскрипция, нефонемные элементы.
Введение. Большинство современных систем автоматического распознавания речи способны обрабатывать только прочитанные фразы или изолированно произнесенные слова. Распознавание спонтанной речи затрудняется наличием эмоций, различного рода шумов, невербальных и вокализованных пауз, артефактов [1]. Присутствие таких элементов является полезной информацией в задачах идентификации или верификации пользователей, но в задаче распознавания речи это ведет к снижению точности. Кроме того, при спонтанном речевом взаимодействии человеку свойственно использовать большее количество слов, чем необходимо для четкого выполнения конкретной задачи. Междометия и вводные слова, выполняющие определенную дискурсивную роль при общении людей, для диалоговой системы, настроенной на решение узкой задачи, не будут нести информативной нагрузки.
В спонтанной речи произношение слов сильно варьируется различными людьми, а также зависит от контекста. В результате этого транскрипции произнесенных слов часто не совпадают с транскрипциями, созданными по правилам фонетики русского языка. Перечисленные явления не препятствуют общению между людьми, но могут стать критичными для автоматической системы распознавания речи.
Анализ составляющих спонтанной речи. Запись спонтанной речи содержит звуки фонемной и нефонемной природы, причем как звуки, производимые пользователем, непосредственно
контактирующим с диалоговой системой, так и посторонние шумы и звуки, произносимые людьми, не обращающимися к системе непосредственно. Сигнал на входе системы распознавания, помимо слов, может содержать акустический фон, сопровождающий запись сигнала; „шумы" органов голосового аппарата и короткие звуковые явления (цоканье языком, причмокивание) — так называемые артефакты речи; невербальные паузы, вызванные, например, кашлем, смехом и т.п.; вокализованные паузы, заполненные элементами „э-э-э", „м-м-м" и др.; нефонемные подтверждения и отрицания („ага", „угу", „неа") [2], а также эмоциональные междометия („ах", „ой" и др.) и вводные слова. Также возможно появление незнакомых слов вследствие спонтанности формирования фразы пользователем и ограниченности размера словаря системы распознавания. Разделение записанного речевого сигнала на определенные составляющие элементы позволяет более точно анализировать входные данные, сокращая вероятность ошибок наложения или замещения. При таком подходе в записанном сигнале следует различать звуки фонемной и нефонемной природы.
Диалоговая система, ориентированная на работу со спонтанной речью с учетом всех ее особенностей, позволит обеспечить в конечном счете большую гибкость диалога, допуская формирование запросов и ответов пользователя в относительно произвольной форме. Усложнение системы обработки входного сигнала в целях исключения неинформативной составляющей (избыточной информации с точки зрения конкретной задачи) позволит упростить диалоговую модель.
Метод генерации альтернативных транскрипций слов. Помимо зашумленности речи, связанной с наличием посторонних слов, множества акустических эффектов и шумов, вариативность произношения слов в спонтанной речи значительно осложняет процесс распознавания. Несоответствие между наблюдаемым произношением и принятыми фонетическими транскрипциями является одной из главных причин низкой производительности систем распознавания спонтанной речи [3, 4].
На основе результатов исследований, полученных в области экспериментальной фонетики [5], был сформулирован ряд правил, которые достаточно точно описывают возможные отклонения в фонетических транскрипциях, связанные с ассимиляцией и редукцией звуков [6]. Эти правила используются для задачи синтеза речи и в настоящей статье адаптированы для автоматического распознавания спонтанной речи. На рис. 1 показан алгоритм транскрибирования словоформ с учетом правил ассимиляции и редукции [7].
Словоформа
Рис. 1. Алгоритм транскрибирования словоформы с учетом ассимиляции и редукции
Модуль транскрибирования с учетом базовых правил фонетики преобразует поступающую на его вход словоформу ^ в последовательность фонем. Полученная таким образом транскрипция V поступает в модуль учета внутрисловной и межсловной редукции, где определяется, какие фонемы подвержены редукции. Если таких фонем в слове больше одной, то производится генерация всех возможных сочетаний редуцирующихся фонем. Затем каждое из полученных сочетаний обрабатывается отдельно. В результате одна альтернативная транскрипция генерируется путем удаления из базовой транскрипции фонем, указанных в текущем сочетании.
Таким образом, на выходе модуля получается набор альтернативных транскрипций Уг данной словоформы, учитывающий все возможные сочетания редуцирующихся фонем.
Далее, в модуле учета межсловной ассимиляции производится анализ первых и последних фонем в транскрипции. При обнаружении фонем, подверженных ассимиляции, производится генерация всех возможных контекстно-зависимых вариантов транскрипций. Полученный таким образом набор транскрипций Уа теоретически должен содержать все варианты произношений, которые могут возникать в разговорной речи.
Результаты оценки метода генерации. Для оценки метода генерации альтернативных транскрипций по расширенным (относительно базовых) правилам транскрибирования использовался словарь, построенный по названиям рубрик электронного каталога „Желтые страницы Санкт-Петербурга". Размер базового словаря составил 17 662 транскрипции словоформ, размер расширенного словаря — 192 303 транскрипции. Соотношение между базовыми и альтернативными транскрипциями показано на рис. 2. Для большинства словоформ генерировалось 3 альтернативные транскрипции, однако имелись словоформы, для которых создавалось более 1000 транскрипций.
0,13 % 3,90 % 0,87 % 0,87 8,41 %
25,84 %
3,66 %
56,32 %
Шп:;:;:;:;:^
Рис. 2. Соотношение типов альтернативных транскрипций по принципу образования: транскрипции:0 — базовые, 0 — с внутрисловной редукцией, Ш — с межсловной редукцией, Ш — с внутрисловной и межсловной редукцией, Ш — с межсловной ассимиляцией, И — с внутрисловной редукцией и межсловной ассимиляцией,
■ — с межсловной редукцией и межсловной ассимиляцией, □ — с внутрисловной и межсловной редукцией и ассимиляцией
Для того чтобы определить, какая часть словоформы наиболее часто подвергается изменению, для тестового словаря была вычислена средняя частота возникновения редукций и ассимиляций в основах -^ет и окончаниях словоформ с использованием следующих
выражений:
- Iv.
'stem,-
Rstem - J
J i-1 pstem,
K
^end -
^end,
K i-1 pend,
где ^ет- — число редукций и ассимиляций в основе 1-й словоформы; р81ет. — число фонем в основе 1-й словоформы; — число редукций и ассимиляций в окончании 1-й словофор-
мы; реп& — число фонем в окончании 1-й словоформы; Ь — число уникальных основ (4790
для данного словаря); К — число уникальных окончаний (225 для данного словаря).
В результате расчетов Д,1ет = 0,213, = 0,296 . Следовательно, редукции и ассимиляции чаще возникают в окончании словоформ, чем в основе.
С помощью разработанной программы был проведен также анализ частоты применения каждого из правил транскрибирования.
Результаты экспериментов с использованием модели „речевого мусора". Для отделения помех от ключевых слов был создан ряд акустических и лексических моделей, учитывающих возможные элементы спонтанной речи, содержащиеся в записанном входном сигнале. Эти модели были встроены в модифицированный гибридный декодер, состоящий из словаря, фонемного декодера, модели „речевого мусора" (модель РМ) и модели тишины [8]. Словарь декодера, построенный на базе двухуровневого морфофонемного префиксного графа [9], обрабатывает все слова, поступающие на вход системы, в том числе ключевые слова, междометия и вводные слова. Фонемный декодер обеспечивает распознавание слов, не содержащихся в словаре системы распознавания. Модель РМ осуществляет обработку фонового шума, вокализованных и невербальных пауз и артефактов. Модель тишины обеспечивает распознавание беззвучных пауз между словами. В результате во входном сигнале одновременно производится поиск и распознавание всех слов из словаря, а также возможных речевых и неречевых помех.
Для устранения маловероятных последовательностей слов обычно применяется статистическая модель языка, которая содержит вероятности всех комбинаций слов из словаря (пар слов, троек слов и т. д., в зависимости от сложности модели). В гибридном декодере модель языка также должна учитывать возможное появление речевого мусора в последовательности слов.
В таблице представлены результаты работы системы распознавания речи при различных настройках модели языка и использовании модели „речевого мусора" и без нее. Тестирование проводилось на собранном корпусе, половина фраз в котором содержала различные речевые помехи, остальные фразы состояли из словарных слов. Таким образом, моделировалась ситуация спонтанного общения, когда человек может в любом месте фразы запнуться, вызвав тем самым появление, например, вокализованной паузы, или же, наоборот, четко проговорить ожидаемый от него запрос. Априори можно предположить, что система, учитывающая возможное появление помех в речевом сигнале, будет лучше распознавать входной сигнал по сравнению с системой, не учитывающей речевые помехи. Для исследования этого положения было проведено тестирование системы в двух режимах: с использованием модели РМ и без нее.
Режим тестирования Модель языка
отсутствует определяющая допустимые фразы статистическая, допускающая появление помех в любом месте фразы
Модель РМ используется 39,04 % 70,32 % 70,52 %
Модель РМ не используется 27,89 % 42,83 % 45,02 %
Модель языка накладывает ограничения на вольность построения фраз. В первом эксперименте модель языка фактически была отключена, допуская все возможные варианты построения фразы. Во втором эксперименте модель языка задавалась с помощью списка всех возможных структур фраз. При этом допускалось присутствие наиболее вероятных помех в определенных местах фразы. В третьем эксперименте использовалась статистическая модель языка, допускающая появление помех в любом месте фразы.
При включенной модели РМ осуществлялось распознавание помех, при этом точность зависела от соответствия модели языка тестовым фразам. При отключенной модели РМ в первом эксперименте ошибки возникали из-за распознавания словарных слов на участках с речевыми помехами. Во втором и третьем экспериментах модель языка, более подробно описывая возможную структуру входного сигнала с учетом наличия в нем неизвестных системе (немоделируемых) элементов, не позволяла идентифицировать помехи, но иногда позволяла избежать наложения ключевых слов на участок с помехами.
Как видно из таблицы, наиболее высокий процент распознавания получается при использовании модели РМ и допущении появления помех в любом месте. В настоящее время ведутся работы по накоплению базы данных речевых помех и поиску закономерностей возникновения таких помех в спонтанной речи. Это позволит обеспечить более точное моделирование спонтанной речи, а также устранение речевого мусора из последующей обработки сигнала.
Заключение. Представленные результаты исследований подтверждают целесообразность использования моделей помех и нефонемных элементов при обработке разговорной речи. Генерация альтернативных транскрипций при создании словаря системы автоматического распознавания позволяет учесть вариативность произношения слов. Однако применение всех правил редукции и ассимиляции приводит к значительному расширению словаря и созданию неправдоподобных транскрипций. Для „отсеивания" редких вариантов произношения необходимо определить вероятность появления альтернативных транскрипций. Это, в частности, и будет предметом дальнейших исследований.
В перспективе создание систем автоматического распознавания речи, учитывающих специфику спонтанной речи, позволит снять ряд ограничений, накладываемых на диалог с пользователем, что в итоге сделает человекомашинное взаимодействие более естественным и продуктивным.
Исследования, описанные в настоящей статье, проводятся при поддержке Российского фонда фундаментальных исследований, проект № 08-08-00128 „Моделирование нефонемных речевых элементов и создание альтернативных транскрипций для распознавания спонтанной русской речи".
список литературы
1. Butzberger J., Murveit H., Shriberg E., Price P. Spontaneous speech effects in large vocabulary speech recognition applications // Proc. of the Workshop on Speech and Natural Language of Human Language Technology Conf., Morristown, NJ, USA. 1992. P. 339—343.
2. Леонтьева Ал. Б. Разработка моделей мусора для устранения помех при распознавании спонтанной речи // Искусственный интеллект. 2007. № 3. С. 309—318.
3. Greenberg S., Hollenback J., Ellis D. Insights into spoken language gleaned from phonetic transcription of the switchboard corpus // Proc. Intern. Conf. on Spoken Language Processing, Philadelphia, USA. 1996. P. 24—27.
4. McAllaster D., Gillick L., Scattone F., Newman M. Fabricating conversational speech data with acoustic models: a programm to examine model-data mismatch // Proc. Intern. Conf. on Spoken Language Processing, Sydney, Australia. 1998. P. 1847—1850.
5. Русская разговорная речь / Под ред. Е. А. Земской. М.: Наука, 1973.
6. Лобанов Б. М., Цирульник Л. И. Моделирование внутрисловных и межсловных фонетико-акустических явлений полного и разговорного стилей в системе синтеза речи по тексту // Тр. Первого междисциплинарного семинара „Анализ разговорной русской речи" (АР3 - 2007). СПб.: Изд-во ГУАП, 2007. C. 57—71.
7. Леонтьева Ал. Б., Кипяткова И. C. Моделирование нефонемных речевых элементов и создание альтернативных транскрипций для распознавания спонтанной речи // Там же. C. 77—85.
8. Bazzi I., Glass J. Modeling out-of-vocabulary words for robust speech recognition // Proc. 6th Intern. Conf. on Spoken Language. Beijing, 2000.
9. Ронжин А. Л., Леонтьева Ан. Б., Кагиров И. А., Леонтьева Ал. Б. Двухуровневый морфофонемный префиксный граф для декодирования русской слитной речи // Тр. СПИИРАН. СПб.: Наука, 2007. Вып. 4, т. 1. С. 388—404.
Александра Борисовна Леонтьева
Ирина Сергеевна Кипяткова
Сведения об авторах
СПИИРАН, лаборатория речевых и многомодальных интерфейсов; E-mail: [email protected]
СПИИРАН, лаборатория речевых и многомодальных интерфейсов; E-mail: [email protected]
Поступила в редакцию 06.05.08 г.