НАУЧНОЕ ИЗДАНИЕ МГТУ ИМ. Н. Э. БАУМАНА
НАУКА и ОБРАЗОВАНИЕ
Эл № ФС77 • 48211. Государственная регистрация №0421200025. ISSN 1994-0408
электронный научно-технический журнал
Адаптивная кластерная модель минимальных речевых единиц
в задачах анализа и распознавания речи
# 02, февраль 2013
DOI: 10.7463/0213.0527867
Савченко В. В., Акатьев Д. Ю.
УДК 004.934
Россия, Нижегородский государственный лингвистический университет им. Н.А. Добролюбова
[email protected] [email protected]
Введение. При анализе устного текста на русском языке мы опираемся на наши точные знания в отношении его фонетического строя, количественного и качественного состава используемой фонетической системы, а также закономерностей ее функционирования в разговорной речи. Этими знаниями мы пользуемся, например, при транскрибировании потока речи. Однако если мы анализируем звучащий текст на неизвестном языке и нам недоступна информация, относящаяся к его тонкой структуре, то мы можем, либо, опираясь на наш лингвистический опыт, давать участкам речевого потока приблизительную интерпретацию в рамках Международного фонетического алфавита, либо, обратившись к акустическим понятиям, членить речь на некие минимальные звуковые единицы (МЗЕ) и давать им определенные метки. Очевидно, что второй подход со всех точек зрения наиболее информативен и универсален. Множество меток всех МЗЕ и составит, в таком случае, звуковой строй данного диалекта или языка.
Проблема состоит в том, что разговорная речь по своим акустическим характеристикам широко варьируется, причем не регулярным образом, не только от одного языка к другому, но и от одного носителя к другому носителю одного и того же языка. В указанных условиях становится проблематичной сама идея выделения повторяющегося набора МЗЕ из разговорного потока. Кроме того, длительность отдельных МЗЕ не превышает нескольких миллисекунд, и это главное препятствие для применения традиционных методов теоретической лингвистики к разговорной (устной) речи. С другой стороны, до настоящего времени проблема не была преодолена и методами экспериментальной фонетики. И главная причина здесь - отсутствие адекватной системы описания отдельных фонем.
В поисках путей решения указанной проблемы в недавно созданной информационной теории восприятия речи (ИТВР) [1] само понятие «фонема» впервые было строго определено в теоретико-информационном смысле как «множество однородных МЗЕ, объединенных в кластер по критерию минимального информационного рассогласования (МИР) в метрике Кульбака-Лейблера». Условно говоря, человеческий мозг объединяет и запоминает в себе как нечто целое (в виде абстрактного образа) разные образцы (произношения) каждой отдельной фонемы в соответствующей «сфере» своей памяти вокруг абстрактного «центра» с заданным «радиусом» (рис. 1).
О
о о
Рис. 1. Кластер реализаций фонемы и его информационный центр-эталон
Нетрудно понять, что этим определением одновременно решается множество актуальнейших проблем в области фонологического анализа: и вариативности разговорной речи, и априорной неопределенности, и адекватного описания звукового строя языка с кардинальным сжатием данных и, наконец, проблема обновления речевых баз данных (РБД) без разрушения их структуры.
Критерий МИР. Несмотря на существующие различия в реализациях некоторой г-ой фонемы все они воспринимаются человеком как нечто общее, иначе речь утратила бы свою информативность. Можно поэтому утверждать, что одноименные реализации
X , j — 1, J , J >> 1, в сознании человека группируются в соответствующие классы или г, j г г
речевые образы фонем X — (X ( , Г — 1, Я, вокруг некоторого центра - эталонной метки
г ^ г, j)
данного образа. В информационной теории восприятия речи указанные эталоны определяются в
строгом, теоретико-информационном смысле: речевая метка х с X образует информационный
г г
центр-эталон г-го речевого образа, если в пределах множества Хг она характеризуется минимальной суммой информационных рассогласований по Кульбаку-Лейблеру относительно
всех других его меток-реализаций х , ] = 1, J .
г, ] г
Нетрудно увидеть, что именно в понятии информационного центра (ИЦ) Г-го множества реализаций одноименных МЗЕ Хг дается наиболее информативное описание свойств соответствующей фонемы. Одновременно становится очевидным и механизм формирования самого этого множества. Сначала анализируемый (входной) речевой сигнал Х^) в дискретном времени t = 0,1,.. разбивается на ряд последовательных сегментов данных х(() длиной в одну МЗЕ: примерно 10-15 мс. После этого каждый такой парциальный сигнал рассматривается в пределах конечного списка фонем X ) и отождествляется с той Ху из них, которая отвечает
критерию МИР относительно вектора х^). Это известная формулировка критерия МИР в задачах автоматического распознавания речи. Задача существенно упрощается, если воспользоваться гауссовой (нормальной) аппроксимацией закона распределения каждой фонемы вида Р = N|К I, где Кг - автокорреляционная матрица (АКМ) размера п х п, п > 1.
г \ г'
Синтез адаптивного алгоритма. Предположим, что речевой образ каждой фонемы X = \ х \ представлен по-прежнему конечным (объема J > 1) множеством своих
г I г, ]г
различных векторов-реализаций x , j = 1, J , составленных из L последовательных во
r, j г
времени отсчетов одноименных МЗЕ \ x (t)> с периодом T = 1/(2F) = const. Здесь F -
I r, j
верхняя граница частотного диапазона речевого тракта. Рассматривая каждую такую реализацию в режиме «скользящего окна» длиной n отсчетов (n <<L), будем иметь (L - n) векторов (столбцов)
данных < x > размерностью n = const каждый. Используя после этого формулу среднего
I r, j, i
арифметического, определим по ним выборочную оценку для АКМ гипотетического гауссова распределения P^ = N (к ).
Проблемы возникают, однако, в случае отсутствия априори классифицированных выборок т.е. при распознавании образов «без учителя». Автоматический анализ фонетического
состава речи чаще всего относится именно к такому кругу задач. И статистические характеристики фонем, и их используемое каждым диктором число Я из общего списка зависят от особенностей его речевого аппарата. Здесь требуется алгоритм с самообучением, или адаптивный алгоритм фонетического анализа речи (ФАР). Для решения данной задачи в информационной теории разработан специальный инструмент: информационный (Я+1) -элемент. Информационный (Я+1)-элемент - это условный термин, обозначающий устройство или алгоритм для автоматической классификации или распознавания сигнала X в пределах некоторого
множества классов-альтернатив Р , Г = 1, Я. В основе его функционирования применяется
статистический подход и критерий МИР. В отличие от других аналогичных алгоритмов с Я выходами (Я+1) -элемент имеет дополнительный, (Я+1) -й выход, который сигнализирует об отказе при распознавании образов одновременно от всех Я заданных альтернатив. Указанная особенность и служит основой для построения эффективного алгоритма распознавания образов в условиях априорной неопределенности. Задача сводится к последовательности задач статистической классификации «с учителем» при переменном (нарастающем) числе альтернатив
Я=1,2,...
Выделим в анализируемом речевом сигнале Х(1) от некоторого диктора первые Ь отсчетов
из соображений сохранения в них свойства приблизительной стационарности или однородности
распределения РГ. Например, при стандартной частоте дискретизации телефонного канала связи в
8 кГц обычно полагают Ь = 100.200 (это те же 10 - 15 мс). Используем полученный
минимальный сегмент данных х1 = {с ,...,X } в качестве обучающей выборки X1 для оценивания
1 Ь
АКМ первой МЗЕ из сигнала. Соответствующий закон распределения Р = N (К^) - это первый
из элементов нашего будущего списка. После этого приравниваем Я = 1 и берем второй сегмент
выборки для анализа: х = |х ,..., X Следуя выражению для решающей статистики МИР,
2 Ь +1 2 Ь
определим для него удельную величину информационного рассогласования (ВИР) [2]
р(х X )=р (х)
\ 2 г' Г
(1)
X = X
2
относительно первой МЗЕ (при равенстве г = 1). Полученный результат сопоставляется с порогом по ВИР в роли допустимой величины рассогласований между разными реализациями одних и тех же фонем устной речи:
Р(Х2'ХГ)£Р0. (2)
При нарушении данного неравенства в нашем начальном списке фонем появится второй элемент, и вслед за этим приравниваем число выявленных фонем Я =2. В противном случае принимается решение об объединении выборок Х1 и Х2 в один речевой образ Р^: в качестве или одной МЗЕ удвоенной длительности Ьг = 2 Ь, если выборки смежные, или двух разных реализаций первой фонемы, если выборки не стыкуются. Равенство Я=1 в обоих случаях сохраняется.
Нетрудно понять, что в форме условия (2) реализуется проверка гипотез об однородности выборок, а понятие фонемы определяется здесь как кластер однородных МЗЕ по критерию МИР. Это типичная формулировка информационного (Я+1)-элемента.
Фонетический анализ речи. Вычисления по схеме (1), (2) повторяются циклически для всех последующих сегментов данных из речевого сигнала Х(1), причем повторятся «нарастающим итогом» для переменного значения Я=2,3,... Каждый очередной сегмент данных сопоставляется по правилу (2) одновременно со всеми Я множествами X ) из текущего списка фонем. При этом
не исключается возможность объединения одного и того же сегмента данных с элементами одновременно нескольких разных множеств. В результате будем иметь список фонем с некоторым фиксированным числом элементов Я*. Это важная характеристика как анализируемого речевого сигнала, так и самого диктора. Чем больше значение Я* для конкретного диктора, тем богаче с фундаментальной, фонетической точки зрения его речь. В данном выводе и состоит, по-видимому, главный смысл и назначение фонетического анализа речи (ФАР). Однако здесь же возникает и очевидная проблема: чрезмерно большое число фонем в речи диктора - это признак ее нечеткости, или не информативности. С точки зрения качества устной речи первостепенный интерес, безусловно, представляет собой множество четких МЗЕ. Его, в таком случае, и следует считать основным итогом ФАР. Поэтому логика подсказывает: после выполнения всех перечисленных выше вычислений некоторые «фонемы» из окончательного списка можно исключить как маргинальные.
Добавим к сказанному, что предложенный алгоритм имеет множество разнообразных модификаций за счет, главным образом, применения рекуррентных вычислительных процедур корреляционно-спектрального анализа. Среди них наибольший интерес представляет метод обеляющего фильтра (МОФ), основанный на авторегрессионной модели МЗЕ.
В ранних работах [1-3] было показано, что в асимптотике, когда п ^ да , и при гауссовом распределении речевого сигнала Р = N^К j с обратной АКМ ленточной структуры выражение
для оптимальной решающей статистики из выражения (1) сводится к виду
р
X, г
Г + 1
Г
X
Г = О
1 + X « (т)е--/ящГ/Г
т=1 г
1 + X « (т >-УттГ / Г
т = 1
2
- 1 > О.
(3)
Здесь а (т X
(т )}1 {* (т )}
два вектора авторегрессионных -коэффициентов: входного сигнала и г-
го эталона, оба одного порядка р>1. Это стандартная формулировка МОФ в частотной области. Преимуществом данной интерпретации критерия МИР является, прежде всего, возможность его эффективной реализации в адаптивном варианте на основе быстрых вычислительных процедур авторегрессионного анализа, таких как метод Берга и др. Именно такой вариант МОФ был реализован в дальнейшем для проведения его экспериментальных исследований в типовой задаче ФАР.
Программа и результаты экспериментальных исследований. Для экспериментальных исследований предложенного алгоритма (1)...(3) была разработана информационная система фонетического анализа, обучения и тестирования слитной речи, основной интерфейс которой показан на рис. 2.
Рис. 2. Интерфейс информационной системы фонетического анализа, обучения и тестирования
слитной речи
Программа экспериментальных исследований была разбита на два этапа [4]. На первом этапе осуществлялось формирование базы эталонов МЗЕ по группе тестируемых дикторов, а на втором - исследование особенностей звукового строя речи тех же дикторов в комфортных и некомфортных условиях. На обоих этапах для работы применялись специальные программные и аппаратные средства: динамический микрофон AKG D77 S и ламповый микрофонный предусилитель ART TUBE MP Project Series USB. Частота дискретизации встроенного АЦП была установлена равной 8 кГц - общепринятая частота при обработке устной речи. Испытания проводились на ноутбуке следующей конфигурации: Asus X50V, 1024 Мбайт ОЗУ, Windows XP, Matlab 6.5. Формирование фонетической базы эталонов происходило следующим образом.
Вначале для каждой из основных (продолжительных) фонем русского языка было записано в комфортных условиях по одному образцу МЗЕ от выбранного диктора-мужчины. Затем к этим образцам были добавлены эталоны того же диктора в тех же условиях, но произнесённые в разное время суток. При этом диктор произносил каждую фонему по 15-20 раз. Звуковой сигнал вводился в информационную систему в реальном времени в режиме «Подготовка данных». Всего, таким образом, было сформировано шесть персональных баз эталонов от шести дикторов-мужчин, а также две базы эталонов от дикторов-женщин.
На втором этапе каждый диктор в заведомо менее комфортных условиях: в нашем случае -после значительной физической нагрузки (пульс 140-160 ударов в мин.) произносил каждую из 21 фонем по 10 - 15 раз. И каждый раз информационной системой фиксировался соответствующий результат: текущее значение ВИР по отношению к заранее сформированной базе эталонов. Цель данного эксперимента - выбрать из общего списка фонем национального языка те фонемы, которые наиболее остро реагируют в своих реализациях на условия произнесения их диктором. Смысл этой цели очевиден: настраивая информационную систему на наиболее чувствительные фонемы, мы гарантируем максимальную чувствительность нашего восприятия по отношению к эмоциональному и физическому состоянию диктора. Важнейший момент - это количественная характеристика степени возбуждения диктора, а именно: ВИР между фонемами в текущем сигнале и их эталонами. Для иллюстрации сказанного на рисунках ниже представлены две диаграммы ВИР при произнесении фонемы «Х» некоторым диктором-мужчиной в комфортных (рис. 3) и некомфортных (рис. 4).условиях. Здесь центр окружностей характеризует положение первого эталона в пределах Х-кластера одноименных МЗЕ.
Рис. 3. Величина информационного
Рис. 4. Величина информационного
рассогласования при произнесении фонемы «Х» рассогласования при произнесении фонемы «Х» диктором-мужчиной в комфортных условиях диктором-мужчиной в некомфортных условиях
А каждая окружность - это результат очередного произнесения фонемы. Ее радиус определяется значением ВИР по отношению к эталону. Чем больше радиус, тем хуже качество произнесения. Видно, что при изменении условий на некомфортные в среднем на порядок (!) увеличилась вариативность произнесений данного диктора (см. шкалу делений по оси абсцисс). Аналогичные результаты были получены и для других дикторов из контрольной группы. Средние значения ВИР для типичных диктора-мужчины и диктора-женщины по всему списку фонем в зависимости от условий их произнесения представлены в следующей таблице.
^"^Дикторы Диктор-муж.: Диктор-жен.:
в комфортных в некомфортных в комфортных в некомфортных
Фонемы условиях условиях условиях условиях
А 0.77 0.53 1.02 3.84
О Л7 7,6 20.03 А 4.06 6.4 19 7 16.4
У Э 3.12 5.73 9.21 12. / 7.17 8.3 8.35
Ш 1.47 1.22 2.36 1.73
Щ 0.94 1.73 1.59 2.64
Р 0.72 2.49 2.03 2.71
С 0.58 0.51 0.82 0.93
В 1.38 1.14 1.82 1.92
З 3.87 4.69 4.14 4.73
Ж 0.69 0.71 0.94 1.19
И 2.51 3.04 3.92 4.08
М 1.94 6.14 1.01 3.32
Л 4.7 0.69 2.04 1.86
ЛЬ 2.19 1.54 1.91 1.79
Ф 1.78 1.91 1.83 1.89
Х 0.86 6.9 0.91 4.7
Ч 1.96 1.94 2.13 2.11
Е 3.81 4.57 5.17 5.89
Ы 2.49 3.18 3.67 4.29
Н 1.48 0.41 3.5 2.84
Здесь серым фоном отмечены наиболее чувствительные к условиям своего произнесения фонемы. Видно, что, по крайней мере, три из них: «Х», «М» и «О» одинаково высокочувствительны как в исполнении мужчин, так и женщин.
Заключение. К числу приоритетных направлений применения ИТВР и ее когнитивной кластерной модели МЗЕ (рис. 1) наряду с автоматической обработкой и распознаванием речи относятся, прежде всего, проблемы современной диалектологии. Как сопоставить разные диалекты между собой по степени их объективной близости или различий на базовом, фонетическом, уровне? И какова количественная мера таких различий? Какие тенденции: сближения или удаления по фонетическому строю доминируют в настоящий момент в процессе исторического развития тех или иных диалектов? И, наконец, как можно лучше обучиться данному диалекту или, напротив, максимально ослабить его? - Благодаря методологии ИТВР впервые в мировой науке открываются возможности дать четкие ответы на все перечисленные выше и подобные им вопросы. В их изучении и состоит главная цель предлагаемого исследовательского подхода. А ожидаемые по результатам исследований выводы и обобщения должны составить материал для подготовки к изданию первой фонологической карты России с многоуровневым членением языкового ареала на родственные диалекты при учете степени их звуковых различий, т.е. впервые в практике лингвистического картографирования - с указанием переходных диалектных зон. Осуществление предлагаемого проекта стимулирует, в свою очередь, научные исследования в области не только современной лингвистики, но и информатики в целом, прежде всего, прикладной информатики. Полученные результаты открывают качественно новые возможности для решения целого ряда актуальных задач, которые до настоящего времени остаются не решенными или решены неудовлетворительно, в том числе:
1) создание персональных (под каждого диктора) речевых баз данных;
2) анализ качества устной речи на базовом, фонетическом уровне;
3) автоматическое тестирование качества систем речевой связи и другие.
Список литературы
1. Савченко В.В. Информационная теория восприятия речи // Изв. вузов России. Радиоэлектроника. 2007. Вып. 6. С. 3-9.
2. Савченко В.В., Акатьев Д.Ю. Технология обучения и тестирования речи на основе когнитивной кластерной модели минимальных речевых единиц // Нелинейная динамика в когнитивных исследованиях: сб. трудов Всерос. конф. Н. Новгород, 2011. С. 175-177.
3. Савченко В.В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т. 42, № 4. С. 426-431.
4. Савченко В.В. Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в информационной метрике Кульбака-Лейблера. // Изв. вузов России. Радиоэлектроника. 2011. Вып. 3. С. 9-19.
SCIENTIFIC PERIODICAL OF THE BAUMAN MSTU
SCIENCE and EDUCATION
EL № FS77 - 48211. №0421200025. ISSN 1994-0408
electronic scientific and technical journal
Adaptive cluster model of minimal speech units in analysis and speech
recognition problems
# 02, February 2013
DOI: 10.7463/0213.0527867
Savchenko V.V., Akat'ev D.Yu.
Russia, Linguistics University of Nizhny Novgorod
[email protected] [email protected]
This article deals with the problem of variability of word pronunciation in analysis and speech recognition tasks. An adaptive acoustic model defined as a multitude of minimal sound units (MSU) united into a cluster-phoneme under the principle of minimum informational mismatch in Kullback-Leibler metric, is proposed. An adaptive algorithm of filling the MSU cluster from a continuous stream of speech was developed on the basis of the whitening filter method. An example of its practical implementation is also provided in the article. As a result of this experiment, from the total list of phonemes of the national language the authors selected the phonemes which, in their implementation, are the most sensitive to conditions of their pronunciation by the speaker. Adjusting an information system to such a phoneme, the authors guarantee maximum sensitivity of perception in relation to the speaker's emotional and physical state.
Publications with keywords: automatic speech recognition, informative mismatch, adaptive cluster model, speech units
Publications with words: automatic speech recognition, informative mismatch, adaptive cluster model, speech units
References
1. Savchenko V.V. Informatsionnaia teoriia vospriiatiia rechi [The information theory of speech perception]. Izv. vuzovRossii. Radioelektronika, 2007, no. 6, pp. 3-9.
2. Savchenko V.V., Akat'ev D.Iu. Tekhnologiia obucheniia i testirovaniia rechi na osnove kognitivnoi klasternoi modeli minimal'nykh rechevykh edinits [The technology of training and testing of speech on the basis of cognitive cluster model of minimal speech units]. Nelineinaia dinamika v kognitivnykh issledovaniiakh: sb. trudov vseros. konf. [Nonlinear dynamics in cognitive studies: proc. of all-Russian conf.]. Nizhny Novgorod, 2011, pp. 175-177.
3. Savchenko V.V. Razlichenie sluchainykh signalov v chastotnoi oblasti [The distinction between random signals in the frequency domain]. Radiotekhnika i elektronika, 1997, vol. 42, no. 4, pp. 426-431.
4. Savchenko V.V. Avtomaticheskoe raspoznavanie rechi na osnove klasternoi modeli minimal'nykh rechevykh edinits v informatsionnoi metrike Kul'baka-Leiblera [Automatic recognition of speech on the basis of cluster models of speech units in the Kullbaсk-Leibler information metric]. Izv. vuzovRossii. Radioelektronika, 2011, no. 3, pp. 9-19.