Адаптивный алгоритм формирования фонетической базы данных для систем автоматического распознавания речи методом фонетического декодирования слов

Савченко Владимир Васильевич; Акатьев Дмитрий Юрьевич

Савченко В.В.,

Нижегородский государственный лингвистический университет им.

Н. А. Добролюбова, профессор, зав. каф. математики и информатики

svv@lunn.ru

Акатьев Д.Ю.

профессор каф. математики и информатики

akatjev@lunn.ru

Нижегородский государственный лингвистический университет им.

Н. А. Добролюбова

Адаптивный алгоритм формирования фонетической базы данных для систем автоматического распознавания речи методом фонетического декодирования слов28

Аннотация

Рассмотрена проблема вариативности разговорной речи в задаче формирования фонетической базы данных. Предложена для её решения когнитивная акустическая модель типа фонетического кластера, определённого на множестве минимальных звуковых единиц по принципу минимума информационного рассогласования в метрике Кульбака-Лейблера. Разработан адаптивный алгоритм наполнения каждого кластера однотипными (одноименными) звуковыми единицами из непрерывного потока речи диктора. Рассмотрен пример практической реализации такого алгоритма. Представлены результаты его математического моделирования.

Введение

При анализе разговорной (устной) речи на русском языке мы опираемся на наши точные знания в отношении его фонетического строя, количественного и качественного состава используемой фонетической системы, а также закономерностей ее функционирования в разговорной речи. Этими знаниями мы пользуемся, например, при транскрибировании потока речи. Однако при анализе разговорной речи на неизвестном нам языке нам недоступна, в общем случае, информация, относящаяся к его фонетической структуре. В этом случае мы можем, либо, опираясь на наш лингвистический опыт, давать участкам речевого потока приблизительную интерпретацию в рамках Международного фонетического алфавита, либо,

28 Работа выполнена при финансовой поддержке Минобрнауки РФ по государственному контракту № 07.514.11.4137 ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы»

обратившись к акустическим понятиям, членить речь на некие минимальные звуковые единицы (МЗЕ) с соответствующими метками. Очевидно, что второй подход, положенный в основу информационной теории восприятия речи (ИТВР) [1], со всех точек зрения наиболее информативен и универсален. Множество меток всех МЗЕ и составит, в таком случае, звуковой строй данного диалекта или языка, или его фонетическую базу данных (ФБД).

Постановка задачи

Проблема состоит в том, что разговорная речь по своим акустическим характеристикам широко варьируется, причем, не регулярным образом, не только от одного языка к другому, но и от одного носителя к другому носителю одного и того же языка. В указанных условиях становится проблематичной сама идея выделения повторяющегося набора МЗЕ из разговорного потока речи. Кроме того, длительность отдельных МЗЕ не превышает нескольких миллисекунд, и это главное препятствие для применения традиционных методов теоретической лингвистики к разговорной (устной) речи. С другой стороны, до настоящего времени проблема не была преодолена и методами экспериментальной фонетики. И главная причина здесь - отсутствие адекватной системы описания отдельных фонем.

В поисках путей решения указанной проблемы в упомянутой выше и недавно созданной ИТВР само понятие «фонема» впервые было строго определено в теоретико-информационном смысле как «множество однородных МЗЕ, объединенных в кластер по критерию минимального информационного рассогласования (МИР) в метрике Кульбака-Лейблера». Условно говоря, человеческий мозг объединяет и запоминает в себе как нечто целое (в виде абстрактного образа) разные образцы (произношения) каждой отдельной фонемы в соответствующей «сфере» своей памяти

вокруг абстрактного «центра» с заданным «радиусом» (рис. 1).

Нетрудно понять, что данным определением

одновременно решается

множество актуальнейших

проблем в области

фонетического анализа речи: и ее вариативности, и априорной неопределенности, и адекватного описания звукового строя языка в терминах ФБД и, наконец, проблема обновления ФБД без разрушения их структуры. Принцип МИР

Несмотря на существующие различия в реализациях некоторой г-ой

О

\ О

о ° V *

о/\

1 ^ 1 1

0\ / 1 / / г /

\ / ч / о ''

с ч

О О

Рис. 1. Кластер реализаций фонемы и его

информационный центр-эталон

фонемы все они воспринимаются человеком как нечто общее, иначе речь утратила бы свою информативность. Можно поэтому утверждать, что

одноименные реализации хr, j ? j = Jr ? Jr >> 1, в сознании человека

группируются в соответствующие классы или речевые образы фонем

Xr = jxr j j , r = 1, R, вокруг некоторого центра - эталонной метки

данного образа. В информационной теории восприятия речи указанные эталоны определяются в строгом, теоретико-информационном смысле:

речевая метка x* с Xr образует информационный центр-эталон r-го

речевого образа, если в пределах множества Xr она характеризуется минимальной суммой информационных рассогласований по Кульбаку-

Лейблеру относительно всех других его меток-реализаций xr, j ? J =Jr .

Нетрудно увидеть, что именно в понятии информационного центра (ИЦ) r-го множества реализаций одноименных МЗЕ Xr дается наиболее информативное описание свойств соответствующей фонемы. А множество всех ИЦ j^r j определяет понятие ФБД для данного диктора. Одновременно

становится очевидным и механизм формирования самого этого множества. Сначала анализируемый (входной) речевой сигнал X(t) в дискретном времени t = 0,1,.. разбивается на ряд последовательных сегментов данных x(t) длиной в одну МЗЕ: примерно 10 - 15 мс. После этого каждый такой парциальный сигнал рассматривается в пределах конечного списка фонем

jxr j и отождествляется с той Xrn из них, которая отвечает критерию МИР относительно вектора x(t). Это известная формулировка критерия МИР в задачах автоматического распознавания речи. Задача существенно упрощается, если воспользоваться гауссовой (нормальной) аппроксимацией закона распределения каждой фонемы вида Pr = N(Kr ), где Kr - автокорреляционная матрица (АКМ) размера n х n? n ^1. Синтез адаптивного алгоритма

Предположим, что речевой образ каждой фонемы Xr = jxr j j , r = 1, R представлен по-прежнему конечным (объема Jr >1)

множеством своих различных векторов-реализаций xr j , j = 1, j* ,

составленных из L последовательных во времени отсчетов одноименных

МЗЕ j(t)j с периодом T = 1/(2F) = const. Здесь F - верхняя граница

частотного диапазона речевого тракта. Рассматривая каждую такую реализацию в режиме «скользящего окна» длиной n отсчетов (ntt L),

будем иметь (L - n) векторов (столбцов) данных Iхr j ij размерностью

n = const каждый. Используя после этого формулу среднего арифметического, определим по ним выборочную оценку для АКМ

Проблемы возникают, однако, в случае отсутствия априори классифицированных выборок {хг}, т.е. при распознавании образов «без учителя». Автоматический анализ фонетического состава речи чаще всего относится именно к такому кругу задач. И статистические характеристики фонем, и их используемое каждым диктором число R из общего списка зависят от особенностей его речевого аппарата. Здесь требуется алгоритм с самообучением, или адаптивный алгоритм фонетического анализа речи (ФАР). Для решения данной задачи в информационной теории разработан специальный инструмент: информационный ^+1) -элемент. Информационный ^+1)-элемент - это условный термин, обозначающий устройство или алгоритм для автоматической классификации или распознавания сигнала х в пределах некоторого множества классов-

альтернатив Рг, г = 1, R. В основе его функционирования применяется статистический подход и критерий МИР. В отличие от других аналогичных алгоритмов с R выходами ^+1) -элемент имеет дополнительный, ^+1) -й выход, который сигнализирует об отказе при распознавании образов одновременно от всех R заданных альтернатив. Указанная особенность и служит основой для построения эффективного алгоритма распознавания образов в условиях априорной неопределенности. Задача сводится к последовательности задач статистической классификации «с учителем» при переменном (нарастающем) числе альтернатив R=1,2,...

Выделим в анализируемом речевом сигнале Х^) от некоторого диктора первые Ь отсчетов из соображений сохранения в них свойства приблизительной стационарности или однородности распределения Рг. Например, при стандартной частоте дискретизации телефонного канала связи в 8 кГц обычно полагают Ь = 100.200 (это те же 10 - 15 мс). Используем полученный минимальный сегмент данных Х1 = {xl,•••, } в качестве обучающей выборки Х1 для оценивания АКМ первой МЗЕ из сигнала. Соответствующий закон распределения Р1 = N (¿1) - это первый из элементов нашего будущего списка. После этого приравниваем R = 1 и берем второй сегмент выборки для анализа: х2 = +1,—>>Х2Ь }. Следуя выражению для решающей статистики МИР, определим для него удельную величину информационного рассогласования (ВИР) [2]

относительно первой МЗЕ (при равенстве г = 1 ). Полученный результат сопоставляется с порогом по ВИР в роли допустимой величины рассогласований между разными реализациями одних и тех же фонем

гипотетического

гауссова распределения Pr = N (К r ).

(1)

устной речи:

р(х2, Хг )< Ро. (2)

При нарушении данного неравенства в нашем начальном списке фонем появится второй элемент, и вслед за этим приравниваем число выявленных фонем R =2. В противном случае принимается решение об объединении выборок Х1 и Х2 в один речевой образ "1: в качестве или одной МЗЕ удвоенной длительности Ьг =2 Ь, если выборки смежные, или двух разных реализаций первой фонемы, если выборки не стыкуются. Равенство R=1 в обоих случаях сохраняется.

Нетрудно понять, что в форме условия (2) реализуется проверка гипотез об однородности выборок, а понятие фонемы определяется здесь как кластер однородных МЗЕ по критерию МИР. Это типичная формулировка информационного ^+1)-элемента.

Фонетический анализ речи

Вычисления по схеме (1), (2) повторяются циклически для всех последующих сегментов данных из речевого сигнала Х(причем повторятся «нарастающим итогом» для переменного значения R=2,3,... Каждый очередной сегмент данных сопоставляется по правилу (2) одновременно со всеми R множествами X} из текущего списка фонем.

При этом не исключается возможность объединения одного и того же сегмента данных с элементами одновременно нескольких разных множеств. В результате будем иметь список фонем с некоторым фиксированным числом элементов R*. Это важная характеристика как анализируемого речевого сигнала, так и самого диктора. Чем больше значение R* для конкретного диктора, тем богаче с фундаментальной, фонетической точки зрения его речь. В данном выводе и состоит, по-видимому, главный смысл и назначение фонетического анализа речи. Однако здесь же возникает и очевидная проблема: чрезмерно большое число фонем в речи диктора - это признак ее нечеткости, или не информативности. С точки зрения качества устной речи первостепенный интерес, безусловно, представляет собой множество четких МЗЕ. Его, в таком случае, и следует считать основным итогом ФАР. Поэтому логика подсказывает: после выполнения всех перечисленных выше вычислений некоторые «фонемы» из окончательного списка можно исключить как маргинальные.

Добавим к сказанному, что предложенный алгоритм имеет множество разнообразных модификаций за счет, главным образом, применения рекуррентных вычислительных процедур корреляционно-спектрального анализа. Среди них наибольший интерес представляет метод обеляющего фильтра (МОФ), основанный на авторегрессионной модели МЗЕ.

В ранних работах [2, 3] было показано, что в асимптотике, когда

п , и при гауссовом распределении речевого сигнала рг = N(кг) с

обратной АКМ ленточной структуры выражение для оптимальной решающей статистики из выражения (1) сводится к виду

2

РХ, г =

1

Р + 1

X

Г = о

р

1 + X аг (т)е—-/ятГ / Р

т=1

Р

1 + ах (т

т = 1

(т)е

— j^mf / Р

2

— 1 > о.

(3)

Здесь {ах (т)}, {аг (т)} - два вектора авторегрессионных (АР)

коэффициентов: входного сигнала и г-го эталона, оба одного порядка р>1. Это стандартная формулировка МОФ в частотной области. Преимуществом данной интерпретации критерия МИР является, прежде всего, возможность его эффективной реализации в адаптивном варианте на основе быстрых вычислительных процедур авторегрессионного анализа, таких как метод Берга и др. Именно такой вариант МОФ был реализован в дальнейшем для проведения его экспериментальных исследований в типовой задаче ФАР. Результаты математического моделирования Для экспериментальных исследований предложенного алгоритма (1)...(3) была разработана информационная система фонетического анализа разговорной русской речи, основной интерфейс которой показан на рис. 2.

щОбучение языку глухих и слабослышащих на основе И7ВР

ЕВЕ

Редактировать Настройки Отчеты Инструменты

Сведения о дикторе

|Антон Ларионов

Пол: Год рождения:

Мужской | 1ЭЭ7

Регион:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Центральный регион

А} _е]

л] Л] *] л]

л] л]

Л1 _£]

м н

Режим С Обучение

.и л] Л]

э | ю | я |

Ф | ж | ш | н I щ I л I

Л] Л1 л]

(• Подготовка данных Сравнение фонем по СПМ

С в. г и.

Рис. 2. Главное окно программы Программа экспериментальных исследований была разбита на два этапа [4]. На первом этапе осуществлялось формирование базы эталонов МЗЕ по группе тестируемых дикторов, а на втором - исследование

особенностей звукового строя речи тех же дикторов в комфортных и некомфортных условиях. На обоих этапах для работы применялись специальные программные и аппаратные средства: динамический микрофон AKG D77 S и ламповый микрофонный предусилитель ART TUBE MP Project Series USB. Частота дискретизации встроенного АЦП была установлена равной 8 кГц - общепринятая частота при обработке устной речи. Испытания проводились на ноутбуке следующей конфигурации: Asus X50V, 1024 Мбайт ОЗУ, Windows XP, Matlab 6.5. Формирование фонетической базы эталонов происходило следующим образом.

Вначале для каждой из основных (продолжительных) фонем русского языка было записано в комфортных условиях по одному образцу МЗЕ от выбранного диктора-мужчины. Затем к этим образцам были добавлены эталоны того же диктора в тех же условиях, но произнесённые в разное время суток. При этом диктор произносил каждую фонему по 15-20 раз. Звуковой сигнал вводился в информационную систему в реальном времени в режиме «Подготовка данных». Всего, таким образом, было сформировано шесть персональных баз эталонов от шести дикторов-мужчин, а также две базы эталонов от дикторов-женщин.

На втором этапе каждый диктор в заведомо менее комфортных условиях: в нашем случае - после значительной физической нагрузки (пульс 140-160 ударов в мин.) произносил каждую из 21 фонем по 10 - 15 раз. И каждый раз информационной системой фиксировался соответствующий результат: текущее значение ВИР по отношению к заранее сформированной базе эталонов. Цель данного эксперимента -выбрать из общего списка фонем национального языка те фонемы, которые наиболее остро реагируют в своих реализациях на условия произнесения их диктором. Смысл этой цели очевиден: настраивая информационную систему на наиболее чувствительные фонемы, мы гарантируем максимальную чувствительность нашего восприятия по отношению к эмоциональному и физическому состоянию диктора. Важнейший момент -это количественная характеристика степени возбуждения диктора, а именно: ВИР между фонемами в текущем сигнале и их эталонами. Для иллюстрации сказанного на рисунках ниже представлены две диаграммы ВИР при произнесении фонемы «Х» некоторым диктором-мужчиной в комфортных (рис. 3) и некомфортных (рис. 4).условиях. Здесь центр окружностей характеризует положение первого эталона в пределах Х-кластера одноименных МЗЕ.

А каждая окружность - это результат очередного произнесения фонемы. Ее радиус определяется значением ВИР по отношению к эталону. Чем больше радиус, тем хуже качество произнесения. Видно, что при изменении условий на некомфортные в среднем на порядок (!) увеличилась вариативность произнесений данного диктора (см. шкалу делений по оси абсцисс). Аналогичные результаты были получены и для других дикторов из контрольной группы. Средние значения ВИР для типичных диктора-

мужчины и диктора-женщины по всему списку фонем в зависимости от условий их произнесения представлены в следующей таблице.

-1.5 -1 -0.5

Рис. 3. Величина информационного рассогласования

при произнесении фонемы «Х» диктором-мужчиной в комфортных условиях

Рис. 4. Величина информационного рассогласования при произнесении фонемы «Х» диктором-мужчиной в некомфортных условиях

Табл. ВИР дикторов в зависимости от условий их монолога

Диктор Диктор-муж.: в Диктор-жен.: в

ы в комфортных некомфортных в комфортных некомфортн

Фонемы условиях условиях условиях ых условиях

А 0.77 0.53 1.02 3.84

О 7,6 20.03 6.4 16.4

У 3.12 4.06 12.7 8.3

Э 5.73 9.21 7.17 8.35

Ш 1.47 1.22 2.36 1.73

Щ 0.94 1.73 1.59 2.64

р 0.72 2.49 2.03 2.71

С 0.58 0.51 0.82 0.93

В 1.38 1.14 1.82 1.92

З 3.87 4.69 4.14 4.73

Ж 0.69 0.71 0.94 1.19

И 2.51 3.04 3.92 4.08

М 1.94 6.14 1.01 3.32

Л 4.7 0.69 2.04 1.86

ЛЬ 2.19 1.54 1.91 1.79

Ф 1.78 1.91 1.83 1.89

Х 0.86 6.9 0.91 4.7

Ч 1.96 1.94 2.13 2.11

Е 3.81 4.57 5.17 5.89

Ы 2.49 3.18 3.67 4.29

Н 1.48 0.41 3.5 2.84

Здесь серым фоном отмечены наиболее чувствительные к условиям

своего произнесения фонемы. Видно, что, по крайней мере, три из них: «Х», «М» и «О» одинаково высокочувствительны как в исполнении мужчин, так и женщин. Все остальные фонемы, напротив, мало чувствительны к условиям произнесения. Именно такого рода фонемы могут быть положены в основу распознавания речи диктора или семантического анализа произнесенных им слов и фраз.

Заключение

К числу приоритетных направлений применения ИТВР и ее когнитивной кластерной модели МЗЕ (рис. 1) наряду с задачами прикладной лингвистики: распознаванием и семантическим анализом разговорной русской речи относятся также проблемы современной диалектологии. Как сопоставить разные диалекты между собой по степени их объективной близости или различий на базовом, фонетическом,уровне? И какова количественная мера таких различий? Какие тенденции: сближения или удаления по фонетическому строю доминируют в настоящий момент в процессе исторического развития тех или иных диалектов? И, наконец, как можно лучше обучиться данному диалекту или, напротив, максимально ослабить его? Благодаря методологии ИТВР и ФБД впервые в мировой науке открываются возможности дать четкие ответы на все перечисленные выше и подобные им вопросы. А это стимулирует, в свою очередь, научные исследования в области не только современной лингвистики, но и информатики и, прежде всего, прикладной информатики. Таким образом, полученные в статье результаты открывают качественно новые возможности для решения целого ряда актуальных задач, которые до настоящего времени остаются не решенными или решены неудовлетворительно.

Литература

1. Савченко В.В. Информационная теория восприятия речи // Изв. вузов России. Радиоэлектроника. 2007. Вып. 6. С. 3-9.

2. Савченко В.В., Губочкин И.В. Фонетический анализ речи методом переменного дерева. // Изв. вузов России. Радиоэлектроника. 2008. Вып. 3. С. 14-20.

3. Савченко В.В. Фонема как элемент информационной теории восприятия речи. // Изв. вузов России. Радиоэлектроника. 2008. Вып. 4 С. 3-11.

4. Савченко В.В., Акатьев Д.Ю., Губочкин И.В. Исследование звукового строя национального языка на основе информационной теории восприятия речи // Вестник ННГУ им. Н.И.Лобачевского. Сер. Информационные технологии. 2010. №3 (1). С.215 - 222.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Савченко Владимир Васильевич, Акатьев Дмитрий Юрьевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Савченко Владимир Васильевич, Акатьев Дмитрий Юрьевич