Научная статья на тему 'Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в информационной метрике Кульбака-Лейблера'

Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в информационной метрике Кульбака-Лейблера Текст научной статьи по специальности «Математика»

CC BY
91
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЬ / ФОНЕМА / ОБРАЗ / РАСПОЗНАВАНИЕ ОБРАЗОВ / РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ / КРИТЕРИЙ МИНИМУМА ИНФОРМАЦИОННОГО РАССОГЛАСОВАНИЯ / ИНФОРМАЦИОННАЯ ТЕОРИЯ ВОСПРИЯТИЯ РЕЧИ / SPEECH / PHONEME / IMAGE / RECOGNITION OF IMAGES / RECOGNITION WITH TRAINING / CRITERION OF THE INFORMATION MISMATCH MINIMUM / THE INFORMATION THEORY OF SPEECH PERCEPTION

Аннотация научной статьи по математике, автор научной работы — Савченко Владимир Васильевич

В терминах общей формулировки задачи распознавания образов и кластерной модели минимальных речевых единиц поставлена и решена задача автоматического распознавания речи на основе фонетического кодирования-декодирования слов. Предложен новый алгоритм с высокими динамическими свойствами как альтернатива большинству известных методов, объединенных общей идеей скрытых марковских моделей речевых сигналов. Даны оценки его выигрыша по вычислительной сложности, а также рекомендации по практическому применению.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Automatic recognition of speech on the basis of cluster models of speech units in the Kullba

In terms of the general formulation of a problem of recognition of images and cluster models of minimum speech units the problem of automatic recognition of speech on the basis of phonetic coding-decoding of words is put and solved. The new algorithm with high dynamic properties as alternative to the majority of the known methods united by the general idea hidden of Markov models of speech signals is offered. Estimations of its prize on computing complexity are given, recommendations about practical application are made.

Текст научной работы на тему «Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в информационной метрике Кульбака-Лейблера»

Список литературы

1. Вычислительные методы в электродинамике / под ред. Р. Митра. М.: Мир, 1977. 487 с.

2. Лерер А. М. Метод коллокации для решения интегральных уравнений трехмерной дифракции во временной области // Радиотехника и электроника. 2006. Т. 51, № 7. С. 843-846.

3. Лерер А. М., Шевченко В. Н. Повышение эффективности корабельных радиопеленгаторов методами электродинамического моделирования // Электромагнитные волны и электронные системы. 2007. № 5. С. 21-24.

4. Никольский В. В. Электродинамика и распространение радиоволн. М.: Наука, 1987. 680 с.

N. G. Parhomenko

FSUE «GKB "Sviaz"» (Rootoo-oo-Doo)

Modified physical optics method in value boundary problems for PEC bodies with complex surface shape

Modification of physical optics was created. The technique takes into account near environment of view point and multiple reflections on neighboring faces. The method was developed for improving efficiency of antenna radio systems situated at the ship body in VHF and microwaves. The technique accuracy was proven by results comparison of strict electromagnetic method and this one.

VHF, microwaves, ship, diffraction, method of physical optics

Статья поступила в редакцию 5 июля 2010 г.

УДК 621.372:519.72

В. В. Савченко

Нижегородский государственный лингвистический университет

Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в информационной метрике Кульбака-Лейблера

В терминах общей формулировки задачи распознавания образов и кластерной модели минимальных речевых единиц поставлена и решена задача автоматического распознавания речи на основе фонетического кодирования-декодирования слов. Предложен новый алгоритм с высокими динамическими свойствами как альтернатива большинству известных методов, объединенных общей идеей скрытых марковских моделей речевых сигналов. Даны оценки его выигрыша по вычислительной сложности, а также рекомендации по практическому применению.

Речь, фонема, образ, распознавание образов, распознавание с обучением, критерий минимума информационного рассогласования, информационная теория восприятия речи

Задача автоматического распознавания речи (АРР) относится к числу наиболее актуальных направлений исследований в области теоретической, и особенно в области прикладной информатики. Свой преимущественно прикладной характер данное направление приобрело лишь в последние годы в связи с ростом возможностей цифровой вычислительной техники и возобновлением интереса исследователей к идее создания интеллектуальных систем. Одновременное и повсеместное распространение новых информационных технологий стимулировало, в свою очередь, интенсивные исследования по разработке оптимальных алгоритмов АРР, нацеленных на работу в режиме реального времени. При

© Савченко В. В., 2011

9

этом предпочтение отдается адаптивным алгоритмам с высокими динамическими свойствами. С указанной точки зрения представляет несомненный интерес недавно созданная информационная теория восприятия речи (ИТВР) [1], в которой разработан специальный математический аппарат для преодоления проблемы больших речевых баз данных (РБД).

Постановка задачи. Наиболее общая формулировка задачи АРР может быть дана в терминах теории распознавания образов [2]: требуется отнести предъявляемый объект наблюдения X (в нашем случае - выборку из речи некоторого диктора) к одному из Ä > 1 классов (речевых единиц), строго говоря, заранее точно не определенных. Каждый класс характеризуется тем, что принадлежащие ему объекты (образцы речи) обладают некоей общностью, сходством. То общее, что объединяет объекты в класс, и называют образом. Иными словами, каждая конкретная речевая единица априори задается в виде ее вполне определенного образа, или набора (множества) устойчивых признаков Pr, r = 1, R. В таком случае решение рассматриваемой задачи сводится к установлению отношения эквивалентности

Px = Pv, v< R, (1)

между соответствующим набором признаков объекта наблюдения X и одного (v-го) из R образов из имеющейся в распоряжении наблюдателя РБД. Проблема состоит в том, что каждому конкретному диктору принципиально присуща известная вариативность [1], т. е. изменчивость реализации от одного произношения к другому, которая к тому же носит неопределенный, случайный характер. Решение данной проблемы обычно связывают со

статистическим подходом [3], когда в роли каждого образа Pr, r = 1, R, выступает соответствующий закон распределения многомерной выборки наблюдений из некоторой гипотетической генеральной совокупности {R'n, Pr}, где n - размерность выборки или число

используемых отсчетов речевого сигнала, а Rn - n-мерное евклидово пространство. Задача установления отношения эквивалентности общего вида (1) переходит в таком случае в задачу проверки статистических гипотез о неизвестном законе распределения. Однако здесь возникает новое препятствие, а именно проблема встречных гипотез в отношении вида каждого из R альтернативных законов [2]. Радикальное средство для ее преодоления -

восстановление неизвестного закона Pr, r = 1, R, в процессе предварительного обучения

системы АРР. Указанное обучение осуществляется в процессе обработки конечного множества образцов каждой r-й речевой единицы от одного или нескольких дикторов, принадлежность которых к заданному классу (образу) Xr, r = 1, R, заранее точно известна.

Оптимизации и обоснованию такой процедуры на базовом, фонетическом уровне обработки речевых сигналов и посвящена, главным образом, вышеупомянутая ИТВР.

Элементы ИТВР. Центральным элементом ИТВР является понятие фонемы. Под фонемой обычно понимают элементарную единицу звукового (фонетического) строя национального языка или минимальную речевую единицу (МРЕ). Причем разным национальным языкам соответствуют разные списки фонем (по составу и по количеству R их элементов), составляющие базовый уровень описания каждого языка. В подтверждение можно указать на то, что большинство современных РБД сопровождается транскрипцией речевых сигналов, т. е. их описанием через последовательность фонем.

С другой стороны, фонетический строй языка предъявляет определенные требования к его носителям, посредством которых (и только так) этот строй и реализуется в коммуникациях. Сколько носителей - столько и разных реализаций фонетического списка национального языка. В этом проявляется краеугольная проблема вариативности устной речи. Однако несмотря на существующие различия в реализациях каждой отдельной (r-й) фонемы все они воспринимаются человеком как нечто общее, иначе речь утратила бы свою информативность. Поэтому можно утверждать, что одноименные (однофонемные) реализации МРЕ xr j, j = 1, Jr, Jr >> 1, группируются в сознании человека в соответствующие классы или речевые образы Xr = {xr j }, r = 1, R, вокруг своего центра - эталонной метки данного образа. В ИТВР указанные эталоны определяются в строгом теоретико-информационном смысле [1]-[4]: речевая метка x*r е Xr преобразуется в информационный центр-эталон r-го речевого образа, если в пределах множества Xr она характеризуется минимальной суммой информационных рассогласований (ИР) по Кульбаку-Лейблеру

р (x/x*) > 0 [3] относительно всех других его меток-реализаций xr j, j = 1, Jr. По своей сути это статистический аналог центра массы физического тела.

Именно в понятии информационного центра (ИЦ) r-го множества реализаций xr дается

наиболее информативное определение соответствующей фонемы как множества однородных МРЕ, объединенных в кластер по критерию МИР вокруг своего ИЦ-эталона. А множество

всех ИЦ-эталонов {x*} определяет исчерпывающим образом фонетический состав речевого сигнала. Одновременно становится очевидным и механизм восприятия речи слушателем на фонетическом уровне. Анализируемый (входной) речевой сигнал X (t) в дискретном времени t = 0, 1, ... сначала мысленно разбивается на ряд последовательных сегментов данных x(l), l = 1, 2, ..., длиной в одну МРЕ т « 10___15 мс каждый [5]. После этого каждый полученный парциальный сигнал рассматривается в пределах конечного списка фонем {Xr} и отождествляется с той Xv из них, которая отвечает принципу минимума ИР

Р(x/xC ) = min Р(xlx*r ) (2)

r

между вектором x (l) и соответствующим ИЦ-эталоном x^, v< R.

Это стандартная формулировка критерия минимального информационного рассогласования (МИР) в задачах АРР общего вида (1) [6], [7]. Задача в общем случае сводится к двухэтапной проверке статистических гипотез. На первом этапе распознаются МРЕ типа отдельных фонем. На втором - слова, фразы и целые тексты как соответствующим образом структурированные последовательности разных фонем. Проблема состоит лишь в

способе реализации набора решающих статистик р (x/ x*), r = 1, R.

Задача первого этапа. Задача существенно упрощается, если воспользоваться гаус-совской аппроксимацией закона распределения Pr каждого r-го речевого сигнала на интервалах его квазистационарности длиной т = const в расчете на линейную авторегресси-

p

онную модель (АР-модель) общего вида xr (t) = ^ ar ixr (t -i) + n (t), t = 1, 2, ....

i=1

Указанная модель однозначно определяется своим вектором АР-коэффициентов ar = {ar i} заданного порядка p < n = Ft (F - частота дискретизации речевого сигнала), а

также дисперсией = const порождающего процесса n (t) типа белого шума (r = 1, R).

С одной стороны, АР-модель органично сочетается с голосовым механизмом человека*, с другой - существенно расширяет возможности программно-аппаратной реализации критерия МИР. В работах [4], [6] показано, что в этом случае набор оптимальных решающих статистик принимает вид

р (x/xr ) = 0.5 [aj (x)/a2r + ln (aj/ a J ) -1], r = l^R, (3)

где a^ (x) - выборочная дисперсия отклика r-го обеляющего фильтра (ОФ)

p

zr (t) = x(t)- X ar,ix(t -i), t = 1, 2, ..., n, (4)

i=1

на вектор анализируемого сигнала объема n; a^x е {aj:} - дисперсия его порождающего процесса.

Таким образом, задача первого этапа АРР сводится к АР-анализу речевого сигнала. Такая задача обычно решается с применением рекуррентных вычислительных процедур, обладающих высокой скоростью сходимости [2]. При обработке речевых сигналов значение порядкар не превышает 20.. .30 [5], что много меньше объема выборки n.

Еще одно важнейшее достоинство АР-модели (4) в задачах АРР - возможность автоматической нормировки речевых сигналов по дисперсии порождающих процессов: 2 2 2

ar = ax = a0. Применительно к речевым сигналам такая нормировка продиктована физическими особенностями голосового механизма человека: воздушный поток на входе "акустической трубы" имеет приблизительно одну и ту же интенсивность a0 = const на интервалах длительностью в целое слово или даже фразу. При учете этого предыдущий результат (3) приобретает предельно простой вид [1]:

р (x/xr ) 4 0.5 [ст? (x)/ст^ -1], r = . (5)

Это известная формулировка метода обеляющего фильтра (МОФ) [4]-[7]. Преимущества данной интерпретации критерия МИР (2) проявляются, прежде всего, в адаптивном варианте реализации МОФ на основе быстрых вычислительных процедур АР-анализа, таких как метод Берга и др. [8].

* Представляющим собой "акустическую трубу" переменного диаметра. 12

Синтез адаптивного алгоритма. На пути к практическому осуществлению решающего правила (2), (5) на подготовительном этапе обработки речи требуется установить множество всех используемых фонем {ХГ} в пределах определенного обучающего речевого материала как результат линейного членения непрерывного потока речи на квазистационарные участки или сегменты речевого сигнала х = {х^,..., хп} конечного объема п.

Указанная процедура подробно описана в работе [4]. Разработанный в ней алгоритм сводится к последовательной проверке условия об однородности распределений вектора отсчетов сигнала х в пределах очередной (текущей) МРЕ и вектора отсчетов ИЦ г-й фонемы из текущего списка {хГ}:

Зг < Я : р (х/хГ ) <р0, (6)

где ро - допустимый уровень ИР в пределах однородного множества Хг.

При нарушении условия (6) в первоначальный фонетический Я-список {хГ} добавляется дополнительная (Я +1) -я фонема хЯ+1.

Вычисления по схеме (4)-(6) повторяются циклически при переменном Я = 1, 2, ... для всех последующих сегментов речевого сигнала, причем на каждом шаге вычислений

непрерывно уточняется и содержание текущего списка ИЦ-эталонов {хГ}. В результате подготовительного этапа формируется некоторое Я-множество выявленных фонем {Хг} в качестве априорной фонетической базы данных (ФБД) для решения задачи АРР. В этом множестве каждая отдельная фонема задается вектором соответствующего ИЦ-эталона хГ.

Проведенный анализ есть статистическая оценка фонемы по выборке из речевого сигнала на конечном интервале наблюдения Т < да. Чем больше объем обучающей выборки N = Т/ т, тем в общем случае точнее формируемая оценка. В работе [9] данный вид оценок назван оценками МИР, доказана их асимптотическая оптимальность, по крайней мере, в классе гауссовских распределений. Из этого, в частности, вытекает следующее теоретическое положение.

Утверждение 1. В условиях гауссовской аппроксимации речевого сигнала эмпирический (оценочный) объем списка используемых фонем Я сходится "почти наверное" (т. е.

с вероятностью 1 при N ^ да) к искомому истинному значению Я* < да, зависящему от

установленного в выражении (6) порогового уровня ро : Я ^ Я* (ро ).

Этим формулируется известный эффект насыщения эмпирической ФБД при фонетическом анализе речи на основе кластерной модели МРЕ [6]. На практике для достижения насыщения требуется достаточно небольшой объем выборки порядка N = 10 Я. В частности, для диапазона значений Я = 50... 100 минимально необходимое значение N составляет около

104 В

пересчете к минимально необходимой длительности обучающей выборки сигнала

г V

1 2 3 4 5 6 7 32

рГУ

1 0 1.0240 14.7920 0.8948 2.7431 1.2730 0.5676 2.3144

2 0.8046 0 10.5240 1.8852 2.2442 2.6846 1.4351 3.2340

3 11.6250 9.6803 0 11.8770 6.5335 9.9982 15.9500 4.1093

4 2.0194 1.3084 21.1910 0 3.4887 0.9179 1.6385 6.9007

5 3.2819 1.8624 3.2998 7.8007 0 5.9377 6.0817 4.8477

6 7.2556 4.0163 16.0640 0.7230 2.2032 0 6.2953 5.2093

7 0.5402 0.9238 19.4950 1.3290 2.4384 1.2953 0 6.8630

8 6.9537 3.4832 0.6760 11.8100 3.3038 13.1590 13.4560 3.2085

32 2.8951 9.8587 2.7240 7.7420 9.5550 6.6670 4.5270 0

X0) получим при длительности элементарного сегмента речевого сигнала т = 5... 10 мс,

2

T < Nт = 10 с, т. е. около 1.5 мин.

Полученная оценка является важнейшей характеристикой динамических свойств

адаптивного алгоритма (4)-(6). Сформированная на его основе ФБД {х*} - главная цель этапа подготовки данных для АРР. Наиболее полной информационной характеристикой ФБД является матрица ||рг у|| с размерами RхR величин ИР рг у = р(х*/х*) между всеми парами выявленных из речевого сигнала диктора фонем. В качестве примера в таблице представлен фрагмент такой матрицы при R = 32, полученной экспериментальным путем с применением стандартных программных средств по фрагменту устной речи от диктора-мужчины при пороге ро = 0.5 [4]. Частота дискретизации АЦП составляла F = 16 кГц, длительность записи речи диктора T - около полутора минут. Зачитывался художественный текст, взятый из первой главы романа А. С. Пушкина "Капитанская дочка". Длина одного сегмента данных составила п = 80 отсчетов, или 5 мс. Для расчета коэффициентов авторегрессии в АР-модели сигнала (4) использовалась рекуррентная процедура Берга-Левинсона [8] с высокой скоростью сходимости.

Распознавание изолированных слов. Разобьем анализируемый речевой сигнал X 0) продолжительностью в отдельное слово, прошедший описанную фонетическую обработку, на последовательность квазистационарных сегментов {х1, х2, ..., х^}, хг- е {ху} одинаковой длительности т = каждый. Длина слова измеряется числом сегментов Ь. При этом некоторые фонемы в сигнале могут повторяться несколько раз (в разных его сегментах). По сути, получен последовательный фонетический код анализируемого сигнала, что и является результатом решения задачи первого этапа. На втором этапе АРР решается обратная задача фонетического декодирования слов или восстановления оригинала принятого слова по его фонетическому коду. В качестве иллюстрации на рис. 1 показаны примерные коды двух разных слов.

В задаче общего вида (1) сигналу на входе X (t) противопоставляется R аль-

Слово 1 Слово 2

* * * * *

Х5 Х5 х2 х17

* * * * * * * * *

х5 х5 х5 х1 х1 х2 х2 х17 х17

Рис. 1

тернатив из множества эталонных слов {ХГ (/)}. Каждую из них, по аналогии со словом на входе, после дискретизации (перехода к векторному описанию) предварительно разобьем на последовательность элементарных сегментов {у Г ^ у Г 2, ••■, У Г Ьг}, У Г е {х^}, в общем случае разной длины ЬГ. На первом этапе предположим, что эталон согласован по длине с анализируемым словом на входе, т. е. ЬГ = Ь. Как это показано в работе [10], в таком случае при условии статистической независимости различных сегментов {х,-} в совокупности величина ИР по Кульбаку-Лейблеру между двумя рассматриваемыми словами

р {Х/Хг ) = X р (х,-/ у Г, ,) (7)

г=1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

определится суммой Ь парциальных рассогласований на множестве одноименных сегментов. Решение при этом принимается по критерию МИР (2) в пределах ограниченного словаря эталонов {ХГ}.

Некоторые различия с задачей первого (фонетического) уровня АРР возникают лишь при учете существенно разной длины ЬГ одних и тех же слов в произношении разных

дикторов, в частности из-за разного темпа их речи. Хотя и в этом, более общем случае все принципиальные результаты предыдущего исследования: суммарная решающая статистика ИР (7), критерий МИР (2) и МОФ (4), (5), остаются в силе. На рис. 1 отображена именно такая ситуация. Во всех подобных случаях перед применением выражения (7) входной сигнал X и каждый сигнал-эталон ХГ должны быть предварительно выровнены по темпу

речи. На практике для этого применяются специальные алгоритмы динамического программирования (ДП) [7].

Вычислительная процедура ДП может быть проиллюстрирована графом на рис. 2, где линиями со стрелками представлены его ребра. На горизонтальной оси отмечены моменты дискретного времени , = 0, 1, 2, ... или номера сегментов анализируемого сигнала Х 0), по вертикали - номера сегментов слова-эталона ХГ 0) у = 0, 1, 2, ____ Каждая

вершина этого графа имеет двойную нумерацию (у) и в соответствии с ней

учитывается в итоговой длине рассматриваемого пути как соответствующая ей величина информационного расстояния р (х-1 уГ у). Оптимальному пути отвечает принцип минимальной суммарной длины. Задача состоит в поиске кратчайшего пути из начальной вершины графа в конечную вершину по направлению "слева - вверх и направо".

Итоговая длина пути имеет смысл искомой суммарной величины ИР (7) по

ьг -

Рис. 2

отношению к Г-му эталону. Применяя к ней правило принятия решения в формулировке (2), окончательно получим двухэтапный алгоритм фонетического кодирования-декодирования слов на основе МОФ (4), (5), отвечающий общесистемному критерию МИР в задаче АРР (1). Его основное преимущество перед большинством известных алгоритмов заключается в существенном выигрыше по вычислительным затратам на реализацию. При этом эффективность АРР по МОФ гарантируется на достаточно высоком уровне [10], [11].

Анализ вычислительных затрат. Основную часть вычислительных затрат в задачах АРР составляют затраты на реализацию процедуры динамического выравнивания слов по темпу речи. Например, для широкой группы современных методов АРР, объединенных общей идеей скрытых марковских моделей (СММ), эти затраты прямо пропорциональны объему вычислений дисперсии отклика обеляющего фильтра (4) в каждой из вершин графа на рис. 2 и составляют величину порядка

^СММ = Я2ЬгЬ (п - р)(р +1) = кЯ2Ь (п - р)(р +1) (8) операций умножения-деления в расчете на словарь эталонов (лексикон) из Я2 слов. Значение параметра выравнивания к = 0.1___1.0 зависит здесь от конкретного метода ДП. При

реальных значениях входящих в это выражение переменных п = 80... 120, р = 20...30 и Ь = 50... 100 получим не менее 2 млн операций на одно слово-эталон, или порядка 2 млрд операций на лексикон объемом 1000 слов. Очевидно, это чрезмерно много даже для самой современной вычислительной техники. Проблема реального времени здесь приобретает очевидное значение и практический смысл.

В отличие от СММ-методов внутрипериодная обработка речевого сигнала в системе обеляющих фильтров (4) по критерию МИР (2), (7) ограничена по своему объему размером Я списка выделенных согласно алгоритму (5)-(7) фонем {хГ} и, строго говоря, не выходит за рамки первого, фонетического этапа АРР, результат которого фиксируется в виде матрицы ИР (см. таблицу). В процессе выравнивания слов по динамике (рис. 1) внутрипе-риодная обработка не выполняется и учитывается лишь в форме матрицы ||рг у|| при вычислениях альтернативных значений (в пределах графа на рис. 2) суммарной величины ИР согласно выражению (7). В результате суммарные вычислительные затраты на АРР по МОФ с фонетическим кодированием-декодированием слов

^МОФ = ЯЬ (п - р )(р +1) (9)

сокращаются более чем на порядок по сравнению с величиной ^смм. Например, при тех

же параметрах обработки и объеме ФБД диктора Я = 100 (реальная ситуация) имеем затраты (9) порядка 20 млн операций умножения-деления на весь лексикон, или в 100 раз меньше по сравнению с (8). В общем случае достигаемый выигрыш по вычислительной сложности В = кЬЯ2/Я при применении МОФ прямо пропорционален объему используемого словаря эталонов Я2, что во многих случаях может служить гарантией реализуемости АРР в режиме реального времени.

В предложенном подходе существуют и дополнительные возможности сокращения вычислительных затрат на его реализацию, в частности, за счет модификации (сжатия) первоначального фонетического кода каждого слова-эталона путем объединения на рис. 1 всех смежных однофонемных сегментов в стационарные отрезки слов длиной в несколько т. Подробно этот вариант рассмотрен в работе [11], в том числе на конкретном примере из практики АРР. По результатам указанной работы сделан важный вывод в отношении достаточно высокой точности и надежности МОФ в задачах АРР с фонетическим кодированием-декодированием слов, что является решающим аргументом в пользу предложенного в настоячщей статье нового метода АРР.

Заключительные положения. Благодаря критерию МИР и кластерной модели МРЕ выявлены значительные возможности в отношении сокращения объема, а следовательно, и времени вычислений в задаче АРР самого общего вида. Представленный в статье подход особенно продуктивен в задачах с большими РБД, для которых до настоящего времени не создан эффективный математический аппарат обработки речевого сигнала в реальном времени. Предложенный в статье новый метод АРР на основе адаптивной кластерной модели МРЕ способен в значительной мере преодолеть указанную проблему. Вместе с тем следует иметь в виду, что далеко не все вопросы теории и практики применения нового метода обработки и модели речи получили достаточное освещение в рамках проведенного исследования, что объясняется, главным образом их сложностью. Прежде всего, это вопросы о границах и условиях оптимальности решающей статистики МИР (7). В отличие от традиционных СММ-методов слова-эталоны на рис. 1 сконструированы исключительно в сознании исследователя, т. е. принципиально искусственным путем, как структурированная соответствующим образом (под каждое отдельное слово) последовательность ИЦ-эталонов фонем. Насколько адекватна такая конструкция реальному речевому сигналу на выходе голосового тракта конкретного диктора? И нет ли здесь опасности существенных потерь полезной информации? Подобных вопросов можно задать исследователю еще множество. Однако их остроту в значительной мере ослабляет следующее утверждение.

Утверждение 2. В условиях утверждения 1 удельная (на один отсчет данных) величина информационного рассогласования по Кульбаку-Лейблеру между распределениями анализируемого сигнала X и самого близкого к нему образца в пределах г-го кластера Хг сходится "почти наверное" в асимптотике (при N ^ да) в р0 -окрестности удельной величины информационного рассогласования

Доказательство. Следуя определению информационного рассогласования Кульба-ка-Лейблера [3], после ряда преобразований получим

Р (Р) = =п-1 ц 1п \_dPx (х V ¿р; (х)] ?х (ёх)

1

сигнала X по отношению к ИЦ-эталону хГ того же кластера.

р ( Px|Рг ) = п- Ц 1п [dPX (х)/ёРг (х)] Px (ёх) = 1 {Ц1п [ dрx (х V ёр; (х)] рx (ёх)+Ц1п [ёр; (х )/ёрг (х)] рx (ёх)}

1

Учтя сходимость "почти наверное" Рг ( X ) ^ Рх(х) статистической оценки МИР к неизвестному истинному распределению сигнала на входе, перепишем последний результат следующим образом:

р (Рх /Рг ) = п-1 {Д1п [ёРх (х )/сР*г (х)] Рх (ёх) + + Ц 1п [ёР* (х)/ёРг (х)] Рх (ёх)} < р (Рх /Рг* ) + р0,

что и требовалось доказать.

Рх/P

Доказанный результат иллюстрируется диаграммой на рис. 3. Несмотря на то, что ИР по Кульбаку-Лейблеру в строгом смысле слова метрикой не является, для решающей статистики МИР (2), (5) в асимптотике правило треугольника выполняется. Отсюда, в частности, следует вывод: при выборе достаточно малого порога р0 в выражении (6) можно гарантировать достаточную малость отклонений r-й решающей Рис 3 статистики МИР в (2) относительно ее гло-

бального (на множестве х r ) минимума, что в значительной степени гарантирует достаточно высокую точность предложенного метода АРР в целом.

Таким образом, благодаря проведенному исследованию предложен новый метод АРР с широкими функциональными возможностями и высокими техническими характеристиками.

Список литературы

1. Савченко В. В. Информационная теория восприятия речи // Изв. вузов России. Радиоэлектроника. 2007. Вып. 6. С. 3-9.

2. Савченко В. В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. Т. 50, № 3. С. 309-314.

3. Кульбак С. Теория информации и статистика / пер. с англ. М.: Наука, 1967. 408 с.

4. Савченко В. В. Фонема как элемент информационной теории восприятия речи // Изв. вузов России. Радиоэлектроника. 2008. Вып. 6. С. 3-11.

5. Levinson S. C. Mathematical models for speech technology. Chichester, England: John Wiley&Sons Ltd, 2005. 261 p.

6 Савченко В. В., Акатьев Д. Ю., Карпов Н. В. Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра // Изв. вузов России. Радиоэлектроника. 2007. Вып. 4. С. 11-19.

7 Акатьев Д. Ю., Губочкин И. В., Савченко В. В. Автоматическое распознавание изолированных слов методом обеляющего фильтра с сегментированием и амплитудным ограничением сигналов переспросом // Изв. вузов России. Радиоэлектроника. 2007. Вып. 5. С. 11-18.

8. Марпл-мл. С. Л. Цифровой спектральный анализ и его приложения / пер. с англ. М.: Мир, 1990. 584 с.

9. Савченко В. В. Решение проблемы малых выборок на основе информационной теории восприятия речи // Изв. вузов России. Радиоэлектроника. 2008. Вып. 5. С. 33-44.

10. Савченко А. В. Метод направленного перебора словаря в задаче автоматического распознавания речи на основе принципа минимума информационного рассогласования // Сист. управления и информационные технологии. 2009. № 1 (35). С. 83-91.

11. Савченко В. В. Метод фонетического декодирования слов в задаче автоматического распознавания речи // Изв. вузов России. Радиоэлектроника. 2009. Вып. 5. С. 41-49.

V. V. Savchenko

Nizhny Novgorod state linguistic university

Automatic recognition of speech on the basis of cluster models of speech units in the Kullback-Leibler information metric

In terms of the general formulation of a problem of recognition of images and cluster models of minimum speech units the problem of automatic recognition of speech on the basis of phonetic coding-decoding of words is put and solved. The new algorithm with high dynamic properties as alternative to the majority of the known methods united by the general idea hidden of Markov models of speech signals is offered. Estimations of its prize on computing complexity are given, recommendations about practical application are made.

Speech, phoneme, image, recognition of images, recognition with training, criterion of the information mismatch minimum, the information theory of speech perception

Статья поступила в редакцию 6 декабря 2010 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.