Научная статья на тему 'Автоматическое распознавание речи методом "дерева" на основе информационного ( r + 1) -элемента'

Автоматическое распознавание речи методом "дерева" на основе информационного ( r + 1) -элемента Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
57
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЬ / SPEECH / РЕЧЕВЫЕ СИГНАЛЫ / SPEECH SIGNALS / ЗАДАЧА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ / PROBLEM OF AUTOMATIC SPEECH RECOGNITION / РАСПОЗНАВАНИЕ ОБРАЗОВ / РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ / RECOGNITION WITH TRAINING / IMAGES' RECOGNITION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Савченко В. В.

Ставится и решается задача автоматического распознавания речевых сигналов из словарей больших объемов методом "дерева". Используются статистический подход и критерий минимального информационного рассогласования распределений по Кульбаку–Лейблеру. Предложен новый алгоритм, основанный на сведении решаемой задачи к последовательности нескольких дихотомий. Рассмотрен пример практического применения алгоритма в задаче распознавания слов-числительных. Показано, что достигаемый в алгоритме выигрыш в сложности реализации сопровождается пренебрежимо малыми потерями в точности распознавания, которые могут быть еще более ослаблены за счет использования режима переспроса.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Савченко В. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Automatic speech recognition by a method of tree on the basis of an information ( R+1)-element

It is put and solved the problem of automatic speech signals’ recognition from the dictionaries of great volumes by a method of tree. Thus the statistical approach and criteria of the minimal information mismatch of distributions on Kulbak–Leibler is used. It is offered new algorithm with realization complexity of the order logR, based on reducing of solved problem to sequence of several dichotomies. Its key part is the procedure of multi alternative signals’ recognition with training. It’s considered the example of algorithm’s practical application in a problem of words-numerals recognition. It is shown that the prize in realization complexity is accompanied by small losses in recognition accuracy which besides can be even more weakened due to use of re-ask mode.

Текст научной работы на тему «Автоматическое распознавание речи методом "дерева" на основе информационного ( r + 1) -элемента»

L. V. Krasovskaja

Dagestan state technical university

Algorithms of self-training the savvy systems on ill-defined semantic sets with imitation an work of actions

The matching procedure of the indistinctly introduced rationes in a problem medium (PM) model permitting to fulfil a unbiassed estimator of equality of the indistinctly expressed indexes and to boost reliability of matching is circumscribed. The selftraining algorithms formatted programs of expedient behaviour in different PM distinguished by cloning of trying out actions improvement on indistinct semantic networks that enables to eliminate influence of intellectual systems to a PM during study of a medium regularities are circumscribed.

Savvy systems, problem-solving ambience, ill-defined semantic network, ensemble of tops and ribs, features, therms, algorithms of self-training

Статья поступила в редакцию 5 февраля 2006 г.

УДК 621.391.2:519.72

В. В. Савченко

Нижегородский государственный лингвистический университет

Автоматическое распознавание речи методом "дерева"

на основе информационного (R +1) -элемента

Ставится и решается задача автоматического распознавания речевых сигналов из словарей больших объемов методом "дерева". Используются статистический подход и критерий минимального информационного рассогласования распределений по Кульбаку-Лейблеру. Предложен новый алгоритм, основанный на сведении решаемой задачи к последовательности нескольких дихотомий. Рассмотрен пример практического применения алгоритма в задаче распознавания слов-числительных. Показано, что достигаемый в алгоритме выигрыш в сложности реализации сопровождается пренебрежимо малыми потерями в точности распознавания, которые могут быть еще более ослаблены за счет использования режима переспроса.

Речь, речевые сигналы, задача автоматического распознавания речи, распознавание образов, распознавание с обучением

Информационный (R +1) -элемент - условный термин, обозначающий новые устройство или алгоритм для распознавания образов по выборке X из некоторого множества альтернатив {Pr}, r = 1,R [1]. В основе его функционирования используются статистический подход и критерий минимума информационного рассогласования распределений по Кульба-ку-Лейблеру. В отличие от других аналогичных алгоритмов с R выходами (R +1) -элемент имеет дополнительный (R +1) -й выход, который при распознавании образов сигнализирует об отказе одновременно от всех возможных R альтернатив. Указанная особенность может служить основой для построения принципиально новой - иерархической - структуры системы распознавания в виде "дерева" со сложностью ее реализации порядка log R .

© Савченко В. В., 2006

13

Достигаемый при этом эффект особенно актуален в задачах распознавания речи из словарей больших объемов: R >> 1, когда выполняется соотношение log R << R. Разработке и обоснованию метода "дерева" для решения таких и подобных им задач и посвящена настоящая статья.

Критерий минимума информационного рассогласования. Задача распознавания образов при статистическом подходе сводится к проверке R гипотез о законе распределения выборки [2]:

Wr : PX = Pr, r = 1R, (1)

где Pr - r-я альтернатива распределения, предполагаемая точно заданной; при этом множество альтернатив {Pr} исчерпывает собой все допустимое многообразие законов

распределения выборки X. Оптимальное в байесовском смысле решение в пользу одной из гипотез Wv, v< R основывается в общем случае на классическом критерии максимального правдоподобия:

Wv (X): Lv (X) = max Lr (X), (2)

где Lr (X) - функция правдоподобия для r-й гипотезы Wr . Предположим, что рассматри-

ваемая выборка (сигнал) X составлена из М независимых векторов (столбцов) хт, т = 1, М,

размером п > 1 каждый и подчиняется центрированному гауссовскому (нормальному) распределению. В таком случае можно записать [3]:

1пЬг (X) = -0.5М^ [1п\КГ\ + 1х(8ХК-1) + п 1п(2п)] , г = , (3)

где Кг - автоковариационная матрица (АКМ) размером (п х п) для г-й альтернативы заМ

кона распределения Рг; 8х = М^ хтхТт - выборочная оценка АКМ; |-| и 1х (•) - опреть

" т"

делитель и след квадратной матрицы соответственно; - знак транспонирования.

Выражения (2) и (3) в совокупности определяют вид оптимального алгоритма обработки наблюдений в задаче распознавания образов (1) для заданных условий. Отсюда видно, что в качестве базы априорных данных используется набор из Я альтернативных вариантов АКМ {Кг}, а обработка сводится к Я вычислениям функции правдоподобия (3) на заданном множестве АКМ с последующим сравнением полученных результатов по их значениям и выбором максимального из них. Это стандартная поисковая процедура, решаемая прямым перебором всех альтернатив. Очевидно, что сложность такой процедуры в вычислительном отношении прямо пропорциональна числу альтернатив Я Во многих прикладных задачах этим существенно ограничивается область практического применения оптимального алгоритма (2), (3). Яркий пример - задача автоматического распознавания речи в виде изолированных слов из словарей, объем которых Я »1 может достигать нескольких сотен и даже тысяч единиц [4].

Выход может быть найден в сведении поисковой процедуры (2) к иерархической структуре типа "дерево" [5] со сложностью ее реализации порядка 1о§Я. Однако такой

подход требует упорядочения набора альтернативных образов {Pr} (или {Kr}) в некотором смысле или в некоторой метрике. Здесь может быть использована, например классическая евклидова метрика, вычисляемая в отношении каждого варианта АКМ. В таком случае обработка выборки X будет состоять в поиске альтернативы Kv с минимальной

нормой Ц^х - Kv|| на множестве v< R. Очевидно, однако, что предлагаемый алгоритм

будет заведомо проигрывать по своей эффективности оптимальному (2), (3). Поэтому предпочтительнее представляется иной подход, основанный на упорядочении множества альтернативных распределений {Pr} по величине их взаимного информационного рассогласования (ИР) по Кульбаку-Лейблеру. Несмотря на то, что ИР не является метрикой в строгом смысле, предлагаемый подход имеет строгое теоретическое обоснование [3].

Утверждение 1. При введенных ранее ограничениях в задаче распознавания образов (1) критерий максимального правдоподобия в формулировке (2), (3) реализует принцип минимума информационного рассогласования (МИР) на множестве упорядоченных пар n-мерных

гауссовских распределений (Рх,Pr ), r = 1, R, с АКМ, равными Sx и Kr соответственно.

Доказательство прямо следует из сопоставления набора решающих статистик (3) с известным выражением для ИР в гауссовском случае [6]:

I (Рх/Рг ) = 0.5 [in |Kr | - ln |Sx | + tr (SXK-1) - n] > 0, (4)

которое равно нулю лишь при условии эквивалентности распределений, когда выполняется равенство Sx = Kr .

При использовании авторегрессионной (АР) модели наблюдений достаточно большого порядка (k < да) критерий МИР в соответствии с (4) может быть переписан в асимптотически эквивалентном виде [2]:

Wy (X): pv (X) = min pr (X); pr (X) = ^^ - in ^^ -1; (5)

or ar

M г / л

a2 ( x )=m-1 x [ y{mr ( X )

2

m=1

y%) (X) = aTXm; (6)

ar = о 2 Kr Г;

Gr -

_ГтK-1r] \

А

где = - символ равенства по определению; Г = со1п (1,0,..., 0) - п-мерный вектор-столбец, составленный из нулей, за исключением единицы на первой позиции. Решение принимается в пользу гипотезы (X), V < Я при условии минимизации взвешенной с коэффициентом

а-2 и смещенной на величину 1п[а?/а? (Х)] -1 выборочной дисперсии а? (X) отклика

декоррелятора у-го канала (6) на анализируемый сигнал X. Структура такого декоррелятора однозначно определяется вектором коэффициентов линейной авторегрессии ау из авторегрессионной модели у-го распределения Ру. Это стандартная формулировка метода обеляющего фильтра (МОФ) в задачах распознавания образов. Здесь в качестве базы априорных данных (или набора эталонов) используются Я векторов авторегрессии {аг} заданного порядка к < п, а также соответствующие им дисперсии порождающих процессов 2 -

аг, г = 1, Я. При этом выражение для решающей статистики (5) с точностью до постоянного коэффициента 0.5 воспроизводит в асимптотике удельную (на один отсчет данных) величину ИР эмпирического гауссовского распределения Рх = N (8Х) по Кульбаку-Лейблеру

относительно г-й его альтернативы Рг = N(Кг ), т. е. рг (X) = 2п-11 (рх|Рг )| [3].

п ^да

Преимуществом данной интерпретации критерия МИР является, прежде всего, возможность его эффективной реализации в адаптивном варианте на основе быстрых вычислительных процедур авторегрессионного анализа, таких, как метод Берга и др. [7]. В отличие от (2), (3) алгоритм (5) органично сочетается также и с предложенной ранее идеей "дерева", если рассматривать в нем решения (X) как предварительные, требующие уточнения.

Метод "дерева". Может быть предложено множество вариантов реализации рассматриваемого метода. Наиболее простой и очевидный из них - вариант бинарного "дерева", при котором поиск оптимума согласно (2) сводится к последовательности нескольких дихотомий. Рассмотрим этот вариант подробнее.

Все множество альтернативных распределений {Рг} разобьем сначала на Я2 всевозможных пар (Р, Р^), /, ] < Я, и для каждой из них вычислим удельную величину их взаимного ИР:

р (Р1/Р] ) = р} (X ) = а2 (X )/а2 + 1п [а2 /(X )] -1, (7)

где X] - п-выборка из 1-й генеральной совокупности Р. Два распределения Р0 и Ру с

максимальным значением ИР между ними

(Ре, Ру ) = Лгвшах р (Р1/Р]) (8)

образуют первый ярус, или уровень, рассматриваемого "дерева". Назовем их "вершинами" первого уровня.

Разобьем (сгруппируем) после этого элементы исходного множества {Рг} на два

подмножества по принципу их максимальной близости (по Кульбаку-Лейблеру) к одной из двух сформированных вершин:

б = {Р :р(Р/Ре)<р(Р/Ру)};

1 ; (9)

02 = {Р :Р(Ру/Ре)^Р(Ру/Ру)}.

Известия вузов России. Радиоэлектроника. 2006. Вып. 4======================================

При равенстве рассогласований р (Р/Рд) = р (Р/Ру) вершина Р\ войдет одновременно в оба множества: Ql и . Этим учитывается множественный характер каждого образа: часть его реализаций (или образцов) может оказаться ближе к вершине Рд, а другая часть - к Ру.

В пределах каждого подмножества из выражения (9) найдем следующую пару наиболее рассогласованных между собой вершин (8). В результате получим второй уровень "дерева". Затем для каждой полученной пары вершин (Р0, Ру) в пределах соответствующих множеств 01 и О? повторим процедуру группирования составляющих их распределений в два очередных подмножества (9) и определим по ним согласно (8) вершины третьего уровня. Будем так поступать до тех пор (порядка 1о§ Я раз), пока подмножества

(9) очередного уровня не выродятся каждое в одну пару распределений (Р, Р^) - "листья"

или вершины последнего уровня "дерева". На этом завершается построение "дерева" -первый (предварительный) этап обработки информации в задаче распознавания образов.

На втором - решающем этапе ищется образ Ру, наиболее подходящий для имеющейся выборки наблюдений Х в смысле (5). В процессе поиска по каждому уровню "дерева" последовательно вычисляются согласно (5) две решающие статистики: рд (X) и ру (X) относительно конкурирующих вершин Рд и Ру соответственно. Предпочтение отдается той из них, для которой значение решающей статистики меньше. Следуя выбранной "ветви" (маршруту поиска), повторяем процедуру вычислений (5) на очередном уровне "дерева" и делаем это, пока не выполнится условие "останова" [4], [5]:

Ру ( X) <Ро, (10)

где ро - некоторый пороговый (сверху) уровень для минимальной решающей статистики (МРС) из выражения (5). При этом решение принимается в пользу гипотезы , V < Я .

Нетрудно понять, что именно в формулировке правила (10) и состоит главная проблема автоматического распознавания образов методом "дерева". Отметим, что при традиционном подходе с простым перебором всех Я альтернатив указанное правило в принципе отсутствует: решения здесь всегда окончательны и принимаются в пользу одной из заданных альтернатив. Для осуществления правила останова (10) необходим алгоритм, в котором предусмотрена принципиальная возможность дополнительной альтернативы: одновременно отменяются все проверяемые гипотезы как недостаточно согласованные с имеющейся выборкой наблюдений Х.

Алгоритм именно такого рода был впервые представлен в статье [1] при решении задачи распознавания дискретных образов на основе универсального теоретико-информационного подхода.

Информационный (Я + 1) -элемент. В [1] задача (1) решалась в предположении, что в ряде случаев, например из-за влияния ошибок измерений, анализируемая выборка Х

может выходить за рамки заданного множества альтернатив {Pr}. Предложенный в ней алгоритм осуществлялся по двухэтапной схеме. Сначала по выборке Х находилось распределение Pv е {Pr} с минимальным значением ИР согласно (5), а после этого полученное предварительное решение Wv (X) проверялось на свою надежность согласно правилу (10). При этом пороговый уровень р0 определялся квантилем заданного уровня значимости а << 1 условного распределения статистики pv (X) при справедливости гипотезы Wv . При нарушении условия (10) система предлагала повторить наблюдение и вооружиться новой выборкой Х для проведения повторного анализа. Тем самым реализовалась весьма продуктивная при разных коммуникациях идея "переспроса" данных.

Применительно к гауссовской модели наблюдений (3) можно воспользоваться асимптотической (при больших объемах выборки) аппроксимацией МРС из выражения (5) случайной

-величиной (Пирсона) с m = к (к +1)/2 степенями свободы вида pv (Х)|W = by^n, где

"v

b = const - коэффициент пропорциональности [6]. В свою очередь, при достаточно большом числе степеней свободы m (наиболее типичная ситуация для практики) распределение %m хорошо аппроксимируется одномерным гауссовским законом N (m, 2m) с математическим ожиданием m и дисперсией 2m. Поэтому в первом приближении будем иметь

pv (Х)|W = bN (m, 2m) = N (in,2m2/m), где m = bm - математическое ожидание МРС из

(5) при справедливости одноименной гипотезы Wv .

Отметим важную деталь: представленная аппроксимация не зависит от номера гипотезы v . Ее параметр m нетрудно оценить на основе нескольких наблюдений в процессах обучения или настройки алгоритма (5) на заданное множество альтернатив {Pr} по стандартной формуле выборочного среднего.

Второй параметр распределения МРС - дисперсия, равная 2m2/m = 4гп2/[к (к +1)]. Она легко вычисляется по математическому ожиданию m при учете заданного порядка к авторегрессии в выражении (6). На основании этого выражения порог останова в (10) может быть записан следующим образом:

Ро = z\-iA2mVm + m , (11)

где z1-a - квантиль стандартного гауссовского распределения N (0,1) на заданном уровне значимости. Выражение (11) совместно с (5) и (10) и определяет, в конечном итоге, многошаговую процедуру поиска оптимального решения (2) в задаче распознавания образов (1) по методу "дерева".

Пример. Для иллюстрации полученных результатов рассмотрим несложную в вычислительном отношении и вместе с тем показательную и актуальную задачу автоматического распознавания десяти слов-числительных: "ноль", "один", ..., "девять" [2]. Задачи подобного рода возникают при проектировании систем голосового набора телефонного номера, управления простейшими роботами и т. д. 18

В соответствии с общей формулировкой критерия МИР (5) для каждого слова формировался рабочий массив Хг в виде последовательности эквидистантных отсчетов

х(гГ (*), * = 1, 2, ..., п; г = 1,10 сигнала на выходе микрофона. При этом использовались персональный компьютер (ПК) марки РЕКТШМ-4 и встроенный АЦП с частотой дискретизации 8 кГц, которая согласовывалась по теореме Котельникова с полосой частот телефонного канала связи. Причем каждый речевой сигнал нормировался по своей средней мощности к некоторому фиксированному уровню, а вся последующая обработка велась по слову, границы которого регулировались автоматически по амплитудному признаку.

Исследуемый алгоритм (5) был реализован в адаптивном варианте на базе стандартного программного обеспечения ПК с применением рекуррентной процедуры Берга-Левинсона [7]:

атг (г) = ат-1г (^) + Рт,гат-1г (т - г), I = 1, т; (12)

2 п-1

Рт,г = Ят-1 X пт-1 )ут-1 -1);

*=т

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 п-1 Г

-1,г=0 5 (п - т)- е 1пт-1(*)+vm-1 -1)];

*=т

Пт ) = Пт-1 ) - Рт,гvm-1 (* - 0;

Vm (*) = ^т-1 (* -1)-Рт,гПт-1 , * = 0 1 п -1

2 _(л 2 \ 2 2_о2 _7Г

ат,г - ^ — рт,г ) °т-\г; а0,г - ¿0,г, т - 1 к

при ее инициализации системой равенств У0 (*) = П0 (* -1) = ГГ (*), г = 1, Я. Финальные значения рекурсий аг = {ак г (г), г = 1, к}; = , г = 1, Я, при Я = 10 и порядке авторегрессии к = 20 определяли, в конечном счете, исходную базу априорных данных для построения "дерева" (8), (9). Экспериментальный словарь предварительно был составлен из ста различных реализаций каждого из десяти анализируемых слов-образов. В качестве их эталонов (образцов) с целью формирования базы априорных данных согласно (12) бы-

ли отобраны сигналы Хг, г = 1,10 с минимальной суммарной величиной ИР (7) в пределах одноименных множеств реализаций [2]. Одновременно с этим были получены соответствующие выбранным эталонам оценки математического ожидания величины МРС рг (Х)|ф = рг (Хг) для каждого числительного. Выяснилось, что во всех случаях при-

ближенно выполняется равенство т«0.05. А при учете равенства ^¡2т2/т =

= ^14т2/[к (к +1)] « 0.005 для уровня значимости а = 0.01 (соответствующий квантиль равен 2^99 ~ 2.33 [8]) из выражения (11) был получен пороговый уровень р0 ~ 0.06. На этом этап подготовки данных для распознавания рассматриваемых образов завершился.

i

0 1 2 3 4 5 6 7 8 9

0 0 0.87074 0.20312 2.92554 2.70468 0.97904 3.27601 1.67514 0.78375 2.51885

1 0.31091 0 0.41899 0.92448 1.03479 0.21673 0.45843 0.37508 0.36359 0.83764

2 0.26671 0.96741 0 3.52825 5.60056 1.17372 3.89897 2.28923 1.13614 4.92019

3 1.20120 0.52189 1.34264 0 0.29149 0.77889 0.43252 0.25295 0.72895 0.22623

4 0.95735 0.44249 1.06281 0.32240 0 0.57145 0.42129 0.27179 0.80889 0.06695

5 0.56497 0.24126 0.82438 0.94609 1.46002 0 0.42964 0.55738 0.71378 1.16628

6 1.17126 0.41965 0.86886 0.62636 0.55308 0.44979 0 0.33784 0.59757 0.38152

7 1.02071 0.36660 0.84549 0.24570 0.33832 0.51817 0.29398 0 0.34725 0.15781

8 0.92721 0.41340 0.52297 0.78232 0.81308 0.89260 0.63737 0.36186 0 0.65848

9 1.0582 0.50799 1.11929 0.29368 0.10736 0.56698 0.33830 0.14679 0.66576 0

На следующем этапе - построения "дерева" - сначала согласно выражению (7) по десяти отобранным эталонам была построена матрица ИР р (Pi|Pj) размером 10 х10

(таблица). С ее использованием последовательно по уровням были определены все "вершины" и "листья" "дерева" согласно (8), (9). Его граф показан на рисунке. Как видно, "дерево" имеет три уровня. Первый уровень составили слова "два" и "четыре" как наиболее рассогласованные между собой в теоретико-информационном смысле. Во второй уровень по тому же признаку среди оставшихся включены попарно слова "ноль" и "пять", а также "три" и "шесть". А пары "один" - "восемь" и "семь" - "девять" разместились в последнем, верхнем уровне "дерева".

После построения "дерева" все сто реализаций каждого числительного из экспериментального словаря (10 х100) были подвергнуты обработке и распознаванию по критерию МИР (5), (12) последовательно в каждой паре вершин "дерева". Процесс завершался в тот момент, когда выполнялось правило останова (10), или в одном из "листьев" "дерева". По результатам всей обработки были получены оценки эффективности метода "дерева", в частности, оценки вероятности ошибки при распознавании каждого слова по формуле ее относительной частоты. Показано, что даже в худшем случае - при распознавании слова "восемь" - вероятность ошибки по методу "дерева" не превышала 0.11. Отметим, что при применении оптимального алгоритма (2), (3) с полным перебором всех альтернатив вероятность ошибки была не намного лучше (порядка 0.05). Для других числительных характеристики эффективности двух систем различались в еще меньшей степени.

Модернизация "дерева". В рассмотренном примере не учитывались две возможные при распознавании речи методом "дерева" разновидности ошибок. Во-первых, это перепутывания разных слов и, во-вторых, выход в "тупик" в процессе поиска по "дереву", когда решение не фиксируется (условие (10) не выполнено) при достижении одного из его "листьев". Вторую разно-

видность ошибки можно существенно ослабить и даже полностью исключить, если предусмотреть в соответствующих случаях возможность запроса системой (5)—(11) повторного, более четкого сигнала на входе Х. По сути, речь здесь идет об интеллектуальных автоматизированных системах с переспросом. Известно [1], что переспрос - это важная составляющая большинства коммуникационных процессов и систем.

В рассмотренном примере из одиннадцати ошибок при распознавании слова "восемь" по методу "дерева" (в ста реализациях) восемь были устранены за счет однократного переспроса, когда каждый сомнительный сигнал менялся на следующую его реализацию в пределах того же экспериментального словаря.

Прямым следствием из изложенного является идея модернизации (переопределения) "дерева" в процессе его практического использования.

Предположим, что на вход подается сигнал Х, для которого поиск по "дереву" (7)-(9) не дал результата в пользу какой-либо из альтернатив {Гг }: при достижении последнего

"листа" правило останова не выполнилось. В таком случае данный сигнал должен автоматически фиксироваться в "дереве" в качестве дополнительного "листа" при условии, что его принадлежность к некоторому образу е {Гг } точно задана. В результате возникает

механизм для непрерывного накопления и модернизации базы априорных данных в форме "дерева" при распознавании образов по критерию МИР. Это весьма перспективный вариант реализации метода переопределенного словаря, который хорошо себя зарекомендовал в задачах автоматического распознавания речи.

Обсуждение результатов. Далеко не все вопросы по теории предложенного метода получили достаточное освещение в рамках проведенного исследования, что объясняется не столько ограниченными размерами статьи, сколько сложностью многих вопросов. Прежде всего, это вопросы о границах и условиях применения метода в задачах распознавания образов. До настоящего времени метод "дерева" применялся почти исключительно для поиска детерминированных объектов, а понятие "образ" в эту модель никак не укладывается. Напротив, его принципиальной особенностью является проблема вариативности реализаций (образцов) в пределах одного класса объектов. В полной мере это относится к человеческой речи [4]. Указанная проблема, безусловно, ограничивает область применения метода "дерева" по схеме (5)-(10), причем в каждом конкретном случае по-разному. Например, даже без строгого анализа ясно, что надежнее всех распознаются по выборке Х распределения {Гг },

характеризующиеся высокой степенью взаимного информационного рассогласования (7), тогда как распознавание близких в теоретико-информационном смысле распределений неизбежно сопровождается увеличением вероятности ошибочных решений. Правда, идея переспроса и в этом случае способна существенно улучшить характеристики эффективности, но только за счет применения дополнительного источника информации. Определенный оптимизм по данному поводу вызывает и следующее свойство величины ИР.

Утверждение 2. Пусть = N (^) и Гг = N (Kr ) - два гауссовских распределения вероятностей с невырожденными АКМ, равными ^ и Kr соответственно. И пусть по

выборке Х при справедливости гипотезы Wv получена оценка АКМ Кх = Kv + 5KV с отклонением (вариацией) 5KV относительно ее истинного значения. Тогда для вариации величины ИР (4) выполняется следующее соотношение:

5/ (PV / Pr ) = 0.5 tr [(K-1 - K-1) 5KV ]. (13)

Доказательство непосредственно вытекает из определения ИР по Кульбаку-Лейб-леру в гауссовском случае после применения к нему известной [9] схемы вычислений.

Из выражения (13), в частности, следует важный вывод о том, что используемый в методе "дерева" набор решающих статистик (5) в определенном смысле непрерывен относительно вариаций анализируемых сигналов в пределах каждого отдельного класса распределений Pr, r = 1, R. Причем вариация МРС от одной реализации сигнала Xv к другой существенно зависит от альтернативных распределений Pr, r ^v : чем "ближе" они находятся по своим параметрам к Pv, тем меньше вариация (13). Напомним, что именно близкие друг к другу распределения и порождают, главным образом, проблему ненадежного распознавания.

Библиографический список

1. Савченко В. В., Савченко А. В. Принцип минимального информационного рассогласования в задаче распознавания дискретных объектов // Изв. вузов России. Радиоэлектроника. 2005. Вып. 3. С. 10-18.

2. Савченко В. В. Автоматическая обработка речевых сигналов по критерию минимального информационного рассогласования на основе метода обеляющего фильтра //Радиотехника и электроника. 2005. Т. 50, № 3. С. 309-315.

3. Савченко В. В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т. 42, № 4. С. 426-431.

4. Потапова Р. К. Речь: коммуникация, информация, кибернетика: Учеб. пособие. М.: Эдиториал УРСС, 2001. 568 с.

5. Гордеев А. В., Молчанов А. Ю. Системное программное обеспечение. СПб.: Питер, 2002. 736 с.

6. Кульбак С. Теория информации и статистика. М.: Наука, 1967. 408 с.

7. Марпл С. Л. -мл. Цифровой спектральный анализ и его приложения / Пер. с англ. М.: Мир, 1990. 584 с.

8. Мюллер П., Нойман П., Шторм Р. Таблицы по математической статистике / Пер. с нем. М.: Финансы и статистика, 1982. 278 с.

9. Савченко В. В., Акатьев Д. Ю. Рекуррентное оценивание обратной корреляционной матрицы по методу минимакса энтропии // Изв. вузов. Радиоэлектроника. 1990. № 4. С. 70-73.

V. V. Savchenko

State linguistic university of Nizhny Novgorod

Automatic speech recognition by a method of tree on the basis of an information (R+1)-element

/t is put and solved the problem of automatic speech signals' recognition from the dictionaries of great volumes by a method of tree. Thus the statistical approach and criteria of the minimal information mismatch of distributions on Kulbak-Leibler is used. /t is offered new algorithm with realization complexity of the order logR, based on reducing of solved problem to sequence of several dichotomies. Its key part is the procedure of multi alternative signals' recognition with training. /t 's considered the example of algorithm's practical application in a problem of words-numerals recognition. /t is shown that the prize in realization complexity is accompanied by small losses in recognition accuracy which besides can be even more weakened due to use of re-ask mode.

Speech, speech signals, problem of automatic speech recognition, images' recognition, recognition with training

Статья поступила в редакцию 15 декабря 2005 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.