Научная статья на тему 'Обнаружение и исправление ошибок в задачах автоматического распознавания речи на основе принципа минимума информационного рассогласования'

Обнаружение и исправление ошибок в задачах автоматического распознавания речи на основе принципа минимума информационного рассогласования Текст научной статьи по специальности «Математика»

CC BY
96
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЬ / РАСПОЗНАВАНИЕ РЕЧИ / ОБРАЗ / РАСПОЗНАВАНИЕ ОБРАЗОВ / КРИТЕРИЙ МИНИМУМА ИНФОРМАЦИОННОГО РАССОГЛАСОВАНИЯ / МЕТРИКА КУЛЬБАКА-ЛЕЙБЛЕРА / SPEECH / SPEECH RECOGNITION / IMAGE / RECOGNITION OF IMAGES / CRITERION OF A MINIMUM OF AN INFORMATION MISMATCH / KULLBACK-LEYBLER METRIC

Аннотация научной статьи по математике, автор научной работы — Савченко Владимир Васильевич

На основе теоретико-информационного подхода поставлена и решена задача статистической классификации речевого сигнала по конечным выборкам многомерных наблюдений в условиях априорной неопределенности. Дано обоснование критерия минимума информационного рассогласования. Разработан алгоритм с обнаружением и исправлением ошибочных решений. Рассмотрен пример его практического применения в задаче фонетического анализа речи.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Detection and correction of the errors in the tasks of automatic speech recognition on the basis of the principle of the minimum of information mismatch

On the basis of the theoretical-information approach the task of statistical classifications of a speech signal on the finite samples in the conditions of aprioristic uncertainty is delivered and resolved. The substantiation of the criterion of a minimum of an information mismatch by Kullback-Leybler is given. The algorithm with detection and correction of erratic decisions is developed. The example of its practical application in the task of the phonetic speech analysis is considered.

Текст научной работы на тему «Обнаружение и исправление ошибок в задачах автоматического распознавания речи на основе принципа минимума информационного рассогласования»

Системы телекоммуникации, устройства передачи, приема и обработки сигналов

УДК 621.372:519.72

В. В. Савченко

Нижегородский государственный лингвистический университет

Обнаружение и исправление ошибок

в задачах автоматического распознавания речи

на основе принципа минимума информационного рассогласования

На основе теоретико-информационного подхода поставлена и решена задача статистической классификации речевого сигнала по конечным выборкам многомерных наблюдений в условиях априорной неопределенности. Дано обоснование критерия минимума информационного рассогласования. Разработан алгоритм с обнаружением и исправлением ошибочных решений. Рассмотрен пример его практического применения в задаче фонетического анализа речи.

Речь, распознавание речи, образ, распознавание образов, критерий минимума информационного рассогласования, метрика Кульбака-Лейблера

Автоматическое распознавание речи (АРР) относится к числу наиболее актуальных направлений исследований в области теоретической и прикладной информатики. В рамках универсального байесовского подхода данное направление сводится к задачам распознавания образов или статистической классификации в условиях априорной неопределенности. Принцип минимума информационного рассогласования (МИР) по Кульбаку-Лейблеру [1] является одним из наиболее эффективных инструментов для их решения, что было показано, в частности в работах [2]-[4], в том числе на ряде примеров из практики АРР. В развитие такого подхода в настоящей статье рассмотрены уникальные возможности принципа МИР в отношении обнаружения и исправления отдельных ошибок при распознавании образов. Причем в отличие от предыдущих работ автора в том же направлении исследований [5], [6] в предлагаемой статье используется известное [7], [8] неметрическое свойство решающей статистики МИР - асимметрия, - которое особенно ярко проявляется в задачах АРР. Благодаря указанному свойству удалось разработать критерий с вероятностями ошибок распознавания речи, на порядок меньшими по сравнению с его аналогами.

Постановка задачи. Отталкиваясь от распространенной в задачах АРР гауссовской аппроксимации речевого сигнала [9], рассмотрим общую формулировку задачи распознавания образов. Пусть Xr ={xri, xr2, ..., xr m},, r = 1, R - набор классифицированных многомерных (размера n) повторных (объема M = const) независимых выборок xr, j = [xr, j (1), xr, j (2), ..., xr,j (n)|т из R > 2 гауссовских распределений Pr = N(Kr) с нулевым математическим ожиданием каждое и неизвестной в общем случае автоковариа-

© Савченко В. В., 2012

47

ционной матрицей (АКМ) Кг = Ех (хг уХг у) с размерами п х п, где у - номер цикла наблюдения над г-м распределением; п = 1, 2, ...; т символ транспонирования векторов; Ех - символ математического ожидания по набору выборок X. Пусть, далее, Хд - аналогичная по структуре выборка объема Мд из входного (анализируемого) процесса с неизвестным распределением Р (X }. Задача распознавания сигнала Хд сводится в таком случае к ^-альтернативной проверке статистических гипотез об этом законе распределения:

Wr : P (X) = Pr, r = 1, R. (1)

Рассмотрим задачу в наиболее простом варианте дихотомии (при R = 2 ), когда проверяется сложная гипотеза W\: P(X ) = р против сложной же альтернативы W2 : P(X ) = P> при неизвестных априори АКМ распределений Ki и K2. Воспользуемся в данном случае асимптотическим минимаксным критерием отношения правдоподобия [10]. При этом решение в пользу гипотезы W будет приниматься по выборке X = { Xi, X2, Xo} из объединенного выборочного пространства из условия

sup sup [ p

W1: (X) 4 Kl K2 ^ > 1

sup sup I p (X| W2

K1 K2

или, что эквивалентно,

p (Xo| W1) p (X1)] sup [ p (X2

sup

K1 K2

W1 (X): (X) 4 K1 --^^- > 1, (2)

sup

K2

p (Xo| W2) p (X2 )sup I p (X1)

K1

где p (Xo I Wr) - функция правдоподобия сигнала Xo при справедливости гипотезы Wr; p (Xr) - функция правдоподобия r-го сигнала; r = 1, 2; символ " 4 " обозначает равенство по определению, символ "sup" - верхнюю границу каждой функции на множестве допустимых АКМ.

Обобщенный критерий МИР. Следуя известной [3], [5] методике вычислений, при учете независимости наблюдений {xr j} в совокупности запишем систему равенств:

ln [ p (Xo/ Wr)] = -(Mo/2) [ln| Kr I + tr (So K-1) + n ln (2n)]; (3)

ln[p(Xr)] = -(Mr/2)[ln|Kr| + tr(srK-1) + nln(2n)], r = 1, 2, (4)

1 Mr т

где |Kr| - определитель матрицы Kr; Sr 4-^ xr jXr j - оценка максимального

Mr j=1

правдоподобия для АКМ Kr по выборке Xr, r = o; 2.

После ряда вычислений получим

sup ln [ p (Xr)] = -(M/ 2) [ln|Sr| + nc], r = 1, 2, (5)

Kr

где c = ln(2n) +1 = const. Здесь учтено, что верхняя граница в (4) достигается при равенстве АКМ Kr = Sr, т. е. строго в соответствии с принципом максимального правдоподобия [10]. Для всех других величин из (2) с использованием (3), (4) получим аналогично:

sup [ln p (Хо| Wr) p (Xr)] =

Kr

= - (1/2){(Mo + M) [ln | % | + n ln (2л)] + Motr (SoS-) + Mtr (SrS0r1)} =

= -[(Mo + M )/2][ln |Sor| + nc], r = 1, 2, (6)

где Sor = [Mo/(Mo + M)]So + [m/(Mo + M)]Sr - оценка максимального правдоподобия для АКМ Kr, вычисленная по объединенной выборке наблюдений Xor ={Xo,Xr} суммарного объема Mo + M.

Подставив выражения (5) и (6) в (2), после ряда преобразований запишем искомый алгоритм распознавания двух сигналов:

W1 (X): ^ (X) = -(1/2)[(Mo + M)ln|Soi| -(Mo + M)ln|So2| -Mln+ Mln|S2|] < o или в эквивалентном виде

Wi(X): Mo уo,oi + M Yioi < Mo Yo,o2 + MY2,o2, (7)

где Yk,or = o.5 tr (SfrS-)- ln |S^| + ln |Sor| - n > o - величина информационного рассогласования (ВИР) по Кульбаку-Лейблеру [i] между двумя гипотетическими гауссовскими распределениями вероятностей с АКМ, Sk и Sor соответственно.

Распространив правило (7) по индукции на случай произвольного числа альтернатив R > 2 в задаче распознавания сигналов общего вида (i), получим в результате критерий общего вида

Wv (X): (MoYo,or + MYr,or) r=v = min, r = i; R. (8)

При учете очевидных соотношений [3] Yo,or - Yo,r и Yr,or - Yr,o с равенством лишь при условии однородности анализируемой пары сигналов X o и X r в составе объединенной выборки Xor ={Xo, Xr} перепишем решающее правило (8) в его равномерно более мощном (в смысле вероятностей перепутывания сигналов) варианте:

Wv (X): (M0y0,r + Myr,0) = min, r = 1; R.

'V

При выполнении актуального для большинства задач из практики АРР равенства М0 = М окончательно имеем

д

Wv(X): Xv (X) 4 Y0 r + Yr,0

= min, r = 1; R. (9)

r=v

В (9) решение принимается с учетом минимума суммы ВИР "вперед":

Y0r = 0.5 [tr (S0S-1)-ln| S0| + ln| Sr| - n\ (10)

и "назад":

Y r ,0 = 0.5 [tr (SrS-1)- ln | Sr| + ln | S0| - n \, (11)

определенных каждое на ^-множестве пар выборочных распределений N (S0) и N (Sr),

г = 1; Я, или по принципу минимума величины информационного ненаправленного рассогласования - расхождения [1] 3(Хд, Хг) 4 0.5(у0 г + уг 0) между двумя случайными сиг-

налами Xq и Xr, r = 1; R. В этом отношении синтезированный критерий принципиальным образом отличается от своего известного прототипа [10], [11]:

Wv(X): £V(X) 4 y0,r|r = min, r = (12)

с решающей статистикой МИР "вперед" из (10). Последнее выражение можно рассматривать как частный случай критерия (9) в первоначальной формулировке, но в предположении о неограниченном увеличении объема обучающих выборок M, когда второе слагаемое в (8) Yr or — Yr r = 0, Vr < R , асимптотически стремится к нулю.

Указанное отличие критерия (9) от (12) имеет смысл лишь при условии существенной асимметрии в значениях ВИР, определенных согласно (10) и (11). Такое условие выполняется во многих задачах распознавания образов и в первую очередь в области АРР. Например при фонетическом подходе к АРР, установлено [12], что множество минимальных речевых единиц (МРЕ) рассогласовано между собой по Кульбаку-Лейблеру с разницей на порядок и более в зависимости от задаваемой направленности ВИР.

Анализ эффективности. Эффективность предлагаемого критерия в общем случае может быть охарактеризована [3]-[7] набором условных вероятностей перепутывания v-го и r-го сигналов из используемой базы априорных данных {Xr} :

av—r 4 p[wr (X)|Wv], r *v< R. На основании решающего правила (9) можно записать:

av^r = P{Y0,v+Yv,0 >Yo,r +Yr,01Wv}= P{2Yv,v >Yv,r +Yr,v}. (13)

В условиях характерной для задач АРР [11], [12] нормировки анализируемых сигналов по величине их удельной (на один отсчет данных) энтропии [1], когда выполняется

—1 I I —1 I I 2

система асимптотических равенств Vr < R : n ln |5*г| = n ln 5q = ln Gq = const с ис-

n—^^

2

пользованием известного приближения % [2] решающей статистики МИР

Yvr = 0.5n M 1gQvG—2X2V (K) —1

с K < M степенями свободы, из выражения (13) получим

av—r = P{gqXV,V > 0.5Gq,VXq,V + 0.5GV,rxV,r} =

= P {2xV,v>(1 + Pr,v )Xq,V + (1 + Pv ,r )Xv,r} , (14)

где ^ = о^о-2 -1; = о°2 -1 - удельные величины информационного рассогласования (УВИР) "вперед" и "назад" для рассматриваемой пары распределений N (5*0), N (Бг) в

асимптотике при п ^ = п_1Оо Нш Мг (Б-1) , = п_1о0 Нш М1х ()

П^ж

П^ж

- две вспомогательные переменные, смысл которых будет разъяснен далее. Тогда, пренебрегая в (14) по аналогии с [2] взаимной коррелированностью трех % -распределений, для вероятности перепутывания сигналов (13) можем записать:

av^r = P|0.5[(1+Pr,v)*T,v(1, K)+(1+Pv,r)Fv,r(1, K)]<1},

а для ее оценки "сверху" имеем

av^r ^ P{0.5max[(1 + Pv,r)Fv,r (1, K); (1 + Pr,v)Fr,v (1, K)] < 1} =

= P{f(1, K)< 1/{0.5max[(1 + Pv,r); (1 + Pr,v)]}} =

= P{F(K, 1)> 0.5max[(1 + Pv,r); (1 + Pr,v)]} =

= 1 -Фк, 1 {0.5max[(1 + Pv,r); (1 + Pr,v)]}, (15)

где Fr,v (1, K) = X2,vX-2v; F (1, K) = max [Fr,v (1, K); Fv r (1, K)] - две статистики F-рас-пределения Фишера с (1, K) степенями свободы каждая;

F (K, 1) = 1/ F (1, K) - статистики распределения Фишера с (K, 1) степенями свободы; Фk 1{ } - интегральная функция

F-распределения Фишера с (K, 1) степенями свободы. Столь значимая разница в значениях степеней свободы F-распределения в данном случае естественным образом вытекает из информационной теории восприятия речи [12] с ее когнитивной кластерной моделью МРЕ. Прямое следствие такой модели [13] - существенно неравноценные распределения

2 ,, ,, 2 одноименной статистики %v v, с одной стороны, и пары зеркальных статистик %r v,

2

Xv r - с другой, при условии, что r Ф v.

Идея асимметрии ВИР при вычислениях "вперед" (10) и "назад" (11) получила в (15) теоретическое обоснование и может быть наглядно проиллюстрирована сопоставлением с известным [2] выражением для вероятности перепутывания сигналов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

av^r =1 -ФК,1 {1 + Pr,v} (16)

в задачах АРР при применении одностороннего критерия МИР (12). Принципиальная [1] асимметрия в значениях ВИР по Кульбаку-Лейблеру "вперед" и "назад" служит в ряде случаев, в частности при условии 3v, r < R : Pv r ^ Pr v, существенному повышению надежности обобщенного (двустороннего) критерия МИР (9) по сравнению с его односторонним направленным вариантом (12).

Пример применения. Для иллюстрации сделанного вывода рассмотрим задачу АРР на базовом, фонетическом уровне. Задача состоит в выделении из потока непрерывной речи

от некоторого диктора набора используемых в ней МРЕ [7]. Это типичная задача распознавания образов. В рамках универсального байесовского подхода она обычно формулируется как задача статистической классификации в режиме "без учителя" [13]. Ее решению посвящено множество работ, при этом предпочтение в последнее время отдается теоретико-информационным моделям и методам [8], [9]. Примером могут служить информационная теория восприятия речи [11] и ее новый математический аппарат, созданный вокруг универсального принципа МИР [1] и адаптивной кластерной модели МРЕ [14]. Его эффективность была исследована, в частности в работе [3] при обосновании метода обеляющего фильтра (МОФ) и авторегрессионной (АР) модели речевого сигнала Хд некоторого фиксированного порядка р = 12...20. В рамках многомерного гауссовского распределения (4) данная модель соответствует ленточной структуре обратной АКМ Кг 1 того же порядка: р ^ п. Выражение для решающей статистики МИР (12) сводится в асимптотике к удельной величине вида

2

1 ÁF

=ÁFZ,

Р

X

m=1

1 + X ar (m) exp (- jnmf / ÁF)

1 + X ax (m) exp (-jnmf /ÁF)

"x

m =1

1^ 0, (17)

где ÁF — верхняя граница частотного диапазона в спектре речевого сигнала; f - дискретная частота; {ar (m)}, {ax (m)} - векторы АР-коэффициентов порядка р.

Это стандартная [11]-[13] формулировка МОФ в частотной области. В терминологии настоящей статьи она определяет УВИР "вперед" из выражения (10). Векторы

{ar (m)} и {ax (m)} определяются с помощью стандартных вычислительных процедур по выборкам Xr и Xo, соответственно, двух сигналов: из базы данных (под номером r) и на входе системы АРР. Аналогичным образом (меняя в подынтегральном выражении (17) местами его числитель и знаменатель) для каждой пары анализируемых сигналов {Xo, Xr} одновременно определяется и УВИР "назад" po r.

Отталкиваясь от выражений (15)-(17) и следуя известной методике вычислений [15], проведены экспериментальные исследования сравнительной эффективности двух критериев МИР в задаче фонетического анализа речи: предлагаемого обобщенного критерия (9)—(11) и одностороннего критерия (12). В обоих случаях использовались выборки Xo, Xr одинакового объема M = 120, взятые из речевого сигнала от одного диктора с частотой

дискретизации 8 кГц на интервалах его приблизительной стационарности длиной 15 мс. В этом случае число степеней свободы распределения Фишера в (15) не превышало K = M - р = 100. Полученные результаты иллюстрируются матрицей УВИР ||prv|| для четырех гласных от одного и того же диктора (таблица) (символами У1 и У2 отмечены два аллофона фонемы "У"). Хорошо видна существенная асимметрия в значениях УВИР "вперед" и "назад" - под и над главной диагональю матрицы соответственно.

2

v

r Фонема 1 2 3 4

Фонема

А У1 У2 Ы

1 А 0 86.2 130.9 12.56

2 У1 5.76 0 2.016 9.87

3 У2 13.51 2.397 0 17.12

4 Ы 8.93 50.7 99.7 0

В качестве первого примера рассмотрим пару (Xy, X2), т. е. случай, когда на

вход подается фонема "А", а решение принимается в пользу фонемы "У1". Для этого случая имеем УВИР, равную Р2 y = 5.76. По

таблицам F-распределения [15] с (100, 1) степенями свободы согласно выражению (16) вероятность перепутывания данных сигналов в рамках критерия (12) äv^r = 1-Ф100, 1 (6.76) ~ 0.30.

Ясно, что это недопустимо много для любой задачи. Иными словами, односторонний критерий МИР не обеспечивает в рассматриваемых условиях требуемую надежность распознавания речевых единиц на фонетическом уровне. Учтем при этом [2], что критерий МИР в условиях гауссовской аппроксимации речевого сигнала эквивалентен классическому критерию максимума правдоподобия [10]. Этим еще более обостряется проблема надежности АРР применительно к известным критериям. Совсем другое дело - обобщенный критерий МИР (9). В данном случае имеем max [(1 + pvr); (1 + prv)j = 1 + 86.2 =

= 87.2 и в соответствии с (15) получим ttv^r ^ 1 — Ф100 1 (43.6)~ 0.12, что, примерно, в

три раза меньше по сравнению с критерием (12). Причем с учетом известной [12] избыточности речевого сигнала этого вполне достаточно на практике для базового уровня АРР. Из той же таблицы УВИР следует, что рассмотрен довольно типичный для практики случай, в чем можно убедиться, повторив предыдущие вычисления для разных пар сигналов (X0, Xr) из таблицы УВИР. Результат каждый раз будет в пользу критерия (9).

Представляется, что в этих условиях у критерия МИР (12) нет перспектив с точки зрения его практического использования. Однако такой вывод опровергается результатами описанного далее исследования, в котором рассмотрены свойства решающей статистики МИР по обнаружению и исправлению ошибок при распознавании образов.

Критерий с обнаружением ошибок. Предположим, что при принятии решения согласно критерию (12) в определенной ситуации произошла ошибка, т. е. было принято решение X) при справедливости гипотезы Wv. Пусть, кроме того, в этой ситуации

обобщенный критерий МИР (9) гарантировал безошибочный результат: было принято решение в пользу критерия Wv. Тогда согласно выражениям (12) и (13) одновременно были выполнены два неравенства: yv v > yv ц и 2yv v < Yv ц + Уц v, что возможно лишь при условии Уц v ^ yv ц. В таком случае признаком ошибочного решения по анализируемой выборке X0 в рамках однонаправленного критерия (12) может служить неравенство общего вида Wц (X): Уц 0 ^ У0 ц, или, с некоторыми оговорками, следующее правило:

W ц( X): (1 + уц,0 )/(1 + у 0,ц)> cq, (18)

где Уо,ц=(0.5n) 1 Уо,ц, Уц,о =(0.5n) 1 Уц,о - удельные величины решающей статистики МИР "вперед" и "назад" соответственно; cq - пороговый уровень, который по аналогии с

работой [5] устанавливается в зависимости от заданной (максимально допустимой) вероятности ошибки первого рода или ложной тревоги: в 4 р{(1 + у^ )Д 1 + уо,^) > сд Щц} ^ во.

Следуя предыдущей схеме вычислений (13), (15), перепишем последнее выражение в терминах ^-распределения Фишера:

^ р{(1 + уЦ 0 )/р + у0 Ц) < С01 Wv)= р{(1 + Yv,„ V(1 + Vv) > с-1}

= р {(1+ Yц,ц)/(1 + Y 0,0 )> С0)= р {х|,|( k V%2,0 ( k )> С0)= 1 -Ф k, k ( С0 )^0

и после этого получим равенство min С0 = fk k (1 - ß0), где fk k (1 - ß0) — квантиль F-рас-

пределения Фишера [15] c (k, k) степенями свободы на уровне значимости, равном 1 -ß0.

Например при ß0 = 0.01 и k = 100, из таблиц F-распределения имеем С0 > /ю0 100 (0.99) =

= 1.59 — минимальный коэффициент асимметрии в значениях ВИР "вперед" и "назад" из выражения (9), когда принятое решение следует отвергнуть как недостаточно надежное. Таким образом, выражение (12) совместно с (18) определяет критерий МИР с обнаружением ошибок в принимаемых решениях. При этом вероятность пропуска ошибки

= Р(1)/x¡U (1) > (1 + Pv^ V(1 + p|^v) С0-1) = 1 - Ф1 1 [(1 + pv,| V(1 + p^,v) с0

,ц)/ Нц,^с0 1

зависит от решаемой задачи и, в частности, от сочетания в ней противоположных элементов рг у и ру г в пределах матрицы УВИР ||рг у||. В частности, в условиях примера из предыдущего раздела: при фонеме "А" и определенной МРЕ "У1" с использованием таблиц ^-рас-пределения [15] получим = 1

1 {[(1 + 86.2)/(1 + 5.76 )]1.59-1} = 1 -Ф1, 1 (8.11)«

« 0.21. Чем более асимметричны между собой противоположные элементы в матрице УВИР, тем легче происходит отбраковка принятых решений по соображениям их ненадежности. Этот вывод - лучшее обоснование главной идеи проведенного исследования: свойство асимметрии ВИР по Кульбаку-Лейблеру при вычислениях "вперед" (10) и "назад" (11) служит существенному увеличению эффективности критерия МИР в задачах распознавания образов в общем случае.

Обсуждение результатов. Кажется, нет существенной разницы в том, по какому критерию: (9) или (12) принято решение Щ (X) в задаче распознавания образов (1), если

они используют по существу один и тот же принцип МИР [1] и оба в равной мере обладают способностями к обнаружению ошибок. Рассмотренный пример из области АРР служит хорошей иллюстрацией изложенному, а предложенный в настоящей статье критерий отбраковки сомнительных решений (18) - первый в этом направлении весомый результат, который, по сути, уравнивает эффективность критериев (9) и (12) в задачах распознавания образов. Однако ситуация резко усложняется при неизбежном стремлении наблюдателя не только проконтролировать результат, но и, по возможности, гарантировать достаточно высокую надежность каждого принятого решения. Как выяснено в представленном материале, критерий МИР в своей первоначальной формулировке (12) содержит дополнительную важную информацию для исправления ошибочных решений. В самом деле, если то или иное решение Щ (X) будет признано ошибочным согласно (18), то простая логика [5] потребует от иссле-

дователя повторить эксперимент по схеме (1) со всеми другими, первоначально отброшенными из рассмотрения альтернативами распределений. Результат такого эксперимента

WV( X): L( X) 4 у0 r = min, (19)

V V r=v^|J.

определенный на редуцированном множестве альтернатив мощностью R -1 совместно с решающими правилами (12) и (18), определяет, в конечном итоге, критерий МИР с обнаружением и исправлением отдельных ошибок. Отталкиваясь от данного результата, можно утверждать, что при прочих равных условиях в задачах распознавания образов применение критерия МИР по Кульбаку-Лейблеру [1] существенно более обоснованно по сравнению с большинством известных критериев, таких, как максимум правдоподобия, идеального наблюдателя и др. [10], разработанных в рамках классического байесовского подхода и с применением метрики рассогласований евклидового типа.

Таким образом, благодаря проведенному исследованию не только впервые дано строгое обоснование критерия минимума информационного расхождения по Кульбаку-Лейблеру J(Xо, Xr), отсутствующее в основополагающей работе [1] одного из авторов информационной теории статистической классификации, но и одновременно разработан на его основе новый критерий МИР (12), (17)-(19) с обнаружением и исправлением ошибок в задачах распознавания образов.

Список литературы

1. Кульбак С. Теория информации и статистика / пер. с англ. М.: Наука, 1967. 408 с.

2. Савченко В. В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т. 42, № 4. С. 426-431.

3. Савченко В. В., Акатьев Д. Ю. Обнаружение разладки случайного процесса по выборке на основе принципа минимума информационного рассогласования // Автометрия. 2005. № 2. С. 68-74.

4. Савченко В. В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. Т. 50, № 3. С. 309-314.

5. Савченко В. В., Савченко А. В. Принцип минимального информационного рассогласования в задаче распознавания дискретных объектов // Изв. вузов. Радиоэлектроника. 2005. Вып. 3. С. 10-18.

6. Савченко В. В., Лукин П. Г. Метод переопределенного словаря в задачах распознавания речевых сигналов // Радиотехника и электроника. 2006. Т. 51, № 2. С. 202-206.

7. Савченко В. В., Акатьев Д. Ю., Губочкин И. В. Исследование звукового строя национального языка на основе информационной теории восприятия речи // Вестн. ННГУ им. Н. И. Лобачевского. Сер. Информационные технологии. 2010. № 3 (1). С. 215-222.

8. Свид. Роспатента о гос. рег. № 2009620512. База данных: Фонетическая база данных / В. В. Савченко, Д. Ю. Акатьев, И. В. Губочкин и др. Заявка 2009620303 от 25.05.2009.

9. Савченко В. В. Теоретико-информационное обоснование гауссовской модели сигналов в задачах автоматического распознавания речи // Изв. вузов России. Радиоэлектроника. 2008. Вып. 1. С. 24-33.

10. Боровков А. А. Математическая статистика. Дополнительные главы. М.: Наука, 1984. 615 с.

11. Савченко В. В. Информационная теория восприятия речи // Изв. вузов России. Радиоэлектроника. 2007. Вып. 6. С. 3-9.

12. Савченко В. В. Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в информационной метрике Кульбака-Лейблера // Изв. вузов России. Радиоэлектроника. 2011. Вып. 3. С. 9-19.

13. Савченко В. В., Карпов Н. В. Анализ фонетического состава речевых сигналов методом переопределенного дерева // Сист. управл. и информ. технологии. 2008. № 2(32). C. 297-303.

14. Пат. RU 80 000 U1 G01L15/00 (2006.01). Устройство для фонетического анализа речи / В. В. Савченко, Д. Ю. Акатьев. Опубл. 20.01.2009. Бюл. № 1.

15. Таблицы по математической статистике/ П. Мюллер, П. Нойман, Р. Шторм; пер. с нем.; под ред. В. М. Ивановой. М.: Финансы и статистика, 1982. 278 с.

V. V. Savchenko

The Nizhniy Novgorod state linguistic university

Detection and correction of the errors in the tasks of automatic speech recognition on the basis of the principle of the minimum of information mismatch

On the basis of the theoretical-information approach the task of statistical classifications of a speech signal on the finite samples in the conditions of aprioristic uncertainty is delivered and resolved. The substantiation of the criterion of a minimum of an information mismatch by Kullback-Leybler is given. The algorithm with detection and correction of erratic decisions is developed. The example of its practical application in the task of the phonetic speech analysis is considered.

Speech, speech recognition, image, recognition of images, criterion of a minimum of an information mismatch, Kullback-Leybler metric

Статья поступила в редакцию 25 января 2012 г.

УДК 614.2:004.75

К. М. Танобиан

Санкт-Петербургский государственный университет телекоммуникаций

им. проф. М. А. Бонч-Бруевича

I Проектирование информационных технологий государственного центра телемедицины в Кот д'Ивуаре

Представлена информационная структура государственного центра телемедицины и его основных подразделений. Описаны основные функции центра.

Телемедицина, государственный центр, информационные технологии

В последние годы локальные и глобальные информационные системы здравоохранения претерпели значительные изменения, следуя за изменениями характеристик медицинских учреждений и развитием технологий.

Первое поколение информационных систем здравоохранения решало административные задачи, представляя собой набор отдельных процедур пакетной обработки с ограниченными возможностями обмена данными. Задачи, решаемые вторым поколением информационных систем, переместились в сторону поддержки ограниченного числа мероприятий, связанных с пациентами (по учету посещений и некоторых диагностических услуг). Третье поколение, развивающееся в настоящее время, имеет задачу развития процесса интеграции, начатого вторым поколением.

Классификация и перечень телемедицинских услуг государственного центра. Разрабатываемый центр телемедицины (ЦТМ) должен иметь максимально широкий спектр оказываемых услуг, востребованных населением и специалистами. Все консультационные услуги ЦТМ можно подразделить на четыре направления: услуги домашнего врача, дистанционная поддержка операций, консультации, оказываемые медицинскими работниками, обучение и повышение квалификации медицинских работников.

Как показывает практика существующих ЦТМ [см. лит.], наиболее востребованы медицинские услуги в областях:

56 © Танобиан К. М., 2012

i Надоели баннеры? Вы всегда можете отключить рекламу.