Научная статья на тему 'Теоретико-информационное обоснование гауссовской модели сигналов в задачах автоматической обработки речи'

Теоретико-информационное обоснование гауссовской модели сигналов в задачах автоматической обработки речи Текст научной статьи по специальности «Математика»

CC BY
55
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКАЯ ОБРАБОТКА РЕЧИ / AUTOMATIC SPEECH PROCESSING / МАТЕМАТИЧЕСКАЯ МОДЕЛЬ СИГНАЛА / MATHEMATICAL MODEL OF A SPEECH / ТЕОРЕТИКО-ИНФОРМАЦИОННЫЙ ПОДХОД / THE THEORETICAL-INFORMATION APPROACH / КРИТЕРИЙ МИНИМУМА ИНФОРМАЦИОННОГО РАССОГЛАСОВАНИЯ / MINIMUM INFORMATION MISMATCH CRITERION

Аннотация научной статьи по математике, автор научной работы — Савченко В. В.

На основе вариационного подхода и натуральной параметризации данных ставится и решается задача восстановления неизвестного закона распределения речевого сигнала по первым двум его выборочным моментам. Показано, что оптимальным в теоретико-информационном смысле является многомерный гауссовский закон. Рассмотрен пример его практического применения в задаче автоматического распознавания речи. Показано, что гауссовская аппроксимация речевого сигнала гарантирует достаточно высокую вероятность безошибочного распознавания даже наиболее проблемных с точки зрения своей различимости речевых единиц.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The theoretical-information substantiation of a gaussian model of signals in a problem of automatic speech processing

A problem of restoration of the unknown speech signal’s probability distribution on its first two empirical moments is put and solved. It is shown, that the multivariate gaussian distribution is optimum in a theoretical-information sense. The example of its practical application in a problem of automatic recognition of speech is considered. It is shown, that the offered approximation of a speech signal guarantees high enough probability of correct recognition.

Текст научной работы на тему «Теоретико-информационное обоснование гауссовской модели сигналов в задачах автоматической обработки речи»

Системы телекоммуникации, устройства передачи, приема и обработки сигналов

УДК 621.372:519.72

В. В. Савченко

Нижегородский государственный лингвистический университет

Теоретико-информационное обоснование гауссовской модели сигналов в задачах автоматической обработки речи1

На основе вариационного подхода и натуральной параметризации данных ставится и решается задача восстановления неизвестного закона распределения речевого сигнала по первым двум его выборочным моментам. Показано, что оптимальным в теоретико-информационном смысле является многомерный гауссовский закон. Рассмотрен пример его практического применения в задаче автоматического распознавания речи. Показано, что гауссовская аппроксимация речевого сигнала гарантирует достаточно высокую вероятность безошибочного распознавания даже наиболее проблемных с точки зрения своей различимости речевых единиц.

Автоматическая обработка речи, математическая модель сигнала, теоретико-информационный подход, критерий минимума информационного рассогласования

Характерной особенностью большинства задач автоматической обработки речи является отсутствие достоверных сведений о статистических свойствах речевого сигнала [1]. Принятие оптимальных решений в таких условиях наталкивается на проблему априорной неопределенности. В качестве эффективного средства ее преодоления может быть использован адаптивный байесовский подход [2], в рамках которого проблема априорной неопределенности переходит в проблему встречных гипотез о неизвестном законе распределения. В свою очередь, общий подход к решению проблемы встречных гипотез в ее наиболее общем (непараметрическом) варианте основывается на положениях асимптотической теории статистического оценивания [3]. Известны два основных класса непараметрических оценок распределений [4]: ядерного типа (оценки Парзена-Розенблатта) и проекционные, причем последние, предложенные Н. Н. Ченцовым [5], характеризуются не улучшаемой по порядку скоростью сходимости. Однако на практике часто возникают ситуации, когда асимптотически оптимальные свойства известных статистических оценок не могут быть реализованы в полной мере. Это справедливо, например в задачах с ограниченным объемом наблюдений, особенно при многомерных выборках, когда неопределенность наблюдений возрастает [6]. Автоматическая обработка речи - яркий пример такого рода задач. Здесь требование к точности настройки и адекватности математической модели речевого сигнала вступает в острое противоречие с принципиально ограниченными во

1 Работа выполнена при поддержке гранта РФФИ 07-07-12042-офи.

24

© Савченко В. В., 2008

======================================Известия вузов России. Радиоэлектроника. 2008. Вып. 1

времени (15... 20 мс) интервалами его приблизительной стационарности [7]. В указанных условиях актуальной является задача некорректного анализа: на основе ограниченных сведений о речевом сигнале требуется оценить неизвестный закон его распределения по возможности с максимальной точностью. Самостоятельное значение при этом имеет оптимизация набора априорных данных в рамках используемой модели наблюдений. Довольно общий подход к формулировке и решению такой задачи с использованием идеи натуральной параметризации данных [5], [6] рассматривается в настоящей статье.

Постановка задачи. Пусть X - случайная выборка из вероятностного пространства

Rk, P} с неизвестными распределением на борелевском поле исходов P {dx} -

стью по мере Лебега f (x). В качестве наблюдения со значениями {y} из евклидова пространства Rk будем рассматривать нетривиальную статистику

Y = GX, (1)

обусловленную измеримым отображением G: R ^ Rk. Для сохранения в наблюдении всей полезной информации о выборке наложим на статистику Y естественное условие достаточности [2], [3]. В классе линейных преобразований рассматриваемый оператор G = ||Gy || - это невырожденная квадратная матрица с размерами k х k над полем вещественных чисел, а X = {X¿}, Y = {Y¿} - векторы (столбцы) размера k с координатами из R1.

При выборе априорных данных о неизвестном распределении P {dx} будем исходить, во-первых, из естественного стремления исследователя к максимальной общности формулировки задачи и, во-вторых, из возможности эффективного оценивания данных по выборкам малых объемов n < да . По-видимому, в наибольшей степени этим условиям соответствует натуральная параметризация данных, при которой используется свойство сильной состоятельности (сходимость "почти наверное" [3]) выборочных оценок неизвестных моментов распределения. В соответствии с ее общей идеей будем полагать известными и ограниченными в R1 по абсолютной величине первые два момента случайных координат многомерного наблюдения Y. В таком случае существуют интегралы

Dp (Y ) = jyj (x) f (x)dx = стг2; i = Ü, (2)

вычисленные по области определения вектора х е Rk, где = - знак равенства по определению; yo = y i - т^ - реализация центрированной случайной величины Yo = Y¡ - M p (Y¡)

(Mp (•) - символ математического ожидания).

Поставим после этого задачу восстановления неизвестной плотности вероятности f (x) по набору интегральных данных (2). Нетрудно убедиться, что в общем случае система уравнений (2) не разрешима относительно f(x). Задача, следовательно, требует доопределения. Здесь может быть предложено несколько вариантов. Например, можно ввести ограничение на гипотетическое семейство распределений {P}, сведя задачу к случаю параметрической апри-

орной неопределенности. Но этот путь нельзя признать универсальным [4]. Альтернативой параметрическому может служить вариационный подход [6], что показано на примере классической задачи проектирования [5], в которой используется информационный критерий минимального рассогласования распределений в метрике Кульбака-Лейблера [8]:

J

P*/P

] á Jlog [ f (x)/ f * (X)] f (x)dx (3)

оптимальной оценки распределения Р* {•} относительно некоторого истинного распределения. Здесь /*(х) - плотность распределения Р* О.

По аналогии с задачей проектирования применим информационный критерий к проблеме встречных гипотез. Наиболее общий результат в такой постановке дает теорема о концентрации энтропии наблюдений [9]. В соответствии с ней будем искать оценку плотности распределения из условия

Нр (X) ± -|1св [/ (х)] / (х) ёх ^ тах (4)

при ограничениях на вторые моменты вида (2). Таким образом, задача сведена к стандартной задаче вариационного исчисления. Нетрудно показать, что в данной формулировке

она имеет единственное решение /*(х).

Вспомогательные положения. Дополним задачу (2), (3) естественным условием нормировки распределения |/ (х) ёх = 1 и после этого применим к ней метод множителей Ла-

гранжа. Опустив промежуточные выкладки, запишем полученный в работе [10] результат.

Утверждение 1. На множестве линейных невырожденных преобразований (1) в условиях формулировки оптимизационной задачи (2), (4) максимальная энтропия

И*р (X, G) = 0.5log

П (neoj )/ det2 G i=1

(5)

имеет нормальный или гауссовскии закон распределения

' > к -^

det G П 2^2 exp (-0.5xjGr diag {a-2} Gx0) á fG (x) (6)

/ / ( х) =

V / I =1 с автоковариационной матрицей (АКМ)

\-1

= (оТ ^{а-2} а)" . (7)

Здесь det (•) - определитель квадратной матрицы; хо = х - О-1Мр (У); Т - операция транспонирования векторов; diag {•} - матрица, значения аргумента на главной диагонали и нули в остальных элементах.

Таким образом, решение проблемы встречных гипотез по критерию максимума энтропии (2) в условиях ограниченных априорных данных (1) приводит к гауссовскому распределению с АКМ (7), зависящей от вида используемой преобразующей матрицы при наблюдениях (1). Закономерно в таком случае возникает вопрос о выборе наилучшего преобразования О в смысле близости результирующей оценки (6) к истинной плотности

f (x). Ответ на него дает задача проектирования [5]. Однако предварительно сформулируем еще один важный результат.

Утверждение 2. В условиях ограничений оптимизационной задачи (2) информационное рассогласование по Кульбаку-Лейблеру закона максимальной энтропии (6) от неизвестного истинного распределения

J [р*/P] = Hp (X, G) - HP (X) > 0 (8)

и убывает при уменьшении максимальной энтропии (5).

Доказательство равенства (8) прямо следует из подстановки выражения (6) в определение (3).

В таком случае можно утверждать, что минимальные отличия от истинного распре*

деления имеет закон Pg с Л, соответствующий нижней границе максимальной энтропии (5). Достижение данного минимума в рамках модели наблюдений (1), (2) полностью зависит от выбора преобразующей матрицы G.

Основные результаты. Используя выражение (5), сведем задачу определения оптимальной по критерию минимума максимальной энтропии преобразующей матрицы G к вариационной задаче вида

* о

G : logdet2 G ^ max (9)

при ограничениях (2). Следуя стандартной методике решения подобных задач, сначала запишем выражение для функции Лагранжа:

Lg = log det2 G + MP (X0G T diag [Xi} GX0) = log det2 G + tr (diag [Xi} GKXXGT)

и вычислим ее вариацию [6]:

5 {Lg } = 5 {log det2 G} + 5 {tr (diag [Хг} GKxxGt )}.

Здесь Kxx - Mp (XoXj0) - автоковариационная матрица размером k x k случайной

выборки X; tr (•) - след матрицы.

Приравняв вариацию к нулю, путем несложных вычислений придем к соотношению

GKxxGT =- diag l^-1}, которое в совокупности с (2) дает систему очевидных равенств

Xj =-а-2, i = 1, k. Таким образом, окончательно получим GKxxGT = diag {аг2}, или в иных обозначениях

G * KxxG *T = Ik, (10)

где G* = diag {a-1} G* - нормированная преобразующая матрица; Ik - единичная матрица с размерами k х k .

В классе эрмитовых и положительно определенных ковариационных матриц KXX уравнение (10) совместно с (1) определяет многомерное линейное преобразование типа

декорреляции случайной выборки Х в многомерном линейном фильтре треугольной г * р—0.5

структуры С = К хх и минимальную энтропию

(2ne )k ft(a,2/G*2)

k

= 0.5log П а? + const. (11)

* ( * \ HP (х,G ) - 0.5log

_ i =1 J i =1

Таким образом, доказан следующий результат.

Утверждение 3. Оптимальное преобразование наблюдений в условиях оптимизационной задачи (1)-(9) заключается в разложении случайной выборки X в k-базисе Каруне-на-Лоэва, а соответствующая ему гауссовская плотность распределения

/*(x) = /g (x)|G=G, =[(2n)k det^xx] 0 5 exP(-0.5x0^xXxo) (12)

реализует потенциальную точность полученной оценки (6).

При неизвестной истинной АКМ Kxx для определения G* может быть использован

адаптивный подход. Его реализации различаются в основном скоростью достигаемой сходимости к оптимальному решению (12). Ниже рассматривается алгоритм с не улучшаемой по порядку скоростью сходимости.

Адаптивный алгоритм. Ограничиваясь классом треугольных матриц {G} и возвращаясь к определению оптимального преобразования G = Arg min Hр , с учетом выражения (11) приходим к вариационной задаче ПG/2 (G) ^ min при ограничениях

i

Gn = const Vi, которая сводится к k независимым задачам

G* : GiKxxßi ^ min; Gii = const; i = 1, k. (13)

Здесь вектор Gi = (0,...,0, GnGJ ) определяется i-й строкой преобразующей матрицы G с элементом Gü на главной диагонали и вектором ненулевых коэффициентов Gi. Кроме того, введем обозначение "укороченного" вектора значений центрированной выборки Xk-i = (Х0 +,...,x^ )J и после этого применим к задаче (13) метод стохастической

аппроксимации [2]. Выполнив вычисления по известной методике [6], получим систему рекуррентных уравнений в дискретном времени n = 1, 2, ...:

G i(n)=G i(n -1)-Y nx k-i(n) zi(n); (14)

zi ( n) = Gii xi (n ) + GJ (n -1) xk-i (n ), где {уn} - переменная усиления, соответствующая требованиям их сходимости с вероятностью 1. В теории упрощенных наилучших алгоритмов, например полагают уn = n = 1, 2, ....

Дополнив (14) аналогичной процедурой статистического оценивания вектора дисперсий наблюдений

а i ( n ) = a¡ ( n -1) -у

n

z2 (n )

n

(n -1)], n = 1, 2,

(15)

по определению (6) и в соответствии с адаптивным байесовским подходом получим выражение для эмпирической оценки неизвестной плотности вероятности по повторной выборке наблюдений Х^ Х2, ..., Хп :

к

¡1 (х) = (2п)~к/2 П\_Gulа1 (п)] ехр [-0.5x0ОТ (п -1)ё1ав{а-2 (п)} О(п -1)х0] , (16) 1=1

где ОТ (п) = (п), ..., ок (п)] - матрица оптимального линейного преобразования в текущем времени п = 1, 2, .... Сходимость рекурсии (16) к наилучшей оценке (12) непосредственно вытекает из свойства сходимости "почти наверное" итераций (14) и (15) к неизвестным истинным значениям.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Динамические свойства полученной оценки плотности могут быть охарактеризованы по ее кривой обучения [6]

кк

Hp (n) = 0.5logПa,2 (n) + const = 0.5logП (1 + a?/n)

i=1

i =1

const

(17)

где о. = inf oj (n); ц = const; i = 1,k . В асимптотике при n ^да кривая обучения схо-

k

дится в нижнюю точку inf Hp (n) = 0.5 log П a2 + const = 0.5 log det Kxx + const.

i=1

Таким образом, адаптивная оценка плотности вероятности (16) сходится к оптимальному решению (12) со скоростью порядка log n , что существенно лучше закона двойного логарифма в теории асимптотически оптимальных ядерных оценок [3]. Причем сходимость оценки в метрике Кульбака-Лейблера одновременно гарантирует ее сходимость и в метрике Lj [4]:

J[ fl ( x ) - f ( x )] dx < 2^1 - exp (- J [ P*/p] ) = 2

Л

1 exp

log ПП V1 + a2/n-AH (X)

i=1

где АН (X) = тГ Нр (п) - Н (X) - "приращение" энтропии сигнала Х при применении га-

уссовской модели наблюдений. Указанное приращение - своего рода плата за достигаемые преимущества в скорости сходимости адаптивной оценки (16). Чем больше величина АН (X), тем ниже потенциальная точность используемой гауссовской аппроксимации сигнала (12). Насколько ниже - ключевой вопрос теории в каждом конкретном ее приложении. К сожалению, без знания истинного распределения Р {^х} точный ответ на него дать не удается. Область автоматической обработки речи относится именно к такому случаю. Поэтому в поисках ответа на поставленный вопрос применительно к речевому сигналу воспользуемся универсальным принципом достаточной эффективности модели такого сигнала в одной из наиболее актуальных в указанной области задач.

Задача автоматического распознавания речи. Большинство современных методов автоматического распознавания речи (АРР) основывается на процедуре предварительного сегментирования сигналов на короткие отрезки данных [7]. В результате задача сводится к поэтапному распознаванию речи. На первом (базовом) этапе распознаются элементарные речевые единицы (ЭРЕ) типа отдельных фонем. На втором (заключительном) этапе распознаются слова, фразы и целые тексты как структурированные последовательности разных ЭРЕ. Таким образом, задача распознавания ЭРЕ является ключевой при АРР. Поэтому рассмотрим ее подробнее.

В рамках универсального байесовского подхода указанная задача обычно формулируется как задача Я-альтернативной статистической классификации "с учителем", где Я - объем рассматриваемого словаря. Ее решению посвящено множество работ. Одним из наиболее перспективных инструментов для решения является принцип минимума информационного рассогласования (МИР) в метрике Кульбака-Лейблера (3). Это показано, в частности в работе [1], при решении задачи распознавания речевых сигналов методом обеляющего фильтра (МОФ), отталкивающегося от авторегрессионной (АР) модели наблюдений некоторого фиксированного порядка р. В рамках многомерного гауссовского распределения (6) АР-модель соответствует ленточной структуре обратной АКМ (7) порядка к » р или ленточной треугольной структуре преобразующей матрицы О.

В общем случае распознавание ЭРЕ по МОФ сводится к следующему правилу: сначала производится параллельная обработка анализируемого сигнала Х в системе из Я настроенных на соответствующие эталоны Хг, г = 1, Я, обеляющих фильтров (14), затем их отклики сравниваются между собой, и принимается решение в пользу сигнала Ху, V < Я,

с минимальной выборочной дисперсией отклика. При к »1 и общих допущениях о свойствах ЭРЕ в условиях гауссовской аппроксимации их распределений (12) выражение для оптимальной решающей статистики МИР сводится к виду [11]:

2

Р

1 + ^ аг (т ) ехр ( - ]пт//Е ) т=1

1 F

px,r = — X F f=1

1 ^ 0, (18)

1 + ^ ах (т ) хр ( - ]пт//Е ) т=1

где ^ - верхняя граница частотного диапазона или используемого для передачи речевых сигналов канала связи; {аг (т)}, {ах (т)} - компоненты векторов размером р коэффициентов линейной среднеквадратической авторегрессии сигналов Хг и X соответственно; / - дискретная частота.

Это стандартная формулировка выборочной оценки величины информационного рассогласования (ВИР) между сигналом Х на входе и г-м сигналом из Я-словаря в частотной области [12].

2

В работе [12] кроме того показано, что эффективность МОФ зависит прежде всего от матрицы значений ВИР ||pvr|| (с размерами R х R) между рассматриваемыми гауссовски-

ми сигналами в пределах обучающего словаря. При этом вероятность перепутывания v-го и r-го сигналов определяется в первом приближении выражением

«v,r = [1 -ФL,L (1 + Pv,r )] , (19)

где ФL l - интегральная функция F-распределения Фишера с (L, L) степенями свободы, значения которой табулированы [13]. Здесь L < N - объем выборки на интервалах квазистационарности (10...20 мс) речевого сигнала. Чем больше ВИР между разными сигналами, тем меньше вероятность ошибок их распознавания. Пары ЭРЕ с номерами (v, r), для которых величина pv r минимальна, будем в дальнейшем называть проблемными парами - по признаку максимальной вероятности их перепутывания (19). Именно на таких парах сигналов должно быть сосредоточено внимание при обосновании предложенной гауссовской модели (12) в задаче АРР. Указанная логика была реализована при экспериментальных исследованиях МОФ в формулировке (18).

Для этих исследований были выбраны 20 наиболее распространенных фонем русского языка: "а", "о", "у", "э", "ш", "щ", "р", "с", "в", "з", "ж", "и", "л", " л''", "ф", "х", "ч", "е", "ы", "м". Все они последовательно во времени многократно (в разных реализациях) проговаривались группой из трех дикторов в режиме продолжительного (до 1 с), достаточно информативного звучания. Дикторы - мужчины разного возраста. Полученные сигналы с помощью стандартной аппаратуры и встроенного аналого-цифрового преобразователя (частота дискретизации 8 кГц) были записаны в память компьютера в виде звуковых файлов, при этом объем выборки N по каждой ЭРЕ устанавливался заведомо большим - порядка нескольких тысяч единиц. По каждому диктору вначале составлялся отдельный экспериментальный (рабочий) словарь (ЭС) из двадцати типичных для него эталонных

реализаций ЭРЕ: X = {Xr, r = 1,2о}. Далее по каждому сигналу ЭРЕ из ЭС рассчитывался вектор АР-коэффициентов (вначале фиксированного порядка p = 12). Для этого применялась высокоскоростная рекуррентная процедура Берга-Левинсона [14]:

am (i) = am-1 (i) + cmam-l (m - i); i = 1, m;

-2 N-1

cm = Sm-1 2 nm-1 (n) vm-1 (n -1);

n= m

2 -1 N -1 2 2

Sm-1 = 0.5 (n - m) Z |_nm-i(n) + vm-1 (n - DJ; (20)

Пт (n) = Пт-1 (n) - cmvm-1 (n -0;

vm (n) = v m-1 (n -1) - cmnm-1 (n), n = 0, 1, ..., N -1;

2 Л 2 \ 2 2 о2 ~Л—

аш = I1 -Сш^ш-Ъ а0 = ¿о; т = 1,Р при ее инициализации системой равенств У г = 1, Я: Уо (п) = По(п -1) = Хг (п); п = 0, 1, .... Финальные значения рекурсий (20) при т = р и определяли в конечном счете базу априор-

n = m

Известия вузов России. Радиоэлектроника. 2008. Вып. 1======================================

ных данных в задаче АРР по критерию МИР. По этим векторам были настроены на параллельную обработку входного сигнала Х 20 линейных (трансверсальных) обеляющих фильтров одинакового порядка р. С их помощью при равенстве X = Xv, v < R, согласно выражению (18) рассчитывалась матрица ВИР размером 20*20. Ее фрагмент для первого диктора представлен в виде таблицы, где каждый столбец соответствует обеляющему фильтру, настроенному на сигнал Xr , а каждая строка - входному сигналу Xv. Нулевые значения ВИР

в таблице - признак эквивалентности сигналов в теоретико-информационном смысле. Проблемные пары шумоподобных ЭРЕ выделены в таблице полужирным шрифтом.

Из таблицы следует, что даже в худшем случае ВИР находится в пределах 0.12...0.20, причем полученный результат практически не зависит от диктора и реализации ЭРЕ. При увеличении порядкар до 20.30 минимальное значение ВИР возрастает до 0.20.0.30. Подставив полученные значения в выражение (20) при типичном для АРР числе степеней свободы L = 50.100, по таблицам F-распределения найдем, что максимальная вероятность перепутывания ЭРЕ в реальных условиях не превышает 0.10.0.15. Это весьма хороший результат, если учесть, что при распознавании слитной речи в виде последовательности слов или фраз допускается перепутывание значительной части их фонем при безошибочном распознавании каждого слова в целом.

Таким образом, обоснованием формулировки (1)-(9) задачи непараметрического оценивания многомерной плотности вероятности могут служить условия ограниченного доступа к полезной информации во многих прикладных задачах. Например, это задачи связи, локации, в которых проблема априорной неопределенности не только естественна, но и имеет часто организованный характер. Для них информация о среднем и мощности наблюдаемого процесса является иногда единственно надежной информацией, которую удается извлечь из выборки ограниченного объема. Состоятельность этой информации при произвольном законе распределения может служить гарантией асимптотической оптимальности адаптивной оценки распределения (16) в теоретико-информационном смысле.

Наилучшие результаты предложенный подход дает для многомерных выборок из нормальной генеральной совокупности. В этих условиях достигается асимптотически точное решение проблемы встречных гипотез. Во всех других ситуациях адаптивная оценка плотности (16) определяет ортопроекцию неизвестного закона распределения на парамет-

Входной сигнал Настройка обеляющих фильтров

а ш щ в з л' ф ч

щ 95.72 4.281 0 22.73 6.161 18.90 9.157 0.126

р 2.908 3.787 28.88 0.839 0.812 5.672 0.527 32.57

с 21.09 0.448 2.815 30.58 5.916 38.35 6.888 3.002

в 1.485 4.832 27.23 0 0.745 3.342 0.308 33.86

з 8.092 1.816 8.948 1.198 0 2.539 0.265 9.549

ж 65.76 0.511 2.737 11.81 1.778 8.652 4.788 3.556

и 49.00 6.165 16.49 6.537 4.039 6.970 4.258 26.24

л 1.312 10.85 40.62 0.977 2.598 15.03 1.716 46.59

л' 26.60 3.664 15.65 2.978 1.451 0 1.719 21.64

ф 2.610 2.685 11.95 0.378 0.139 2.661 0 13.88

х 2.177 6.586 31.44 1.017 0.861 5.284 0.597 31.13

ч 106.7 3.491 0.207 52.21 12.48 53.12 16.16 0

рическое гауссовское семейство распределений. При этом скорость сходимости полученной оценки имеет порядок log n, что намного лучше закона "двойного логарифма" в теории асимптотически оптимальных оценок плотностей. Разумеется, данное преимущество можно считать существенным лишь при конечных (малых) интервалах наблюдения.

Большинство задач в области АРР относится именно к такому случаю. Рассмотренный эффект в них еще более усиливается при учете широкого распространения в задачах АРР обработки сигналов в частотной области [7], когда порядок используемых момент-ных функций принципиально ограничен значением 2. В указанных условиях гауссовский закон (12) гарантирует минимальную степень произвола исследователя при выборе вероятностной модели речевого сигнала.

Библиографический список

1. Савченко В. В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. Т. 50, № 3. С. 309-314.

2. Левин Б. Р. Теоретические основы статистической радиотехники. 3-е изд. перераб. и доп. М.: Сов. радио, 1989. 656 с.

3. Ибрагимов И. А., Хасъминский Р. З. Асимптотическая теория оценивания. М.: Наука, 1979. 528 с.

4. Деврой Л., Дьерфи Л. Непараметрическое оценивание плотностей: Ь\ -подход / Пер. с англ. М.: Мир, 1988. 408 с.

5. Ченцов Н. Н. Статистические решающие правила и оптимальные выводы. М.: Наука, 1972. 520 с.

6. Савченко В. В. Принцип минимакса энтропии в задачах статистической классификации// Изв. вузов. Радиоэлектроника. 1990. Т. 33, № 12. С. 35-39.

7. Levinson S. C. Mathematical models for speech technology. Chichester, England: John Wiley & Sons Ltd, 2005. 261 p.

8. Кульбак С. Теория информации и статистика / Пер. с англ. М.: Наука, 1967. 408 с.

9. Тарасенко Ф. П. Введение в курс теории информации. Томск: Изд-во Томск. гос. ун-та, 1968. 240 с.

10. Савченко В. В. Принцип минимакса энтропии в задачах статистических решений по ограниченным наблюдениям // Радиотехника и электроника. 1990. Т. 35, № 9. С. 1892-1899.

11. Савченко В. В., Акатьев Д. Ю., Карпов Н. В. Автоматическое распознавание речевых единиц методом обеляющего фильтра // Изв. вузов России. Радиоэлектроника. 2007. Вып. 4. С. 35-42.

12. Савченко В. В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т. 42, № 4. С. 426-431.

13. Мюллер П., Нойман П., Шторм Р. Таблицы по математической статистике / Пер. с нем. М.: Финансы и статистика, 1982. 278 с.

14. Марпл С. Л.-мл. Цифровой спектральный анализ и его приложения / Пер. с англ. М.: Мир, 1990. 584 с.

V. V. Savchenko

Nizhny Novgorod state linguistic university

The theoretical-information substantiation of a gaussian model of signals in a problem of automatic speech processing

A problem of restoration of the unknown speech signal's probability distribution on its first two empirical moments is put and solved. It is shown, that the multivariate gaussian distribution is optimum in a theoretical-information sense. The example of its practical application in a problem of automatic recognition of speech is considered. It is shown, that the offered approximation of a speech signal guarantees high enough probability of correct recognition.

Automatic speech processing, mathematical model of a speech, the theoretical-information approach, minimum information mismatch criterion

Статья поступила в редакцию 23 ноября 2007 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.