Решение проблемы малых выборок на основе информационной теории восприятия речи

Савченко В.В.

УДК 621.372:519.72

В. В. Савченко

Нижегородский государственный лингвистический университет

I Решение проблемы малых выборок на основе информационной теории восприятия речи1

На основе теоретико-информационного подхода и ряда общих положений информационной теории восприятия речи решена проблема малых выборок. Предложена оценка минимального информационного рассогласования. Исследованы ее свойства и характеристики, рассмотрен пример практического применения. Дано обобщение оценки на произвольный закон распределения при дискретных наблюдениях.

Статистическая оценка, выборка, проблема малых выборок, критерий минимума информационного рассогласования

Характерной особенностью большинства задач статистической обработки информации является отсутствие достоверных сведений о вероятностных свойствах используемых сигналов X . Синтез оптимальных алгоритмов наталкивается в таких случаях на проблему априорной неопределенности в отношении их закона распределения вероятностей. В качестве эффективного средства ее преодоления может быть использован адаптивный байесовский подход [1], в рамках которого проблема априорной неопределенности переходит в проблему оптимальных статистических оценок. Для решения последней разработан специальный математический аппарат, основанный на ряде общих положений асимптотической теории оценивания [2]. Однако на практике часто возникают ситуации, когда асимптотически оптимальные свойства статистических оценок не могут быть реализованы в полной мере. Это справедливо, например, для задач с ограниченными объемами наблюдений, особенно при многомерных выборках, когда неопределенность наблюдений возрастает [3]. Яркий пример такого рода задач - автоматическая обработка и распознавание речи [4]. Здесь требования к точности настройки математической модели речевого сигнала вступают в противоречие с принципиально ограниченными (10...20 мс) периодами его стационарности [5]. Во всех подобных случаях говорят о проблеме малых выборок. При этом возникает задача некорректного анализа [6]: на основе ограниченных априорных данных об анализируемом сигнале требуется установить (восстановить) его строгое математическое описание.

Для решения некорректных задач обычно применяется параметрический подход с радикальным сжатием данных [7], [8]. Примером может служить гауссовская параметризация элементарных речевых единиц типа отдельных фонем в информационной теории восприятия речи (ИТВР) [9]. В ней на основе кластеризации данных по принципу минимального информационного рассогласования (МИР) впервые эффективно решена задача некорректного анализа. В развитие этой идеи и ряда общих положений ИТВР в настоящей статье даются вывод и обоснование статистических оценок распределений по критерию МИР как средства для решения проблемы малых выборок.

1 Работа выполнена при поддержке гранта РФФИ 07-07-12042-офи. © Савченко В. В., 2008

Элементы ИТВР. Речевая функция является продуктом высшей нервной деятельности человеческого организма и служит непременным условием абстрактного или образного мышления. Образ каждого явления в сознании человека сопровождается соответствующей "речевой меткой", причем в восприятии разных людей один и тот же образ имеет разные на слух речевые метки. В этом проявляется острейшая проблема вариативности устной речи. В работе [9] предложен оригинальный подход к ее решению.

Несмотря на существующие различия в одноименных метках все они воспринимаются человеком как нечто общее, иначе речь утратила бы свою информативность. Можно

поэтому утверждать, что одноименные метки-реализации x j, j = 1, J, J < да, в сознании

человека группируются в соответствующий речевой образ типа кластера однотипных сигналов. Каждый такой кластер имеет четко очерченные границы вокруг своего центра -эталонной метки данного образа. Это ключевое понятие ИТВР: речевая метка xv, v< J,

образует информационный центр-эталон x* некоторого речевого образа, если в пределах

множества одноименных его реализаций {x j} она характеризуется минимальной суммой

информационных рассогласований по Кульбаку-Лейблеру [10], т. е.

J J

x* = xv : pv = £ pv (xj ) = min £ р,- (xj ), (1)

j=1 - ~J j=1

где р,- (x j) = Wln [dPj (x )jdP, (x)J Pj (dx) - величина информационного рассогласования (ВИР) между j-м и /-м речевыми сигналами из заданного кластера.

В работе [11] показано, что для дискретных распределений вероятностей критерий МИР эквивалентен критерию максимального правдоподобия (МП), т. е. является оптимальным в байесовском смысле. Для непрерывных сигналов свойство оптимальности критерия МИР сохраняется, в частности в гауссовском семействе распределений [12]. Во многом именно поэтому в ИТВР используется гауссовская (нормальная) аппроксимация речевых сигналов Norm (K*) с нулевым математическим ожиданием и неизвестной (в общем случае) автокорреляционной матрицей (АКМ) K* с размерами n х n, n > 1. В данном случае критерий МИР (1) раскрывается следующим образом [10]:

Р (x J )

= 0.5

tr (KjK- ) - ln

KjK-

n

, U J = 1, J,

где К у - АКМ речевого сигнала ху; 1х (•) и |-| - след и определитель квадратной матрицы

с размерами пхп соответственно. При дополнительном актуальном [13] условии нормировки речевых сигналов по энтропии, когда определители всех АКМ равны некоторой константе, имеем

р,- (ху) = 0.5 [*(КуК-1) - п] 4 ру . (2)

Задача сводится, таким образом, к определению множества альтернативных АКМ в переделах рассматриваемого кластера сигналов - одной из стандартных задач математической статистики.

Оценка МИР. Пусть каждая речевая метка x j, j = 1, J, определяется вектором последовательных отсчетов {Xj (l), l = 1, L}, взятых из соответствующего речевого сигнала с

периодом т = const. Рассматривая этот сигнал в режиме "скользящего окна" длиной в n отсчетов (n « L), будем иметь (L - n) векторов-столбцов данных {xj} размером

n = const каждый. Используя формулу среднего арифметического, определим по ним выборочную оценку для АКМ моделирующего данный сигнал гауссовского распределения:

L—n _

K j 4 (L - n)—1 X x ji xj, j = 1, J,. (3)

l=1

где ^ - символ транспонирования векторов2. Подставив систему оценок (3) в выражение (2), получим в пределах кластера {xj} матрицу ВИР ||pj|| с размерами J х J. После

суммирования ее элементов по строкам

J _

X Pij = Pi, i = 1, J, (4)

j=1

найдем согласно критерию (1) информационный центр-эталон x* = xv речевого образа в явном виде. В зависимости от состава и объема множества его реализаций {x j} положение (значение) эталона будет, разумеется, меняться. Чем больше объем J, тем устойчивее и, следовательно, точнее определяются такой центр и собственно речевой образ в теоретико-информационном смысле [9]. Нетрудно увидеть в приведенных рассуждениях прямую связь между понятием информационного эталона (1) и оценкой неизвестного распределения по имеющейся выборке наблюдений.

Действительно, пусть множество рассматриваемых реализаций {xj} = Xq образует статистически однородную выборку из гауссовской генеральной совокупности P = Norm ( K ).

Назовем эту выборку объединенной выборкой суммарного объема V = JL, а каждую ее отдельную составляющую xj - соответствующей парциальной выборкой объема L,

j = 1, J. В таком случае оценка АКМ Kv, полученная по парциальной выборке xv е {xj}

из выражения (1), будет определять оптимальную по критерию МИР оценку АКМ K* и далее - оптимальную оценку неизвестного распределения в пределах гауссовской параметризации данных: P0pt = Norm (Kv).

Таким образом, в форме системы выражений (1)-(4) представлен оптимальный по критерию МИР алгоритм статистического анализа гауссовских сигналов. В отличие от большинства его известных аналогов [1], [2] обработка данных здесь осуществляется в два этапа. Сначала из объединенной выборки наблюдений отбирается одна парциальная xv

на роль информационного эталона x* анализируемого сигнала X, а затем исключительно

2 В (3) учтена центрированность сигналов на выходе речевого тракта [5], [7].

по ней строится результирующая оценка распределения Р^. Именно в выборке ху сосредоточена вся необходимая информация о сигнале. Поэтому далее под оценкой МИР понимается прежде всего решающее правило (1) для определения информационного эталона.

Предложенный алгоритм имеет множество разнообразных модификаций, главным образом, за счет применения рекуррентных вычислительных процедур корреляционно-спектрального анализа [14]. Среди них наибольший интерес представляет метод обеляющего фильтра [4], [13], основанный на авторегрессионной модели речевого сигнала [7], [8].

Пример реализации. Авторегрессионная модель (АР-модель) у'-го речевого сигнала

х

(l) = £ ajkxj (l - k) + П j (l), l = 1, 2, ... однозначно определяется своим вектором АР-ко-k=1

эффициентов a j = {ajk} заданного порядка p < n и дисперсией Gy порождающего процесса {n j (l)}, j = 1, J типа "белого" шума. С одной стороны, она органично сочетается с

голосовым механизмом человека ("акустическая труба" переменного диаметра [5]), с другой - существенно расширяет возможности программно-аппаратной реализации критерия МИР. Но главное достоинство АР-модели [13] заключается в возможности эффективной нормировки речевых сигналов по энтропии нормировкой дисперсий порождающих их процессов:

2 2

Vj <J: о j - Gq = const. Применительно к речевым сигналам такая нормировка продиктована физическими особенностями голосового механизма человека: воздушный поток на входе "акустической трубы" имеет приблизительно одну и ту же интенсивность на интервалах длительностью в целое слово или даже в целую фразу . В работе [12] показано, что в таком случае набор оптимальных решающих статистик из (1) примет элементарный вид

Рij - а2 (x j )/а2 -1 ^ j = 1J" (5) где рij = 2n~lpij - удвоенное значение удельной (на один отсчет данных) ВИР по каждой

паре рассматриваемых сигналов; аг2 (x j) - выборочная дисперсия отклика i-го обеляющего фильтра вида

p

yij (l) = Xj (l) - £ aikXj (l - k), l = 1, 2, ..., L (6)

k=1

на вектор анализируемого сигнала x j = {Xj (l)}.

Выражения (5), (6) совместно с критерием МИР (1) и определяют в конечном итоге оптимальную выборку-эталон xv на множестве альтернатив {x j}. Согласно (4) решение

принимается по признаку минимума суммы выборочных дисперсий откликов v-го обеляющего фильтра (6) на каждую парциальную выборку в отдельности, что является клас-

3 Применительно к сигналам общего вида указанная нормировка обоснована в еще большей степени требованиями в задачах статистического анализа к однородности осуществляемых наблюдений. 36

сической формулировкой метода обеляющего фильтра (МОФ) [4]. В результате задача сводится к АР-анализу каждой парциальной выборки х^ . На практике [13] она решается с

применением рекуррентных вычислительных процедур, например по методу Берга-Ле-винсона [14], с максимально высокой скоростью сходимости.

Отметим в заключение, что МОФ - не только наиболее экономный, но и весьма эффективный вариант реализации оценки МИР, при котором она характеризуется рядом замечательных свойств.

Асимптотические свойства. Перепишем выражение (4) для эталонной парциальной выборки ху в эквивалентном виде

J

Pv = I Pvj = 0.5 ¿ tr(Kjt-1)

j=l j=1L

- n

= 0.5

tr

J

I (j-1)

- Jn

= 0.5J

tr

J

J-11KjK-1

V

j=1

-n

J

j=1

= 0.5 J

tr (^ОМП Kv 1) - n_ - JрОМП v > (7)

J L - n

L-n

где £OMn = J 1X Kj = [(L - n) J] 1 ^ ^ xjlxTji = [(L - n)] 1 ^ Z КТомп (l) - оценка

j=1 j=11=1 l=1

максимального правдоподобия (ОМП) [2], [3] для АКМ К* по объединенной выборке наблюдений Xq . Отсюда следует первое утверждение.

Утверждение 1. Оценка МИР (1) при принятых допущениях о гауссовском распределении сигнала и нормировке его энтропии является оптимальной на множестве парциальных оценок (3) в смысле минимума ее ВИР (7) по отношению к ОМП.

Из него очевидным представляется следующее утверждение.

Утверждение 2. Оценка МИР в асимптотике, когда объем множества наблюдений неограниченно возрастает (J ^да), сходится "почти наверное" (п. н.) (т. е. с вероятностью, равной единице) [2] к неизвестному истинному распределению Norm (К* ).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для доказательства воспользуемся несложной импликацией из свойства [2] сильной состоятельности ОМП вида

K

п. н.

ОМП->K*=> min 2РОМП i ~ > min

i < J i'<TO

tr

(KK-) -

n

= inf

tr

(к Д-1) -

n

= 0.

Следствие. Оценка МИР дает асимптотически оптимальное решение проблемы многих (J »1) малых выборок наблюдений.

Доказанный результат имеет безусловное теоретическое значение. Однако его практическая ценность не столь очевидна. Логика подсказывает, что преимущества оценки МИР по сравнению с ОМП следует искать прежде всего в ее динамических свойствах, в частности в скорости ее сходимости к оптимальному решению при использовании конечного множества многомерных наблюдений {х^}. К сожалению, это весьма сложный во-

прос, и для ответа на него не годятся традиционные для асимптотической теории оптимальных оценок рассуждения. Поэтому воспользуемся искусственным приемом, сведя оценку МИР к дискретному процессу с конечным множеством состояний xv е {xj}.

Утверждение 3. Оценка МИР (1)-(4) одновременно является оптимальным решением задачи проверки гипотез в отношении n-мерного закона распределения вероятностей

P = Norm (Kj ), j = 1J, (8)

по объединенной выборке наблюдений Xq = {xj} суммарного объема V = JL .

Его доказательство непосредственно вытекает из сравнения выражения для минимальной решающей статистики (7) с известным [12] алгоритмом статистической классификации сигналов в формулировке, совпадающей с (8).

Последнее утверждение может служить необходимым ключом к вопросу о динамических свойствах оценки МИР.

Анализ динамических свойств. Предположим, что неизвестное истинное распределение вероятностей P = Norm (Kv) совпадает с его оценкой по некоторой парциальной выборке xv, v < J, а принятое по объединенной выборке Xq е P согласно критерию МИР (1) решение об эталоне x* = x;- ф xv ей противоречит, т. е. произошла ошибка типа пере-путывания v-го и r-го сигналов. Вероятность такой ошибки, как известно [12], равна

aiV = P {pi (x) < Pv (x)|x e Norm () } = t1 - фмм (1 + piv )], v * i < J, (9)

где P {•} - вероятность случайного события; Фмм - интегральная функция F-распре-деления Фишера с (M,M) степенями свободы, причем M < J (L - n) « V пропорциональна объему объединенной выборки. Отметим, что при любом конечном значении аргумента рiV < <х> вероятность ошибки aiV ^ Q при M ^ ю, что еще раз доказывает асимптотическую оптимальность предложенной оценки (1).

Кажется, чем меньше вероятность перепутывания (9), тем лучше. В задачах статической классификации это так, обычно, и есть. Но только не в рассматриваемом случае. Здесь каждое ошибочное решение x* = x; имеет свою цену, зависящую от его рассогласования

р iV по отношению к безошибочному решению x* = xv. В общем случае выполняется закономерность: чем больше ВИР между рассматриваемой парой сигналов, тем меньше вероятность их перепутывания, и наоборот. Например при piV = Q.1 по таблицам F-распределения

[15] получим aiV = Q.36 и Q.12 при M = 6Q и 6QQ соответственно. А при увеличении ВИР

всего лишь вдвое (piV = Q.2) ситуация меняется кардинальным образом: aiV = Q.24 и Q.Q1

при тех же значениях м . Причем среднее значение ВИР (вариация оценки МИР) ApiV = aiVp iV. Это прямой результат отображаемой в (9) возможности перепутывания оптимального эталона xv e{xj} с любой из его альтернатив, и чем меньше ее значение, тем точнее оценка МИР в каждом конкретном случае.

Следует особо указать на важные метрические свойства вариации: 0 < Apiv < ApQ. Ее верхняя граница хорошо аппроксимируется в общем случае степенной зависимостью вида Др0 « 0.6M-06. Она монотонно уменьшается до нуля при увеличении числа степеней свободы F-распределения до бесконечности. Например, при M = 60 Дро«0.051, при M = 600 Дро « 0.012, а при M = 1000 Дро « 0.009. В справедливости этого легко убедиться путем прямых вычислений вероятности ошибки (9) при разных значениях ее аргумента рiV и переменном числе степеней свободы M <ю функции F-распределения. Тем

самым доказано следующее ключевое утверждение.

Утверждение 4. Оценка МИР сходится по вероятности к гипотетическому истинному распределению P = Norm (К* ) по степенному закону, т. е. со скоростью неулучшаемо-го порядка [2], [3].

По своим динамическим свойствам оценка МИР не уступает в таком случае оценкам максимального правдоподобия. Сделанный вывод усиливается следующим наблюдением.

Следствие. Несмотря на использование в результирующей оценке МИР (1) только одной (эталонной) выборки xv ограниченного объема L <ю полезная информация суммируется в

пределах объединенной выборки Xq существенно большего объема M = J (L - n) « V » L .

Оценка МИР может собой заменить ОМП во всех тех случаях, когда парциальные выборки {x j} не отвечают требованию строгой однородности своих распределений.

Пример применения алгоритма. Рассмотрим в качестве примера задачу фонетического (звукового) анализа устной речи. Ее актуальность не вызывает сомнений в связи с широким распространением в современных информационных системах разнообразных речевых баз данных (РБД). Фонетический анализ, или выделение из речевого сигнала X определенного списка элементарных речевых единиц (ЭРЕ) типа отдельных фонем является ключевой операцией при подготовке их к практическому применению. Задача решается в несколько этапов. На первом этапе сигнал РБД суммарной длительностью T, составляющей несколько минут или часов, разбивается на короткие сегменты данных

x = (х(l), l = 0,L-1} длительностью т = 15...20 мс « T [5]. По каждому из них с использованием, например выражения (3) для выборочной АКМ К, строится статистическая оценка соответствующего закона распределения P = P (К), причем обычно применяется гауссовская параметризация сигнала P = Norm(К*) достаточно высокого порядка (n = 10...20) [7], [8].

При этом явно возникает проблема малых выборок. Например при стандартной частоте дискретизации речевого сигнала 8 кГц, объем выборки на интервалах его приблизительной стационарности т не превышает L = 150...200 отсчетов. Второй этап состоит в сопоставлении полученных оценок между собой по степени их близости друг другу и в их объединении по результатам сопоставления в несколько разных кластеров-фонем Xr, r = 1, R. В работе [16] для этих целей используется критерий МИР, причем каждая фонема Xr = {x j} представляет собой множество ЭРЕ, отвечающих ограничению сверху

Pi (x j) <Pq (1Q)

на допустимую (пороговую) величину информационного взаимного рассогласования. Чем больше порог pQ, тем более мягкими становятся требования к степени однородности распределений одноименных ЭРЕ.

На заключительном, третьем этапе вычислений по каждому множеству реализаций Xr согласно критерию МИР из (1) определяется соответствующий центр-эталон x* = xv на роль оптимальной оценки статистического описания данной фонемы. На множестве выделенных фонем {Xr} фиксируется множество эталонов {x*}, образующих фонетическую базу данных (ФБД), описывающую звуковой состав конкретного речевого сигнала. Качество такого описания зависит главным образом от свойств каждой оценки МИР x* = xv. При эффективной оценке достигается радикальное сжатие данных: объем сформированной ФБД R ^ N оказывается много меньше суммарного числа сегментов в речевом сигнале N = Цт .

С рассмотренной точки зрения представляют интерес результаты проведенных экспериментальных исследований.

Программа и результаты эксперимента. Для исследований выбран устный текст объемом в одну стандартную машинописную страницу, взятый из первой главы романа А. С. Пушкина "Капитанская дочка" и проговоренный в среднем темпе диктором-мужчиной. Из этого текста сформированы несколько речевых сигналов разной длительности от 1Q с до 1.5 мин. При принятой частоте дискретизации сигналов 8 кГц объемы N соответствующих РБД составили от 8Q до 72Q тыс. отсчетов, или от 5QQ до 45QQ сегментов данных длиной L = 16Q отсчетов каждый (2Q мс по длительности). Полученные сигналы записывались в память компьютера в виде звуковых файлов. Для этого применялась специальные программные и аппаратные средства - динамический микрофон AKG D77 S и ламповый микрофонный предусилитель ART TUBE MP Project Series USB. После этого для каждого сигнала согласно алгоритму (7) выделены множества одноименных ЭРЕ {Xr} и определены по правилу (1) их информационные эталоны {x*}. Для расчета модели авторегрессии (6) фиксированного порядка p = 2Q применялась рекуррентная процедура Берга-Левинсона [14] с предельно высокой скоростью сходимости. Полученные результаты представлены на рисунках.

На рис. 1 показаны графики зависимости объема сформированной ФБД R от объема РБД N при различных значениях порога по ВИР из выражения (1Q): pQ = 1.1 (кривая 1) и

Pq = 1.5 (кривая 2). В обоих вариантах явно присутствует эффект "насыщения": R ^ R*, где R* - верхняя граница объема ФБД. Причем этот эффект достигается тем быстрее, чем больше значение порога pQ, т. е. чем менее жесткие требования предъявляются к однородности выборочных распределений множества реализаций Xr = {x j} (1Q). Достигнутый

коэффициент сжатия данных N/R = 12...8Q свидетельствует о высокой эффективности оценки МИР при любом значении порога: на каждую отдельную фонему в среднем приходится несколько десятков ее реализаций. В этой связи обратимся к рис. 2, на котором

4Q

R

м е н

тар

WN> •■WWJ

а й а и н е

500 мс

Рис. 1 Рис. 2

представлен короткий (2 с) фрагмент анализируемого речевого сигнала "Другого ментора я и не желал". На рисунке буквами русского алфавита отмечены все используемые в данном фрагменте фонемы. Для сравнения в прямоугольники вдоль временной оси заключены сегменты речевого сигнала, соответствующие выявленным ЭРЕ при пороге ро = 1.1. Неотмеченные сегменты данных остались в данном случае неидентифицированными как недостаточно четко проговоренные диктором. Из рисунка видно, что доля пропущенных ЭРЕ не превышает (5...10) % от их суммарного числа N. Таким образом, благодаря оценке МИР практически весь речевой сигнал автоматически классифицирован и отображен по своему звуковому составу в пределах ограниченного списка фонем.

Ценность рассмотренного примера не исчерпывается его наглядностью. Второй важный момент - принципиальная сложность аппроксимации речевого сигнала, которая выходит далеко за рамки гауссовских распределений. Поэтому полученные результаты говорят об эффективности оценки МИР в широком смысле. На это же указывают и следующие теоретические результаты.

Обобщение оценки МИР. Пусть X - дискретный объект, определенный на конечном множестве своих возможных состояний {ak, k = 1, N}, распределение вероятностей

которого Р* = {pk = P (X = a )k, k = 1, N} неизвестно. Оценим данное распределение при

N

очевидных ограничениях на вероятности вида ^ pk = 1 (условие нормировки) и

k=1

Pk * 0 Vk < N (условие регулярности). Для этого воспользуемся результатами {ху, у = 1, J} нескольких парциальных наблюдений ху = {ху/, / = 1,L} объемом L каждое,

за состояниями объекта X в дискретном времени / = 1, 2, ____Основываясь на методологии

работы [11], определим по каждой парциальной выборке оценку Ру = {^д} неизвестного

I

закона распределения Р* как относительную частоту Wjk = ^ L-1/ (Ху1 - ak) состояния

/=1

л

üfc, k = 1, N, в серии из L последовательных наблюдений (I (Xji - ak) - функция единичного скачка при равенстве ее аргумента нулю). На множестве полученных оценок {Pj}

определим матрицу {aij} с размерами J х J из ВИР альтернативных распределений

N

Pij = £ Wjk log (Wjk IWjk). После суммирования ее элементов по строкам найдем соглас-k=1

но критерию (1) информационный центр-эталон в явном виде:

J J N

х* = xv : pv = £ Pvj = min £ £ wjk log (wjklwik ) • (11)

j=1 i"J j=1 k=1

При дополнительном принципиальном для оценок МИР условии нормировки парци-

N

альных выборок по энтропии: - £ Wjk log Wjk = H (X) = const Vj < J окончательно имеем:

k=1

" N

£ wjk log wvk + H (X)

к=1

N

£ wOMn к log wvk + H (X)

к=1

У У N У

Рv = Е ру = ЕЕ 1о§ ()=- Е

] =1 У =1 к=1 у=1.

N У

= - ЕЕ 1о§ ^к - УН (Х) = -У

к=1у=1

N

= Е ™ОМП к 1оВ (^ОМП к/^к ) = У РОМП V,

к=1

У _

где ^омп к — У-1 Е , к = 1, N,- ОМП [2], [3] дискретного распределения Р* по объе-

1 =1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

диненной выборке Х0 = {ху} суммарного объема V = УЬ .

Отсюда следует важный результат.

Утверждение 5. Оценка МИР в дискретном варианте (11) является оптимальной на множестве альтернативных оценок {Ру} в смысле минимума ее информационного рассогласования рОМП у по отношению к ОМП.

Сопоставив полученный результат с утверждением 1, легко увидеть полную аналогию в формулировках. Очевидным выводом из такой аналогии является следующее утверждение.

Утверждение 6. Оценка МИР в дискретном варианте (11) дает асимптотически оптимальное решение проблемы многих (случай У »1) малых выборок наблюдений при произвольном законе распределения Р*.

Его доказательство по сути не отличается от доказательства утверждения 2. Обсуждение полученных результатов. Существует сразу несколько причин [9], по которым МОФ (5), (6) и критерий МИР (1), (11) представляются более предпочтительными в задачах статистического анализа сигналов по сравнению с классическим критерием 42

======================================Известия вузов России. Радиоэлектроника. 2008. Вып. 5

МП, а также с другими методами и подходами. Во-первых, следует отметить метрические свойства статистики МИР р;- (x j ) > 0 и ее равенство нулю лишь при условии эквивалентности распределений P; = Pj . Указанные свойства имеют важное практическое значение с точки зрения надежности результирующей оценки распределения. Введя, например в оценку МИР (11), ограничение сверху на величину каждого ее слагаемого рг (xj) <ро,

получим правило "отбраковки" резко выделяющихся сомнительных выборок из имеющегося множества наблюдений {xj}. Указанная возможность подробно исследована в работе

[11], в которой впервые был предложен алгоритм с запросом на повторные наблюдения.

Во-вторых, важное преимущество МОФ - возможность автоматической классификации сигналов в процессе осуществляемого статистического анализа. Ее механизм все тот же: ограничение сверху ро на допустимый уровень отклонений статистики МИР для

близких по своему распределению сигналов. Именно такой механизм был описан в настоящей статье при рассмотрении примера применения оценки МИР. Понятие кластера данных здесь заменяет понятие статистического класса в расчете на особенность решаемой задачи - фонетический анализ речи с принципиально неоднородными сигналами xj}. Сама идея их статистического (по ансамблю реализаций) усреднения наталкивается

на ряд принципиальных препятствий. Прежде всего, это особенности речевого механизма человека. У разных людей он сильно разнится по своим параметрам, например по частотным характеристикам модели "акустической трубы". Более того, одноименные речевые метки даже от одного диктора, разнесенные между собой во времени и в пространстве, могут иметь существенно отличающиеся распределения {Pj}, чем существенно обостряется проблема малых выборок. В результате логично возникает идея объединения близких в теоретико-информационном смысле ЭРЕ в соответствующие фонемы-кластеры. Их центры-эталоны x* заменяют собой неэффективные в указанных условиях ОМП. При исчезающих же различиях в распределениях {Pj}, когда понятия кластера и статистического

класса становятся практически эквивалентными, указанные эталоны, напротив, приобретают свойства асимптотически оптимальных оценок.

Библиографический список

1. Левин Б. Р. Теоретические основы статистической радиотехники. 3-е изд. М.: Сов. радио, 1989. 656 с.

2. Ибрагимов И. А., Хасъминский Р. З. Асимптотическая теория оценивания. М.: Наука, 1979. 528 с.

3. Савченко В. В. Принцип минимакса энтропии в задачах статистических решений по ограниченным наблюдениям // Радиотехника и электроника. 1990. Т. 35, № 9. С. 1892-1899.

4. Савченко В. В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. Т. 50, № 3. С. 309-314.

5. Принципы цифровой обработки сигналов / Под ред. А. В. Оппенгейма. М.: Мир, 1980. 550 с.

6. Савченко В. В. Рекуррентный метод восстановления многомерной плотности вероятности по конечному набору априорных данных // Изв. вузов. Радиофизика. 1991. Т. 34, № 3. С. 268-273.

7. Levinson S. C. Mathematical models for speech technology. Chichester, England: John Wiley & Sons Ltd, 2005. 261 p.

Известия вузов России. Радиоэлектроника. 2008. Вып. 5======================================

8. Akatiev D. Y., Savchenko V. V. Autoregressive model for recognition of speech signals based on theoretical information approach // VI Int. congress on math. modeling, N. Novgorod, sept. 6-9 2004 г. / N. Novgorod, Univ. of N. Novgorod, 2004. P. 347.

9. Савченко В. В. Информационная теория восприятия речи // Изв. вузов России. Радиоэлектроника. 2007. Вып. 6. С. 3-8.

10. Кульбак С. Теория информации и статистика / Пер. с англ. М.: Наука, 1967. 408 с.

11. Савченко В. В., Савченко А. В. Принцип минимального информационного рассогласования в задаче распознавания дискретных объектов // Изв. вузов России. Радиоэлектроника. 2005. Вып. 3. С. 10-18.

12. Савченко В. В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т. 42, № 4. С. 426-431.

13. Савченко В. В., Акатьев Д. Ю., Карпов Н. В. Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра // Изв. вузов России. Радиоэлектроника. 2007. Вып. 4. С. 35-42.

14. Марпл С. Л. -мл. Цифровой спектральный анализ и его приложения / Пер. с англ. М.: Мир, 1990. 584 с.

15. Мюллер П., Нойман П., Шторм Р. Таблицы по математической статистике / Пер. с нем. М.: Финансы и статистика, 1982. 278 с.

16. Савченко В. В. Фонема как элемент информационной теории восприятия речи // Изв. вузов России. Радиоэлектроника. 2008. Вып. 4. С. 3-11.

V. V. Savchenko

Nizhny Novgorod state linguistic university

Decision of a small samples problem on the basis of the information theory of speech perception

On the basis of the information approach and of some general provisions of the information theory of speech perception the small samples problem is solved. The minimum information mismatches estimation is offered. Its properties and the characteristic are investigated, the practical example is considered. Generalization of the estimation on the any law of distribution in a discrete variant of supervision is given.

A statistical estimation, a sample, a small samples problem, a minimum information mismatch criterion

Статья поступила в редакцию 24 апреля 2004 г.

Решение проблемы малых выборок на основе информационной теории восприятия речи Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Савченко В. В.

Похожие темы научных работ по математике , автор научной работы — Савченко В. В.

Decision of a small samples problem on the basis of the information theory of speech perception

Текст научной работы на тему «Решение проблемы малых выборок на основе информационной теории восприятия речи»