Научная статья на тему 'Метод фонетического декодирования слов в задаче автоматического распознавания речи на основе принципа минимума информационного рассогласования'

Метод фонетического декодирования слов в задаче автоматического распознавания речи на основе принципа минимума информационного рассогласования Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
97
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ / РАСПОЗНАВАНИЕ ОБРАЗОВ / РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ / КРИТЕРИЙ МИНИМУМА ИНФОРМАЦИОННОГО РАССОГЛАСОВАНИЯ / ИНФОРМАЦИОННАЯ ТЕОРИЯ ВОСПРИЯТИЯ РЕЧИ / AUTOMATIC SPEECH RECOGNITION / IMAGES RECOGNITION / RECOGNITION WITH TRAINING / CRITERION OF A MINIMUM OF AN INFORMATION MISMATCH / INFORMATION THEORY OF SPEECH PERCEPTION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Савченко Владимир Васильевич

Поставлена и решена задача автоматического распознавания речи на основе принципа минимума информационного рассогласования. Предложен новый метод фонетического декодирования слов как альтернатива большинству известных методов, базирующихся на скрытых марковских моделях речевых сигналов. Метод основан на редукции данных при отображении отдельных слов последовательностью элементарных речевых единиц типа фонем. При этом отпадает необходимость в многозатратной вычислительной процедуре динамического выравнивания слов по темпу речи. Достигнутый эффект состоит в многократном (на порядок и более) сокращении объема вычислений в задачах автоматического распознавания речи и пропорциональном увеличении скорости обработки речевого сигнала. Выводы подтверждены результатами экспериментальных исследований.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Савченко Владимир Васильевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Words phonetic decoding method in a problem of speech automatic recognition on the basis of information mismatch minimum principle

The problem of automatic recognition of speech on the basis of a principle of a minimum of an information mismatch is put and dares. The new method of phonetic decoding of words as alternative to the majority of the known methods based on hidden Markov models of speech signals is offered. In its basis the idea of a reduction of the data is used at display of separate words by sequence of elementary speech units of type of phonemes. Thus necessity for difficult computing procedure of dynamic alignment of words on tempo of speech disappears. The reached effect consists in repeated (10 times) reduction of volume of calculations in a problem of automatic recognition of speech and proportional increase in speed of processing of a speech signal. The drawn conclusions are confirmed by results of experimental researches.

Текст научной работы на тему «Метод фонетического декодирования слов в задаче автоматического распознавания речи на основе принципа минимума информационного рассогласования»

Системы телекоммуникации, устройства передачи, приема и обработки сигналов

УДК 621.372:519.72

В. В. Савченко

Нижегородский государственный лингвистический университет

Метод фонетического декодирования слов

в задаче автоматического распознавания речи

на основе принципа минимума информационного рассогласования

Поставлена и решена задача автоматического распознавания речи на основе принципа минимума информационного рассогласования. Предложен новый метод фонетического декодирования слов как альтернатива большинству известных методов, базирующихся на скрытых марковских моделях речевых сигналов. Метод основан на редукции данных при отображении отдельных слов последовательностью элементарных речевых единиц типа фонем. При этом отпадает необходимость в многозатратной вычислительной процедуре динамического выравнивания слов по темпу речи. Достигнутый эффект состоит в многократном (на порядок и более) сокращении объема вычислений в задачах автоматического распознавания речи и пропорциональном увеличении скорости обработки речевого сигнала. Выводы подтверждены результатами экспериментальных исследований.

Автоматическое распознавание речи, распознавание образов, распознавание с обучением, критерий минимума информационного рассогласования, информационная теория восприятия речи

Принцип минимума информационного рассогласования (МИР) эффективно используется при решении разнообразных задач распознавания образов [1]. Задача автоматического распознавания речи (АРР) - одна из наиболее актуальных разновидностей такого рода задач. К ее решению существует множество подходов. Среди них очевидный интерес представляет теоретико-информационный подход, разработанный в рамках информационной теории восприятия речи (ИТВР) [2] и основанный на принципе МИР и методе обеляющего фильтра. Его эффективность и преимущества по сравнению с другими подходами показаны в работах [3], [4] на ряде примеров из практики АРР. Между тем далеко не все преимущества и возможности ИТВР получили необходимое освещение и развитие на данный момент. В частности, до настоящего времени практически не исследовались преимущества принципа МИР перед традиционными методами и подходами в задачах автоматического распознавания сложных речевых единиц типа отдельных (изолированных) слов или целых фраз [5]. Исследованиям в этом актуальнейшем направлении и посвящена предлагаемая статья. В ней на основе критерия МИР в задачах фонетического анализа речи предложен метод фонетического декодирования слов как альтернатива большой группе современных методов, объединенных общей идеей скрытых марковских моделей речевого сигнала [6]. Полученные результаты и сделанные по ним выводы рассчитаны на специалистов в областях современной теории и практики автоматической обработки речевых сигналов и распознавания образов.

Постановка задачи. Центральным элементом ИТВР является понятие фонемы. Под фонемой обычно понимают минимальную единицу звукового (фонетического) строя на-

© Савченко В. В., 2009

41

ционального языка или элементарную речевую единицу (ЭРЕ). Разным национальным языкам соответствуют списки фонем, различающиеся как по составу, так и по количеству их элементов R. Такой список представляет собой базовый уровень описания каждого языка. На это, в частности, указывает то, что большинство современных речевых баз данных сопровождается транскрипцией речевых сигналов, т. е. их описанием через последовательность фонем. С другой стороны, фонетический строй языка предъявляет определенные требования к его носителям, посредством которых (и только так) этот строй и реализуется в коммуникациях. Сколько носителей - столько и разных реализаций фонетического списка национального языка. Именно в этом заключается краеугольная проблема вариативности устной речи. Однако несмотря на существующие различия в реализациях каждой отдельной (r-й) фонемы все они воспринимаются человеком как нечто общее, иначе речь утратила бы свою информативность. Поэтому можно утверждать, что одноименные (однофонемные) реализации xr j, j = 1, Jr, Jr

» 1, в сознании человека группируются в соответствующие классы, или речевые образы Xr = {xr j j, r = 1, R, вокруг своего центра - эталонной метки данного образа [2]. В ИТВР указанные эталоны определяются в строгом теоретико-информационном смысле [7]: речевая метка xr е Xr образуется информационный центр-эталон r-го речевого образа, если в пределах множества Xr она характеризуется минимальной суммой информационных рассогласований (ИР) по Куль-баку-Лейблеру относительно всех других его меток-реализаций xr j, j = 1, Jr . По своей сути это статистический аналог понятия центра массы физического тела.

Именно в понятии информационного центра (ИЦ) r-го множества реализаций xr дается наиболее информативное определение соответствующей фонемы, а множество всех ИЦ {хГ j определяет фонетический состав речевого сигнала исчерпывающим образом. Одновременно становится очевидным и механизм восприятия речи. Анализируемый (входной) речевой сигнал X(t) в дискретном времени t = 0, 1, ... разбивается на ряд последовательных сегментов данных x(l), l = 1, 2, ... длительностью в одну ЭРЕ т^ (10.15) мс каждый [5], [6]. Каждый полученный парциальный сигнал рассматривается в пределах конечного списка фонем {Xr j и отождествляется с той Xv из них, которая отвечает принципу

минимума величины ИР между вектором x (t) и соответствующим эталоном xV, v< R .

Это стандартная формулировка критерия МИР в соответствии с принципами АРР [2], [3]. Задача в общем случае сводится к двухэтапной проверке статистических гипотез. На первом этапе распознаются ЭРЕ типа отдельных фонем. На втором - слова, фразы и целые тексты как соответствующим образом структурированные последовательности разных фонем.

Задача первого этапа. Задача существенно упрощается, если воспользоваться гаус-совской (нормальной) аппроксимацией закона распределения речевого сигнала Pr = N (Kr ) на интервалах его квазистационарности постоянной длительности т = const, где Kr - автокорреляционная матрица (АКМ) с размерами n х n ( n = Fдт > 1, F^ - частота дискретизации). Задача формулируется как проверка простых гипотез о законе распреде-

ления ЭРЕ. Известно [3], что в этом случае критерий МИР является оптимальным в байесовском смысле, а соответствующий набор оптимальных решающих статистик может быть записан следующим образом [4]:

р(x/xr ) = -1 [tr[ICK;1)-lnIKk;1| -n], r = 1R, (1)

где K - выборочная оценка АКМ анализируемого сигнала х = х (t). Решение принимается в пользу гипотезы Pv, v < R, по признаку минимума v-й решающей статистики:

Wv(X) : р( Vxv) = min р(x/xv), (2)

r

причем в задачах с априорной неопределенностью вместо неизвестных (в общем случае, фонемных) АКМ Kr, r = 1, R, в выражение (1) подставляют их статистические оценки,

которые предварительно получают по R (число фонем в списке) классифицированным выборкам речевого сигнала. Это стандартная формулировка критерия МИР с обучением.

Рассмотренный алгоритм имеет множество модификаций преимущественно за счет применения рекуррентных вычислительных процедур корреляционного анализа [8]. Среди них наибольший интерес представляет метод обеляющего фильтра [3], [7], основанный на распространенной при анализе речи авторегрессионной (линейной) модели [9]. Авторегрессионная модель r-го речевого сигнала (АР-модель) общего вида

Р

xr (t) = £arjxr (t-i) + л(t), t = 1, 2, ..., (3)

i=1

однозначно определяется своим вектором АР-коэффициентов ar = {ar i } , r = 1, R, заданного порядка p < n и дисперсией aj = const порождающего процесса t)} типа "белого" шума. С одной стороны, она органично сочетается с голосовым механизмом человека ("акустическая труба" переменного диаметра), с другой - существенно расширяет возможности программно-аппаратной реализации критерия МИР. В работах [2], [3] показано, что в этом случае набор оптимальных решающих статистик (2) примет вид

p(x/xr ) = 1 [aj (x)/aj + ln (aj/aj)-1], r = 1R, (4)

где aj (x) - выборочная дисперсия отклика r-го обеляющего фильтра (ОФ)

уг Ь) = хаг ¡хЬ-/), ^ = 1, 2, ..., п, (5)

I=1

на вектор анализируемого сигнала объема п; а2 е {а2} - дисперсия порождающего этот сигнал процесса.

Из данной модели следует, что задача первого этапа АРР сводится к АР-анализу речевого сигнала. Такая задача обычно решается с применением рекуррентных вычислительных процедур, обладающих высокой скоростью сходимости [4]. В результате достигается радикальное сжатие данных: вместо набора из Rn2 элементов АКМ {Кг} в выражении (2) вся

информация для вычислений (4), (5) сосредоточена в наборе из R (р +1) АР-параметров

43

Рис. 1

{ar; о^ }, причем p « n. На практике порядок р в АР-моделях речевых сигналов не превышает 20.30 [3], [4].

Еще одно важное достоинство АР-модели (3) в задачах АРР - возможность автоматической нормировки речевых сигналов по дисперсиям порождающих их

2 2 2

процессов: ог = = оx = Oq . Применительно к сигналам типа ЭРЕ такая нормировка продиктована физическими особенностями голосового механизма человека: воздушный поток на входе "акустической трубы" имеет приблизительно одну и ту же интенсивность 2

Oq = const на интервалах длительностью в целое слово или даже фразу. С учетом этого предыдущий результат (5) приобретет предельно простой вид [2]:

Р(x/xr ) = 2 [°2(x)/о2 "

r = 1, R.

(6)

Это известная формулировка метода обеляющего фильтра (МОФ) в задаче фонетического анализа речи (ФАР) [7]. Структурная схема его реализации представлена в общем виде на рис. 1. Обработка речевого сигнала ведется здесь в R параллельных каналах с использованием набора ОФ (5), каждый из которых настроен на отдельную фонему из заданного множества {Хг} . Решение принимается с периодом т (т. е. по каждой отдельной ЭРЕ) в пользу одной из возможных фонем по критерию МИР (2). В результате исходный речевой сигнал х = х(l), l = 0, 1, 2,..., L, L = 7с/ т ; на интервале его действия 7С преобразуется

системой ФАР (рис. 1) в последовательность фонетических символов или букв национального языка. При этом некоторые символы в нем могут повторяться. В качестве примера на рис. 2 приведены временные диаграммы двух слов разной длины на выходе системы.

На этом завершается первый этап АРР. Задача переходит в качественно иную плоскость, а именно: фонетического декодирования слов или восстановления исходного речевого сообщения - в виде изолированного слова либо целой фразы - по сформированной для него последовательности фонетических признаков.

Идея предлагаемого метода. Задача имеет тривиальное решение при безошибочном фонетическом анализе каждого слова. Оно сводится к многоканальному (по числу слов М из лексикона системы АРР {у т }) поэлементному (на L смежных позициях) сравнению

фонетического кода анализируемого слова х = {х1, Х2,..., х ь}, хг- е{ху}, с аналогичными

, Ут Ь }, Ут1 е {хГ }, т < М, из речевой базы

кодами слов-эталонов ym = = {ym 1, ym 2

Слово 1 Слово 2

* x5 * x5 * x1 * x2 * x2 * x17

* x5 * x5 * x5 * x1 * x1 * x2 * x2

* *

x17 x17

т,Ь / ' з т,.

данных (РБД) системы АРР. Вычислительная сложность практической реализации такой системы сводится, по сути, к сложности реализации системы ФАР (см. рис. 1).

Ее оценка по числу операций умножения-деления двоичных кодов переменных величин из алгоритма (5), (6) вида

V = RLnp = RTс Fд р (7)

зависит главным образом от длительности анализируемого слова Тс = Lт = Ln|Fд . Например при Тс -1 с, т = 10 мс, R = 30 и р = 20 (распространенные [7] значения параметров речевого сигнала), имеем VI - 4800 тыс. элементарных операций. Это хорошо согласуется с производительностью современных компьютеров и делает возможным реализацию такой системы АРР в режиме реального времени.

Однако, к сожалению, это практически недостижимый результат. Ввиду известных [2] особенностей речевого механизма человека задача ФАР принципиально не имеет безошибочного решения. Наглядной иллюстрацией к изложенному может служить временная диаграмма речевого сигнала "Другого ментора я и не желал" из первой главы романа А. С. Пушкина "Капитанская дочка" (рис. 3), взятая из работы [7] по результатам экспериментальных исследований МОФ с применением информационной системы [10] из Государственного реестра программ для ЭВМ. На этом рисунке буквами русского алфавита отмечены все гипотетически используемые в данном фрагменте речи фонемы. Для сравнения в прямоугольники вдоль временной оси заключены сегменты речевого сигнала, соответствующие автоматически выявленным ЭРЕ. Все неотмеченные прямоугольниками сегменты остались в данном случае неидентифицированными как недостаточно четко проговоренные диктором.

Решение указанной проблемы хорошо изучено [5], [6]. В большинстве практических случаев оно состоит в применении дополнительной процедуры выравнивания слов по темпу речи на основе методов динамического программирования. Однако такой вариант АРР приводит к резкому росту суммарных вычислительных затрат на реализацию VE= V + ^ = RTс Fд р +

+М [k + 05k (k -1)L (L -1)] -- RTс Fд р + 0.5М 2 L2 (8)

пропорционально объему рабочего словаря М. Здесь k < L - параметр алгоритма динамического программирования, определяющий максимально допустимый сдвиг между одноименными ЭРЕ в условиях вариативности речи. Например при М = 1000 (соответствует достаточно небольшому словарю), k = 3 (практически минимальная величина) и той же длине сигнала L = 100 (Тс -1 с) число выполняемых операций (8) составит почти 35 млн. единиц, т. е. увеличится на порядок по сравнению с рассмотренным ранее идеальным случаем. Отметим, что указанный

г'/тчггтгт ТУУ Ш Ш да тт^

11

а м е н т а р

N

а й а и н е

ж

л

500 мс

е

а

л

эффект пропорционально возрастает при увеличении объема словаря M. С точки зрения АРР в режиме реального времени это серьезная проблема.

Ситуация кардинальным образом меняется, если учесть тонкую структуру речевого сигнала (см. рис. 3). Нетрудно увидеть [5], что все фонемы или большая часть не выявленных в нем фонем носят прежде всего служебный, т. е. малоинформативный, характер. Иными словами, множество выявленных по результатам ФАР "надежных" фонем - материал, достаточный для восстановления слов в большинстве случаев. Сделанный вывод подтверждается известной избыточностью речевого сигнала. Поэтому переформулируем задачу второго этапа: при учете уникальности фонетического состава каждого отдельного слова (см. рис. 2) будем восстанавливать содержащееся в речевом сигнале сообщение по последовательности надежно установленных в нем фонем.

Задача в указанной постановке имеет очевидное решение [11]. Его простейший вариант приведен на рис. 4 в виде структурной схемы системы АРР, реализующей метод фонетического декодирования слов (МФДС). Здесь тенями отмечены многомерные элементы системы с векторными входами и/или выходами. Ключевое звено системы - блок формирователей импульсов (ФИ) длительностью Тс, выполненных по схеме ждущего мультивибратора. Запуск каждого из них производится по сигналам индикации фонем с выходов соответствующих инверсных пороговых устройств (ИПУ) c заданным пороговым уровнем Ро = 0.5.1.0 = const. В более сложном варианте своей реализации ФИ может отслеживать текущую длительность каждого отдельного слова. Для автоматического обнаружения слов используются сумматор и пороговое устройство (ПУ) с порогом Lq = const < L; решение ПУ принимается при условии, что число выявленных на интервале длиной L (в одно слово) фонем К > Lq превышает пороговый уровень. Этот порог, в общем случае, может варьироваться в широких пределах в расчете на слова разной длины L > 1.

По импульсу с выхода ПУ срабатывает многоканальная схема двоичных совпадений и на ее выходе формируется двоичный код анализируемого слова a = {aj, a2, ., aN},

at = 0;1. Его размер N = (2.3)R должна учитывать возможность двух-, трехкратного появления одной и той же фонемы на интервале в одно слово. Сформированный код посту-

ФАР

Р0

ИПУ1

J

ИПУ2

J

ИПУ R

ФИ1

ФИ2

ФИ R

J

ж

&

на:

ДКУ

Lq ±

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ПУ

2

пает на вход декодирующего устройства (ДКУ), в котором каждому отдельному коду a ставится в соответствие определенное слово y m = {y m, 1, ym,2, ., ym,L

} из рабочего словаря системы АРР. Конкретный вид указанного соответствия устанавливается в автоматическом режиме на этапе обучения ДКУ с использованием классифицированных выборок речевого сигнала из множества слов-эталонов {y m } . Отметим, что в более сложном варианте МФДС можно учитывать не только число K, но и структуру последовательности выявленных фонем x = {x^, x2, ., xl }. Тогда каждое слово будет кодироваться двоичной матрицей

с размерами L х N a = a j |, a j = 0, 1, i = 1, L, j = 1, N. В любом случае вычислительная

сложность его реализации сохраняется на минимальном уровне (7), и это самый веский довод в обоснование нового метода. Что же касается эффективности МФДС в отношении его технико-тактических характеристик, то данный вопрос подробно исследован далее.

Результаты экспериментальных исследований. Для исследований был выбран упомянутый художественный текст А. С. Пушкина объемом в одну стандартную машинописную страницу, проговоренный в среднем темпе группой из десяти дикторов-мужчин разного возраста. В результате для каждого диктора был сформирован речевой сигнал продолжительностью примерно 2.5.3 мин. При установленной частоте дискретизации сигналов 8 кГц объемы соответствующих РБД составили порядка 1.2 млн. отсчетов, или примерно 15 тыс. сегментов данных х (l), l = 0, 1, 2, ..., длиной n = 80 отсчетов (10 мс) каждый. Полученные сигналы сначала записывались в память компьютера в виде соответствующих звуковых файлов, для чего применялась специальные программные и аппаратные средства: динамический микрофон AKG D77 S и ламповый микрофонный предусилитель ART TUBE MP Project Series USB. После этого для каждого сигнала были выделены с применением МОФ множества одноименных ЭРЕ и определены по критерию МИР их информационные эталоны. Для настройки модели авторегрессии (3) фиксированного порядка p = 20 применялась рекуррентная процедура Берга-Левинсона [8] с предельно высокой скоростью сходимости. Из множества выявленных по каждому диктору ИРЭ {xr } в

дальнейшем были отобраны R = 22 наиболее содержательные (информативные) фонемы русского языка: "а", "о", "у", "и", "е", "ы", "э", "р", "л", "ль", "з", "с", "в", "ф", "ж", "ш", "щ", "х", "ч", "ц", "м", "н". Затем по каждой из них был настроен соответствующий обеляющий фильтр в системе ФАР (см. рис. 1) и сразу после этого фиксировались (запоминались) последовательности выявляемых фонем - по каждому отдельному слову из РБД каждого диктора. Число таких слов в каждом случае составило 388.

На втором этапе АРР каждое отдельное слово в форме фонетического кода (см. рис. 2) подвергалось МФДС согласно схеме обработки сигналов на рис. 4. По результатам такой обработки были получены оценки вероятности ошибочного распознавания (ВОР) изолированных слов по каждому отдельному диктору (см. таблицу, строка "ВОР-1"). В среднем по группе дикторов безошибочно было распознано около 90 % слов от их суммарного объема в РБД. Это весьма хороший результат, особенно если учесть, что большинство от-

ВОР Диктор

1-й 2-й 3-й 4-й 5-й 6-й 7-й 8-й 9-й 10-й

ВОР-1 0.1005 0.1082 0.1288 0.0979 0.1005 0.1340 0.1391 0.0592 0.1134 0.0979

ВОР-2 0.1005 0.1365 0.1417 0.1134 0.1288 0.1391 0.1417 0.0979 0.1469 0.1288

меченных ошибок в АРР приходилась на однофонемные предлоги и союзы, которые нечетко проговаривались дикторами ввиду естественной неидеальности их разговорной речи.

Для сравнения в строке "ВОР-2" таблицы представлены аналогичные оценки вероятности ошибки в той же системе АРР (см. рис. 4) , но при постоянной настройке на фонемы одного и того же (в рассматриваемом случае - первого) диктора. Из сравнения результатов в строках "ВОР-1" и "ВОР-2" следует, что достоверность АРР во втором случае если и ухудшилась, то все же осталась в приемлемых для практики пределах, при том, что обучение системы почти не потребовало в данном случае каких-либо существенных затрат на организацию: ни временных, ни материальных. Продемонстрированные гибкость и малая критичность МФДС по отношению к используемому для настройки (обучения) системы АРР речевому материалу -еще два ценных качества нового метода с точки зрения перспектив его применения.

Исследованный в настоящей статье вопрос об увеличении скорости вычислений вызывает повышенный интерес среди специалистов как в области теории, так и практики АРР. Действительно, в тех случаях, когда объем рабочего словаря составляет тысячи и более единиц, большинство известных алгоритмов, работающих на основе сегментирования слов на отдельные фонемы и их последующего выравнивания по динамике, не могут быть реализованы в режиме реального времени. Поэтому решению проблемы вычислительной сложности для больших словарей в последние годы уделяется повышенное внимание. В настоящей статье для этого предложен метод фонетического декодирования слов, основанный на теоретико-информационном подходе и принципе МИР [2]. Его основное преимущество перед известными методами - существенное (на порядок и более) сокращение вычислительных затрат на реализацию - достигается прежде всего за счет отказа от трудоемкой процедуры динамического выравнивания слов. При этом не утрачивается по сравнению с известными методами получаемое качество АРР в смысле его достоверности.

Список литературы

1. Савченко В. В., Савченко А. В. Принцип минимального информационного рассогласования в задаче распознавания дискретных объектов // Изв. вузов России. Радиоэлектроника. 2005. Вып. 3. С. 10-18.

2. Савченко В. В. Информационная теория восприятия речи // Изв. вузов России. Радиоэлектроника. 2007. Вып. 6. С. 3-9.

3. Савченко В. В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. Т. 50, № 3. С. 309-314.

4. Савченко В. В., Акатьев Д. Ю., Карпов Н. В. Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра // Изв. вузов России. Радиоэлектроника. 2007. Вып. 4. С. 35-42.

5. Акатьев Д. Ю., Губочкин И. В., Савченко В. В. Автоматическое распознавание изолированных слов методом обеляющего фильтра с сегментированием и амплитудным ограничением сигналов переспросом // Изв. вузов России. Радиоэлектроника. 2007. Вып. 5. С. 11-18.

6. Levinson S. C. Mathematical models for speech technology. Chichester, England: John Wiley&Sons Ltd, 2005. 261 p.

7. Савченко В. В. Фонема как элемент информационной теории восприятия речи // Изв. вузов России. Радиоэлектроника. 2008. Вып. 4. С. 3-11.

8. Марпл С. Л.-мл. Цифровой спектральный анализ и его приложения / пер. с англ. М.: Мир, 1990. 584 с.

9. Akatiev D. Y., Savchenko V. V. Autoregressive model for recognition of speech signals based on theoretical information approach // VI Int. congress on math. model., N. Novgorod, 20-26 sept. 2004 / University of N. Novgorod., N. Novgorod, 2004. P. 347-348.

10. Информационная система фонетического анализа слитной речи / В. В. Савченко, Д. Ю. Акатьев, И. В. Губочкин и др.: Программа для ЭВМ / Свид. Роспатента о гос. рег. 2008615442 от 14.11.08.

11. Патент РФ № 80000 U1. МПК G01L 15/00 (2006.01). Устройство для фонетического анализа речи / В. В. Савченко, Д. Ю. Акатьев (РФ). Опубл. 20.01.2009 БИ. № 2.

V. V. Savchenko

Nizhny Novgorod state linguistic university

Words phonetic decoding method in a problem of speech automatic recognition on the basis of information mismatch minimum principle

The problem of automatic recognition of speech on the basis of a principle of a minimum of an information mismatch is put and dares. The new method of phonetic decoding of words as alternative to the majority of the known methods based on hidden Markov models of speech signals is offered. In its basis the idea of a reduction of the data is used at display of separate words by sequence of elementary speech units of type ofphonemes. Thus necessity for difficult computing procedure of dynamic alignment of words on tempo of speech disappears. The reached effect consists in repeated (10 times) reduction of volume of calculations in a problem of automatic recognition of speech and proportional increase in speed of processing of a speech signal. The drawn conclusions are confirmed by results of experimental researches.

Automatic speech recognition, images recognition, recognition with training, criterion of a minimum of an information mismatch, information theory of speech perception

Статья поступила в редакцию 10 августа 2009 г.

УДК 612.17:616-073.584

Н. В. Лысенко, Н. А. Садыкова

Санкт-Петербургский государственный электротехнический

университет "ЛЭТИ"

Оценка физиологического состояния организма летчика во время полета

Рассмотрен подход к оценке физиологического состояния организма летчика, основанный на процессах энергетического метаболизма, на балансе между катаболиче-скими и анаболическими процессами, связанными с накоплением и расходом энергии, протекающими в организме летчика в условиях реальной деятельности. Предложен метод математического анализа статистической оценки параметров распределения сердечного ритма на основе непараметрических критериев.

Контроль состояния организма летчика, биотехническая система, R-R-интервал, непараметрические статистические критерии, алгоритмическое обеспечение

Усложнение авиационной техники, усовершенствование автоматических систем управления, рост объема и интенсивности поступления информации существенно увеличивают нагрузку на летчика во время полета и влияют на форму и содержание деятельности летного экипажа. В настоящее время получение достоверных сведений об истинном физиологическом состоянии организма летчика и его потенциальных возможностях функционирования во время полета является сложной задачей.

Исследование сложной гетерогенной системы "экипаж - воздушное судно" целесообразно проводить с позиций системного подхода, т. е. рассматривая человека-оператора (летчика) как главный компонент системы переработки информации, принятия решений, © Лысенко Н. В., Садыкова Н. А., 2009 49

i Надоели баннеры? Вы всегда можете отключить рекламу.