Научная статья на тему 'Автоматическое распознавание изолированных слов методом обеляющего фильтра с сегментированием и амплитудным ограничением сигналов'

Автоматическое распознавание изолированных слов методом обеляющего фильтра с сегментированием и амплитудным ограничением сигналов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
41
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ / AUTOMATIC SPEECH RECOGNITION / РАСПОЗНАВАНИЕ ОБРАЗОВ / PATTERN RECOGNITION / РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ / RECOGNITION WITH TRAINING / АЛГОРИТМ С НОРМИРОВКОЙ СИГНАЛОВ И АМПЛИТУДНЫМ ОГРАНИЧЕНИЕМ / THE ALGORITHM WITH SIGNAL NORMALIZATION AND AMPLITUDE LIMITATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Акатьев Д.Ю., Губочкин И.В., Савченко В.В.

Рассмотрена задача распознавания речевых сигналов по коротким сегментам данных методом обеляющего фильтра на основе критерия минимума информационного рассогласования. Разработан новый алгоритм с нормировкой сигналов и амплитудным ограничением величины минимальной решающей статистики по каждому отдельному сегменту. Приведены результаты экспериментального исследования. Показано, что предложенный алгоритм характеризуется повышенной степенью точности и надежности автоматического распознавания речи.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Automatic single-word recognition using whitening filter method with segmentation and amplitude limitation

The problem of speech signals recognition with its processing by short data segments using whitening filter method by the minimum of the informative divergent criterion is considered. The new algorithm with signal normalization and limitation of each segment decision statistic’s value has been developed. The experimental results have been produced. The proposed algorithm characterized by increased accuracy and assurance factor.

Текст научной работы на тему «Автоматическое распознавание изолированных слов методом обеляющего фильтра с сегментированием и амплитудным ограничением сигналов»

Рассмотренный принцип построения многодискретных фазовращателей позволяет реализовать фазовращатели с высокими точностными характеристиками в широком диапазоне частот.

Библиографический список

1. Хижа Г. С., Вендик И. Б., Серебрякова Е. А. СВЧ фозовращатели и переключатели. М.: Радио и связь, 1984. 185 с.

2. Нефедов Е. И., Саидов А. С., Тагилаев А. Р. Широкополосные микрополосковые управляющие устройства СВЧ. М.: Радио и связь, 1994. 168 с.

U. A. Abdulaeva

Dagestan state technical university

Broadband precision discrete phase shifters

Principles of construction of broadband precision multidiscrete phase shifters are considered. Results of experimental researches are resulted.

Phase shifter, EHF controlling device, phase shift, single-band modulation, balanced modulator, micro strip

Статья поступила в редакцию 13 декабря 2006 г.

УДК 621.372:519.72

Д. Ю. Акатьев, И. В. Губочкин, В. В. Савченко

Нижегородский государственный лингвистический университет

Автоматическое распознавание изолированных слов

методом обеляющего фильтра с сегментированием

1

и амплитудным ограничением сигналов

Рассмотрена задача распознавания речевых сигналов по коротким сегментам данных методом обеляющего фильтра на основе критерия минимума информационного рассогласования. Разработан новый алгоритм с нормировкой сигналов и амплитудным ограничением величины минимальной решающей статистики по каждому отдельному сегменту. Приведены результаты экспериментального исследования. Показано, что предложенный алгоритм характеризуется повышенной степенью точности и надежности автоматического распознавания речи.

Автоматическое распознавание речи, распознавание образов, распознавание с обучением, алгоритм с нормировкой сигналов и амплитудным ограничением

Традиционным элементом обработки сигналов в задаче автоматического распознавания речи (АРР) является процедура их предварительного сегментирования на короткие отрезки данных. В результате задача сводится к поэтапному распознаванию каждого отдельного отрезка. На первом этапе распознаются элементарные речевые единицы типа отдельных фонем;

1 Работа выполнена при поддержке Российского фонда фундаментальных исследований (проект №07-07-12042). © Акатьев Д. Ю., Губочкин И. В., Савченко В. В., 2007 11

на втором - слова, фразы и даже целые тексты как соответствующим образом структурированные последовательности разных фонем. Поэтому задача распознавания элементарных речевых единиц является ключевой при автоматическом распознавании речи.

В рамках универсального байесовского подхода указанная задача обычно формулируется как задача статистической классификации. Ее решению посвящено множество работ. Среди них несомненный интерес представляют работы [1], [2] по теории принципа минимума информационного рассогласования (МИР). В настоящей статье дается развитие указанного принципа на задачи обработки изолированных слов по их отдельным фонемам. При этом используется известный [3] метод динамического программирования для выравнивания сигналов по темпу речи. Особенностью разработанного алгоритма является процедура амплитудного ограничения решающей статистики МИР по каждому отдельному сегменту для борьбы с ошибками распознавания кратковременных малоинформативных фонем.

Метод обеляющего фильтра. Исходным пунктом при обосновании метода обеляющего фильтра служит авторегрессионная (АР) модель наблюдений [4]:

Р

х (п) = ^ а (г) х (п - г) + в (п), (1)

г=1

где х (п) - значение п-го отсчета речевого сигнала; Р - порядок АР-модели; а (г) - АР-коэффициенты речевого сигнала; в (п) - порождающий процесс типа "белого" гауссовского шума

(БГШ) с нулевым значением математического ожидания и фиксированной дисперсией а .

Вычисление АР-коэффициентов (настройка АР-моделей (1)) производится по классифицированным выборкам наблюдений Xг, г = 1, Я, в расчете на минимизацию ошибок

линейного предсказания по дисперсиям. В частности, высокими динамическими характеристиками отличается метод Берга [5], ориентированный на решение проблемы малых выборок наблюдений в задачах адаптивной обработки сигналов. В [1] показано, что при гауссовском распределении сигналов Рг = N (Кг ) (Кг - матрица автокорреляции с размерами п х п; п > 1; г = 1, Я) выражение для оптимального по критерию МИР решающего правила в задаче Я-альтернативной статистической классификации анализируемой выборки X = {хт} сводится к виду

(X): Хг (X) = а2 (X)/а2 + 1п (а2/а2) -1

= шт; г = 1, Я, (2)

г =У

где аг (X) - дисперсия некомпенсированного остатка сигнала Х на выходе обеляющего

фильтра, настроенного по г-му сигналу, аг - дисперсия возбуждающего БГШ в АР-модели

г-го сигнала; Я - размер словаря. Решение здесь принимается в пользу у-й гипотезы при ус-

22 ловии минимизации взвешенной с коэффициентом 1/ ау и смещенной на 1п ау величины

выборочной дисперсии а2 (X) отклика на сигнал X обеляющего фильтра у-го канала (2).

Структура такого обеляющего фильтра однозначно определяется вектором АР-коэффици-12

ентов av, v < R. Это стандартная формулировка метода обеляющего фильтра (МОФ) в задачах распознавания образов [1].

При нормировке анализируемой выборки и эталонных сигналов по дисперсиям по-

2 2 -

рождающего шума в их АР-моделях (1) к единице (ar =а = 1, r = 1, R) [2] выражение для решающей статистики (2) примет вид

= min ; r = 1, R. (3)

Wv (X ): V (X) = ст2 (X ) -1

r=v

Можно показать [6], что выражение (3) определяет при заданных ограничениях величину минимального информационного рассогласования выборочных распределений Рх и Рг в метрике Кульбака-Лейблера [7]. Критерий МИР наилучшим образом отвечает

идеям и требованиям посегментной обработки речевых сигналов [2].

Синтез алгоритма автоматического распознавания речи. Разбиение слов на фонемы как первый этап АРР является отдельной сложной задачей прикладной лингвистики [8]. Эффективным способом учета тонкой структуры речевого сигнала является метод по-сегментного анализа, заключающийся в последовательной обработке коротких (стационарных) участков слова согласно решающему правилу (3). Поскольку любой диктор не в состоянии абсолютно точно, в одном и том же темпе, произнести любое слово даже дважды, сигнал X и эталон Хг должны быть предварительно выравнены по темпу речи. Для этого в задачах АРР разработан специальный метод динамического программирования (ДП) [3]. Воспользуемся им и на основе выражения (3) для каждого /-го сегмента слова на входе X получим набор минимальных решающих статистик вида

X*l r (X) = min {%lr (X, k), (X, k +1)}, r = 1,R; l = 1, L ; к = 1, Nr , (4)

где Xi r (X, k) - решающая статистика (3), вычисленная для l-го сегмента слова X и к-го участка эталона Xr ; L — число сегментов, на которые разбивается анализируемое слово X; Nr — аналогичное число стационарных участков в r-м слове-эталоне. Записанный алгоритм можно представить в виде набора из R конечных автоматов по числу анализируемых слов (рис. 1). Переход в каждое очередное состояние происходит в них при условии X r (X, к +1) <Xi r (X, k). В противном случае r-й конечный автомат остается в том же состоянии, в котором он находился раннее.

В предположении о статистической независимости отдельных сегментов между собой величина информационного рассогласования (ИР) по слову целиком определяется суммарным выражением вида

L

Wv (X) : Лу (X) = min £ Xj,r (X)

r l=1

; r = 1, R. (5)

r

Отдельного внимания заслуживает вопрос о существенно неравноценном вкладе в сумму (5) каждого отдельного сегмента анализируемого слова X. Часть сегментов выполняет служебные функции и с точки зрения задачи АРР может не учитываться. Такая

•О-

Рис. 1

идея реализуется, в частности, в методе обеляющего фильтра с амплитудным ограничением сверху парциальных значений X/ г (X, к) решающей статистики (3) [9]:

и, ст?,г (X, к ) -1 > и; о?г (X, к) -1, а?г (X, к) -1 < и,

Чг (X, к) =

(6)

где к = 1, Nг ; г = 1, Я; / = 1, Ь, ст/г (X, к) - выборочные дисперсии откликов обеляющего

фильтра (ОФ) Р-го порядка, настроенного на к-й участок г-го эталонного слова и на /-й сегмент сигнала на входе; и - пороговое значение.

Распознавание слов методом обеляющего фильтра с сегментированием и амплитудным ограничением (3)-(6) реализуется на основе многоканальной обработки, в которой число каналов Я определяется количеством слов-эталонов. При этом в каждом г-м канале используется набор из Nг, г = 1, Я, обеляющих фильтров, настроенных на последовательные стационарные участки (фонемы) соответствующего эталонного слова. Решение (5) принимается по критерию минимума суммы решающих статистик (4) по всем Ь сегментам анализируемого слова.

Программа экспериментальных исследований. Реализация системы распознавания с предварительным обучением разделяется на два независимых во времени этапа: создание словаря (обучение системы) и собственно распознавание (принятие решения). Во время первого этапа осуществляется формирование базы априорных данных в виде набора векторов авторегрессии аг к порядка Р для каждого г-го слова, разделенного на Nг стационарных

участков, г = 1, Я. Анализируемое слово Х разбивается на Ь сегментов одинаковой длины по N отсчетов каждый. При этом /-й сегмент в его АР-модели (1) нормируется по своей дисперсии порождающего шума а2 (X, /) к единице. Дисперсия некомпенсированного остатка /-го сегмента сигнала Х на выходе ОФ, настроенного по к-му участку г-го сигнала,

1

N - Р

СТ2,г (^ к) = —— X 21,г,к (*)

N - Р

определяется (N -P) отсчетами сигнала ц2г k (^) на выходе соответствующего ОФ:

P

Ц гг£ (t) = Щ (t) - X аг ,k ( ] ) Х1 (t - ] )

у=1

t=1, N - Р

Его коэффициентами служат параметры АР-модели аг k = (у)}, у = 1, Р, соответствующие ^му участку г-го сигнала и взятые с противоположным знаком. Коэффициенты каждого фильтра определяются рекуррентной процедурой Берга [5] при ее инициализации системой равенств ) = по -1) = хг k ^) . Процедуры вычисления всех векторов аг k одинаковы и отличаются лишь используемыми в начале процедуры сигналами хг k (}). Следовательно, коэффициенты каждого ОФ аг k (у) = ар (у), у = 1, Р, определяются по окончании рекуррентной процедуры при значении порядка т = Р :

__N-1

ат (*) = ат-1 (*) + стат-1 (т - *); * = 1 ст = Е Пт-1 (t) vm-1 (t -1) ;

t=т

N

sm-1 = 0.5 (П - т) £ [^т-1 (t) + \>2т-1 и - о]; Пт (t) = Пт-1 (t) - cmvm-1 (t -1) ; t=т

Ут (t) = ^т-1 ^ -1) - стПт-1 (0 ; t = 0 1 N-1; ^т = (! - С0) ^т-1; = $0 ; т = 1Р .

Таким образом, для вычисления результирующей статистики (4) методом ДП производится обработка каждого 1-го сегмента сигнала Х обеляющими фильтрами порядка Р с векторами АР-коэффициентов аг k и аг k+1 соответственно. Дисперсия некомпенсированного остатка для каждого 1-го сегмента входного сигнала на выходе соответствующего ОФ подставляется в (6) для получения решающей статистики по каждому сегменту. Решение принимается по признаку минимума значения статистки (5).

Результаты экспериментальных исследований. В качестве анализируемых использовались речевые сигналы, отображающие изолированные слова русского языка. Словарь состоял из десяти числительных: от нуля до девяти включительно. Задачи такого типа относятся к задачам голосового управления автоматическими системами и являются актуальными для практического применения. Частота дискретизации 8 кГц и квантование 8 бит были выбраны из соображений минимизации потока речевых данных, а также для соответствия параметрам передачи и хранения речи, принятым в большинстве стандартов. Для максимального приближения эксперимента к практической ситуации были использованы стандартный канал встроенного звукового процессора бытового персонального компьютера и обычный микрофон. При формировании словаря слов-эталонов были записаны одним диктором десять типичных слов - числительных от "нуля" до "девяти" включительно. Для создания экспериментальной базы данных тем же диктором были записаны с одной интонацией по сто реализаций слов каждого из десяти числительных.

Лу 20 15 10 5

_1_

10

20 Рис. 2

30

40

Целью исследований являлось сравнение известного алгоритма АРР по слову целиком [1] и разработанного в данной статье алгоритма (3)-(6) с посегментной обработкой сигналов, а также исследование влияния порога амплитудного ограничения и на вероятность правильного распознавания слов. В предельном случае при и получен алгоритм без амплитудного огра-

ничения сигналов с выражением для решающей статистики вида

.2

Х1г (X, к) = ст/г (X, к) -1; I = 1, Ь ; к = 1, Ыг ; г = 1, Я.

(7)

Результаты экспериментальных исследований иллюстрируются рис. 2 и таблицами.

В табл. 1 приведены оценки вероятности правильного распознавания десяти слов из подготовленной экспериментальной базы для трех различных алгоритмов распознавания: по слову целиком, по сегментам с решающей статистикой (6) и по сегментам с решающей статистикой (7). Оценки вероятностей правильного распознавания слов вычислялись по результатам серии испытаний и формуле относительной частоты случайных событий. Представленные результаты указывают на существенное уменьшение ошибок перепуты-вания слов за счет амплитудного ограничения слагаемых в решающей статистике (6).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Это можно объяснить тем, что при распознавании слова X по фонемам могут появляться сегменты, имеющие большое значение ИР и тем самым существенно увеличивающие значение результирующей решающей статистики (5). Подобные явления могут рассматриваться как "импульсные помехи", и для их подавления необходимо использовать методы, аналогичные широко используемым в статистической радиотехнике [10]. Применение амплитудного ограничения с порогом и в выражении (6) позволяет эффективно бороться с импульсными помехами и накапливать к моменту принятия решения лишь информативные составляющие решающих статистик. Причем в зависимости от значения порога и вероятности перепутывания слов

Таблица 1

Слово Алгоритм распознавания

По слову Для Для решающей

целиком решающей статистики (6)

статистики при пороге

(9) и = 0.5

Ноль 0.89 0.97 1

Один 1 0.98 1

Два 1 0.95 1

Три 0.93 0.9 0.98

Четыре 0.96 0.99 1

Пять 0.92 0.9 0.99

Шесть 0.97 0.99 0.97

Семь 1 0.63 0.98

Восемь 1 1 1

Девять 0.78 0.98 0.98

Итого 0.945 0.929 0.99

будут различны.

В табл. 2 представлены вероятности правильного распознавания слов для решающей статистики (6) в зависимости от значения порога и. Видно, что максимальная вероятность правильного распознавания достигается при и = 0.5. Данное значение ограничения можно выбрать в качестве оптимального.

Повышение точности АРР при использовании статистики (6) можно объяснить,

2

0

Ь

======================================Известия вузов России. Радиоэлектроника. 200?. Вып. 5

рассматрев эффект накопления в выражении Таблщ<л 2

(5) величины ИР из формулы (4). Зависимость суммарного ИР (5) между сигналом Х и истинным словом-эталоном от количества анализируемых сегментов при применении статистик (6) (кривая l) и (7) (кривая 2) для оптимального порога U = 0.5 показана на рис. 2 для одной из реализаций слова "ноль". Из графиков видно, что информационное рассогласование для статистики (7) резко возрастает на ряде сегментов анализируемого слова. Использование же амплитудного ограничения в решающей статистике (6) позволяет учитывать только информативные сегменты, что повышает надежность разработанного алгоритма автоматического распознавания речи.

Таким образом, благодаря дополнительным процедурам нормировки элементарных речевых сигналов и ограничения величины решающей статистики МИР по каждому отдельному сегменту слова удалось существенно повысить точность распознавания изолированных слов по методу обеляющего фильтра. При этом нормировка сигналов дала возможность учитывать существенно неравноценное значение различных фонем с точки зрения формирования на их основе слитной речи, а амплитудное ограничение решающей статистики уменьшило влияние кратковременных малоинформативных фонем, которые могут существенно искажать суммарную результирующую величину ИР. Предложенный алгоритм может найти практическое применение в разнообразных задачах анализа, связанных с автоматическим распознаванием речи.

Библиографический список

1. Савченко В. В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. Т. 50, № 3. С. 309-315.

2. Савченко В. В., Акатьев Д. Ю., Карпов Н. В. Автоматическое распознавание речевых единиц методом обеляющего фильтра. // Изв. вузов России. Радиоэлектроника. 2007. Вып. 4. С. 35-42.

3. Levinson S. C. Mathematical models for speech technology. Chichester, England: John Wiley & Sons Ltd, 2005. 26l p.

4. Akatiev D. Y., Savchenko V. V. Autoregressive model for recognition of speech signals based on theoretical information approach // VI Int. Congress on Math. Modeling, Nizhniy Novgorod, 20-26 sept. 2004. N. Novgorod: N. Novgorod University, 2004. P. 347-348.

5. Марпл С. Л.-мл. Цифровой спектральный анализ и его приложения. М.: Мир, 1990, 584 с.

6. Савченко В. В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т. 42, № 4. С. 426-43l.

7. Кульбак С. Теория информации и статистика. М.: Наука, l967. 408 с.

8. Потапова Р. К. Речь: коммуникация, информатика, кибернетика. М.: Радио и связь, 2003. 563 с.

9. Савченко В. В., Акатьев Д. Ю. Автоматическое распознавание случайных сигналов по критерию минимального информационного рассогласования с переспросом // Изв. вузов России. Радиоэлектроника. 2006. Вып. l. С. 20-29.

10. Финк Л. М. Теория передачи дискретных сообщений. М.: Сов. радио, l970. 727 с.

Слово U

0.3 0.5 l l.5 2 2.5 3

Ноль 0.99 l l l 0.99 0.98 0.98

Один l l l l l l l

Два l l l l 0.98 0.97 0.96

Три 0.98 0.98 0.98 0.98 0.98 0.97 0.97

Четыре 0.99 l 0.99 0.99 0.99 0.99 0.99

Пять 0.96 0.99 0.98 0.98 0.97 0.95 0.95

Шесть 0.96 0.97 0.98 0.98 0.99 0.99 0.99

Семь 0.82 0.98 0.87 0.72 0.67 0.66 0.66

Восемь l l l l l l l

Девять 0.98 0.98 0.99 0.99 0.99 0.99 0.98

Итого 0.968 0.99 0.979 0.964 0.956 0.95 0.948

D. Y. Akatiev, I. V. Gubochkin, V. V. Savchenko Linguistic state university of Nizhniy Novgorod

Automatic single-word recognition using whitening filter method with segmentation and amplitude limitation

The problem of speech signals recognition with its processing by short data segments using whitening filter method by the minimum of the informative divergent criterion is considered. The new algorithm with signal normalization and limitation of each segment decision statistic's value has been developed. The experimental results have been produced. The proposed algorithm characterized by increased accuracy and assurance factor.

Automatic speech recognition, pattern recognition, recognition with training, the algorithm with signal normalization and amplitude limitation

Статья поступила в редакцию 3 июля 2007 г.

УДК 621.391.28

Н. Н. Мошак

Государственный университет телекоммуникаций

им. проф. М. А. Бонч-Бруевича

Модели услуг аутентификации в задаче анализа инфокоммуникационной сети

Приведены модели механизмов простой (пароль, хэш-функция, одноразовые параметры) и строгой (одно- и двухключевое шифрование, ключевая хэш-функция, электронная цифровая подпись) аутентификации равноправного логического объекта и отправителя данных. Сформулирована задача анализа инфокоммуникационной сети на базе общих функционалов оценки эффективности использования ее ресурсов с учетом указанных моделей.

Инфокоммуникационная сеть, модели механизмов аутентификации, информационная безопасность

В основе защиты инфокоммуникационной сети (ИКС) лежит ее политика информационной безопасности (в дальнейшем "Политика"), которая формулирует требования к подсистеме защиты и контролю ее состояния [1]. Указанные требования разрабатываются с учетом моделей угроз и нарушителя (в том числе легальных пользователей), а также приоритетов услуг безопасности в ИКС. Стандарт ГОСТ Р ИСО 7498-2-99 [2] определяет пять базовых услуг для обеспечения защиты компьютерных систем, входящих в архитектуру защиты эталонной модели взаимосвязанных открытых систем (ВОС): конфиденциальность, аутентификацию, целостность, контроль доступа, причастность. Факультативно может быть задействована дополнительная услуга безопасности - доступность, которая может частично определяться услугой контроля доступа или быть характеристикой качества данных ресурса или услуги.

Для реализации базовых услуг безопасности в сети применяются специальные механизмы защиты (шифрование, заполнение трафика, управление маршрутизацией, цифровая подпись, контроль доступа, обеспечение целостности, аутентификация, нотаризация) а 18 © Мошак Н. Н., 2007

i Надоели баннеры? Вы всегда можете отключить рекламу.