Разработка детерминированного структурного метода распознавания слов команд водителя

Федоров Е.Е.

ИНФОРМАЦИОННОЕ ОБЕСПЕЧЕНИЕ ДОРОЖНОГО ДВИЖЕНИЯ: СОСТОЯНИЕ И ПЕРСПЕКТИВЫ РАЗВИТИЯ

УДК 004

РАЗРАБОТКА ДЕТЕРМИНИРОВАННОГО СТРУКТУРНОГО МЕТОДА РАСПОЗНАВАНИЯ СЛОВ КОМАНД ВОДИТЕЛЯ

Е.Е. Федоров, доцент, к.т.н., Донецкая академия автомобильного транспорта

Аннотация. Предлагается детерминированный структурный метод распознавания слов команд водителя, который использует признаки, полученные путем нерасширяющих равномерно непрерывных отображений, и детерминированный конечный автомат, который моделирует слова команд водителя.

Ключевые слова: детерминированный конечный автомат, распознавание слов команд, компьютерная система, нерасширяющие равномерно непрерывные отображения, мел-частотные кепстралъные коэффициенты.

РОЗРОБКА ДЕТЕРМІНОВАНОГО СТРУКТУРНОГО МЕТОДУ РОЗПІЗНАВАННЯ СЛІВ КОМАНД ВОДІЯ

Є.Є. Федоров, доцент, к.т.н., Донецька академія автомобільного транспорту

Анотація. Пропонується детермінований структурний метод розпізнавання слів команд водія, що використовує ознаки, отримані шляхом нерозширювальних рівномірно безперервних відображень, і детермінований кінцевий автомат, який моделює слова команд водія.

Ключові слова: детермінований кінцевий автомат, розпізнавання слів команд, комп ’ютерна система, нерозширювальні рівномірно безперервні відображення, мел-частотні кепстральні коефіцієнти.

DEVELOPING OF DETERMINED STRUCTURAL METHOD OF DRIVER’S COMMAND WORDS RECOGNITION

E. Fiodorov, Associate Professor, Candidate of Technical Science,

Donetsk Academy of Motor Transport

Abstract. The structural method of command words recognition of the driver which uses the features received by uniformly expanding continuous mapping, and the determined finite state machine, which models words of commands of the driver is offered.

Key words: determined finite state machine, commands words recognition, computer system, uniformly expanding continuous mapping, mel-frequency cepstral coefficients.

Введение

В настоящее время широкое распространение получают системы человеко-машинного общения, в частности, для управления транспортными объектами. Важную роль в таких системах играет распознавание речевых ко-

манд. Для эффективного распознавания вербальных команд водителя принятие решений должно производиться с высоким быстродействием и высокой вероятностью. Параметры системы идентификации команд водителя определяются по результатам численного исследования.

Анализ публикаций

Существующие методы и модели распознавания речевых образов обычно основаны на скрытых марковских моделях (СММ) [1], алгоритме динамического программирования DTW [2] и нейронных сетях [3-6] и обладают одним или несколькими из перечисленных ниже недостатков:

- длительность обучения;

- хранение большого количества эталонов звуков или слов;

- хранение большого количества весовых коэффициентов;

- длительность распознавания;

- низкая вероятность распознавания;

- необходимость большого количества обучающих данных.

Цель и постановка задачи

Цель статьи - для вербального управления транспортными объектами разработать детерминированный структурный метод распознавания слов команд водителя, который предусматривает решение следующих задач:

- формирование признаков посредством нерасширяющих равномерно непрерывных отображений;

- построение детерминированного конечного автомата, описывающего слова команд.

Формирование признаков посредством нерасширяющих равномерно непрерывных отображений

В работе [7] впервые были введены нерасширяющие равномерно непрерывные отображения, действующие в компактных метрических пространствах образцов сигналов. В данной статье эти отображения используются с точки зрения преобразования и распознавания образцов звуков речи и исследуются на мел-частотных кепстральных коэффициентах (МБСС), которые описаны в работе [8].

Нерасширяющее равномерно непрерывное отображение ф : SN —> Ук соответствует

функции формирования вектора признаков, т.е. отображает вектор целых значений дискретного сигнала 8 = (51,...,sN) в вектор вещественных признаков V = (у1,...,Ук), причем каждая компонента вектора V вычисляется как МБСС в виде

V, = фг. (8) = М¥СС,_1, , е 1, К,

М¥СС} = £ Е соз(](, - 0.5)% /Р), ] е 1, К -1

( к 2,

Е, = 18

£(Х (к ))2 Ш(к)

N-1

,е 1, Р

у (2% / N )кт

т=0

^1( т) = 0,54 + 0,46со8

2%т

N

м>2(к) =

0, к < к1 к - к1

Ак, /2 к2,. - к

, к1, < к < к1, + Ак, /2 к1, + Ак /2 < к < к 2,

,,

Ак, /2

0, к > к2

где Е, - логарифмированная энергия , -й мел-частотной полосы Фурье-спектра; X (к) -Фурье-спектр сигнала; ^1(т) - окно Хем-мннга; ^2(к) - треугольное окно; Р - количество мел-частотных полос спектра; г5 -количество разрядов (бит) для одного значения сигнала; к1,, к2, - границы частотных диапазонов ,-й полосы, Ак, = к2, - к1,.

Нерасширяющее равномерно непрерывное отображение у : УК —> Хк соответствует функции нормирования, масштабирования и округления вектора вещественных признаков, т.е. отображает вектор вещественных признаков V = (у1,...,Ук) в вектор целых признаков х = (х1,..., хк), причем каждая , -я компонента вектора х вычисляется в виде

V - тш Ук

к& 1,к

тах Ук - тт V

•а

к 1,к

к

/е 1, к.

где а е {2ГХ-1,...,2ГХ } - коэффициент масштаба, [] означает округление; гХ - количество разрядов (бит) для одного значения при-

знака.

Нерасширяющее равномерно непрерывное отображение ф: Хк —> УМ соответствует функции классификации вектора целых признаков, т.е. отображает вектор целых признаков х = (х1,...,хк) в номер класса образца звука речи, представленный булевым вектором с одной ненулевой компонентой у = (у1,...,уМ), причем каждая , -я компонента вектора у вычисляется в виде

Уг = ф, (х) =

1, inf р(х, х) = 0

хє X*

0, іпґ р(х, х) = 1

.г є 1,М .

р(х,х)=

1, й(х, х) > 0

0, й(х, х) < 0,

^,х)=ЁIхк -,

к=1

где Х, - класс эквивалентности, соответ-

ствующий , -му звуку речи.

На рис.1 приведены обучающие образцы фонемы слова «на» после выполнения нормирования, масштабирования и округления. Каждый образец представляет собой вектор признаков, вычисленный на основе мел-частотных кепстральных коэффициентов (МБСС).

Рис. 1. Обучающие образцы фонемы

Построение детерминированного конечного автомата, описывающего слова команд

Пусть с одной стороны распознаваемому слову команды соответствует конечная последовательность фонем W длины | w |, которая состоит из М классов различных

фонем, | |> М . С другой стороны распозна-

ваемому слову соответствует цифровой сигнал, который разбит на Т перекрывающихся фреймов длиной N, причем каждый последующий фрейм сдвинут относительно предыдущего фрейма на один отсчет. Произведем маркировку фреймов цифрового сигнала следующим образом. Пусть ґ -му фрейму слова, 1 < ґ < Т, соответствует символ с0, если в результате распознавания этот фрейм не был классифицирован (т.е. образец ґ -го фрейма не совпал ни с одним из опорных образцов фонем); ґ -му фрейму слова, 1 < ґ < Т, соответствует символ ск , к є 1, М , если в результате распознавания этот фрейм был отнесен к к -му классу (т.е. образец ґ -го фрейма совпал с одним из опорных образцов фонем); Т -му фрейму слова соответствует символ сМ+1. В результате будет получена конечная последовательность маркеров фреймов О = д1, д 2,..., дТ , где

и

дТ = см+1 .

Чтобы полученная последовательность Q была в дальнейшем правильно преобразована к последовательности W, необходимо наложить на последовательность Q ограничения посредством следующего утверждения.

Утверждение. В конечной последовательности маркеров фреймов Q = д1,д2,...,Чт распознаваемого слова символ ск , соответствующий фонеме к -го класса этого слова, должен подчиняться следующим условиям:

1. Необходимое условие. Символ ск не должен появляться для фонем не к -го класса распознаваемого слова.

2. Достаточное условие. Символ ск должен появляться хотя бы один раз для каждой фонемы к -го класса распознаваемого слова.

Необходимое условие налагает ограничение на типы преобразований фреймов сигнала, используемых при формировании опорных образцов фонем. Достаточное условие налагает ограничение на количество опорных образцов фонем.

Сформулированное утверждение можно представить в виде следующего логикоформального правила

V, є 1,| w |, і є 1,| w | Зк :

fonemi W л fonem j W л л class (fonemt) = k л lbound(fonemt) = n л rbound(fonemt) = m л class( fonem]) Ф k л л lbound(fonemj) = s л rbound(fonemj) = r —>

->| v(ql = ck лq, є Q) | л

l=n

л | *{qp ф ck л Q) |,

где class - функция, возвращающая номер класса фонемы;

lbound - функция, возвращающая номер фрейма, содержащего начало фонемы;

гЬои^ - функция, возвращающая номер фрейма, содержащего конец фонемы.

Для генерации последовательности Q можно предложить следующую генеративную модель в виде детерминированного конечного автомата:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

БЕЛ = (и, С, 5, и0,иеМ),

где и - конечное множество состояний; и = {и0,и1,...,и2М+2}; С - конечное множество допустимых входных символов;

С = {С0,С1,...,См+1}; 5 - функция переходов, 5 : и х С —> и ; т.е. 5(и,,ск) = иу, и0 - начальное состояние; иеМ - множество заключительных cocтoяний, иепё = {и2М + 2 } .

Пример детерминированного конечного автомата для слова «на», где М = 2 , представлен в виде графа на рис. 2.

Рис. 2. Детерминированный конечный автомат в виде графа для слова «на»

Выводы

Предложенный детерминированный структурный метод обладает следующими достоинствами:

1. Допускается, что некоторые фреймы могут быть не классифицированы. Это прежде всего относится к фреймам, принадлежащим двум соседним фонемам.

2. Сокращается время формирования опорных образцов для фонемы и уменьшается объем хранимой информации, поскольку становится возможным ограничиться только частью опорных образцов данной фонемы.

3. Не требуется вычислять вероятности переходов между состояниями (как, например, для скрытых марковских моделей), а также

вычислять минимальное и максимальное количество повторений фреймов в слове (как, например, для подхода КДП).

4. Модель позволяет распознавать быстро произносимые слова, фонемы которых имеют малую длину.

Предложенный метод может использоваться в интеллектуальных компьютерных системах.

Литература

1. Rabiner L.R. Fundamentals of speech recog-

nition / L.R. Rabiner, B.H. Jang. -Englewood Cliffs, NJ: Prentice Hall PTR, 1993. - 507 p.

2. Винцюк Т.К. Анализ, распознавание и интер-

претация речевых сигналов / Т.К. Винцюк. - К.: Наук. думка, 1987. - 260 с.

3. Осовский С. Нейронные сети для обработ-

ки информации / С. Осовский. - М.: Финансы и статистика, 2002. - 344 с.

4. Хайкин С. Нейронные сети: полный курс /

С. Хайкин. - М.: Издательский дом «Вильямс», 2006. - 1104 с.

5. Комарцова Л.Г. Нейрокомпьютеры / Л.Г. Комарцова, А.В. Максимов. - М.: Изд-во МГТУ имени Н.Э. Батмана, 2002. - 320 с.

6. Каллан Р. Основные концепции нейрон-

ных сетей / Р. Каллан. - М.: Издательский дом «Вильямс», 2001. - 288 с.

7. Федоров Е.Е. Метод обработки сигнала на

основе нерасширяющих равномерно непрерывных отображений / Е.Е. Федоров // Радіотехнічні поля, сигнали, апарати та системи (теорія, практика, історія,

освіта): труды Междунар. науч.-техн. конф. (РТПСАС’2012). - К., 2012. -С.343-34б.

S. Davis S. Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences I S. Davis, P. Mermelstein II IEEE Trans. on Acoustic, Speech and Signal Processing. -19S0. - Vol.2S, №4. - P. 357-3бб.

Рецензент: Л.С. Абрамова, доцент, к.т.н., ХНАДУ.

Статья поступила в редакцию 11 марта 2013 г.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Федоров Е. Е.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Федоров Е. Е.

DEVELOPING OF DETERMINED STRUCTURAL METHOD OF DRIVER’S COMMAND WORDS RECOGNITION

Текст научной работы на тему «Разработка детерминированного структурного метода распознавания слов команд водителя»