Некоторые вопросы построения систем голосового управления в тренажерных комплексах управления воздушным движением гражданской авиации

Иванов Александр Юрьевич; Астапов Константин Андреевич; Плясовских Александр Петрович

УДК 629.7.351

НЕКОТОРЫЕ ВОПРОСЫ ПОСТРОЕНИЯ СИСТЕМ ГОЛОСОВОГО УПРАВЛЕНИЯ В ТРЕНАЖЕРНЫХ КОМПЛЕКСАХ УПРАВЛЕНИЯ ВОЗДУШНЫМ ДВИЖЕНИЕМ ГРАЖДАНСКОЙ АВИАЦИИ

А.Ю. ИВАНОВ, К.А. АСТАПОВ, А.П. ПЛЯСОВСКИХ

Рассмотрены вопросы распознавания речи, проанализированы перспективы использования систем голосового управления в тренажерных комплексах УВД. Предложен метод повышения эффективности распознавания речи путем использования контекстного анализа элементов фразеологии радиообмена при выполнении полётов и управлении воздушным движением.

Ключевые слова: распознавание речи, голосовое управление, тренажерный комплекс УВД.

Автоматизированная система управления воздушным движением (АС УВД) - это сложная полиэргатическая система, осуществляющая управление динамическими объектами, главной целью которой является наиболее эффективное использование воздушного пространства [1]. Это достигается путем обеспечения требуемой пропускной способности элементов УВД и экономичности полетов воздушных судов (ВС) при соблюдении требуемого уровня безопасности полетов.

Важным аспектом в деятельности системы УВД является подготовка специалистов службы движения. Эту задачу призваны решать комплексные системные тренажеры УВД (КСТ УВД), основная функция которых вырабатывать навыки, позволяющие в полном объеме решать задачи, стоящие перед службой движения. Однако подобные тренажные системы обладают рядом недостатков, связанных с необходимостью использования в обучении пилотов-операторов: субъективизм в обучении и в оценке качества работы тренируемого диспетчера, ошибки, сопровождающие процесс обучения, высокая стоимость обучения. Разработка системы голосового управления для тренажера могла бы позволить избавиться от этих недостатков. Поскольку основная задача пилота-оператора заключается в том, чтобы имитировать радиообмен и обеспечивать динамическое изменение воздушной обстановки, своевременно реагируя на голосовые команды обучаемого, то модуль голосового управления мог бы взять на себя часть его функций или даже полностью исключить участие человека из процесса обучения (рис. 1). Кроме этого разработка системы голосового управления могла бы позволить создать ряд процедурных тренажеров, нацеленных на отработку у диспетчеров навыков, связанных с использованием речевых сообщений и позволяющих более полно, автоматически оценивать их профессиональный уровень.

Рассмотрим основные методы распознавания. Как правило, в существующих системах используются два подхода: распознавание голосовых меток и распознавание лексических элементов. Первый подход предполагает распознавание фрагментов речи по заранее записанному образцу: пользователь записывает в устройство голосовую метку (это может быть любое слово или фраза), которую ассоциирует с какой-либо командой, и впоследствии использует эту фразу для выполнения заданного приказа. Этот подход достаточно прост в реализации и показывает вполне удовлетворительные результаты, если количество команд невелико и устройством пользуется один человек. Однако данный метод мало подходит для задания большого количества команд, т.к. в этом случае требуется много хорошо отличимых друг от друга уникальных голосовых меток, что уже является проблемой для органов человеческой речи. Кроме того, необходимость в точности воспроизводить заданную голосовую фразу также вызывает определенные трудности в процессе использования. Второй метод основывается на выделении из потока речи отдельных лексических элементов (букв или слогов), с помощью которых в свою очередь рас-

познаются слова и предложения, т.е. осуществляется полноценное распознавание [2]. Этот способ отличает гораздо более сложная реализация, но зато большая гибкость и точность. Построение команд, применяемых для УВД, использует строго формализованную структуру, для их формирования употребляется фиксированный словарь и лингвистические конструкции, утвержденные нормами ИКАО, т.е. для любой ситуации предусмотрено свое уникальное сообщение, которое, впрочем, может незначительно отличаться от какого-либо другого с похожим содержанием [3]. Конечно, в реальной жизни далеко не всегда удается ограничиваться набором готовых форм и, кроме того, могут случаться внештатные ситуации, для разрешения которых утвержденного лексикона может оказаться не достаточно. Однако подавляющее большинство голосовых сообщений возможно представить изначально. Достаточная сложность построения и сходность звучания делают затруднительным распознавание по меткам, но, с другой стороны, некоторая предсказуемость позволяет несколько упростить распознавание по элементам. Таким образом, для построения системы голосового управления воздушным движением второй подход представляется более перспективным.

КСА УВД 1 К97 <- КСТ УВД <— -

а)

АРМ П-О

КСТ УВД

АРМ РО

КСТ УВД

Гу^У КСА УВД 1 /\уу ^- >

модуль голосового управления

б)

КСТ УВД

АРМ РО

Рис. 1. Структурная схема тренажерного комплекса УВД: а) при наличии пилота-оператора; б) при наличии модуля голосового управления:

КСА УВД - комплекс средств автоматизации управления воздушным движением; КСТ УВД - комплексный системный тренажер; АРМ П-О - автоматизированное рабочее место пилота-оператора; АРМ РО - автоматизированное рабочее место руководителя обучения

Проведем краткий обзор процесса распознавания речи и традиционно используемых при этом механизмов. Распознавание, как правило, начинается с выделения информативных признаков речевого сигнала. Человеческая речь представляет собой сплошной поток звуков, которые делятся на голосовые и шумовые. Голосовые звуки образуются путем накладывания на основной тон модулирующих частот. Наиболее активную роль играют четыре из них, они называются формантными. Шумовые звуки можно разделить на турбулентные и импульсные. Турбулентные образуются за счет прохождения воздуха через сужения голосового тракта. Импульсные получаются при резком изменении давления при прерывании струи воздуха. Получить из шумовых звуков формантные составляющие весьма затруднительно. Таким образом, информа-

ционные составляющие доступные для анализа строятся из формантных частот и шума [2]. Выделения информативных признаков речевого сигнала обычно происходит в два этапа. На первом осуществляется получение частотного спектра речевого сигнала. Обычно оно заключается в обработке сигнала с использованием набора полосовых фильтров, выполняя оконное преобразование Фурье, либо вейвлет-преобразования. На втором этапе выполняются преобразования полученного речевого сигнала: логарифмическое изменение масштаба в пространстве амплитуд и частот, сглаживание спектра с целью получения его огибающей, кепстральный анализ.

Процесс распознавания осуществляется путем сравнения полученного сигнала с набором акустических моделей. Наиболее распространенная из них - шаблонная, в которой по образцу сопоставляются различные варианты произношения слова целиком и модель состояний, где сравнение происходит с набором звуков, который выбирается согласно неким вероятностным правилам. В результате работы система выдает несколько вариантов последовательностей, которые наиболее соответствуют входному набору [4]. Ключевым моментом, обуславливающим успех распознавания, является процедура сравнения полученных составляющих с эталонными значениями. Для её решения, как правило, используются алгоритмы, основанные на скрытых марковских моделях или нейронные сети. При использовании марковских моделей сопоставление осуществляется с элементами (словами или их составляющими), вероятность появления которых, исходя из текущей последовательности элементов речи, наиболее высока [4]. При использовании искусственных нейронных сетей (ИНС) распознавание осуществляется благодаря тому, что нейронные сети (а именно, самый распространённый их вид - перцептроны) являются универсальными аппроксиматорами. Доказано, например, что двухслойный перцептрон (один из самых распространённых видов ИНС) способен аппроксимировать произвольную непрерывную функцию [5; 6; 7]. За счёт этого становится возможным обучение ИНС, что позволяет распознавать объекты, принадлежащие к определенному набору классов или группировать объекты по неопределенным заранее видам. Главным преимуществом нейронных сетей является то, что они не требуют никакой информации о решаемой задаче, обучаясь только на примерах. Обучение происходит за счет задания механизма перебора весовых коэффициентов, которые перемножаются со значением входных сигналов и изменяются в зависимости от того, соответствует ли выходной сигнал заданному значению, или нет. Для этого обычно вводят функцию ошибки нейронной сети, а далее минимизируют её стандартными методами, например, методом градиентного спуска, ББОБ. Следует различать нейронные сети, построенные на разных принципах и парадигмах (обучение с учителем, без учителя, полуконтролируемое). Выше мы говорили о перцептронах. Как пример иного подхода к ИНС можно привести самоорганизующуюся карту признаков Кохонена. Карты Кохонена - это метод нейросетевой кластеризации данных, нейросетевая версия алгоритма к-теапБ. По этому методу, для каждой группы входных сигналов (кластера) формируются нейронные структуры, определяющие принадлежность к этому кластеру, т.е. каждой комбинации входных воздействий соответствует своя структура, их распознающая и формирующаяся в процессе обучения сети.

Самым популярным и хорошо разработанным методом распознавания речи являются скрытые марковские модели (СММ). Но следует отметить, что использование их для задач голосового управления проблематично, так как они обладают слабой различимостью, особенно на больших словарях. Поэтому нам представляется перспективной для данных задач разработка специализированных ИНС.

По лингвистической классификации, в построении речи можно выделить шесть этапов, каждый из которых в той или мной мере должен присутствовать и в алгоритмах распознавания.

Фонетический - на этом этапе оперируют такими понятиями, как фонемы и аллофоны. Фонемы - это единицы звукового строя, которые образуются при произнесении одних и тех же букв в разных сочетаниях. Они характеризуются звонкостью, твердостью, переднеязычно-стью/заднеязычностью и другими свойствами. Комбинаторные аллофоны - это варианты произнесения одной и той же фонемы с учётом явления коартикуляции. Коартикуляция - это влия-

ние фонетического окружения и положения фонемы на её произношение. Различают так же основной аллофон - это такой аллофон, произнесение которого минимально зависит от его положения и фонетического окружения.

Фонологический - на этом уровне определяются комбинации фонем и аллофонов, реально встречающихся в заданном языке.

Морфологический - здесь происходят оперирования слогами и морфемами (минимально значимыми частями слова).

Лексический - здесь определяются слова и словоформы, возможные для данного языка.

Семантический - составляются предложения, т.е. происходит отображение речевых конструкций на понятия и образы, устанавливаются отношения между объектами и обозначающими их словами [2].

Как можно было заметить, на каждом уровне построения, сигнал кодируется представителями предыдущих уровней, т.е. слоги и морфемы составляются из аллофонов, слова из слогов и т.д. При переходе с уровня на уровень, помимо представителей сигналов, также передаются и временные зависимости отношений между сигналами. Собирая сигналы с предыдущих уровней, высшие уровни располагают большим объемом информации, что может быть использовано для управления процессами на низших уровнях.

В рассмотренных выше этапах наибольшую трудность при реализации распознавателя речи представляет собой контекстный анализ, который позволяет выбрать из наиболее вероятных результатов распознавания те, которые соответствуют осмысленным предложениям и более того, максимально подходят под контекст сообщения. Например, человек распознаёт речь в некоторых условиях с точностью не более 80 %, но это не мешает ему воспринимать информацию, т.к. информационные потери и ошибки компенсируются за счёт анализа контекста. Таким образом, заключительным этапом распознавания должно стать оперирование представлениями. На данном этапе развития техники сложно представить возможность конструирования универсального распознавателя речи, наделенного такими свойствами, однако при уменьшении словарного запаса, с которым необходимо работать, а, следовательно, количества объектов и связей между ними, можно получить образную конструкцию, состоящую из ограниченного набора сущностей, все состояния которых и действия над которыми возможно перечислить. Так для систем УВД определение предмета управления на ранних стадиях процесса позволило бы найти набор возможных действий, которые тот мог бы совершать и, соответственно, набор диспетчерских разрешений, которые можно было бы ему отдать. Выявление дополнительных признаков, присущих множеству допустимых диспетчерских разрешений может позволить ещё более ограничить пределы области распознавания, удалив варианты ветвлений, не удовлетворяющих полученным признакам. В качестве одного из возможных решений можно предложить создание моделей диалога, т.е. описание возможных запросов и ответов. Если инициатор диалога - диспетчер или если сообщение ВС требует ответ диспетчера, то пользуясь набором ключевых фраз определить основную тему, найти соответствующую ей модель и выявить возможные варианты хода беседы. Далее, опираясь на лексические конструкции этих вариантов выделить оставшиеся нерасшифрованными фрагменты, сделать предположения о характере их содержания (например числовые значения). Ограничив подобным образом область возможных значений оставшейся нераспознанной части, сделать новый поиск, перебирая значения из полученного набора (например, перебирая цифры).

В качестве примера рассмотрим диалог, в котором задается команда изменения высоты ВС. Данное сообщение может инициироваться диспетчером, например, при возникновении конфликтных ситуаций. Экипаж, которому адресовано это сообщение, может согласиться, отказать, указав причину или, к примеру, сославшись на неудовлетворительную радиосвязь, попросить повторить. Так же одновременно с командой изменения высоты сообщение может содержать информационную часть, например, о текущем местоположении ВС, об опасных метеоявлениях или ещё одну команду.

На первом этапе необходимо выделить из фразы командную и идентификационную части. Для этого нужно определить является ли сообщения началом нового, продолжением существующего или обращением ко всем, т.к. в первом случае сообщению предшествует адресная конструкция, в которой содержится имя получателя и имя отправителя. Во втором её может и не быть, а в третьем сообщения начинаются со стандартной безличностной фразы. Вследствие того, что отправитель известен заранее (к примеру "Moscow Control"), и в ходе тренинга он не меняется, то расшифровку удобнее начинать с этого. Поскольку указание отправителя, происходит как раз между именем получателя и сообщением, то выделив его, мы сразу получим набор звуков, соответствующий первой и второй части. Т.к. любая возможная воздушная ситуация подразумевает вполне определенный набор диспетчерских разрешений, допустимых при её возникновении, будем считать, что команда смены высоты входит в набор разрешенных. Большинство фраз, используемых в УВД, согласно их функциональному предназначению, можно разбить на некие логические группы (например, команды изменения высоты, изменения скорости, команды задания курса, метеосводки и др.). Каждая из этих групп использует определенный набор словосочетаний, употребляемых в определенном порядке, присущим только ей одной. Назовем их ключевыми. Таким образом, можно предположить, что если в полученном диспетчерском разрешении удастся выделить ключевые слова, то путем сравнения порядка их употребления с эталонными последовательностями ключевых слов, удастся с достаточно высокой степенью вероятности определить принадлежность полученной команды к той или иной группе. Этот вывод позволит далее выбирать варианты для определения нераспознанных слов, исходя из возможности их употребления в найденной группе. Причем порядок их употребления относительно ключевых может внести дополнительные ограничения в перечень возможных вариантов и тем самым ещё более уменьшить количество доступных вариантов, а в случаях особых затруднений способствовать составлению адекватной замены нераспознанной части фразы.

due I traffic ahead

j aue j

Рис. 2. Обобщенная блок-схема распознавания элементов фразеологии диспетчера УВД

Так для команд изменения эшелона (высоты) полета в качестве ключевых к примеру можно использовать "climb", "descend", "maintain", "flight lever" и т.п. Т.е., обнаружив любое вхождение из вышеперечисленного списка в указанном порядке, можно сделать вывод, что речь идет об изменении эшелона. Исходя из этого, получаем следующий список наиболее вероятно используемых фраз: "flight level ???", "descend/climb to flight level ???", "descend/climb to reach flight level ???", "descend/climb at ???", " descend/climb until passing flight level ???" где "???" подразумевается высота в метрах или наименование эшелона (рис.2). Если сообщение не ограничено командной составляющей и имеет нераспознанные участки до или после текста команды, можно предположить, что указывается дополнительная информация, связанная с местом проведения маневра, моментом времени, скорости, чрезвычайными обстоятельствами из-за которых

необходимо изменить направление движения, текущее местоположение ВС и пр., чему соответствует новое множество ключевых слов (after, before, continue, stop и т.п.), которые так же имеют свои закономерности использования и могут способствовать распознаванию остальных частей фразы. Для данного примера требование изменения эшелона сопровождается указанием причины (ключевое слово "due") [3]. Эти правила позволяют уменьшить объем словаря, используемого для распознавания речи, и тем самым снизить вероятность ошибочного распознавания.

Таким образом, предлагаемый в настоящей статье метод распознавания с использованием контекстного анализа элементов фразеологии радиообмена позволит увеличить эффективность распознавания элементов фразеологии диспетчера УВД за счет дальнейшего анализа результатов распознавания, полученных при помощи существующих программных продуктов. Это позволит разработать программный модуль тренажерных комплексов УВД, поддерживающий функции голосового управления, который обеспечит возможность тренировки диспетчерского состава без участия пилотов-операторов, что обеспечит снижение стоимости тренажерной подготовки. Кроме того, наличие подобного модуля позволит создать серию дешевых и малогабаритных процедурных тренажеров для отработки навыков радиообмена как на русском, так и на английском языке. Использование модуля распознавания речи в диспетчерских тренажерах позволит снизить стоимость обучения, а так же уменьшить роль субъективного человеческого фактора, что положительным образом отразится на эффективности подготовки диспетчерского персонала.

ЛИТЕРАТУРА

1. Алешин В.И., Дарымов Ю.П., Крыжановский Г.А. и др. Организация управления воздушным движением / под ред. Крыжановского Г.А. - М.: Транспорт, 1988.

2. Фролов А.В., Фролов Г.В. Синтез и распознавание речи // Современные решения. [Электронный ресурс]. -URL: http://www.frolov-lib.ru/books/hi/ch01.html.

3. Правила и фразеология на английском языке при выполнении полетов и управлении воздушным движением в воздушном пространстве Российской Федерации. - 2-е. изд. - М.: Министерство транспорта РФ. Государственная служба гражданской авиации, 2001.

4. Бойков Ф.Г. Применение вейвлет-анализа в задачах автоматического распознавания речи: дисс. ... канд. техн. наук. - М., 2003.

5. Арнольд В.И. О представлении непрерывных функций трех переменных суперпозициями непрерывных функций двух переменных // Матем. сб. - 1959. - Т. 48(90). - № 1. - С. 3-74.

6. Колмогоров А.Н. О представлении непрерывных функций нескольких переменных в виде суперпозиций непрерывных функций одной переменной и сложения // ДАН СССР. - 1957. - Т. 114. - Вып. 5. - С. 953-956.

7. Cybenko G. Approximation by Superpositions of Sigmoidal Function. Cybenko G. - Urbana: University of Illinois, 1988.

SOME QUESTIONS OF MAKING VOICE COMMAND SYSTEMS WITH APPLY IN AIR TRAFFIC

CONTROL TRAINING COMPLEXES

Ivanov A.Y., Astapov K.A., Plyasovskih A.P.

The experience of making speech recognizing in voice command systems is summarized in the report. Some ways of creating speech recognizing gears with applying in Air Traffic control training complexes are outlined.

Key words: speech recognizing, voice command.

Сведения об авторах

Иванов Александр Юрьевич, 1980 г.р., окончил ПГУПС (2002), ЛИМТУ (2008), инженер Санкт-Петербургского всероссийского научно-исследовательского института радиоаппаратуры (ВНИИРА), область научных интересов - программное обеспечение тренажерно-моделирующих комплексов УВД.

Астапов Константин Андреевич, 1981 г.р., окончил СГУ (2004), область научных интересов -нейронные сети, вейвлеты, распознавание речи, искусственный интеллект.

Плясовских Александр Петрович, 1960 г.р., окончил Актюбинское высшее летное училище гражданской авиации (1985), доктор технических наук, начальник научно-исследовательской лаборатории

Санкт-Петербургского всероссийского научно-исследовательского института радиоаппаратуры (ВНИИРА), автор более 45 научных работ, область научных интересов - автоматизация управления воздушного движения.