Научная статья на тему 'Разработка и исследование алгоритмов речевого взаимодействия экипажа с бортовым оборудованием летательных аппаратов (часть 1)'

Разработка и исследование алгоритмов речевого взаимодействия экипажа с бортовым оборудованием летательных аппаратов (часть 1) Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
• речевое взаимодействие экипажа с бортовыми системами • шумоочистка речевых сигналов • детектирования голосовой активности • распознавание и организация исполнения речевых команд • логика функционирования бортовых систем / • speech interaction of the crew with on-board systems • noise cleaning of speech signals• detection of voice activity • recognition and organization of speech commands execution • logic of on-board systems functioning

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Жигулёвцев Ю. Н.

В цикле статей представлена концепция построения аппаратных, алгоритмических и программных средств речевого взаимодействия экипажа пилотируемого летательного аппарата с бортовыми системами, а также результаты проработки этой концепции в научно-исследовательских, курсовых и выпускных квалификационных работах студентов кафедры ИУ1 МГТУ им. Н. Э. Баумана. Приводятся результаты сравнительно-экспериментального исследования алгоритмов шумоочистки речевых сигналов, детектирования голосовой активности, распознавания и организации исполнения речевых команд с учётом логики функционирования бортовых систем.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Жигулёвцев Ю. Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT AND RESEARCH OF ALGORITHMS FOR THE SPEECH INTERACTION OF THE CREW WITH THE ON-BOARD EQUIPMENT OF AIRCRAFT (PART 1)

The series of articles presents the concept of constructing hardware, algorithmic and software tools for speech interaction of the crew of a manned aircraft with on-board systems, as well as the results of working out this concept in research, course and final qualifying works of students of the Department of IU1 of the Bauman Moscow State Technical University. The results of a comparative experimental study of algorithms for noise cleaning of speech signals, detecting voice activity, recognizing and organizing the execution of speech commands, taking into account the logic of the functioning of on-board systems, are presented.

Текст научной работы на тему «Разработка и исследование алгоритмов речевого взаимодействия экипажа с бортовым оборудованием летательных аппаратов (часть 1)»

Разработка и исследование алгоритмов речевого взаимодействия

экипажа с бортовым оборудованием летательных аппаратов (часть 1)

Жигулёвцев Ю. Н., кандидат технических наук, доцент кафедры систем автоматического управления летательными аппаратами Московского государственного технического университета им. Н. Э. Баумана, specon@bmstu.ru

В цикле статей представлена концепция построения аппаратных, алгоритмических и программных средств речевого взаимодействия экипажа пилотируемого летательного аппарата с бортовыми системами, а также результаты проработки этой концепции в научно-исследовательских, курсовых и выпускных квалификационных работах студентов кафедры ИУ1 МГТУ им. Н. Э. Баумана. Приводятся результаты сравнительно-экспериментального исследования алгоритмов шумо-очистки речевых сигналов, детектирования голосовой активности, распознавания и организации исполнения речевых команд с учётом логики функционирования бортовых систем.

• речевое взаимодействие экипажа с бортовыми системами • шумоочистка речевых сигналов • детектирования голосовой активности • распознавание и организация исполнения речевых команд • логика функционирования бортовых систем

Применение речевых технологий для организации речевого взаимодействия экипажа с бортовым оборудованием пилотируемого летательного аппарата (ЛА) требует решения комплекса задач по реализации ввода-вывода, распознавания и синтеза речевых сигналов, а также сопряжения и алгоритмического обеспечения взаимодействия речевой подсистемы с бортовыми системами ЛА [12]. К числу этих задач относятся следующие.

Оптимизация электроакустического тракта требует решения проблем устранения помех от переговоров членов экипажа между собой и по радиоканалам, шумов аппаратуры, дыхания и др. Решение этой задачи возможно на двух принципах:

• шумоочистка речевых сигналов, получаемых от индивидуальных микрофонных гарнитур членов экипажа;

• применение технологий микрофонных массивов, позволяющих эффективно решать задачи обнаружения источников звука, их локализации, выделения сигналов от отдельных источников с подавлением сигналов от мешающих источников (при

93

этом отпадает необходимость применения проводных гарнитур, ограничивающих мобильность дикторов).

Для реализации этих технологий на конкретном объекте необходимо построить и верифицировать акустическую модель рабочего пространства, выбрать рациональную топологию микрофонного массива (линейная, плоскостная, сферическая, кольцевая) и методы решения названных задач.

Современный уровень техники представляет широкий спектр вариантов реализации электроакустических и вычислительных средств — миниатюрные микроэлектромеханические микрофоны, цифровые сигнальные процессоры и микроконтроллеры, в том числе отечественного производства [13-15].

Формирование информативных описаний речевых команд, учитывающих специфику проблемной области при выборе характеристик речи и единиц описания речевого потока. С этой целью рассматривается вариант одновременного и независимого использования вектора параметров и его производной для выделения и формирования описаний речевых элементов.

Обеспечение высокой надёжности распознавания базируется на необходимости учёта дикторской и стилевой вариативности, вызываемой факторами полёта, влиянием нагрузок, стрессов и пр., а также согласования моделей языка с моделью предметной области управления ЛА. Целесообразно организовать пополнение речевых баз данных и знаний в процессе предполётной подготовки экипажей ЛА.

Решение трёх вышеназванных задач в настоящее время всё чаще базируется на применении технологии нейроподобных сетей.

Организация применения требует выработки методов и средств комплекси-рования и арбитража сигналов управления от взаимно дублирующих друг друга подсистем автоматического, ручного, речевого и прочих модальностей управления. В этом смысле идеология модели предметной области, общей для всех модальностей, может быть положена в основу концепции построения всего бортового комплекса оборудования (БКУ) на основе технологии систем, основанных на знаниях (СОЗ). Кроме этого, необходимо проработать вопросы перераспределения потоков информационного взаимодействия с учётом введения дополнительного речевого канала.

Дальнейшее изложение базируется в основном на результатах работ выпускника кафедры ИУ1 2022 г. Дмитрия Бацулы. Ниже излагается краткое описание рассмотренных им задач, а затем приводятся результаты сравнительного исследования алгоритмов.

Эффективный алгоритм подавления шума является необходимой составляющей функционирования системы речевого взаимодействия. При этом, помимо подавления шума, необходимо также не допустить снижения

94

разборчивости речи. Поэтому для анализа результатов работы рассмотренных алгоритмов использованы две метрики:

• отношение сигнал/шум (ОСШ, Signal-to-Noise Ratio, SNR), характеризующее качество звучания, и

• перцептивная оценка качества речи, характеризующая разборчивость речи (Perceptual Evaluation of Speech Quality, PESQ).

Для повышения эффективности работы алгоритмов распознавания речи необходимо решение задачи выделения речевых фрагментов из непрерывного потока аудиоданных. Для решения этой задачи используются детекторы речевой активности (англ. voice activity detector — VAD). Принцип работы VAD заключается в обнаружении голосовой активности во входном акустическом сигнале для отделения активной речи от фонового шума или тишины. Немаловажную роль играет то, что использование детекторов речевой активности позволяет подавать в модель распознавания речи не непрерывный аудиосигнал, а лишь фрагменты, содержащие речь. Очевидно, это снижает вычислительную нагрузку на бортовой компьютер.

Для решения задачи распознавания речевых команд хорошо себя зарекомендовали методы с использованием скрытых марковских моделей (Hidden Markov Models, HMM). Однако обучение таких систем требует существенного участия человека, поэтому с развитием технологий в области глубоких нейронных сетей (Deep Neural Networks, DNN) и производства графических ускорителей начали появляться так называемые сквозные (End-to-End) системы, в которых участие человека в обучении модели сведено к минимуму. Высокую эффективность распознавания и относительно низкие вычислительные требования показывают архитектуры, основанные на свёрточных нейронных сетях [4].

РЕАЛИЗАЦИЯ ЛОГИКИ ОБРАБОТКИ И ВЫПОЛНЕНИЕ КОМАНД

Набор поддерживаемых системой команд представляет собой древовидную структуру, то есть некоторые команды возможны только при условии поступления в систему других. Взаимосвязь команд и логику их исполнения реализует экспертная система, которая также обладает информацией о параметрах и состояниях объекта управления. Таким образом, экспертная система, по сути, является промежуточным звеном между системой распознавания речевых команд и системой управления. Также необходимо реализовать интерфейс экспертной системы, чтобы человек-оператор имел возможность получать обратную связь от системы диалогового речевого взаимодействия.

МОДЕЛЬ ПОДАВЛЕНИЯ ШУМА

Оценка модели подавления шума производится с помощью нескольких метрик, так как нужно оценить в некоторой степени два противоположных показателя: уровень подавления шума и разборчивость речи после подавления. Для оценки этих показателей существуют различные метрики и стандарты, в данной работе используются отношение сигнал/шум и стандарт PESQ — перцептивная оценка качества речи.

95

ДЕТЕКТОР РЕЧЕВОЙ АКТИВНОСТИ

Задача детектирования речевой активности представляет собой бинарную классификацию, для оценки результатов которой существует множество метрик. В данной работе используются метрики ROC AUC (площадь под кривой рабочей характеристики приёмника) и F-мера. Эти метрики одновременно учитывают как количество ложноположительных срабатываний, так и количество пропусков, тем самым обеспечивая всестороннюю оценку качества.

Для данных моделей производится полное обучение на сгенерированных данных, соответственно необходимо обеспечивать высокое качество обучающих данных, их расширение (аугментацию) и репрезентативность.

Модель классификации команд решает задачу многоклассовой классификации, и для её оценки также используются ROC AUC, F-мера, также особое внимание уделяется матрице ошибок.

Современные подходы и алгоритмы позволяют реализовать полный конвейер обработки речевой информации, который включает такие задачи, как детектирование речевой активности, подавление сложного нестационарного шума на борту летательного аппарата, распознавание команд и речи с высокой точностью и надёжностью. Упомянутые технологии проработаны в степени, позволяющей говорить о возможности их внедрения в прикладные системы. Однако вопросы комплексного применения нескольких технологий в сложных системах управления требуют проведения дальнейших теоретических и экспериментальных исследований.

Диалоговое взаимодействие подразумевает обмен речевыми сообщениями между человеком-оператором и системой управления. Характер этих сообщений определяется задачами, решаемыми в процессе управления.

Кроме речевых команд, предписывающих системе выполнение определенных действий, и речевых сообщений, подтверждающих приём и исполнение команд, система может выдавать информационные и диагностические сообщения, отражающие состояние подсистем объекта и ход процессов управления. Сообщения могут быть инициированы как запросами оператора, так и системой, например в случаях отклонения состояния подсистем объекта от значений, определенных моделью предметной области [7].

Режимы, реализуемые оператором путём выдачи речевых сообщений:

• активация и деактивация речевой подсистемы;

• выбор режима работы;

МОДЕЛИ РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД

ОРГАНИЗАЦИЯ ПРОЦЕССОВ РЕЧЕВОГО ДИАЛОГОВОГО УПРАВЛЕНИЯ

96

• обучение и дообучение распознаванию;

• контроль распознающей подсистемы;

• произнесение речевых команд и подтверждение корректности сформированных команд;

• выдача информационных запросов.

• Режимы, реализуемые системой:

• распознавание речевых сообщений;

• понимание принятых команд с учётом системы источников знаний;

• выполнение распознанных команд и запросов оператора;

• анализ состояния объекта управления на основе модели предметной области;

• формирование и синтез речевых информационных и диагностических сообщений;

• управление совместно с использованием других модальностей.

Словарь речевой подсистемы должен содержать наименования команд, режимов, параметров, значений, используемых при реализации процессов управления.

На каждом шаге диалогового управления в соответствии с моделью предметной области и сценариями диалога распознаётся лишь часть слов, что обеспечивает повышение надёжности распознавания. Надёжность управления дополнительно обеспечивается синтаксическим и прагматическим контролем формирования команд, реализуемым сетевой моделью диалогового управления.

ПРОБЛЕМА АКУСТИЧЕСКОГО ШУМА

Как сказано выше, одна из главных проблем, возникающих при разработке системы речевого взаимодействия, — это акустический шум. Шум присутствует практически во всех акустических средах. В речевом сигнале, записываемом микрофоном, обычно присутствует шум, исходящий от различных источников. Такое зашумление может изменить характеристики речевых сигналов, ухудшить качество распознавание речи, тем самым нанося значительный ущерб системам связи между человеком и системой управления.

Обнаружение и подавление шума для речевых приложений часто формулируется как проблема цифровой фильтрации, где оценка чистой речи получается путём пропускания зашумлённой речи через линейный фильтр. При такой формулировке основной проблемой снижения шума становится создание оптимального фильтра, который может значительно подавить шум без заметного искажения речи.

Оценка и подавление шума является сложной проблемой для систем распознавания речи. Из-за того, что характеристики шума могут меняться во времени, универсальный алгоритм для очистки сигнала все ещё не реализован.

97

Задача подавления шума ставится следующим образом.

Устранение шумовой составляющей из сигнала с целью улучшения отношения сигнал/шум.

Сохранение формы и характеристик полезного сигнала.

Решение данной задачи подразумевает некоторый компромисс между сохранением формы полезного сигнала и подавлением шума, так как удаление шумовой составляющей так или иначе влияет на информационный сигнал, искажая его.

В работе [6] представлено разделение шума на четыре основные категории: аддитивный шум, помехи, реверберация и эхо. Эти четыре категории привели к развитию четырех направлений в методах подавления шума: подавление шума/улучшение речи, разделение источников сигнала, дереверберация речи и подавление эха.

Задача, решаемая в данной работе, связана с первой категорией — подавлением шума/улучшением речи. Для решения этой задачи применяются несколько групп методов:

• методы на основе спектрального вычитания;

• методы на основе обработки сигнала в подпространствах;

• статистические методы;

• методы на основе Винеровской фильтрации.

Тем не менее самое широкое распространение для подавления аддитивного шума получили подходы на основе спектрального вычитания и алгоритмы, обрабатывающие сигнал в подпространствах.

Наиболее распространённым методом подавления шума является спектральное вычитание. Как и в большинстве методов улучшения качества речевого сигнала, в методе спектрального вычитания делается предположение, что спектр мощности зашумлённого речевого сигнала равен сумме спектра чистого сигнала и спектра некоррелированного шума. Это предположение является обоснованным при анализе спектра на коротких временных интервалах (порядка 25 мс) и ведёт к построению простого метода спектрального вычитания [10].

Базовый метод спектрального вычитания состоит в вычислении спектра мощности для каждого фрейма входного сигнала, умноженного на оконную

КЛАССИЧЕСКИЕ МЕТОДЫ ПОДАВЛЕНИЯ ШУМА

МЕТОД СПЕКТРАЛЬНОГО ВЫЧИТАНИЯ

98

весовую функцию, и вычитании спектра мощности из полученного спектра зашум-лённого сигнала. Оценка спектра мощности шума производится по сегментам сигнала, в которых отсутствует речь. Информация о фазе частотных компонент для синтеза сигнала, очищенного от шума, берётся из дискретного преобразования Фурье сегмента исходного сигнала.

Рассмотрим базовый алгоритм спектрального вычитания.

Допустим, что х(п) — это входной зашумлённый сигнал, который состоит из чистого речевого сигнала s(n) и аддитивного шумового сигнала d(n), то есть:

х (п) = 5 (п) + с1 (п). (2.1)

Применяя дискретное преобразование Фурье (ДПФ) к правой и левой части выражения, получаем:

Х(ю) = 5(пю) +О(ю). (2.2)

Можно выразить Х(ш) в полярной система координат:

Х(ю) = |х(ю)|(ю) (2.3)

где |х(ю)| и фх (ю) — амплитудный и фазовый спектры зашумлённого сигнала соответственно.

Спектр шума D(x) тоже можно выразить в терминах амплитудного и фазового спектров как:

О (ю) = \й (ю)| в1фс (ю). (2.4)

Амплитудный спектр шума в общем случае не известен, но может быть заменен своим усредненным значением, вычисленным по фреймам входного сигнала, в которых отсутствует речь.

Подобным образом фазовый спектр шума можно заменить фазовым спектром зашумленной речи. Частично это объясняется тем, что изменение фазы не влияет на разборчивость речи, а может только иметь влияние в некоторой степени на качество речевого сигнала. После приведённых замен можно записать выражение для оценки спектра чистой речи:

£ (ю) = (|х(ю)|- О (ю)|)еУфх (ю) (2.5)

где О (ю)| — оценка амплитудного спектра шума, определенная во время пауз речи.

Уравнение (2.5) даёт представление о главном принципе, лежащем в основе метода спектрального вычитания. В более общей форме метод спектрального вычитания формулируется следующим образом:

£(ю)|Р = |х(ю)|Р - О(ю)|Р (2.6)

где p — показатель степени, при p = 1 выражением (2.6) описывается первоначальный метод спектрального вычитания.

99

100

Часто в практических приложениях используют показатель p = 2. В этом случае (2.6) описывается правило вычитания спектра мощности.

Важно отметить, что правая часть (2.6) может принимать отрицательный знак, что является следствием неточности в оценке спектра шума. Однако амплитудное значение (или мощность) не может быть отрицательным числом, следовательно, необходимо дополнить правило (2.6) для того, чтобы оценка спектра чистой речи всегда имела неотрицательные значения. Вводятся следующие обозначения:

PS И= S и

Рх (ю)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

= X (

P н= D н

(2.7)

Тогда модифицированное правило для вычитания спектра мощности будет иметь следующий вид:

V и=Рх H-P н

, , j V(ю)

P (ю) = jo ( '

если V(ю) > 0 иначе

(2.8)

(2.9)

Очищенный от шума речевой сигнал получается из путем обратного преобразования Фурье:

§ (п) = ОДПФ {^(Юу*(ю)}, (2.10)

где фх (ю) — фазовый спектр исходного фрагмента зашумленного сигнала.

Главная проблема в описанном методе подавления шума состоит в том, что в обработанном сигнале возникает «новый» шум. На слух этот шум воспринимается как музыкальные тона, имеющие хаотический порядок. В литературе этот шум получил название «музыкального шума». Кроме того, несмотря на то что происходит уменьшение шума, его значительная часть остаётся в обработанном сигнале.

Метод спектрального вычитания изначального разрабатывался для очистки от белого шума. Чтобы объяснить природу музыкального шума, надо учесть, что в спектре белого шума, вычисленного на коротком интервале времени, имеются локальные максимумы и минимумы. Их частотное положение и амплитуда случайны и изменяются случайным образом для каждого последующего сегмента. Когда происходит вычитание сглаженного оценки спектра шума из текущего спектра, локальные максимумы спектра смещаются вниз, а в окрестности минимума устанавливаются значения нуля (минус бесконечность на логарифмической шкале). Таким образом, и после операции вычитания в спектре шума остаются локальные максимумы. Наиболее широкие максимумы на слух воспринимаются как изменяющийся широкополосный шум. Более узкие спектральные максимумы, обладающие продолжительностью и смещающиеся по частоте, образуют спектральные «трассы» и воспринимаются как меняющиеся во времени тона, которые называют музыкальным шумом [11].

МЕТОДЫ ОБРАБОТКИ СИГНАЛА В ПОДПРОСТРАНСТВАХ

Эта группа методов представляет собой эмпирические линейные алгоритмы, основанные на уменьшении размерности сигнала. По сути, алгоритмы применяют метод главных компонент (principal component analysis — PCA) к группе наблюдаемых временных рядов, полученных с помощью дискретизации аудиосигнала. PCA используется для идентификации набора ортогональных базисных векторов, которые захватывают как можно больше энергии в полученных группах временных рядов. Ортогональные базисные векторы называются главными компонентами и, по сути, представляют собой направления, в которых набор временных рядов обладает наибольшей дисперсией. Векторное пространство, охватываемое базисными векторами (главными компонентами), идентифицированными в результате анализа, и является подпространством сигналов [26].

Основное предположение состоит в том, что информация речевого сигнала почти полностью содержится в небольшом линейном подпространстве общего пространства, тогда как аддитивный шум обычно распределяется по всему подпространству.

Путём проецирования группы временных рядов на подпространство сигнала, то есть сохраняя только ту часть, которая находится в подпространстве сигнала, определяемом линейными комбинациями нескольких наиболее значимых главных компонент, и отбрасывая остальную часть выборки, производится определенная степень фильтрации шума.

ПЕРЦЕПТИВНЫЙ АЛГОРИТМ НА ОСНОВЕ СПЕКТРАЛЬНОГО ВЫЧИТАНИЯ

Методы спектрального вычитания были в числе первых средств, предложенных для фильтрации речи на фоне шума [5]. Достоинства таких средств — простота реализации и широкий спектр возможных применений. Основной идеей в них является вычитание спектральной плотности мощности (СПМ) шума из СПМ обрабатываемого сигнала.

СПМ шума оценивается в паузах, где речевой сигнал отсутствует. Среди предложенных модификаций этого подхода можно выделить следующие: нелинейное спектральное вычитание (Non linear Spectral Subtraction), субполосное спектральное вычитание (Multiband Spectral Subtraction), спектральное вычитание с оптимизацией параметров по минимуму среднеквадратичной ошибки (Minimum Mean Square Error Spectral Subtraction), избирательное спектральное вычитание (Selective Spectral Subtraction), спектральное вычитание с перцептивной оценкой вносимых искажений (Spectral Subtraction based on perceptual Properties) [9].

В алгоритмах этого класса речевой сигнал и аддитивная помеха считаются статистически независимыми и стационарными в широком смысле. В процессе обработки принятый зашумлённый сигнал разбивается на перекрывающиеся фреймы. Каждый входной фрейм умножается на оконную функцию и преобразуется в частотную область. Спектр выходного сигнала получается путём умножения текущего амплитудного спектра входного сигнала на действительные коэффициенты Н(ю) фильтра. Следует заметить, что фаза сигнала не изменяется. После оценки спектра отфильтрованной речи сигнал преобразуется обратно во временную область. Слабым

101

местом алгоритмов этого класса является остаточный шум, воспринимаемый на слух как случайные музыкальные тона (вследствие того, что Н(ю) на некоторых частотах оказывается близкой к нулю). Рассмотрим модификацию алгоритма спектрального вычитания на основе принципов психоакустики таким образом, чтобы оставить возникающие музыкальные тона ниже порога маскирования и так повысить субъективное качество обработанного сигнала.

Для модификации используется преобразование Фурье с неравномерным частотным разрешением (warped discrete Fourier transform — WDFT). Обработка сигнала при этом выполняется в критических частотных полосах и более точна в контексте психоакустического моделирования по сравнению со схемами на базе ДПФ.

Структура такого алгоритма подавления шума показана на рисунке 2.1 [9].

102

Рис. 2.1. Структура перцептивного алгоритма подавления шума на

базе WDFT

ПСИХОАКУСТИЧЕСКИ МОТИВИРОВАННЫЙ

АЛГОРИТМ НА ОСНОВЕ ОБРАБОТКИ СИГНАЛА В ПОДПРОСТРАНСТВАХ

Существует два основных способа определения линейного фильтра для обработки речевого сигнала в подпространствах [9]: во временной области (time-domain-constrained — TDC) и в спектральной области (spectral-domain-constrained — SDC). Входной зашумлённый сигнал разделяется на подпространство речи и подпространство шума с использованием преобразования Карунена - Лоэва (Karhunen - Loeve Transform — KLT), затем в подпространстве речи выполняется спектральное вычитание. Компоненты входного сигнала, которые проецируются на подпространство шума, просто обнуляются, что приводит

к значительно более высокому качеству выделенной речи по сравнению с обычными методами, где обрабатывается спектр сигнала в полосе его пропускания [9].

Основная трудность в интеграции психоакустики и методов, основанных на KLT, заключается в том, что свойства слуха (то есть маскирующие эффекты) необъяснимы в области разложения по собственным векторам.

В работе [1] предложен перцептивно мотивированный алгоритм подавления шума на основе обработки сигнала в подпространствах (perceptually constrained signal subspace — PCSS), основанный на модифицированном SDC операторе. Решение представлено в новой форме, которое делает реализацию оператора более надёжной. В отличие от других подходов, такой способ использует перцептивно мотивированное построение огибающей остаточного шума и накладывает ограничения строго в частотной области, применяя базисные векторы ДПФ. Остаточные уровни шума устанавливаются чуть ниже порога маскирования для ослабления только слышимой компоненты шума. Так как множители Лагранжа используются в выражении для модифицированного SDC оператора, они должны быть точно установлены для данного набора остаточных уровней шума. Эти множители независимы друг от друга и могут быть вычислены численно. В [1] также предлагается версия способа PCSS с низкой вычислительной сложностью. Учитывая все вышеперечисленные особенности, в данной статье используется реализация именно этого способа обработки зашумлённого сигнала в подпространствах.

Входной сигнал делится на фреймы длиной N с перекрытием N0 отсчётов. Каждый фрейм разбивается на т = N - к меньших перекрывающихся к-мерных векторов.

Определим вектор Xt внутри фрейма следующим образом:

' x(l(N-N0)+1 +1

x(l(N-N0 )+t + k

(2.11)

где l — индекс фрейма.

xt =

Последовательность этих векторов можно рассматривать как траектории в к-мерном евклидовом пространстве. Такая последовательность организована в так называемую матрицу траекторий размера к х т:

X(l)=[x1,x2,^,xm ]

(2.12)

Векторное произведение матрицы траекторий затем используется для вычисления значений ковариационной матрицы входного сигнала

cf = 1X1 (X1 f.

x m х '

(2.13)

Эта оценка является основой для расчёта структур собственных векторов шума (только в паузах речи) и К1_Т выбеленного сигнала, соответственно

С» Uлпип, С = -I = или'.

(2.14)

103

В последней формуле опущен индекс фрейма I для краткости. Чтобы избежать численных проблем, квадратные корни из матриц рассчитываются с использованием структуры собственных векторов ип, Лп, ковариационной матрицы шума.

Упрощённая схема алгоритма обработки показана на рисунке 2.2 [9]. Сначала вычисляется некоторый эффективный фильтр, а затем все векторы фрейма обрабатываются с помощью той же матрицы. Результат сохраняется в матрице траекторий отфильтрованного речевого сигнала. Обработанные векторы получают из этой матрицы, используя технику диагонального усреднения. Выходной речевой сигнал синтезируется с помощью метода перекрытия с суммированием с использованием временного окна Хеннинга.

Рис. 2.2. Структура алгоритма по методу PCSS

Для вычисления эффективного фильтра необходимо множество неортогональных проекций, собственные значения выбеленной чистой речи и множители Лагранжа. Множители рассчитываются итеративно по методу Ньютона. Поскольку ковариационная матрица шума считается положительно определённой, то максимальный уровень остаточного шума всегда больше нуля. Если это не так, данная матрица может быть реализована путём добавления маленькой положительной константы к оценённым собственным значениям.

ПОДХОДЫ НА ОСНОВЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ

В последнее время значительный интерес в задаче подавления шума получили алгоритмы, использующие глубокие нейросети. Одна из причин широкого распространения нейросетевых алгоритмов заключается в их способности качественно подавлять сложные нестационарные помехи, например музыку [3].

104

Зачастую нейросетевые алгоритмы разрабатываются для задач, не требующих обработки сигнала в реальном времени. Такие модели с целью максимально эффективного подавления шума обрабатывают весь звуковой сигнал сразу, то есть используют информацию как о прошлых значениях последовательности, так и о будущих. Напротив, классические же алгоритмы обрабатывают сигнал кадр за кадром, тем самым обеспечивая низкую задержку. Тем не менее в задачах обработки сигналов в реальном времени широкое распространение получили рекуррентные нейросе-ти, так как они позволяют обрабатывать сигнал последовательно [3].

РЕКУРРЕНТНЫЕ НЕЙРОСЕТИ

В задачах распознавания сложных временных последовательностей хорошо себя зарекомендовали рекуррентные нейросети (Recurrent Neural Networks, RNN) [3]. Основная особенность этой архитектуры заключается в том, что она позволяет реализовать некоторую «память» последовательности, то есть предсказывать следующий элемент последовательности на основании предыдущих. В задачах распознавания речи эта особенность позволяет нейронной сети определить более подходящий символ для текущего кадра звука в контексте уже предсказанных символов.

Любая рекуррентная нейронная сеть имеет форму цепочки повторяющихся модулей нейронной сети. В обычной RNN структура одного такого модуля очень проста, например он может представлять собой один слой с функцией активации ТапЬ (гиперболический тангенс). Схема и архитектура представлена на рисунке 2.3.

Рис. 2.3. Архитектура RNN

Однако из-за того, что такая архитектура делает сети очень глубокими, появляется проблема нестабильного градиента, когда нормы градиента экспоненциально растут или убывают от выходного слоя сети к входному, что соответственно называют проблемой взрывающегося и исчезающего градиента [2]. Проблема взрывающегося градиента решается простым ограничением модуля градиента (gradient clipping). Проблема исчезающего градиента же более сложна и является критичной для всех глубоких нейронных сетей, в том числе и рекуррентных. Количество внутренних слоёв рекуррентной сети зависит от длины последовательности, и эффект памяти о прошлых предсказаниях в обычной RNN исчезает уже через несколько шагов времени, что не позволяет использовать более общий контекст для предсказания. Для решения этой проблемы предложено несколько подходов, таких как использование функции активации ReLU, использование архитектуры GRU (Gated Recurrent Unit), LSTM (Long Short-Term Memory).

105

ifclulm.......

'Ijiffrr

Жигулёвцев Ю. Н.

Разработка и исследование алгоритмов речевого взаимодействияэкипажа с бортовым оборудованием летательных аппаратов (часть 1)

106

Сеть LSTM также представляет собой цепочку одинаковых модулей, однако сами модули организованы сложнее (рис. 2.4).

Рис. 2.4. Архитектура LSTM

это состояние ячейки (cell state, на рисун-

t- 1 и Ct). Состояние ячейки напоминает конвей-

Ключевой компонент LSTM ке 2.5 обозначен как С ерную ленту. Она проходит напрямую через всю цепочку модулей, участвуя лишь в нескольких линейных преобразованиях, таким образом почти не подвергаясь эффекту затухающего градиента. Именно здесь и реализована «память» LSTM сети.

Сеть может извлекать информацию из состояния ячейки, добавлять или удалять. Это реализовано с помощью так называемых затворов «забывания», «входного» и «выходного». Другими словами, затворы контролируют, может ли входной сигнал изменить состояние ячейки и может ли информация из состояния ячейки повлиять на выходной результат. Эти затворы оперируют на основе своих собственных обучающихся весов, соответствующих входному сигналу и LSTM модуле на прошлом шаге.

Рис. 2.5. Структура модуля LSTM

На рисунке 2.5 представлена структура модуля, где:

С — состояние ячейки (cell state);

Ft — «затвор забывания» (forget gate);

it — «входной затвор» (input gate);

Ct — обновление состояния ячейки (cell update);

ot — «выходной затвор» (output gate);

h — выходные данные;

x — входные данные

Расчёт сигналов производится по следующим формулам:

it = a (Ufr- +WX) f = a f-1 +Wfxt)

of = a(Uh i +W0xt)

С = tanhUh)

Nt = Ç-1* ft + G * if ht = tanh(Ç )*o(

Символ «*» обозначает произведение Адамара (покомпонентное произведение).

(2.15)

(2.16)

(2.17)

(2.18)

(2.19)

(2.20)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1_БТМ стали активно использоваться после успеха в распознавании последовательностей рукописного текста, машинном переводе, генерации рукописного текста, текстовом описании изображений, предсказании вывода простейших компьютерных программ, распознавании речи и в других областях, связанных с обработкой последовательностей.

МОДЕЛЬ DUAL-SIGNAL TRANSFORMATION LSTM NETWORK

Модель Dual-Signal Transformation LSTM Network была впервые представлена на соревновании Microsoft Deep Noise Suppression Challenge 2020 и описана в статье [3].

В основе данного подхода лежит идея совмещения анализа и синтеза в одной структуре: модель представляет собой каскад из двух моделей, так называемых separation core.

Кратко алгоритм можно описать следующим образом.

1. Входной сигнал передискретизируется к частоте 16 кГц.

2. Далее сигнал делится на фреймы длиной 32 мс (512 отсчётов) с перекрытием 24 мс.

3. К каждому фрейму применяется оконное преобразование Фурье. Количество значений преобразования равно длине фрейма — 512.

4. Полученные значения амплитуды спектра для каждого фрейма подаются на вход первой модели "separation core", выход которой формирует некоторую маску. "Separation core" состоит из следующих слоёв:

107

108

— рекуррентный нейронный слой типа LSTM. Количество рекуррентных слоёв (повторяющихся модулей LSTM) — 128;

— рекуррентный нейронный слой типа LSTM. Количество рекуррентных слоёв (повторяющихся модулей LSTM) — 128;

— полносвязный нейронный слой. Количество входных нейронов — 128. Количество выходных нейронов — 256. Сигмоидальная активационная функция задаётся уравнением:

1

а (х ) =

1+e-

(2.21)

Полученная активационной функцией маска умножается на фреймы спектра сигнала. Полученный результат, используя фазовую информацию, преобразовывается обратно во временную область, а затем обрабатывается слоем одномерной свёртки.

Полученное признаковое представление нормируется методом "Instant layer normalization" (iLN) [19]. Все фреймы нормируются независимо и масштабируются с одинаковыми обучаемыми параметрами.

Полученные значения сигнала подаются во вторую модель "separation core", которая аналогична первой.

Сформированная второй моделью маска умножается на ненормированные значения признаковых представлений данных.

Результат подаётся в слой одномерной свёртки, где преобразовывается обратно во временную область.

На последнем этапе сигнал из фреймов реконструируется, то есть восстанавливается форма волны.

Архитектура модели DTLN представлена на рисунке 2.6.

Рис. 2.6. Архитектура модели Dual-Signal Transformation LSTM Network

х

Стоит отметить очень важную особенность данного алгоритма и его реализации через библиотеку машинного обучения ТепэогР1ош: данный алгоритм способен обрабатывать сигнал в реальном времени. Результаты сравнительного исследования работы рассмотренных алгоритмов шумопонижения, а также других алгоритмов, названных выше, планируется представить в следующих выпусках журнала.

Список использованных источников

1. Borowicz, A., Petrovsky, A. Signal subspace approach for psychoacoustically motivated speech enhancement // Speech communication. - 2011. - P. 210-219.

2. G. Philipp, D. Song, J.G. Carbonell. The exploding gradient problem demystified - definition, prevalence, impact, origin, tradeoffs, and solutions. Apr 6, 2018. URL: https://arxiv.org/pdf/1712.05577. pdf

3. Nils, L, Westhausen, Bernd, T. Meyer. Dual-Signal Transformation LSTM Network for Real-Time Noise Suppression. Oct. 22, 2020. https://arxiv.org/pdf/2005.07551.pdf

4. Ossama, Abdel-Hamid, Abdel-rahman, Mohamed, Hui, Jiang. Convolutional Neural Networks for Speech Recognition. IEEE Trans. Audio, Speech Lang. Process. Vol. 22. No. 10. Oct. 10, 2014. URL: https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/CNN_ASLP-Trans2-14.pdf

5. Sim, B., Tong, Y., Chang, J., Tan, C. A parametric formulation of the generalized spectral subtraction method // IEEE Trans. Speech Audio Process. - 1998. - N 6(4). - Pp. 328-337

6. Shrawankar, U., Thakare, V. Noise Estimation and Noise Removal Techniques for Speech Recognition in Adverse Environment. Springer-Verlag New York Inc 5, Jan, 2010. 338 c.

7. Бондарев, В. А., Жигулёвцев, Ю. Н., Суханов, В. А. Применение технологий, основанных на знаниях, в управлении пилотируемыми космическими аппаратами // Наука и образование. - 2015. DOI: 10.7463/0815.932800. - C. 3-5.

8. Петровский, А.А. и др. Фильтрация речи на фоне полигармонических и стохастических помех // Речевые технологии. - 2012. - Вып. 3.

9. Петровский, А. А. и др. Шумоподавление на основе перцептивных алгоритмов спектрального вычитания и обработки сигналов в подпространствах // Речевые технологии. - 2012. Вып. 4.

10. Сайт журнала The Gradient. URL: https://thegradient.pub/one-voice-detector-to-rule-them-all/ (дата обращения: 05.03.2022).

11. Чучупал, В. Я., Чичагов, А. С., Маковкин, К. А. Цифровая фильтрация зашумлённых речевых сигналов. - М.: Вычислительный центр РАН, 1998.

12. Жигулёвцев, Ю. Н. Анализ задач построения аппаратных, алгоритмических и программных средств речевого взаимодействия экипажа пилотируемого космического аппарата с бортовыми системами: сборник тезисов. XLI Академические чтения по космонавтике. 24-27 января 2017 года. - С. 411-412.

13. Столбов, М. Б. Применение микрофонных решёток для дистанционного сбора речевой информации // Научно-технический вестник информационных технологий, механики и оптики. - 2015. - Т. 15. № 4. - С. 661-675.

14. 32-разрядный контроллер для авиационного применения 1986ВЕ1Т. Спецификация. - ПКК Миландр: ТСКЯ.431296.008СП. Версия 1.13.3 от 31 января 2014 г.

15. Цифровые сигнальные процессоры, радиационно-стойкие и SрасеWire, для систем связи и радиолокации. - КАТАЛОГ elvees.ru

109

DEVELOPMENT AND RESEARCH OF ALGORITHMS FOR THE SPEECH INTERACTION OF THE CREW WITH THE ON-BOARD EQUIPMENT OF AIRCRAFT (PART 1)

Zhigulevtsev Yu. N., Candidate of Technical Sciences, Associate Professor of the Department of Automatic Control Systems of Aircraft of the Bauman Moscow State Technical University, specon@bmstu.ru

The series of articles presents the concept of constructing hardware, algorithmic and software tools for speech interaction of the crew of a manned aircraft with on-board systems, as well as the results of working out this concept in research, course and final qualifying works of students of the Department of IU1 of the Bauman Moscow State Technical University. The results of a comparative experimental study of algorithms for noise cleaning of speech signals, detecting voice activity, recognizing and organizing the execution of speech commands, taking into account the logic of the functioning of on-board systems, are presented.

• speech interaction of the crew with on-board systems • noise cleaning of speech signals• detection of voice activity • recognition and organization of speech commands execution • logic of on-board systems functioning

110

i Надоели баннеры? Вы всегда можете отключить рекламу.