Научная статья на тему 'Реализация и исследование модели пост-распознающего интерпретатора речевых образов в интерактивном руководстве космонавта по выполнению полетных операций'

Реализация и исследование модели пост-распознающего интерпретатора речевых образов в интерактивном руководстве космонавта по выполнению полетных операций Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
система интеллектуальной обработки данных / интерактивное руководство / голосовой интерфейс / автоматическое распознавание речи / скрытая марковская модель / искусственная нейронная сеть / intelligent data processing system / interactive guidance / voice interface / automatic speech recognition / hidden Markov model / artificial neural network

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мезенцева Анна Юрьевна, Гавриков Михаил Михайлович

Приведена краткая характеристика проблематики речевого взаимодействия космонавта с ресурсами бортовой информационной системы при помощи интерактивного руководства по выполнению полетных операций. Разработана реализационная модель пост-распознающего командно-речевого интерпретатора, ис-пользуемого в составе интерактивного руководства, позволяющая снизить вероятность ложной интерпретации речевых команд из-за ошибок распознавания. В качестве основных элементов модели предложено использовать скрытые марковские модели и многослойные перцептроны. Рассмотрена структура этих элементов и критерии, позволяющие оценивать целесообразность применения предложенной модели командно-речевого интерпретатора. Приведены результаты экспериментальной апробации полученного командно-речевого интерпретатора для распознавания речевых команд в составе интерактивного руководства космонавтов при разных уровнях акустического шума и оценка его эффективности.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Implementation and research of a model of a post-recognition interpreter of speech images in an interactive cosmonaut's guide to performing flight operations

The paper provides a brief description of the problems of speech interaction between an astronaut and the resources of an on-board information system using an interactive manual for performing flight operations. An implementation model of a post-recognition command-speech interpreter used as part of an interactive manual is proposed, which reduces the likelihood of false interpretation of speech commands, which may occur due to recognition errors. It is proposed to use hidden Markov models and multilayer perceptrons as the main elements of the model. The structure of these elements and criteria for evaluating the feasibility of using the proposed command-speech interpreter model are considered. The results of experimental testing of the received command-speech inter-preter for recognizing speech commands as part of the interactive guidance of astronauts at different levels of acoustic noise and an assessment of its effectiveness are presented.

Текст научной работы на тему «Реализация и исследование модели пост-распознающего интерпретатора речевых образов в интерактивном руководстве космонавта по выполнению полетных операций»

JSSN1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2024. No 2

Научная статья УДК 004.934:519.217.2

http://dx.doi.org/10.17213/1560-3644-2024-2-20-27

Реализация и исследование модели пост-распознающего интерпретатора речевых образов в интерактивном руководстве космонавта по выполнению полетных операций

А.Ю. Мезенцева, М.М. Гавриков

Южно-Российский государственный политехнический университет (НПИ) имени М.И. Платова, г. Новочеркасск, Россия

Аннотация. Приведена краткая характеристика проблематики речевого взаимодействия космонавта с ресурсами бортовой информационной системы при помощи интерактивного руководства по выполнению полетных операций. Разработана реализационная модель пост-распознающего командно-речевого интерпретатора, используемого в составе интерактивного руководства, позволяющая снизить вероятность ложной интерпретации речевых команд из-за ошибок распознавания. В качестве основных элементов модели предложено использовать скрытые марковские модели и многослойные перцептроны. Рассмотрена структура этих элементов и критерии, позволяющие оценивать целесообразность применения предложенной модели командно-речевого интерпретатора. Приведены результаты экспериментальной апробации полученного командно-речевого интерпретатора для распознавания речевых команд в составе интерактивного руководства космонавтов при разных уровнях акустического шума и оценка его эффективности.

Ключевые слова: система интеллектуальной обработки данных, интерактивное руководство, голосовой интерфейс, автоматическое распознавание речи, скрытая марковская модель, искусственная нейронная сеть

Для цитирования: Мезенцева А.Ю., Гавриков М.М. Реализация и исследование модели пост-распознающего интерпретатора речевых образов в интерактивном руководстве космонавта по выполнению полетных операций // Изв. вузов. Сев.-Кавк. регион. Техн. науки. 2024. № 2. С. 20-27. http://dx.doi.org/10.17213/1560-3644-2024-2-20-27.

Original article

Implementation and research of a model of a post-recognition interpreter of speech images in an interactive cosmonaut's guide to performing flight operations

A.Yu. Mezentseva, M.M. Gavrikov

Platov South-Russian State Polytechnic University (NPI), Novocherkassk, Russia

Abstract. The paper provides a brief description of the problems of speech interaction between an astronaut and the resources of an on-board information system using an interactive manual for performing flight operations. An implementation model of a post-recognition command-speech interpreter used as part of an interactive manual is proposed, which reduces the likelihood of false interpretation of speech commands, which may occur due to recognition errors. It is proposed to use hidden Markov models and multilayer perceptrons as the main elements of the model. The structure of these elements and criteria for evaluating the feasibility of using the proposed command-speech interpreter model are considered. The results of experimental testing of the received command-speech interpreter for recognizing speech commands as part of the interactive guidance of astronauts at different levels of acoustic noise and an assessment of its effectiveness are presented.

Keywords: intelligent data processing system, interactive guidance, voice interface, automatic speech recognition, hidden Markov model, artificial neural network

© ЮРГПУ (НПИ), 2024

ISSN1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2024. No 2

For citation: Mezentseva A.Yu., Gavrikov M.M. Implementation and research of a model of a post-recognition interpreter of speech images in an interactive cosmonaut's guide to performing flight operations. Izv. vuzov. Sev.-Kavk. region. Techn. nauki=Bulletin of Higher Educational Institutions. North Caucasus Region. Technical Sciences. 2024;(2):20-27. (In Russ.). http://dx.doi.org/10.17213/156Q-3644-2Q24-2-2Q-27.

Характеристика проблематики

применения командно-речевых интерпретаторов в интерактивных руководствах

За последние 20 лет в области разработки и применения систем распознавания речи достигнуты впечатляющие результаты. Наиболее эффективно системы распознавания речи применяются в виде голосовых помощников во многих мобильных приложениях, информационно-поисковых системах, навигаторах, банковских и других приложениях [1]. В то же время, по-прежнему, существует ряд специфических прикладных областей, где результаты их применения значительно скромнее и носят скорее экспериментальный, чем прикладной характер, вследствие невозможности обеспечить достаточно высокую степень достоверности распознавания речевых сигналов [2]. В частности, к таким областям экспериментального применения относятся системы речевого управления оборудованием авиационной и космической техники [3-5], а также речевого взаимодействия с программными и информационными ресурсами тренажерных комплексов, используемых при подготовке летчиков и космонавтов, и бортовых компьютеров [6, 7]. Отметим основные специфические условия, в которых должны быть реализованы и функционировать подобные системы:

- высокий уровень помех (акустических, вибро- и других типов), существенно снижающий показатели достоверности любой системы распознавания сигналов;

- относительно невысокие мощности бортовых компьютеров, на которых должно быть установлено ПО системы голосового управления;

- невозможность использования (подключения) в системах распознавания существующих программ, речевых дата-сетов и других информационных ресурсов, доступ к которым в обычных условиях реализуется через интернет;

- необходимость использования режима постоянно включенного микрофона (без отклю

чения после подачи голосовой команды), что существенно увеличивает риски ошибочного распознавания посторонних акустических сигналов.

Рассмотрим кратко проблематику речевого взаимодействия космонавта с ресурсами информационной системы, которые используются в процессе его наземной подготовки, а в перспективе могут использоваться и в полете. В настоящее время состав полетных заданий и экспериментов космонавтов существенно расширился, а сценарии их выполнения могут иметь высокую степень сложности, что требует создания базы данных бортовой документации, а также интерактивных руководств (ИР), обеспечивающих информационно-технологическую поддержку. Для создания более комфортных условий работы космонавта традиционные средства интерфейса ИР могут быть дополнены программным командно-речевым интерпретатором (КРИ), обеспечивающим ввод голосовых инструкций, их распознавание и интерпретацию, в особенности, когда руки космонавта заняты выполнением каких-либо операций, не позволяющих отвлекаться и вводить инструкцию при помощи клавиатуры или мыши. Командно-речевой интерпретатор позволяет осуществлять голосовое управление навигацией по электронным документам ИР, а также голосовое взаимодействие с моделирующими программами, выполняющими динамическую визуальную имитацию действий космонавта, которые он должен выполнить в данном эксперименте. Интерпретация голосовых команд заключается в запуске модулей ИР, соответствующих этим командам. Речевое взаимодействие осуществляется при помощи небольшого числа (10-15) голосовых инструкций, типа «Вперед/Назад», «Следующий раздел», «В начало», «Показать панель управления», «Показать выполнение операции» и т.д. На рис. 1 приведен пример операции перемещения контейнера от места хранения к месту проведения эксперимента, визуализация которой может быть выполнена по команде - «Показать выполнение операции».

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2024. No 2

Ошибки распознавания речевых инструкций и последующая прямая интерпретация ошибочных результатов распознавания значительно снижают эффективность применения КРИ. Например, если вместо команды «Вперед», которая должна вызвать переход на следующую страницу, ошибочно выполнена команда «Назад», то чтобы исправить ситуацию потребуется вначале подать команду возврата («Назад», «Вернуться» и т.п.) или команду «Отменить», а затем повторить команду «Вперед». Не исключено, что при подаче этих команд вновь будет допущена ошибка распознавания. Если подобные ситуации возникают часто, то целесообразность применения КРИ в составе ИР становится сомнительной. Вследствие неизбежности ошибок распознавания и связанных с ними рисков, задача построения модели и алгоритмов КРИ, позволяющих снизить риски выполнения неправильно распознанных голосовых команд, а значит, повысить эффективность применения КРИ в целом, является весьма актуальной.

6

Цель настоящей работы - разработка реализационной модели пост-распознающего КРИ на основе скрытых марковских моделей и многослойных перцептронов, ее апробация в составе ИР космонавтов по выполнению полетных заданий, и проведение экспериментов по тестированию показателей качества КРИ и его элементов.

Модель реализации нейросетевого пост-распознающего командно-речевого интерпретатора

Модель реализации пост-распознающего КРИ, представленная на рис. 2, предназначена для распознавания и интерпретации речевых сигналов, которые могут соответствовать одной из N различных речевых команд, при помощи которых выполняется взаимодействие космонавта с ИР при выполнении полетных заданий. Предполагается, что в процессе работы космонавта микрофон постоянно находится в активном состоянии (непрерывно регистрирует акустический поток).

Выделение речевого сигнала

уШет

Построение речевого образа

о = (ох.....ог)

Пост - распознаватель

а = №.....м

мсп ßi о

Рис. 1. Пример визуализации перемещения контейнера, моделируемого в интерактивном руководстве Fig. 1. An example of visualization of container movement, modeled in the interactive guide

Для снижения рисков ложной интерпретации, связанных с ошибками распознавания, в работе [8] предложена модель нейросетевого пост-распознающего интерпретатора (или просто пост-интерпретатора) образов и показана возможность его использования в системах распознавания речевых сигналов. Однако в ней остались нераскрытыми принципиальные вопросы, связанные с реализацией отдельных элементов базовой модели, методов их параметрической настройки, включая нейросетевой элемент анализа пост-образов. Кроме того, приведенные результаты апробации модели носят слишком общий описательный характер.

(Q.ny.ä^Tj. Ц ? = га, е U \(j,oy.ä> efj. У } t exit:

Пост-интерпретатор

Uj EU\Z = (J.K), z = (j, o).

Uj/exit —►

В исполнительную систему

Рис. 2. Модель пост-распознающего командно-речевого интерпретатора

Fig. 2. A model of a post-recognition command-speech interpreter

Модель состоит из трех основных элементов [8]: первичного распознавателя Л, пост-распознавателя Л и пост-интерпретатора /.

Первичный распознаватель реализуется в виде набора Л= {Ax, ...,AW] скрытых марковских моделей (СММ). Каждая модель Aj соответствует классу Xi (i = 1, N) речевых образов, представляющих г-ю речевую команду.

Пост-распознаватель реализуется в виде набора Л = {ßx,..., ßw] искусственных нейронных сетей ß/ типа многослойных персептронов (МСП)

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2024. No 2

с двумя выходами. Значения выходов используются для подтверждения или не подтверждения результата распознавания первичного распознавателя Л.

Пост-интерпретатор / реализует трансляцию результатов распознавания в идентификаторы исполняемых функций управления ИР.

Распознаватель Л функционирует следующим образом. Снимаемый с микрофона акустический сигнал циклически пишется в буфер памяти и анализируется при помощи алгоритма первичной обработки сигнала. Этот алгоритм, среди других функций обработки, выполняет функцию обнаружения и определения границ речевого сигнала, который может (предположительно) представлять поданную речевую команду. Выделенный на интервале Т речевой сигнал у(0, Ь Е Т поступает в блок (алгоритм) построения речевого образа, который выполняет разбиение сигнала у( I) на фреймы (кратковременные сегменты) и их параметризацию. Каждый фрейм представляется вектором о1 = (ог, ...,о0) из й спектральных параметров (мел-коэффициентов и их производных), а речевой образ представляется последовательностью О = (о1,... ,от) этих векторов. Последовательность О поочередно подается на входы СММ Х^. В результате ее обработки на выходах моделей Х^ вычисляются значения логарифмов вероятностей а ^ = О/Х{) -«соответствия» последовательности О модели ХI. Результатом распознавания является значение -го индекса модели с наибольшей вероятностью ] = argmax1< 1<м(а^.

Вектор вероятностей (1} = (а1, ., ам) рассматривается как пост-образ, который можно отнести к одному из двух классов: Т - «правильных» или Т - «ложных» пост-образов _/-го класса в зависимости от правильности или ложности результата распознавания входного образа О: {ТГ. О Е Х]->

aJ Е

Tf. о г Xj.

Дальнейшая обработка выполняется так, как это изложено в работе [8]. Вектор а} и индекс поступает на вход нейросетевого постраспознавателя Л. Пост-распознаватель выполняет функцию классификации пост-образа: а} ЕТ^, или а} Е Т. Результат представляется одной из пар значений: г = (¡,п), если а} Е Т^, г = а, о), если а} Е Т], которые имеют следующий смысл:

z = (j, п) - «подтвердить результат распознавания у»;

z = (j,о) - «отвергнуть результат распознавания _/».

Если пост-распознаватель А выдает z = (j, п), то интерпретатор / назначает исполняемую функцию с идентификатором и = I(j) = Uj,j е J,Uj е U, где J = [1,..., N} -множество целочисленных идентификаторов классов распознаваемых команд, а U - множество идентификаторов и некоторых исполняемых функций. Идентификатор функции передается в исполнительную систему. В используемом ИР смысловое содержание исполняемой функции (действия, процедуры) определяется смысловым содержанием соответствующей команды, например, если Uj - идентификатор функции вывода на экран следующей страницы документа, то ему соответствует команда «Страница вперед».

Если пост-распознаватель А выдает z = (j, о), то интерпретатор / назначает специальную функцию обработки отказа - exit. В рассматриваемой версии КРИ эта функция реализуется как вывод голосового или текстового (на экране рабочего планшета) сообщения «Отказ выполнения», после чего команда должна быть подана повторно.

Характеристика структуры элементов распознавателей

Элементы распознавателя А. Основными элементами распознавателя Л = {Xi,..., Хл} являются СММ. Как известно, СММ X полностью описывается следующими параметрами [9]: множеством состояний S; алфавитом символов алфавита V; вектором вероятностей начальных состояний П; матрицей вероятностей переходов A; матрицей вероятностей наблюдений B. СММ в компактной записи обозначается X = (А,В,П). В распознавателе А реализуются СММ дискретного типа (с дискретной функцией плотности распределения вероятностей наблюдений) с лево-правой структурой. С начальным состоянием модели X связывается участок фонового шума, предшествующий началу речевого сигнала, с заключительным состоянием - участок фонового шума, следующий после его окончания. Все промежуточные состояния связываются с фрагментами сигнала, соответству-

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2024. No 2

ющими фонемам речевой команды, поэтому общее число состояний равно числу фонем плюс два участка шума в начале и конце сигнала.

Для реализации дискретной СММ X исходный речевой образ О = (оъ ...,от) кодируется символами её алфавита - формируется последовательность символов О = (v1, ...,vT), где Vi е V. Данное соответствие устанавливается с помощью кодовой книги (КК) - набора пар «кодовый вектор - символ алфавита».

Элементы пост-распознавателя А. Элементами пост-распознавателя А = [рг,..., pw] являются МСП в i [10, 11]. Каждый персептрон в i имеет N входов, связанных с элементами пост-образа (I = (а1, . ,aN), четыре скрытых слоя, каждый по 100 нейронов и два выхода, по значениям которых пост-образ относится к классу «правильных» Т и «ложных» Т.

Апробация модели в натурных экспериментах

Модель КРИ (см. рис. 2) реализована в виде программы на языке Python с использованием библиотек Keras и TensorFlow и интегрирована с ПО одного из ИР по выполнению космических экспериментов, используемых в наземной подготовке космонавтов. Речевые команды управления ИР оператора связаны с навигацией по его страницам и разделам, выводом демонстрационных видеороликов, вызовам процедур визуальной имитации действий по выполнению заданий эксперимента. Дополнительно разработан программный комплекс для поддержки технологии параметрической настройки элементов КРИ, который выполняет функции подготовки обучающих данных и построения обучающих выборок для наборов СММ и МСП; синтеза КК; начальной оценки, настройки и корректировки параметров СММ; обучения и оптимизации МСП [12].

Для проведения эксперимента с помощью полученного программного комплекса подготовлены обучающие данные, и проведена настройка элементов КРИ для набора из шести речевых команд. Набор данных содержал 4800 реализаций речевых сигналов (по 800 для каждого класса команд). Записи получены в условиях, соответствующих двум режимам работы оператора: «комфортного» - при малом уровне окружающего акустического шума; «неком-

фортного» - при высоком уровне шума (посторонняя речь, шум вентиляторов и другого оборудования, стук дверей и т.п.). Уровень шумов оценивался субъективно.

Для оценки качества элементов распознавателя Л - набора СММ использовалась общепринятая характеристика достоверности распознавания, определяемая как усредненная по всем классам оценка вероятности правильного распознавания:

Р*=^=1(щ/мд=^1Л,

где N - количество классов; М^ - количество предъявленных системе образов ¿-го класса; щ -количество правильно опознанных образов -го класса; Р^ - достоверность (оценка вероятности) правильного распознавания образов ¿-го класса. Соответственно вероятности ошибок распознавания определяются как

рош = 1 _ р* рош = 1 _ р

Для оценки эффективности применения пост-распознавателя Л использованы «критерии целесообразности» в двух формах, предложенные в работе [8]:

1?=1 в 1р-+ + 1?=1КРГ < И^РГ > (1)

z?=i(pl-++PD<Zi=iPr,

(2)

где х I » в I, I Е [1, ...,Ю, XI - риск ошибочного выполнения нецелевой функции и = щ; в1 -риск ошибочного невыполнения целевой функции и = щ; Р+- - вероятность подтверждения ложного результата ¿; Р-+ - вероятность отвергнуть правильный результат .

Критерий в форме (1) трактуется как условие того, что средний риск ошибки пост-распознавания должен быть меньше среднего риска ошибки распознавания, а критерий в форме (2) -достоверность пост-распознавателя Л должна быть выше достоверности распознавателя Л.

Эксперимент состоял в подаче речевых команд операторами, фиксации ошибок распознавания, пост-распознавания, последующем вычислении оценок вероятностей РОш,Р-+,Р+~ и расчетом критериев целесообразности. Значения рисков х , в были назначены на основе консультаций с операторами, принявшими участие в эксперименте.

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2024. No 2

Оценки рассчитывались для двух режимов работы оператора при различных уровнях шумов: «комфортного», «некомфортного», смысл которых был пояснен ранее. Сводка результатов тестирования приведена в табл. 1. Расчеты выполнены для значения рисков X/ = 5, ßi = 1. Символом «V» отмечен вывод о целесообразности применения пост-распознавателя Л по результатам расчета критерия.

Таблица 1 Table 1

Оценка эффективности применения командно-речевого интерпретатора Evaluation of the effectiveness of the command-speech interpreter

Режим работы № команды рош 'i Критерий в форме

(1) Xi = 5, ßi =1 (2)

Комфортный 1 0,07 0,02 0,3 - -

2 0,1 0,02 0,1 - -

3 0,07 0,06 0 V V

4 0 0,05 0 - -

5 0,03 0,09 0 V -

6 0,02 0 0,02 - -

Среднее 0,05 0,04 0,07 - -

Некомфортный 1 0,18 0,06 0,08 V V

2 0,22 0,15 0,18 V -

3 0,25 0,1 0 V V

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4 0,09 0,16 0,18 - -

5 0,22 0,17 0,06 V -

6 0,09 0,14 0,15 - -

Среднее 0,18 0,13 0,11 V -

Результаты экспериментов и расчетов показали следующее. Для «комфортного» режима работы использование пост-интерпретатора оказалось целесообразным для двух команд, но в целом его применение нецелесообразно. Для «некомфортного» режима работы использование пост-интерпретатора оказалось рациональным для четырех команд (по результатам расчета критерия в форме (1) и/или (2)), а в целом его применение оправданно. Эти результаты практически совпали и с субъективными оценками операторов, согласно которым применение пост-интерпретатора при «комфортном» режиме работы целесообразно только для некоторых команд и однозначно необходимо при «некомфортном» режиме.

Как видно из табл. 1, при «некомфортном» режиме работы для некоторых команд существенно возрастает вероятность ошибки «первичного» распознавания. Детальный анализ причин ошибок показал, что большая их часть

связана не с «перепутыванием» речевых сигналов между собой, а со следующими ситуациями:

- ложным распознаванием, когда выделенный фрагмент сигнала соответствует не речевой команде, а фоновому акустическому шуму (фрагменты посторонней речи, шум оборудования и т.п.);

- погрешностью выделения границ речевого сигнала, когда выделенный фрагмент сигнала соответствует не всей речевой команде, а ее «обрывку»: фоновый шум, за которым следует начальная часть команды; конечная часть команды, за которой следует фоновый шум и т.п.

Какой бы совершенный алгоритм выделения речевого сигнала не применялся, при работе КРИ в режиме постоянно включенного микрофона с высоким уровнем акустического шума, эти ситуации исключить нельзя. Применение пост-распознавателя позволяет отбрасывать большую часть неверно распознанных сигналов и существенно снизить вероятность ложной интерпретации.

Заключение

Предложенная модель реализации пост-распознающего интерпретатора речевых сигналов и результаты ее апробации показали:

- модель пост-распознающего КРИ может эффективно использоваться в составе ИР космонавтов по выполнению полетных операций;

- применение модели пост-распознаю-щего КРИ наиболее целесообразно в режиме постоянно включенного микрофона и высокого уровня акустических помех.

За рамками статьи остался ряд вопросов, связанных с методикой и технологией настройки СММ (элементов распознавателя Л), а также c методикой и технологией подготовки данных и обучения МСП (элементов пост-распознавателя Л). Эти вопросы предполагается рассмотреть в последующих работах.

Список источников

1. Обработка естественного языка, распознавание и синтез речи // Альманах «Искусственный интеллект» 2019. 180 с. URL: https://aireport.ru/nlp (дата обращения 14.04.2024)

2. Гуртуева И.А. Современные проблемы автоматического распознавания речи // Изв. Кабардино-Балкарского научного центра РАН. 2020, вып. 6. С. 20-33. DOI: 10.35330/1991-6639-2020-6-98-20-33

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2024. No 2

3. Бондарос Ю.Г., Маковкин К.А., Чучупал В.Я. Система распознавания команд речевого интерфейса пилота для интегрированной модульной авионики // Вестник компьютерных и информационных технологий. 2007. № 4. С. 2-13.

4. Корсун О.Н., Габдрахманов А.Ш. Помехозащи-щенный алгоритм речевого управления бортовым оборудованием самолета // Вестник компьютерных и информационных технологий. 2014. № 4. С. 3-7.

5. Корсун О.Н., Полиев А.В. Разработка алгоритма распознавания слов в условиях шума на основе сверточных нейронных сетей // Девятый международный аэрокосмический конгресс 1АС18: тезисы докладов. Москва, 2018. С. 124-126.

6. Синецкий Р.М., Гавриков М.М. Использование командно-речевых интерпретаторов для управления тренировкой // Теория, методы проектирования, программно-техническая платформа корпоративных информационных систем: Материалы VII Междунар. науч.-практ. конф., г. Новочеркасск, 25 мая 2009 г./ Юж.-Рос. гос. техн. ун-т (НПИ). Новочеркасск: ЮРГТУ, 2009. С. 157-160.

7. Гавриков М.М., Синецкий Р.М., Кравченко С.И. Применение структурно-аппроксимационного метода распознавания речевых образов в задачах по-

строения интерактивных руководств по выполнению полетных операций // Пилотируемые полеты в космос: Материалы 10-й междунар. науч.-практ. конф., Звездный городок, 27-28 ноября 2013 г. М.: ФГБУ НИИ ЦПК им. Ю.А. Гагарина, 2013. С. 116-117.

8. Гавриков М.М. Модели и применение нейросете-вых пост-распознающих интерпретаторов образов [Электронный ресурс] // Инженерный вестник Дона [электрон. журн.]. 2024. №3. 16 с. URL: ivdon.ru/ru/magazine/archive/n3y2024/9065

9. Рабинер Л.Р. Скрытые Марковские модели и их применение в избранных приложениях при распознавании речи // ТИИЭР. 1989. Т. 77. №2. С. 86-120.

10. Антонио Д., Суджит П. Библиотека Keras - инструмент глубокого обучения. Реализация нейронных сетей с помощью библиотек Theano и TensorFlow; пер. с англ. А.А. Слинкин. М.: ДМК Пресс, 2018. 294 с. URL: e.lanbook.com/ book/11 1438

11. Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение; пер. с анг. А.А. Слинкина. 2-е изд., испр. М.: ДМК Пресс, 2018. 652 с.

12. Гавриков М.М., Мезенцева А.Ю., Синецкий Р.М. Эвристическая методика настройки скрытых марковских моделей для распознавания образов стохастических процессов // Изв. вузов. Электромеханика. 2022. Т. 65. № 2. С. 81-88. DOI: 10.17213/01363360-2022-2-81-88

References

1. Natural language processing, speech recognition and synthesis. Almanac "Artificial intelligence". 2019. 180 p. Available at: https://aireport.ru/nlp (accessed 14.04.2024).

2. Gurtueva I.A. Modern problems of automatic speech recognition. Proceedings of the Kabardino-Balkarian Scientific Center of the Russian Academy of Sciences. 2020;(6)20-33 DOI: 10.35330/1991-6639-2020-6-98-20-33

3. Bondaros Yu.G., Makovkin K.A., Chuchupal V.Ya. Pilot voice interface command recognition system for integrated modular avionics. Bulletin of Computer and Information Technologies.2007;(4):2-13. (In Russ.)

4. Korsun O.N., Gabdrakhmanov A.S. Noise-proof algorithm for speech control of aircraft on-board equipment. Bulletin of Computer and Information Technologies. 2014;(4):3-7. (In Russ.)

5. Korsun O.N., Poliev A.V. Development of a word recognition algorithm in noise conditions based on convolutional neural networks. The Ninth International Aerospace Congress IAC18. Abstracts of the reports. 2018. Pp. 124-126.

6. Sinetsky R.M., Gavrikov M.M. The use of command-speech interpreters for training management. Theory, design methods, software and technical platform of corporate information systems: Materials of the VII International Scientific and Practical Conference, Novocherkassk, May 25, 2009/ South-Russian State Technical University UN-t (NPI). Novocherkassk: YURSTU; 2009. Pp. 157-160.

7. Gavrikov M.M., Sinetsky R.M., Kravchenko S.I. Application of the structural approximation method of speech pattern recognition in the tasks of constructing interactive manuals for flight operations. Mater. 10th International Scientific and Practical Conference "Manned Space Flights", November 27-18, 2013, Star City. Publishing House of the Gagarin Federal State Budgetary Research Institute of the Central Research Institute. 2013. Pp. 116-117.

8. Gavrikov M.M. Models and application of neural network post-recognizing image interpreters [Electronic resource]. Engineering Bulletin of the Don [electron. journal]. 2024;(3):16. Available at: ivdon.ru/ru/magazine/ar-chive/n3y2024/9065

9. Rabiner L.R. Hidden Markov models and their application in selected speech recognition applications. TIIER. 1989;77(2):86-120. (In Russ.)

10. Antonio D., Sujit P. Keras Library - a deep learning tool. Implementation of neural networks using Theano and TensorFlow libraries. Translated from English by Slinkin A.A. Moscow: DMK Press; 2018. 294 p. (In Russ.)

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2024. No 2

11. Goodfellow Ya., Benjio I., Courville A. Deep learning. Moscow: DMK Press; 2018. 652 p.

12. Gavrikov M.M., Mezentseva A.Yu., Sinetsky R.M. Heuristic methodology for configuring hidden Markov models for pattern recognition of stochastic processes. Izvestiya Vysshihkh Uchebnykh Zavedenii. Elektromekhanika = Russian Electromechanics. 2022;65(2):81-88. DOI: 10.17213/0136-3360-2022-2-81-88

Сведения об авторах

Мезенцева Анна Юрьевнав- ст. препод., кафедра «Программное обеспечение вычислительной техники», avmfl@mail.ru

Гавриков Михаил Михайлович - канд. техн. наук, доцент, кафедра «Программное обеспечение вычислительной техники», gmm1000@yandex.ru

Information about the authors

Anna Yu. Mezentseva - Senior Lecturer, Department «Computer Engineering Software», avmfl@mail.ru

Mikhail M. Gavrikov - Cand. Sci. (Eng.), Department «Computer Engineering Software», gmml 000@yandex.ru

Статья поступила в редакцию / the article was submitted 15.04.2024; одобрена после рецензирования / approved after reviewing 02.05.2024; принята к публикации/acceptedfor publication 07.05.2024.

i Надоели баннеры? Вы всегда можете отключить рекламу.