Модели и применение нейросетевых пост-распознающих интерпретаторов образов

М.М. Гавриков

М.М. Гавриков

Южно-Российский государственный политехнический университет (НПИ) имени М.И. Платова, Новочеркасск

Аннотация: В работе изложена концепция «пост-интерпретации» образов и для ее алгоритмической реализации предложена модель пост-распознающего интерпретатора. В качестве пост-образов рассматриваются результаты распознавания исходных образов, поступающих в систему распознавания, а в качестве пост-распознавателя используется искусственная нейронная сеть. Для оценки эффективности применения модели предложено использовать «критерий целесообразности» и рассмотрены численные примеры, иллюстрирующие особенности его применения в системах распознавания и интерпретации образов с высокими рисками. Приведены данные предварительных результатов экспериментальной апробации модели для распознавания речевых команд в составе интерактивного руководства оператора по выполнению различных заданий и оценка ее эффективности.

Ключевые слова: система интеллектуальной обработки данных, интерпретация образов, достоверность распознавания, критерий принятия решений, искусственная нейронная сеть.

Общая характеристика проблемы и концепции пост-интерпретации образов

Ключевыми задачами многих систем интеллектуальной обработки данных (СИОД) являются задачи распознавания образов, формируемых из входного потока данных и задачи интерпретации результатов распознавания. В практическом смысле под интерпретацией можно понимать процесс (алгоритм) принятия решения, связывающего результат распознавания -индекс у класса опознанного образа с принятием решения относительно выполнения одной из функций среди множества возможных.

Интерпретатор I можно определить функциональным отношением

I: J^^ где J = {1,...^} - множество целочисленных идентификаторов

классов распознаваемых образов, а и - множество идентификаторов и некоторых исполняемых функций. Функция интерпретатора I определяет

идентификатор процедуры и, которая должна выполняться при результате распознавания у : и = 1(у ), у е 3, и е и.

Во многих прикладных системах распознавания множества 3 и и равномощны и функция интерпретатора I взаимно однозначна, то есть идентификатор исполняемой функции однозначно определяется значением у: и = 1(у) = и., у е 3, и е и. Такую интерпретацию можно назвать «прямой

интерпретацией». В зависимости от предметной области применения СИОД, результаты распознавания и связанные с ними выполняемые функции, могут иметь разный содержательный смысл.

Например, в бортовой интеллектуальной видеосистеме БПЛА результатом распознавания может быть индекс класса у и вероятность

обнаруженного объекта с набором вероятностей всех других распознаваемых классов, а интерпретация может состоять в назначении одной из функций-«включить фотосъемку», «уничтожить цель» и т.д. В интерактивных речевых интерфейсах требуется распознавать у -е голосовые команды и запускать соответствующие программные процедуры. В экспертных брокерских системах результатом распознавания (прогноза) может быть индекс у компании с наивысшим рейтингом среди набора рейтингов других компаний, а интерпретация может состоять в принятии решения о покупке (или отказе от покупки) акций этой компании. Список примеров можно продолжить и для других прикладных областей.

Из приведенных примеров ясно, что ошибки распознавания и последующая прямая интерпретация ошибочного результата могут приводить к нештатным ситуациям и нежелательным последствиям. Вследствие неизбежности ошибок распознавания и связанных с ними рисков, задача интерпретации результатов распознавания и построения

соответствующих интерпретаторов для многих специализированных приложений является весьма актуальной.

Сущность предлагаемой в настоящей работе концепции постинтерпретации заключается в следующих положениях:

- результаты распознавания рассматриваются, как пост-образы, принадлежащие к одному из двух классов: «правильные», «ложные»;

- анализ данных результатов распознавания состоит в классификации пост-образов, то есть установлению принадлежности результата к одному из этих двух классов с использованием искусственной нейросети (ИНС);

- исполнительная функция, назначаемая пост-интерпретатором, определяется результатом распознавания пост-образов.

Задача классификации пост-образов на два класса - «правильных» и «ложных» - имеет сходство с задачами обнаружения и различения сигналов, которые решаются с использованием правил и критериев принятия решений Байеса, Колмогорова, Неймана-Пирсона и других классических критериев [13]. Для реализации этих правил требуется знание или получение статистических оценок различных параметров исходных (входных) образов -условных вероятностей, функций плотности распределения вероятностей и других статистических характеристик [4, 5]. В предлагаемой концептуальной схеме анализа образов классификация применяется не к исходным образам, а к результатам их распознавания - пост-образам, которые представляются в форме векторов. Реализация процедуры классификации основана не на упомянутых правилах принятия решений, а на применении ИНС.

Цель настоящей работы состоит в разработке базовой модели нейросетевого пост-распознающего интерпретатора образов, элементы которой могут иметь различные формы реализации, «критериев целесообразности», позволяющих оценить оправданность ее применения в

конкретной прикладной области, и изложении предварительных результатов экспериментальной апробации модели в одной из таких областей.

Базовая модель нейросетевого пост-распознающего интерпретатора

Структура модели нейросетевого пост-распознающего интерпретатора (или просто пост-интерпретатора) образов показана на рис. 1. Основными функциональными элементами модели являются: обычный (в общепринятом понимании) распознаватель Л , пост-распознаватель Л и постинтерпретатор I, выполняющий назначение исполняемой функции. Система функционирует по следующему алгоритму. Входные (первичные) образы х одного изА^ классовX (хеХ,/ = 1,...,Л0, подаются на вход распознавателя

Л. На выходе распознавателя формируется вектор а = (а1,...,а',...,ап) значений а1 - соответствия (или несоответствия) наблюдаемого образа х каждому из классов X, а результатом распознавания является индекс у класса с наибольшим соответствием а' (или наименьшим несоответствием).

В качестве модели распознавателя Л может использоваться любая

известная модель (алгоритм), в которой результат распознавания у определяется одним из правил:

у = аг§тт {а}, (1.а)

1<г< n

у = аг§тах {а } (1б)

1<г< n

в зависимости от того, какой смысл имеет а. Например, при использовании алгоритма распознавания, основанного на сравнении наблюдаемого образа х с эталонными образами х/ классов X, роль меры соответствия можно отождествлять с мерой ц - различия между указанными образами: а. = //(.х, х') и использовать соотношение (1.а). При реализации Л в форме

и

набора из N скрытых марковских моделей Д, роль меры соответствия щ можно отождествлять с вероятностями Р(Я}) соответствия образа х модели Д: щ = Р(АД) и использовать (1.б) [6, 7].

Источники образов

Распознаватель

GH

©4

Образы

Нейросетевой пост-распознаватель

Пост-интерпретатор

X,

(5

©

«1

р

Л а; 1 а А 2 Kz)

W aN г

и, / ex/i

В исполнительную систему

cr 6 < _ 7',

j

z = (j, к) - подтвердить j z - (j, о ) - отвергнуть j I: J x [ж, о} —> U u [exit]

[и , и. e U,если z = ( i, ж) I (z)= 7 ;

[¿•x/r, если z = (j,o)

Рис. 1. - Структура модели пост-интерпретатора

Векторы а рассматриваются как пост-образы, которые можно отнести

к одному из двух классов: Г; - «правильных» или 7; - «ложных» постобразов j -го класса в зависимости от правильности или ложности результата распознавания входного образа х:

j

а е<

Т :хеХ .

j j -

Т :х£Х .

I J }

Вектор а и индекс у с выхода распознавателя Л поступает на вход нейросетевого пост-распознавателя Л. Пост-распознаватель выполняет функцию распознавания пост-образа а, которая заключается в его

классификации: а е Т]., или а еТг Результат представляется одной из пар

значений: z = (j,n) - если аеТ , z = (j,o) - если аеТ{, которые имеют

следующий смысл:

z = (j,л) - «подтвердить результат распознавания j », z = (j,o) - «отвергнуть результат распознавания j ». Если пост-распознаватель Л выдает z = (у, л), то интерпретатор I назначает исполняемую функцию с идентификатором n = I(j) = iij, j <е J, iij <eU , которая передается в исполнительную систему.

Если пост-распознаватель Л выдает z = (j,o), то интерпретатор назначает специальную функцию обработки отказа, обозначим ее через exit, exit € U, которая также передается в исполнительную систему. Таким образом, функция пост-интерпретатора определяется, как I: J х {л-,о] —» II lj [ел'//],

и., и.<е11,если z = (Lit\ exit, если z = (y,o).

Функция обработки отказа exit может иметь разный содержательный смысл и разную реализацию, в зависимости от области применения постинтерпретатора, например, «отсутствие действий», «повторный ввод сигнала» и т. д.

Характеристики качества и целесообразность применения пост-распознающего интерпретатора

В связи с предложенной выше моделью возникает вопрос: какова целесообразность использования такой модели? Или по-другому: какого положительного эффекта можно добиться от применения постраспознавателя Л с учетом того, что пост-распознаватель также может совершать ошибки. Интуитивно понятно, что это зависит от характеристик обоих элементов модели - распознавателей Ли Л, и рисков, связанных с

ошибками распознавания. Поэтому следует иметь критерий, назовем его «критерий целесообразности», зависящий от этих характеристик и позволяющий ответить на поставленный вопрос.

Одной из общепринятых характеристик качества для распознавателей (алгоритмов, систем) Л является достоверность распознавания, определяемая как усредненная по всем классам оценка вероятности правильного распознавания:

л n 1 м

Р =—У (п / м) =—у Я,

N 1 1 1) N 1 1, где N - количество классов, М. - количество предъявленных системе образов /-го класса, п - количество правильно опознанных образов /-го

класса, р - достоверность (оценка вероятности) правильного распознавания образов /-го класса. Соответственно вероятности ошибок распознавания определяются как:

рош = 1 _ р1ош = 1 _

Рассмотрим характеристики пост-распознавателя Л. С любым

результатом 2 = (у,я) или 2 = (у,о), выдаваемым пост-распознавателем, связаны возможные варианты правильных и ложных решений, и характеристики качества пост-распознавателя можно характеризовать соответствующими вероятностями правильных и ложных решений, которые

можно представить в форме таблицы №1, в которой элементами являются следующие вероятности: - вероятность подтверждения правильного

результата у , - вероятность подтверждения ложного результата у , Р~+ -

вероятность отвергнуть правильный результат у, Р~~ - вероятность

отвергнуть ложный результат у. Очевидно, для этих вероятностей выполняются условия:

Р++ + Р~+ = 1; + Р~ = 1 .

Как видно из таблицы, пост-распознаватель имеется два типа ошибок распознавания: 1-го рода - «отвергнуть правильный», 2-го рода -«подтвердить ложный» (можно провести аналогию с ошибками обнаружения сигналов: пропуск сигнала, ложная тревога [1, 5]). Сумму вероятностей ошибок 1-го и 2-го рода для образову-го класса обозначим как Р^2:

РГ=(РГ+?;-)■

Таблица № 1

Варианты правильных и ложных решений пост-распознавателя

Результат Правильный у Ложный у

2 = (у, л) - подтвердить у Р++ ] р+- ]

2 = (],о) - отвергнуть у Р~+ у р- у

Пусть заданы риски (потери): - риск ошибочного выполнения не целевой функции й = и], если результат пост-распознавания 2 = (у , л) ложный (то есть подтвержден неправильный результат у прямого распознавания), (. - риск ошибочного невыполнения целевой функции и = и, если результат распознавания у - правильный (то есть отвергнут правильный результат у прямого распознавания). Следуя байесовскому подходу, найдем средние риски ложной интерпретации результатов распознавания для обычного интерпретатора I и пост-распознающего I. Как отмечалось выше, в обычной системе распознавания, состоящей из распознавателя Л и интерпретатора I выполняемая функция однозначно определяется результатом прямого распознавания у : и = и., поэтому оценка

и

Е среднего риска ложной интерпретации совпадает с оценкой среднего риска ошибок прямого распознавания:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

n

. (2)

7=1

Средний риск П ложной пост-интерпретации складывается из средних

рисков Ь{ и Ь2 - ошибок пост-распознавания 1-го и 2-го рода соответственно:

n

А =2Ж+> (З-а)

¿=1

n

= (З.б)

¿=1

Тогда критерий целесообразности в компактной и развернутой формах

можно записать в виде следующих неравенств:

¿* = Ц + Ь2 < § , (4 а)

n n n ¿=1 ¿=1 ¿=1 (4б)

Таким образом, критерий целесообразности определяется условием: средний риск ошибки пост-распознавания должен быть меньше среднего риска ошибки распознавания.

Рассмотрим один частный случай, характерный для систем, примеры которых приведенные в начале настоящей работы, когда наибольшие потери связаны с ошибками 2-го рода. Подобные системы уместно назвать «системами распознавания (или интеллектуальными интерпретаторами) образов с высокими рисками». Их можно характеризовать следующим условием:

Я »Д, /е{1,...,N}. (5)

Неравенство (4) можно привести к виду:

n _ n

(6)

а а

Если (5) выполняется для всех /, то неравенство (6) можно переписать в

виде:

распознавателя Л. Заметим, что применение критерия в формах (4.б) и (7.а) может приводить к разным выводам. Рассмотрим пример для трех случаев, иллюстрирующих эту ситуацию.

Пример. Положим для простоты, что:

и проверим критерий для трех случаев:

1) Х,=Х2=% А=А=1, ¿Г=^Г=0.2, Р1-+=р-+=Р;-=Р1+-=0.\5.

Проверка критерия после подстановки соответствующих значений в форме (4.б) приводит к выводу о целесообразности использования модели пост-распознающего интерпретатора, а в форме (7.а) напротив - к нецелесообразности.

2) х,=Х2 =3, А=А = 1, =£г=ол, Р;+=Р2-+=Р;-=Р2+- = 0Л5.

Аналогичная проверка для обоих форм критерия - (4.б), (7.а) приводит к выводу о нецелесообразности использования модели пост-распознающего интерпретатора.

3) Я = = ю, А = А = 9, = =0.25, Р;+ = р-+ = р;- = Р2+- = 0.12.

Проверка критерия в обоих формах - (4.б), (7.а) приводит к выводу о целесообразности использования модели пост-распознающего интерпретатора.

Эти примеры имеют следующее объяснение. В первом случае, мы имеем дело с не очень хорошим в смысле критерия (7. а) постраспознавателем Л, но риски, связанные с ошибками 2-го рода настолько выше рисков, связанных с ошибками 1-го рода (условие (5)), что его применение все же оправдано. Во втором случае, риски, связанные с ошибками 2-го рода, существенно уменьшились, а характеристики достоверности пост-распознавателя не улучшились, поэтому его применение бесполезно. В третьем случае, риски, связанные с ошибками 1-го и 2-го рода мало отличаются, но достоверность пост-распознавателя Л выше достоверности распознавателя Л, поэтому его применение однозначно оправдано.

Таким образом, при практическом использовании критерия, для систем распознавания с высокими рисками, принятие решения о целесообразности применения предложенной модели пост-интерпретации образов состоит из двух шагов:

1. Проверка критерия (7.а). Если условие критерия выполняется, то применение модели, при выполнении условия (5), почти гарантировано целесообразно, не зависимо от конкретных значений рисков. В противном случае следует проверить критерий (4.б).

2. Проверка критерия (4.б). Принятие окончательного решения по результатам проверки.

Заметим так же, что условия (4.б), (7.а) могут выполняться только для некоторых /, то есть пост-интерпретация может быть целесообразна только для некоторых классов образов. Тогда можно построить систему, в которой

способ интерпретации (прямая или пост-интерпретация) выбирается в зависимости от результата распознавания j.

Предварительные результаты экспериментальной апробации модели

Для проверки эффективности изложенных выше подхода и модели были проведены эксперименты по распознаванию и интерпретации речевых команд управления в процессе работы интерактивного руководства оператора по выполнению различных заданий, требующих повышенного внимания и активного использования ручных операций [7, 8]. Команды управления электронного руководства оператора связаны с навигацией по его страницам и разделам, или выводом демонстрационных видеороликов. Режим речевого взаимодействия используется оператором только тогда, когда его руки заняты.

Пост-распознаватель был реализован для набора из шести речевых команд в виде шести ИНС, представляющих обычные перцептроны с двумя выходами [9, 10]. Для подготовки данных обучения ИНС и реализации процесса обучения использовался программный комплекс, написанный на языке Python, с использованием библиотек Keras и TensorFlow. Эксперимент состоял в подаче речевых команд операторами, фиксации ошибок распознавания, пост-распознавания, последующем вычислении оценок

вероятностей , и расчетом критерия целесообразности. Значения

рисков были назначены на основе консультаций с операторами, принявшими участие в эксперименте. Оценки рассчитывались для двух режимов работы оператора: «комфортного» - при относительно невысоком уровне окружающего акустического шума, «не комфортного» - при высоком уровне акустического шума от различного оборудования (уровень шумов оценивался субъективно).

Результаты экспериментов и расчетов показали следующее. Для комфортного режима работы использование пост-интерпретатора оказалось целесообразным (по результатам расчета критериев) для двух речевых команд, а для некомфортного - для четырех команд с высокими рисками. Эти результаты практически совпали и с субъективными оценками операторов, согласно которым применение пост-интерпретатора при «комфортном» режиме работы целесообразно для некоторых команд, и однозначно необходимо при «некомфортном» режиме. В настоящее время продолжается параметрическая настройка элементов модели пост-интерпретатора и его тестирование.

Выводы

Предварительные результаты апробации предложенного подхода и модели пост-интерпретатора образов в рассмотренном приложении позволяют сделать вывод о возможности их эффективного применения, по крайней мере, в некоторых прикладных областях, связанных с разработкой систем распознавания и интерпретации образов с высокими рисками. За рамками статьи остался ряд вопросов, связанных со способами реализации элементов модели - распознавателя и пост-распознавателя, выбором типа и структуры ИНС, методикой и технологией подготовки данных для ее обучения и некоторые другие вопросы. Эти вопросы и более полное описание экспериментов предполагается рассмотреть в последующих работах.

Литература

1. Левин Б.Р. Теоретические основы статистической радиотехники. В трех томах. - М.: «Сов. радио», 1975. - Т.2 - 392 с.

2. Левин Б.Р. Теоретические основы статистической радиотехники. В трех томах. - М.: «Сов. радио», 1976. - Т.3 - 288 с.

3. Попов Д.И. Статистическая теория радиотехнических систем: Учеб. Пособие. - Рязан. гос. радиотехн. акад., Рязань, 2003. - 80 с.

4. Городецкий А.Я. Информационные системы. Вероятностные модели и статистические решения. Учеб. пособие.-СПб: Изд-во СПбГПУ, 2003.-326 с.

5. Шахтарин Б.И. Обнаружение сигналов. Учебное пособие для вузов.-3-е изд., испр. - М: Горячая линия-Телеком, 2015. - 464 с.

6. Гавриков М.М., Мезенцева А.Ю., Синецкий Р.М. Эвристическая методика настройки скрытых марковских моделей для распознавания образов стохастических процессов // Изв. вузов. Электромеханика. 2022. Т. 65. № 2. С. 81-88. - DOI: 10.17213/0136-3360-2022-2-81-88

7. Синецкий Р.М., Гавриков М.М. Использование командно-речевых интерпретаторов для управления тренировкой. // Теория, методы проектирования, программно-техническая платформа корпоративных информационных систем: Материалы VII Междунар. науч.-практ. конф., г. Новочеркасск, 25 мая 2009 г./ Юж.-Рос. гос. техн. ун-т (НПИ).-Новочеркасск; ЮРГТУ, 2009. - с. 157-160.

8. Гавриков М.М., Синецкий Р.М., Кравченко С.И. Применение структурно-аппроксимационного метода распознавания речевых образов в задачах построения интерактивных руководств по выполнению полетных операций // Матер. 10-й международной научно-практической конференции «Пилотируемые полеты в космос», 27-18 ноября 2013 г., Звездный городок.-Изд. ФГБУ НИИ ЦПК им. Ю.А.Гагарина, 2013 г.- с. 116-117.

9. Антонио Д., Суджит П. Библиотека Keras - инструмент глубокого обучения. Реализация нейронных сетей с помощью библиотек Theano и TensorFlow. Перевод с английского Слинкин А. А. - Москва: ДМК Пресс, 2018. - 294 с. - ISBN 978-5-97060-573-8 - URL: e.lanbook.com/book/111438

10. Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение. Пер. с анг. Слинкина А. А. - 2-е изд., испр. - М.: ДМК Пресс, 2018. - 652 с.: цв. ил. ISBN 978-5-97060-618-6

References

1. Levin B.R. Teoreticheskie osnovy statisticheskoy radiotekhniki [Theoretical foundations of statistical radio engineering]. V trekh tomakh. M.: «Sov. radio»,

1975. T.2. 392 p.

2. Levin B.R. Teoreticheskie osnovy statisticheskoy radiotekhniki [Theoretical foundations of statistical radio engineering]. V trekh tomakh. M.: «Sov. radio»,

1976. T.3. 288 p.

3. Popov D.I. Statisticheskaya teoriya radiotekhnicheskikh system [Statistical theory of radio engineering systems]: Ucheb. posobie. Ryazan. gos. radiotekhn. akad. Ryazan', 2003. 80 p.

4. Gorodetskiy A. Ya. Informatsionnye sistemy. Veroyatnostnye modeli i statisticheskie resheniya [Automated systems. Probabilistic model and statistical solutions.]. Ucheb.posobie. SPb: Izd-vo SPbGPU, 2003. 326 p.

5. Shakhtarin B.I. Obnaruzhenie signalov [Signal detection]. Uchebnoe posobie dlya vuzov. 3-e izd., ispr. M: Goryachaya liniya-Telekom, 2015. 464 p.

6. Gavrikov M.M., Mezentseva A.Yu., Sinetskiy R.M. Izv. vuzov. Elektromekhanika. 2022. T. 65. № 2. pp. 81-88. DOI:10.17213/0136-3360-2022-2-81-88

7. Sinetskiy R.M., Gavrikov M.M. Teoriya, metody proektirovaniya, programmno-tekhnicheskaya platforma korporativnykh informatsionnykh sistem: Materialy VII Mezhdunar. nauch.-prakt. konf., g. Novocherkassk, 25 maya 2009 g. Yuzh.-Ros. gos. tekhn. un-t (NPI). Novocherkassk; YuRGTU, 2009. pp. 157-160.

8. Gavrikov M.M., Sinetskiy R.M., Kravchenko S.I. Mater. 10-y mezhdunarodnoy nauchno-prakticheskoy konferentsii «Pilotiruemye polety v

kosmos», 27-18 noyabrya 2013 g., Zvezdnyy gorodok. Izd. FGBU NII TsPK im. Yu.A.Gagarina, 2013 g. pp. 116-117.

9. Antonio G., Sujit P. Deep Learning with Keras. Packt Publishing Ltd, 2017. 318 p. ISBN 1787129039, 9781787129030

10. Goodfellow I., Bengio Y., Courville A. Deep Learning. MIT Press, 2016. 800 p. ISBN 0262035618, 9780262035613

Дата поступления: 5.02.2024 Дата публикации: 6.03.2024

Модели и применение нейросетевых пост-распознающих интерпретаторов образов Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — М М. Гавриков

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — М М. Гавриков

Текст научной работы на тему «Модели и применение нейросетевых пост-распознающих интерпретаторов образов»