НАУЧНЫЕ ВЕДОМОСТИ
Серия Экономика. Информатика. 2015. №7 (204). Выпуск 34/1
153
УДК 004.931
НЕЙРОСЕТЕВАЯ МОДЕЛЬ РАБОТЫ ЧЕЛОВЕКА-ОПЕРАТОРА В СИСТЕМЕ «ЧЕЛОВЕК-ДИСПЛЕЙ»
NEURAL NETWORK MODEL OF THE OPERATOR IN THE INTERFACE SYSTEM
В.М. Дуденков, Н.М. Новикова V.M. Dudenkov, N.M. Novikova
Воронежский государственный университет, Россия, 394006, Воронеж, Университетская площадь, 1 Voronezh state university, 1 Universitetskaya pl., Voronezh, 394006, Russia
email: [email protected], [email protected]
Аннотация. В статье представлена психофизическая модель работы человека-оператора в задаче распознавания изображений. В рамках модели рассматриваются когнитивная подсистема, решающая подсистема и исполнительная подсистема, а также внутренние источники информации. На основе данной модель построена нейронная сеть, в которой когнитивная подсистема четко отделена от решающей подсистемы. В качестве когнитивной подсистемы используются самоорганизующиеся карт Кохонена, а в качестве решающей подсистемы - гибридная нейронная сеть. В статье приведены результаты экспериментов по распознаванию изображений с человеком-оператором и описанной нейронной сетью, на основании которых сделаны выводы об актуальности представленной модели.
Resume. The article presents a model of psychophysical operator in the problem of image recognition. The model considered cognitive, decisive and executive subsystems, as well as internal information sources. On the basis of this model, was built a neural network in which the cognitive subsystem is clearly separated from the crucial subsystems. As the cognitive subsystem used Kohonen self-organizing maps, and as the crucial subsystems - hybrid neural network. The results of experiments on pattern recognition with the operator and described the neural network on the basis of which the conclusions of the relevance of this model. The results of experiments on pattern recognition with the operator and described the neural network on the basis of which the conclusions of the relevance of this model.
Ключевые слова: распознавание изображений, гибридная нейронная сеть, самоорганизующиеся карты Кохонена.
Keywords: image recognition, hybrid neural network, Kohonen self-organizing maps.
В настоящее время широкое распространение получила компьютеризация профессиональной деятельности. Исследование взаимодействия человека и компьютера, а особенно, исследование интеллектуальных систем «человек-дисплей», является актуальной задачей. Одной из основных функций человека-оператора в этих системах является прием и обработка информации, предъявляемой на экране дисплея, а также принятие решений. Несмотря на усиленное развитие методов автоматизации обработки информации, методов распознавания и классификации изображений, пока наиболее адаптивным опознающим устройством, способным принимать оптимальные решения при наличии помех является человек-оператор.
Целью данной статьи является экспериментальное исследование математической модели работы человека-оператора, построение нейросетевой модели распознавания изображений и сравнение эффективности работы нейросетевой модели с работой человека-оператора.
Постановка задачи такова: имеются изображения объектов из множества «цели» и изображения из множества «ловушки». Все изображения прошли предварительную обработку и имеют один размер. При распознавании предъявляются искаженные изображения в случайном порядке, необходимо определить принадлежность каждого из объектов к одному из классов. Примеры изображений представлены на рисунке 1.
С. Ловушка 2 D. Ловушка 3
Рис. 1. Изображения для классификации Fig. 1. Images for the classification
154
НАУЧНЫЕ ВЕДОМОСТИ
Серия Экономика. Информатика. 2015 № 7(204). Выпуск 34/1
Психофизиологическая модель. Исследования психологов [4, 5], основанные на применении теории статистических решений в психофизике, позволили построить модель работы че-ловека-оператора в задаче распознавания изображений и принятия решений. Эта модель в виде схемы представлена на рис. 2.
Рис. 2. Модель работы человека-оператора в задаче распознавания изображений. 1 - когнитивная подсистема, 2 - решающая подсистема, 3 - исполнительная подсистема,
4 - внутренние источники информации и память Fig. 2. Model of the operator in the problem of image recognition. 1 - cognitive subsystem, 2 - decisive subsystem 3 - executive subsystem 4 - internal information sources and memory
Согласно этой модели существуют следующие множества:
1) множество входных сигналов {S}, которое отображается тем или иным образом в множество психических образов этих сигналов {xs};
2) множество реакций {R}, которое определяется как множество возможных способов поведения или действий {rs}. В реальных условиях деятельности человека это множество всегда точно определено и ограничено;
3) множество решений Д. Каждой паре xs и rs ставится в соответствие некоторая функция F. Эта функция является отражением некоторых внутренних состояний человека и зависит от инструкций. Принятие решений тесно связанно с мотивацией и установкой.
С математической точки зрения процесс распознавания изображений можно рассматривать как набор операций над рассмотренными множествами. Операции над множествами выполняются когнитивной, решающей и исполнительной подсистемами, представленными на рис. 2.
Первая подсистема схемы когнитивная. Она осуществляет преобразование физических характеристик внешних воздействий в их психический образ S ^ х,, что описывается оператором F(xs|S). Вторая подсистема - решающая. Ее задачи:
1) отобразить множество психических образов на множество ответных реакций в соответствии с внутренними и внешними условиями;
2) определить критерий оценки возможных результатов поведения, на основании которого будет выбираться оптимальный способ реагирования;
3) определить и выбрать правило и стратегию решения;
4) перестроить работу когнитивной и исполнительной подсистем в соответствии с заданным или сформированным критерием оптимальности поведения и деятельности, а также в соответствии с результатами реагирования.
Работу этой подсистемы можно представить в виде двух блоков: формирования критериев Д и правил принятия решений F(rs|xs). Исполнительная подсистема включает блоки {rs} и {F(r|rs)}. Оператор F(r|rs) описывает механизм совершения обратного действия и его называют оператором исполнения.
Потоки априорной и апостериорной информации можно рассматривать как блок внешней информации, включающей в себя инструкцию в эксперименте, информацию об окружающей ситуации и т.п.
НАУЧНЫЕ ВЕДОМОСТИ
Серия Экономика. Информатика. 2015. №7 (204). Выпуск 34/1
155
Блок внутренней информации отражает влияние на другие подсистемы схемы прошлого опыта человека, особенностей процессов памяти и внимания, мотивационно-оценочных структур, а также эмоционального состояния.
На рис. 2 штрихами обозначены плохо изученные или гипотетические взаимодействия, сплошными линиями - изученные и экспериментально подтвержденные взаимодействия.
Рассмотренная психофизиологическая модель может служить основной для исследования характеристик работы человека-оператора и для методики проведения экспериментов.
Нейросетевая модель распознавания изображений. Предлагаемая нейросетевая модель распознавания изображений опирается на введенную ранее схему функционирования (рис. 2). В когнитивной подсистеме данной нейросетевой модели осуществляется сегментация изображения и формирование самоорганизующихся карт Кохонена.
Значительная часть изображений для классификации (рис. 1) повторяется, поэтому имеет смысл работать только с различающимися областями, на основе которых составляется карта отличий. На данной карте выделим темно-серым цветом точки, которые отличаются на 2-х изображениях из 4-х возможных (зоны максимально возможного отличия), и светло-серым цветом - точки, которые отличаются на одном изображении. Полученная карта отличий представлена на рисунке 3, A.
Рис. 3. Карта отличий (A) и сегменты изображения (B) Fig. 3. Map of the differences (A) and image segments (B)
После построения карты отличий предполагается провести ее сегментацию на участки с помощью методов иерархической кластеризации [1]. Общая идея методов данной группы заключается в последовательной иерархической декомпозиции множества объектов. В зависимости от направления построения иерархии различают дивизимный и агломеративный методы. В данной работе используется агломеративный метод, при котором процесс декомпозиции начитается с того, что каждый объект представляет собой самостоятельный кластер. Затем на каждой итерации пары близлежащих кластеров последовательно объединяются в общий кластер. Итерации продолжаются до тех пор, пока все объекты не будут объединены в один кластер или пока не выполнится некоторое условие остановки. Для определения меры близости между кластерами используется взвешенное евклидово расстояние:
Рев (X > xj)
к
(x,i - xji)2
где Xu, Xji - значения l-го признака у i-го O'-го) объекта (l = 1, 2, ..., k, ij = 1, 2, ... п). Взвешенное евклидово расстояние применяется в тех случаях, когда каждой i-ой компоненте вектора наблюдений удается приписать некоторый «вес» «г, пропорциональный степени важности признака в задаче классификации. Обычно принимают о < од < 1, где l = 1,2, ..., k. В нашем случае «1 = 1 для точек максимального отличия и «2 = 0.7 для остальных точек. В результате агломеративной кластеризации выделено пять сегментов изображения (рис. 3, B).
Для каждого из сегментов сгенерируем самоорганизующуюся карту Кохонена [2], подавая на вход соответствующие фрагменты каждого из четырех изображений. Результаты для фрагмента одного из фрагментов сегментации представлены на рисунке 4.
Когда нейросетвой модели передается изображение для классификации, изображение сегментируются на фрагменты и для каждого из фрагментов ищется ближайшая ячейка из соответствующей ему карты Кохонена. Таким образом, карты Кохонена используются для преобразования многомерного признака (участка изображения) в признак одномерный (координату наиболее близкой к предъявленному образу ячейке). Множество таких признаков передается блоку принятия решения. Сегментация изображения и набор самоорганизующихся карт Кохонена соответствуют когнитивной подсистеме (см. рис. 2, 1), а множество одномерных признаков - множеству психических образов {xs}.
В качестве решающей подсистемы используется гибридная сеть нечеткой логики. Общая схема работы всей модели представлена на рисунке 5.
156
НАУЧНЫЕ ВЕДОМОСТИ
Серия Экономика. Информатика. 2015 № 7(204). Выпуск 34/1
А
Рис. 4. Самоорганизующиеся карты Кохонена. A - размером 15 x 15 ячеек,
B - размером 10 x 10 ячеек, C - размером 6 x 6 ячеек Fig.4. Self-organizing maps of Kohonen. A - 15 x 15 cells, B - 10 x 10 cells, C - 6 x 6 cells
Рис. 5. когнитивная подсистема в нейросетевой модели (1), решающая подсистема (2) Fig. 5. 1 - cognitive subsystem of the neural network model, 2 - decisive subsystem
Для каждого из входных признаков (координат) xb x2,..., xn введем нечеткие понятия A1, A2, ..., An («является целью») и B1, B2, ..., Bn («является ловушкой»). Для этих нечетких понятий определим сигмоидные функции принадлежности:
А(х)
1
1 + e
¥x~ak) ’
Bk(x)
1
1 + e
bk(x~ak^
где bk и ak - настраиваемые параметры на k-ой итерации.
Каждая пара таких функций принадлежности обладает следующим свойством, упрощающим расчеты при настройке сети:
Ak(x)+Bk(x)=1 k = 1--N
Используя указанные нечеткие понятия, создадим систему нечетких правил:
Пр если x1 есть A1, x2 есть A2, ..., xn-1 есть An-1, xn есть An, то y = z1 П2: если x1 есть A1, x2 есть A2, ..., xn-1 есть An-1, xn есть Bn, то y = z2
НАУЧНЫЕ ВЕДОМОСТИ
Серия Экономика. Информатика. 2015. №7 (204). Выпуск 34/1
157
П2М: если xi есть Bi, Х2 есть B2, ..., xn-i есть Bn-i, xn есть Bn, то y = Z2N
В рассматриваемой системе правил Ak, Bk - нечеткие числа треугольной формы, Zi - вещественные числа, определяющие степень истинности i-го правила с помощью операции умножения (Larsen):
N
a/x)=П Ak (x)
k=1
Под Aik в данном случае подразумеваются как Ak, так и Bk, входящие в i-е правило. Общий выход нечеткой системы определяется дискретным аналогом центроидного метода [3].
В общем случае, если рассматривается задача распознавания образов двух классов и каждый входной признак имеет две функции принадлежности, то будет сформировано 2N правил (по числу размещений с повторениями из 2 по N).
Нейроны второго слоя (обозначены на рисунке 4 буквой «T») реализуют для своих входов нечеткую операцию «И» с помощью t-нормы:
T = min
Нейроны третьего слоя (обозначены буквой «S») являются обычными нейронами сети полной связи, входы которых - взвешенные комбинации нейронов предыдущего слоя, а выходы формируются функциями сигмоидного типа. Эти выходы и являются итоговым решением по классификации всего изображения. Все слои сети обучаются с помощью метода обратного распространения ошибки [3].
Эксперимент с операторами. В эксперименте принимали участие обученные операторы, что обеспечивало чистоту экспериментов. Оператор должен по предъявляемому на дисплее изображению определить его принадлежность к одному из классов («цели» или «ловушки»). На результат работы оператора может оказать влияние время, в течение которого он наблюдал истинную или ложную цель. Из физиологии зрения известно, что время, необходимое для распознавания изображения, колеблется в пределах 200-500 мсек. Для всех операторов выбрано время предъявления изображения равное 2 сек. Это время показа изображения строго выдерживалось, оператор работал в условиях отсутствия дефицита времени. Решение, принятое оператором, фиксировалось на счетчике результатов следующим образом:
Пцц - число предъявлений, в которых оператор опознал истинную цель, когда она ему предъявлялась;
Пцл - число предъявлений, в которых оператор принял истинную цель за ложную;
Плл - число предъявлений, в которых ложная цель была принята за ложную;
Плц - число предъявлений, когда оператор ложную цель принял за истинную.
Для полученных данных вычислялись вероятности Pцц = Пцц/п1; Pлл = Плл/п2; где m - число предъявлений истинной цели, n2 -число предъявлений ложной цели. Используя полученные данные можно вычислить усредненные вероятности правильного распознавания Pправ. и вероятность ошибки Pош., а также их зависимость от степени искажения изображения. Эти вероятности являются оценкой работы человека-оператора в сложной системе.
Моделирование на компьютере. Результатом работы нейронной сети являются значения вероятностей, аналогичные полученным в эксперименте с человеком-оператором: Pправ. -усредненное значение вероятности правильного распознавания, Pош - усредненное значение вероятности ошибки. Эти вероятности получены при различных степенях искажения изображений в контрольных выборках. В качестве искажающих эффектов и в эксперименте с оператором и в эксперименте с нейронной сетью использовалось зашумление определенного процента пикселей изображения и размытие изображения с помощью медианного фильтра. Примеры искаженных изображений из контрольной выборки приведены на рисунке 6.
С. Ловушка 2 D. Ловушка 3
Рис. 6. Искаженные изображения для распознавания Fig.6. Distorted Image for recognizing
158
НАУЧНЫЕ ВЕДОМОСТИ
Серия Экономика. Информатика. 2015 № 7(204). Выпуск 34/1
Эксперименты проводились с контрольными выборками разного объема, при этом с увеличением объема контрольной выборки увеличивалась и предельная степень искажения изображений. Результаты экспериментов с человеком-оператором и нейронной сетью представлены в таблице.
Таблица
Table
Результаты экспериментов с человеком-оператором и нейронной сетью ________The experimental results of operator and neural network_
Объем контрольной выборки 40 55 70 85 100
Человек-оператор Pправ. 1.000 0.982 0.958 0.906 0.850
Человек-оператор Pош. 0.000 0.018 0.042 0,094 0.150
Нейронная сеть Pправ. 1.000 1.000 0.958 0.918 0.920
Нейронная сеть Pош. 0.000 0.000 0.042 0.082 0.080
Из результатов проведенных экспериментов видно, что нейронная сеть показала более высокую распознавательную способность, чем человек-оператор. Нейросетевой алгоритм описанной архитектуры можно успешно использовать наряду со статистическими методами распознавания
[6]. Отметим, что подобные выводы правомерны для узкого класса задач по распознаванию изображений: все изображение были изначально приведены к одному размеру, который не изменялся в процессе тестирования; кроме того в экспериментах использовалось только два типа искажающих воздействий. В тоже время идея разбиения нейросетевых моделей на блоки в соответствии с введенной психофизической схемой представляется универсальной, а сама схема - актуальной для дальнейших исследований.
Список литературы
References
1. Гонсалес Р. Цифровая обработка изображений. М.: Техносфера, 2005. - 1007 с.
Gonsales R. Cifrovaja obrabotka izobrazhenij. M.: Tehnosfera, 2005. - 1007 s.
2. Кохонен Т. Самоорганизующиеся карты. М.: БИНОМ. Лаборатория знаний, 2008. - 655 с.
Kohonen T. Samoorganizujushhiesja karty. M.: BINOM. Laboratorija znanij, 2008. - 655 s.
3. Круглов В.В., Дли М.И., Голунов Р.Ю. Нечеткая логика и искусственные нейронные сети. М.: ФИЗМАТЛИТ, 2001. - 201 с.
Kruglov V.V., Dli M.I., Golunov R.Ju. Nechetkaja logika i iskusstvennye nejronnye seti. M.: FIZMATLIT, 2001. - 201 s.
4. Леонов Ю.П. Теория статистических решений и психофизика. М.: НАУКА, 1977. - 223 с.
Leonov Ju.P. Teorija statisticheskih reshenij i psihofizika. M.: NAUKA, 1977. - 223 s.
5. Мещеряков Б.Г., Зинченко В.П. Большой психологический словарь. М.: АСТ, 2009. - 816 с.
Meshherjakov B.G., Zinchenko V.P. Bol'shoj psihologicheskij slovar'. M.: AST, 2009. - 816 s.
6. Новикова Н.М., Ноаман С.А. Компьютерная модель статистического распознавания изображений // Научные ведомости БелГУ. Серия: История. Политология. Экономика. Информатика. - 2012. - № 13. -Вып. 23/1. - С. 135-141.
Novikova N.M., Noaman S.A. Komp'juternaja model' statisticheskogo raspoznavanija izobrazhenij // Nauchnye vedomosti BelGU. Serija: Istorija. Politologija. Jekonomika. Informatika. - 2012. - № 13. - Vyp. 23/1. -S. 135-141.