Научная статья на тему 'Использование иерархических нейронных сетей для распознавания многоэлементных зрительных сцен'

Использование иерархических нейронных сетей для распознавания многоэлементных зрительных сцен Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
488
99
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЙРОННАЯ СЕТЬ / ИЕРАРХИЯ / РАСПОЗНАВАНИЕ / NEURAL NETWORK / HIERARCHY / RECOGNITION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Энгель Екатерина Александровна, Завьялова О. И.

Описана иерархическая искусственная нейронная сеть для решения задач распознавания образов, сгруппированных в произвольную сцену. Разработана математическая модель системы распознавания связанных фрагментов образов на основе взаимодействия подсистем внимания и распознавания.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Энгель Екатерина Александровна, Завьялова О. И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Usage of hierarchical neural networks for multiple vision scenes recognition

The hierarchical neural networks for solving problems of pattern recognition, grouped in an arbitrary scene are considered. The mathematical model of recognition system fulfilled on the interaction basis between subsystems of attention and recognition.

Текст научной работы на тему «Использование иерархических нейронных сетей для распознавания многоэлементных зрительных сцен»

Таким образом, использование графоаналитического метода на основе GERT- сетей для анализа мультивер-сионных архитектур программного обеспечения является перспективным, так как позволяет аналитически оценить вероятностно-временные характеристики мульти-версионного ПО любой сложности без построения громоздких имитационных сред и комплексов моделирующих программ.

Библиографический список

1. Kovalev, I. System of Multi-Version Development of Spacecrafts Control Software / I. Kovalev. Sinzheim : Universitate Verlag, 2001.

2. Ковалев, И. В. Мультиверсионный метод повышения программной надежности информационно-телекоммуникационных технологий в корпоративных структурах / И. В. Ковалев, Р. В. Юнусов // Телекоммуникации и информатизация образования. 2003. N° 2 (15). С. 50-56.

3. Ковалев, П. В. Определение надежности мультиверси-онного программного обеспечения с использованием методов анализа сетей / П. В. Ковалев, А. Н. Лайков, С. Н. Гриценко // Вестник СибГАУ 2009. № 1 (22). Ч. 2. С. 55-60.

4. Avizienis, A. The Methodology of Ж-Version Programming/ A. Avizienis // Software Fault Tolerance. New York : John Wiley & Sons, 1995.

5. Филлипс, Д. Методы анализа сетей / Д. Филлипс, А. Гарсиа-Диас. М. : Мир, 1984.

I. A. Kapchinsky, P. V. Kovalev, S. N. Gritzenko

GRAPH-ANALYTIC RESEARCH OF SOFTWARE BASED ON N-VERSION ARCHITECTURE

In this article the research technique the N-version software reliability is offered. It allows using algorithms and methods of network analysis for the reliability research of software, developed using N-version approach.

Keywords: reliability, N-version, networks, estimation methods, network analysis.

© Капчинский И. А., Ковалев П. В., Гриценко С. Н., 2009

УДК 681.3

Е. А. Энгель, О. И. Завьялова

ИСПОЛЬЗОВАНИЕ ИЕРАРХИЧЕСКИХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ РАСПОЗНАВАНИЯ МНОГОЭЛЕМЕНТНЫХ ЗРИТЕЛЬНЫХ СЦЕН

Описана иерархическая искусственная нейронная сеть для решения задач распознавания образов, сгруппированных в произвольную сцену. Разработана математическая модель системы распознавания связанных фрагментов образов на основе взаимодействия подсистем внимания и распознавания.

Ключевые слова: нейронная сеть, иерархия, распознавание.

Существующие в настоящее время системы распознавания образов на базе искусственных нейронных сетей (ИНС) обладают значительным количеством недостатков. В частности при разработке комплексов, решающих проблему интерпретации изображений, особое внимание уделяется узнаванию определенных групп образов. Однако поиск в доступных источниках информации о системах, способных к саморазвитию, т. е. к «расширению кругозора», приводит к крайне скудным результатам. Это объясняется высокой сложностью проектирования и реализации проектов такого класса. Ведь на самом деле реальный процесс распознавания, протекающий в самой совершенной системе анализа - человеческом мозге, состоит не только в том, чтобы проверить сходство анализируемого объекта с запомненным эталоном. Это достаточно сложное взаимодействие между различными подсистемами мозга. Ошибочно также считать, что

сигналы от сетчатки до терминальных корковых центров, принимающих решение, распространяются прямолинейно. Распознавание - это итеративный процесс, в котором до принятия окончательного решения происходит не только сравнение входного образа с эталоном, но и генерация гипотез по классификации объекта. Столкновение соответствующих потоков нейронных импульсов приводит к дальнейшему уточнению характеристик образа до тех пор, пока не произойдет согласования между этими потоками.

Кроме того, в процессе классификации нередко случается так, что наш мозг не содержит точного представления эталона, однако это не мешает ему найти правильный результат.

Другим немаловажным аспектом создания систем распознования образов является выделение существенных фрагментов сцены для их интерпретации, т. е. селекция образов, расположенных на сцене. В противном слу-

чае анализируется вся сцена, со всеми вытекающими отсюда последствиями полного перебора пространства решений. Существующие реализации таких систем в качестве входных данных требуют сцен, практически полностью очищенных от шумов, а при даже незначительных зашумлениях дают неверные результаты.

Таким образом, актуальность дальнейших исследований ИНС обосновывается необходимостью в разработке математического аппарата новых программных архитектур, алгоритмов функционирования и обучения этих сетей для обеспечения более надежных результатов распознавания сложных объектов, находящихся на произвольном фоне. Основные усилия при этом направлены на разработку интеллектуальной составляющей иерархической ИНС, позволяющей программному комплексу анализировать только существенные компоненты входного вектора.

Теоретико-методологической основой для данной статьи явились исследования в области компьютерного зрения, нашедшие отражение в трудах Д. Хьюбела, Т. Визе-ла, К. Фукушимы, С. Гроссберга, Й. Ле Куна, М. Ризенху-бера, Т. Поггио, Г А. Карпентер, Ж. Ли, Д. К. Цоцос, Л. Итти, С. Бейнке [1-5].

Современная теория нейросетевых вычислений предлагает большое число моделей и алгоритмов нейронных сетей, в той или иной степени позволяющих распознать образ на сцене. Однако большинство таких моделей имеют значительные ограничения по представлению образа. Другими словами, они могут выполнить распознавание только при условии минимальных шумов и отсутствии трансформации анализируемого объекта, расположенного на «белой» сцене. Кроме того, образ требует определенного масштабирования. В конечном счете подобные ограничения привели к сужению области распространения таких моделей.

Как показано в [1], для создания систем, обладающих большими возможностями, потребовалось ввести определенную специализацию частей ИНС, задать соответствующую архитектуру, увеличить количество типов нейронов и синаптических связей, используемых внутри модели. Ввиду такого усложнения большинство исследователей сосредоточили свои усилия в относительно узких областях теории распознавания, таких как анализ рецептивных полей или конкурентное взаимодействие нейронов. Однако исследования, ставившие своей целью конструирование универсальной системы распознавания объектов, в результате привели к созданию огромных и в значительной степени избыточных архитектур ИНС. Процесс анализа образа в основном происходил путем перебора множества комбинаций соседних нейронов.

Таким образом, к главным недостаткам существующих подходов можно отнести отсутствие интеллектуализации, т. е. направленного и осмысленного поиска моделей. Другой недостаток - неассоциативный характер хранения образов, что самым негативным образом сказывается на распознавании.

Исходя из анализа доступных источников, авторами был сделан вывод о том, что предпринимаемые попытки осознать процесс распознавания - это скорее количественный, чем качественный путь решения.

Иерархическая ИНС, уровни которой представлены на рис. 1, является ядром модели распознавания для вы-

деления существенных фрагментов сцен и состоит из нескольких слоев, каждый из которых включает группу двумерных плоскостей нейронов. Нейроны, образующие плоскости в слоях, будем называть клетками характеристик (или свойств).

Рис. 1. Уровни иерархической ИНС

Такое представление дает возможность анализировать интересующий нас фрагмент на нескольких уровнях абстракции. С повышением уровня происходит увеличение числа плоскостей с одновременным уменьшением пространственного разрешения. Предложенная организация нейронов в двумерные плоскости в первых трех уровнях, изображенных на рис. 1, и МАХ-слоях (это дополнительный подуровень в слоях простых и сложных локальных ориентаций), мотивируется тем, что близкорасположенные фрагменты коррелируют в большей степени, нежели более удаленные друг от друга области. Информация о базовых функциях, реализуемых на каждом уровне, приведена в таблице.

Клетки простых локальных ориентаций (фрагментов прямых линий), или ^-клетки, обладают рецептивным полем переменного размера, что позволяет выполнить нормирование образа для последующих уровней ИНС и в определенной степени обеспечить инвариантность к масштабированию образов. Расположение нейронов с рецептивным полем переменного размера внутри слоев простых и сложных характеристик позволяет решить две задачи: во-первых, произвести оценку входного вектора нейронами, обладающими различными рецептивными полями; во-вторых, включить плоскости одного слоя в латеральное соревнование. Последнее помогает более точно определить клетки ИНС с синаптическими соединениями, настроенными на соответствующие компоненты, попавшие в рецептивное поле.

В ^-клетках с переменным рецептивным полем ИНС производит выделение значимых компонент для полутонового представления входного изображения, расположенного в рецептивном слое. К значимым компонентам образа, обрабатываемым клетками, относятся части линий определенных ориентаций: 0, я/4, я/2,3 я/4 . Каждая ориентированная значимая компонента представлена в нескольких вариантах. Другими словами, клетки анализируют не только ориентацию, но и толщину линии

полутонового представления в рецептивном слое. Это делается для уменьшения зависимости качества распознавания от колебаний границ между фоном и анализируемым образом (или границ между участками образа). Извлечение локальных характеристик этими плоскостями осуществляется посредством одного из двух фильтров: дифференциального фильтра Г аусса или фильтра Г абора.

Размеры рецептивного поля для S'-клеток рассчитываются по выражению

h = w = max (H2 div H1, W2 divW,),

где h, w - соответственно ширина и длина рецептивного поля; H1,W1 - размеры плоскости, содержащей S-клетку; H2,W2 - размеры обрабатываемого фрагмента на рецептивном уровне. Значения синаптических весов устанавливаются после получения параметров h и w.

Для уменьшения избыточности данных, являющейся следствием использования групп плоскостей с равным параметром ориентации, но с отличающимся значением ширины локальной характеристики, используется подход связывания выходных сигналов таких групп. Группирование производится в МАХ-плоскостях, совпадающих по размерам с ассоциированными S-плоскостями. Каждый нейрон MAX-плоскости, расположенный на позиции v, получает сигналы состояния всех нейронов, входящих в одну группу и находящихся на этой же позиции v , и получает от них максимальный отклик. Значение максимального выхода афферента и становится выходом MAX-нейрона v :

и (MAX; v с) = maxk^AC (U (S,v k)),

где С - номер плоскости в MAX-слое; U (S, v, k) - выход S-клетки, попавшей в область связи нейрона v ; AcS- плоскости, расположенные на одном уровне и обладающие клетками с равным значением ориентации.

Уровень сложных характеристик, или С-слой, обладает подуровнем сложных свойств, являющихся комбинацией простых характеристик, выделенных на раннем этапе и сгруппированных в МАХ-плоскостях. Для свертки простых характеристик применяется метод Фукушимы, основанный на совместном использовании возбуждающих и тормозящих сигналов. Выход клетки сложных характеристик производится следующим образом:

U(C,v,С) = rv хфх

1+£ П=Г I^a C ^ ^, С)-и (MAX v+m, n)

1 + Т+Г •b (C, C)-U (V, v)

-1

где Лу - область связи соответствующей С-клетки; -

параметр селективности (степень близости входного сигнала и сигнала, которому были научены синапсы клетки); ф(. ..) - порогово-линейная функция;

и (V, ?) =

= ,£ 'Г ('■', Х)-и2 (МАХ V + т п),

где КМАХ - количество плоскостей в МАХ-слое.

После определения нейрона-победителя в каждой области гиперколонарного торможения производится настройка его весов:

Da (C, x, m, С) =

= q • d (V, m)U (MAX, v + m, n),

Db(C,С) = q •U(V,v) , где q - коэффициент скорости обучения.

Предпоследний уровень иерархической ИНС - уровень видонастраиваемых нейронов (ВНН) - служит для запоминания визуального представления целых объектов. Компоненты вектора весов каждой видонастраиваемой клетки служат для указания вклада сложных характеристик для каждого запомненного класса. Решение задачи поиска визуального представления сводится к нахождению таких ВНН, для которых расстояние компонент весового вектора до выходов С-слоя минимально.

Активность фрагмента C-слоя позволяет предположить, что имеется вероятность принадлежности входного фрагмента к одному из запомненных образов. Существуют три стратегии поиска образа: восходящая, в которой процессом управляют выходы С-слоя, нисходящая, в которой контроль осуществляется ВНН, и комбинированная, сочетающая предыдущие стратегии. Перед запуском процедуры поиска фиксируются следующие значения Dmax - минимально возможного отклонения сегмента от представления образа, при котором отвергается гипотеза о принадлежности сегмента к указанному виду; R - первоначальных окрестностей С-клеток, инициирующих поиск; r -шага увеличения окрестности; Umin (C) - минимальной активности сложной клетки, при которой последняя запускает поиск; wmin - минимального значения веса синапса ВНН, инициирующего процедуру восходящего поиска.

Необходимо отметить, что начальные шаги всех стратегий поиска совпадают и выглядят следующим образом.

Шаг 1. Активизировать сеть (здесь предполагается, что настройка сложных клеток уже произведена). Рассчитать активности плоскостей сложных характеристик.

Шаг 2. Выбрать сложные клетки, активность которых превышает:

Umin (C, v,С) :

"v : v £ Layer(C), U (C, v,С) > Umin (C, v,С) .

Найти области p(, включающие все выбранные сложные клетки и их начальные окрестности R.

Шаг 3. Для анализируемых ВНН; или VTU (на первой итерации это все связанные ВНН) найти расстояние компонент вектора весов от выходов ассоциированных с ними выбранных сложных клеток v :

"VTU : VTU £ Y, d =

где Y - область, анализируемых ВНН, w(p,С) - значение синаптического веса ВНН, связанного с клеткой p в плоскости С; 0 <8< 1 - константа масштабирования.

Шаг 4. Исключить из Y клетки с расстоянием d, превышающим Dmax:

Y = UVTUj : dj <Dmax. j

Шаг 5. Если Y = 0 , то выдать сообщение об отсутствии такого образа в памяти; если иначе, то перейти к шагу 6.

Шаг 6. Если обработаны сигналы от всех сложных клеток M ° U i Pi, то перейти к шагу 7; если иначе, то

перейти к шагу 8.

Шаг 7. Выдать информацию о ВНН, входящих в Y, в порядке возрастания расстояния dj .

Шаг 8. Этот шаг зависит от направления анализа:

- для восходящего анализа: увеличить размеры регионов анализа (активных сложных клеток и их окрестностей) на величину г. Если регионы пересекаются, то объединить их. На этом этапе происходит увеличение M. Перейти на шаг 3;

- для нисходящего анализа: выбрать еще не анализировавшиеся синапсы клетки с w (p, С) > wmin, исключить из M области оценки восходящим методом и включить регионы, ассоциированные с w (p, С), с новыми начальными окрестностями R (при самом первом запуске); если такие синапсы отсутствуют, то увеличить R на г. Перейти на шаг 3.

Комбинированная стратегия одновременно использует шаг 8 и для восходящего, и для нисходящего поиска.

Предложенный выше механизм ассоциативного поиска позволяет ускорить поиск решения как за счет корреляции близких максимально информативных фрагментов образа, так и за счет исследования наличия у образа существенных признаков.

Последний уровень иерархической ИНС - слой классоассоциативных нейронов (КН) - служит для представления классов в ИНС. В процессе работы сети происходит усиление связей между ВНН и КН, если учитель указывает на существование класса образа. Усиление этой связи также происходит и в дальнейшем, если система повторно распознает образ или ей принудительно укажут на этот фрагмент. Правило обучения следующее: u (^ j ) = (1 -“)•u (^ j) +

+р- u (v, j )U-1 ( VIEW, j ),

где u (v, j) - значение синаптического коэффициента КН

V, соединенного с ВНН j с максимальным выходным значением; a - скорость забывания; b - скорость обучения синапса; U (VIEW, j) - выход ВНН.

Процесс распространения сигнала внутри иерархической ИНС включает следующие этапы:

1) обнуление активностей всех клеток сети;

2) активизацию клеток рецептивной плоскости выбранным сегментом, получение значений полутона как

выходного сигнала для всех возбужденных клеток плоскости;

3) расчет размеров рецептивных полей для нейронов уровня простых и подуровня простых локальных ориентаций слоя сложных характеристик;

4) установку значений синаптических весов для S-нейронов;

5) расчет активности S-клеток;

6) группировку результатов всех S-клеток операцией MAX;

7) латеральное торможение в MAX-подуровне уровня простых характеристик;

8) расчет активности С-клеток;

9) латеральное торможение MAX- (для подуровня сложных характеристик) и С-плоскостей;

10) запуск ассоциативного поиска среди ВНН, определение множества результатов - образов, наиболее похожих на входной сегмент;

11) возбуждение классоассоциативных клеток.

Таким образом, предлагаемый в данной статье подход не только обеспечивает работу со сценами любой сложности, но и обладает возможностями адаптации и расширения в соответствии с запросами пользователя.

Разработанная модель иерархической ИНС обладает более эффективным алгоритмом интерпретации образов, расположенных на сценах, чем существующие современные модели, основанные на встречном распространении сигналов. Это является следствием фокусировки ресурсов на значимых регионах сцены и ассоциативного характера поиска в пространстве запомненных образов.

Алгоритм интеграции процессов восходящего внимания и сегментации позволяет, во-первых, сократить размерность обрабатываемых подсистемой распознавания регионов сцены за счет учета контраста визуальных параметров и, во-вторых, подчеркнуть возможность получения серии интерпретаций образов для одних и тех же областей.

Библиографический список

1. Learning Invariant Features through Topographic Filter Maps / K. Kavukcuoglu, M. A. Ranzato, R. Fergus, Y. LeCun // Proc. Intern. Conf. on Computer Vision and Pattern Recognition (CVPR-09). Miami, Fla, USA, 2009.

Функции уровней иерархической ИНС

Наименование уровня Функции

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рецептивный уровень Получение фрагмента сцены и хранение его полутонового представления

Слой простых локальных ориентаций Выделение простых локальных ориентаций посредством рецептивных полей на базе дифференциального фильтра Гаусса или фильтра Габора

МАХ-слой Нахождение максимального выхода нейронов, расположенных на одной позиции в разных плоскостях, с одинаковой ориентированностью, но обладающих разной толщиной

Слой сложных характеристик Выделение сложных характеристик образа с помощью комбинации простых характеристик предыдущего этапа

Ассоциативная среда Управление генерацией гипотез о природе образа

Уровень видонастраиваемых клеток Представление образов, основанное на их визуальных характеристиках

Уровень восприятия классов Представление классов образов

2. Serre, T. A feedforward architecture accounts for rapid categorization / T. Serre, A. Oliva, T. Poggio // Proc. of the National Academy of Science. 2007. Apr. Vol. 104 (15).

3. A quantitative theory of immediate visual recognition / T. Serre, G. Kreiman, M. Kouh, et al. // Progress in Brain Research, Computational Neuroscience: Theoretical Insights into Brain Function. 2007. Vol. 165.

4. Object recognition with cortex-like mechanisms / T. Serre, L. Wolf, S. Bileschi, et al. // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2007. Vol. 29 (3).

5. A theory of object recognition: computations and circuits in the feedforward path of the ventral stream in primate visual cortex / T. Serre, M. Kouh, C. Cadieu, et al. ; Massachusetts Institute of Technology. Cambridge, MA, 2005.

Рис. 2. Блок-схема алгоритма обучения иерархической искусственной сети

E. A. Engel

USAGE OF HIERARCHICAL NEURAL NETWORKS FOR MULTIPLE VISION SCENES RECOGNITION

The hierarchical neural networks for solving problems of pattern recognition, grouped in an arbitrary scene are considered. The mathematical model of recognition system fulfilled on the interaction basis between subsystems of attention and recognition.

Keywords: neural network, hierarchy, recognition.

© Энгель Е. А., Завьялова О. И., 2009

i Надоели баннеры? Вы всегда можете отключить рекламу.