Серия История. Политология. Экономика. Информатика. 2012. №7(126). Выпуск 22/1
УДК 004.932
СТРУКТУРА НЕИРОСЕТИ ДЛЯ РАСПОЗНАВАНИЯ ОБЪЕКТОВ НА АЭРОКОСМИЧЕСКИХ ИЗОБРАЖЕНИЯХ НА ОСНОВЕ АНАЛИЗА РАСПРЕДЕЛЕНИЯ ИХ ЭНЕРГИЙ ПО ЧАСТОТНЫМ ИНТЕРВАЛАМ
Е.Г.ЖИЛЯКОВ
A.Ю. ЛИХОШЕРСТНЫЙ
B.В. КРАСИЛЬНИКОВ
В статье рассматривается новый метод распознавания объектов ни снимках земной поверхности на основе построения нейронной сети, в которой вычисляются доли энергии выделяемых объектов.
Белгородский государственный национальный исследовательский университет
Ключевые слова: аэрокосмические снимки, нейронная сеть, частотное представление, доли энергии, распознавание образов.
e-mail: Zhilyakov@bsu.edu.ru ozzy.osbourne.man@gmail.com
Мониторинг состояния земной поверхности осуществляется на основе процесса дешифрирования снимков и, в частности, выделения объектов с той или иной точки зрения, составляющий единый класс. Такие процедуры естественно называть распознаванием объектов. Причем для реализации этой процедуры применяется предварительное обучение, заключающееся в описании класса искомых объектов на основе задания значений признаков из некоторого их пространства. Выбор пространства признаков является важнейшим этапом подготовки к решению задачи распознавания объектов. Другой важный аспект процедуры распознавания заключается в выборе инструмента, с помощью которого производится сопоставление значений признаков анализируемого объекта с их значениями, полученными на этапе обучения. Предполагается, что этап обучения осуществляется по объекту-образу (фрагменту изображения), который указывается оператором, в том числе непосредственно на обработанном изображении.
В каждой из задач распознавания присутствует некоторый объект, представленный значениями своих признаков, а также некоторое число классов, к одному из которых необходимо отнести данный объект. Таким образом, распознавание — это отнесение некоторого неизвестного объекта по его описанию к одному из классов.
Распознавание производится по прецедентам, классификация которых известна и которые в виде формализованных описаний могут быть предъявлены алгоритму распознавания для настройки на задачу в процессе обучения.
Одним из современных подходов распознавания объектов на аэрокосмических изображениях является построение нейронных сетей. Одной из ведущих программных систем, использующих для дешифрирования нейронные сети, является ENVI. Для автоматизированного распознавания объектов на аэрокосмических снимках эта программная система использует следующие три группы признаков распознавания: геометрические (форма, размер); яркостные (уровень яркости, цвет); структурные (текстура, структура). Недостатками таких подходов являются:
- сложность распознавания в условиях сильных помех на изображении;
- необоснованное отнесение объектов снимка в один и тот же класс (рис. 1);
- слабая адаптация существующих методов автоматизированного распознавания к изменяющимся условиям съемки и обработки изображений;
- для разных классов объектов порой приходится подбирать различные функциональные модели объектов.
Рис. 1. Результат распознавания частных домов байесовским методом в ENVI
Одной из перспективных возможностей изменения ситуации в области автоматизированного распознавания являются разработка и внедрение программно-технологических средств, которые используют новые методы обработки космофотоснимков на основе частотных представлений.
Новизна идеи состоит в использовании нового метода обнаружения и выделения объектов, где в качестве группы признаков распознавания берутся энергетические характеристики изображения (доли энергии распознаваемых объектов) и на их основе строится нейронная сеть.
Основная цель работы состоит в разработке, исследовании и программной реализации алгоритма нейросетевого распознавания объектов на аэрокосмических изображениях на основе анализа распределения их энергий по частотным интервалам.
Поставленная цель достигается решением следующих конкретных задач:
1. Вычисление долей энергии изображения, которые являются многомерным вектором признаков распознавания;
2. Построение нейронной сети для выделения и идентификации объектов на космических снимках, группами признаков распознавания для которого являются доли энергии каждого объекта изображения;
3. Оценивание работоспособности разработанных алгоритмов на основе вычислительных экспериментов с реальными изображениями.
При распознавании объектов на изображении исходными данными является массив значений интенсивностей для каждого пикселя. Очевидно, этот массив можно представить в виде многомерного вектора признаков, но распознавание в подобном пространстве признаков неосуществимо. Даже небольшая смена ракурса приведет к тому, что значения интенсивностей большинства пикселей изменятся, т.е. образы одного класса в данном пространстве занимают области, имеющие очень сложные формы. Понятно, что каждый из этих признаков (значений интенсивностей отдельных пикселей) мало информативен: даже выкинув значительную часть пикселей, человек сможет распознать объект практически также хорошо, как и по исходному изображению. С другой стороны, чтобы отличить, например, мяч от линейки, нам достаточно только одного такого признака, как форма. Это означает, что в рамках данной задачи существуют некоторые признаки, в пространстве которых классы образов будут хорошо отделимы с помощью сравнительно простых процедур
Серия История. Политология. Экономика. Информатика. 2012. №7(126). Выпуск 22/1
распознавания. К сожалению, такие признаки очень сложным образом зависят от исходных описаний, с чем и связана трудность проблемы выбора признаков.
Основной проблемой, связанной с представлениями на пиксельном уровне, является проблема эффективности этих представлений в целях их хранения и передачи. Представления на пиксельном уровне являются исходными для любых приложений интерпретации изображений с помощью цифровых вычислительных машин. Именно потому, что такое представление является общим для различных задач компьютерной обработки изображений, часто говорят, что «изображения — это массивы пикселей».
Представления на пиксельном уровне содержат в себе всю имеющуюся информацию о наблюдаемой сцене, но в форме, неудобной для автоматического анализа. Это и вызывает необходимость привлечения других представлений изображений с целью извлечения содержащейся в них релевантной информации.
В связи с этим возникает естественное желание представить изображение как элемент некоторого математического пространства, чтобы воспользоваться уже введенными на нем операциями. Часто отображение из пиксельного представления в выбранное математическое пространство является взаимно однозначным и непосредственно выражается через исходные значения интенсивностей, а результаты математических операций над изображениями снова представляются в виде массива пикселей.
Существующие на данный момент строгие математические модели изображений являются достаточно низкоуровневыми и имеют ограниченную область применения.
В качестве основных причин различия внешнего вида одного и того же объекта на разных изображениях можно назвать[7]:
• смену ракурса (пространственное преобразование);
• изменение освещения (преобразование интенсивности);
• смену типа сенсора;
• собственную изменчивость объекта (например, сезонные изменения на аэрокосмических фотографиях).
Следовательно, для назначения меток необходимо построить описания изображений, инвариантные перечисленным преобразованиям. К сожалению, математические модели позволяют добиться инвариантности только по отношению к весьма ограниченным классам преобразований. Изменчивость других типов, вызванная, например, сменой сенсора или собственными изменениями объекта, оказывается трудноформализуемой, так как сильно зависит от свойств объектов наблюдения.
Одна из проблем заключается в том, чтобы построить инвариантные представления, потеряв при этом как можно меньше полезной информации. Представления, решающие в той или иной степени эту задачу, обращаются к структуре изображения, т. е. к взаимосвязям между различными пикселями, поэтому такие представления часто называют структурными.
Структура возникает из-за периодического повторения значений коэффициента отражения точек некоторой физической поверхности, что вызывает периодические (но, возможно, искаженные перспективой) повторения значений интенсивностей пикселей изображения [7]. Природные объекты, однако, не обладают подобной регулярной периодической структурой. Тем не менее пространственные вариации значений коэффициента отражения у таких объектов также содержат некие закономерности, различные для разных объектов. При этом повторяются не интенсивности отдельных пикселей, а значения некоторых параметров (текстурных признаков) в локальных распределениях интенсивностей пикселей. Это позволяет выделять на изображении области, соответствующие разным объектам, что и является целью структурной сегментации изображения. Структурный анализ может использоваться не только для выделения объектов на изображении, но и непосредственно для их распознавания.
Изображение можно определить как двумерную функцию йк, где i=l,2,...M и к=1,2,...^ - координаты в пространстве (конкретно, на плоскости), и значение f которой в любой точке, задаваемой парой координат 0,к), называется интенсивностью изображения в этой точке [1,2,6].
Серия История. Политология. Экономика. Информатика. 2012. №7 (126). 2Ш>1Пу<№22/1126). Выпуск 22/1
Частотным представлением функции fik называется следующее выражение [3-5]:
-* — —
fik = —2 I I F(u, v)ejuieJvkdudv 4— J J
(1)
Здесь ejui и ejvk - базисные функции (функции представляются в базисе Фурье), аргументы и и V - круговые частоты, отражающие периодичность (цикличность) изменений исходной функции йк с изменением аргументов I и к.
В качестве весовой функции F(u,v) можно использовать трансформанту Фурье:
M N
- Ju 0'-1)Л-Jv (k -1)
P (М, V) = ^Е ^е‘.................е (2)
г=1 к =1
На основе равенства Парсеваля энергию изображения можно представить в виде
суммы:
M N 1 - Rx Ry
XX fik = т-2 IIIF(u-v)|2dudv = XXрц.
i=1 k =1 4<“ -- r=1 m =1
(3)
где значение доли энергии РОг,т двумерного сигнала !:1к в двумерной частотной области Шк:
Parm = 4-2 II lF(u> v)|2 dudv
(4)
(и ,у )ей ¡к
В качестве области ^к рассматривается следующая центрально-симметричная об ласть частотной плоскости [4]:
О ¡к : (О ¡к(и, V) | (и е [а15а2 ] V е [Р15 Р2 ]) и (и е К, а 2 1 V е[-р 2,-Р! ]) и
(и е [-а 2,-а1 ], V е [- Р 2,-Р1 ]) и (и £ [-а 2,-а1 1 V £ [Рр Р 2 М где 0 ^1>а 2 , Р1> Р 2 ^
(5)
v
Р2
Р1
-ОС2 -0С1
Q
Н—►
а2 u
Если в правую часть представления (4) подставить определение (2), то после преоб разований можно получить соотношение [5]:
tree (AT Ф ■ B Ф T )
\ r m s
Prm M N (6)
XX f2
i =1 k=1
Серия История. Политология. Экономика. Информатика. 2012. №7(126). Выпуск 22/1
где элементы матриц A=(aiii2) и B=(bkik2) вычисляются следующим образом:
[Sin(a2(i\ -i'2))-SinfajC! -i*2))
a tl = i
г1г2
- (i1 - i2)
h * l2-
I - -
\ Sin(P2(ki - k2)) Sin(P1(k1 - k2))
- (k 1 - k 2)
(7)
I p 2 - P1 [ -
, k1 = k
2
Здесь Ф - исходное изображение, tree - след матрицы.
Возможность проведения анализа изображений на основе частотных представлений определяется тем, что в графических данных, зачастую, наблюдается квазипериодичность отображаемых процессов. На изображении могут присутствовать повторяющиеся объекты, которые задают некоторую периодичность изменения яркости изображения.
На первом шаге на изображении выделяется определенный объект изображения, который будет служить эталоном для распознавания других подобных объектов (рис. 2).
Рис. 2. Задание эталона для распознавания На втором шаге строится нейронная сеть. Топология сети имеет следующий вид:
1 2
НАУЧНЫЕ ВЕДОМОСТИ Серия История. Политология. Экономика. Информатика. 122
2012. №7 (126). 20>1Пу<№22/1126). Выпуск 22/1
Здесь на входной слой подаются исходные данные (значения интенсивностей пикселей изображения). В скрытом слое вычисляются доли энергии, а на его выходе сумма произведений значений долей энергии и весовых коэффициентов. На слое распознавания вычисляется ошибка распознавания (относительная среднеквадратическая погрешность) относительно желаемого отклика.
Алгоритм обучения имеет следующий вид:
1. Поступление на входной слой исходных данных.
2. Инициализация весовых коэффициентов:
1
. =--------
9 М * N
3. Вычисление долей энергии на первом скрытом слое:
Р,
норм
tr(AT ■ Ф ■ B ■ Фт )
' r m у
rm M N
-2
' ik
= k=l (8)
4. Получение одномерного вектора:
1V1 1 у
EE fk
Рнорм ^0=0
1 rm 7Vj K(r-1)Д1 + m+1>
j = (r -1) R1 + m +1, m = 1,..., R2
5. while ( 8 > r ) do:
а) Поиск инвариантов с точностью допуска г на втором скрытом слое:
R1 *R2
Y(1) - = E " (') j- 0 j
j=1 (9)
б) Вычисление относительной среднеквадратической погрешности:
■ О) _
R1*R2
E (Y"1 - -0,)
,=1
R1*R2
E 0,
,=1
(10)
где ps - желаемый отклик.
в) Изменение весовых коэффициентов для второго скрытого слоя:
v(i+1) _ лл,(1) ,j
w,y-' = wyj,j +ц * 8
* с (l)*
0min*0y,
0
j ^____ ,___
max т/ max
Y1
(11)
2
2
где = 0,...,1 - коэффициент скорости обучения. г) Конец цикла while.
6. Завершение обучения.
Результаты распознавания представлены на рис. 3.
Серия История. Политология. Экономика. Информатика. 2012. №7(126). Выпуск 22/1
Рис. 3. Результаты распознавания
Ошибки распознавания первого и второго рода:
N
Er, = ^^*100% = 0%
Nn
No
N.
Er2 = —*100% = 0%
где №2 - количество объектов, ошибочно отнесенных к интересуемому классу распознавания; ^ол - количество объектов на снимке, которые относятся к классу распознавания; №1 - количество объектов, принадлежащих к классу распознавания, но не отнесенных к нему.
Работа выполнена при поддержке ФЦП «Научные и научно-педагогические кадры инновационной России»,на 2009-2013 годы, гос. контракт № 14.740.11.0390.
Литература
1. Гонсалес Р., Вудс Р. Цифровая обработка изображений. - М.: Техносфера,
2006. -1072 с.
2. Грузман И.С. Цифровая обработка изображений в информационных системах. Учебное пособие. - Новосибирск, 2000. - 166 с.
3. Жиляков Е.Г. Вариационные методы анализа и построения функций по эмпирическим данным на основе частотных представлений. - Белгород: Изд-во БелГУ,
2007. - 160 с.
4. Жиляков Е.Г. Метод определения точных значений долей энергии изображений в заданных частотных интервалах / Е.Г. Жиляков, А.А. Черноморец, И.В. Лысенко // Вопросы радиоэлектроники. - Сер. РЛТ, 2007. - Вып. 4. - С. 115-123.
5. Жиляков Е.Г. Оптимальная фильтрация изображений на основе частотных представлений / Е. Г. Жиляков, А.А. Черноморец // Вопросы радиоэлектроники. Сер. ЭВТ. -
2008. - Вып.1. - С.118-132.
Серия История. Политология. Экономика. Информатика. 124
2012. №7 (126). Выпус222Й № 7 (126). Выпуск 22/1
6. Ярославский Л.П. Введение в цифровую обработку изображений. -М.:
Сов. радио, 1979. - 312 с.
7. Потапов А.С. Распознавание образов и машинное восприятие / А.С. Потапов.
Спб: - Политехника, 2007. - 552 стр.
THE STRUCTURE OF NEURAL NETWORKS FOR OBJECT RECOGNITION IN THEAEROSPACE IMAGES BY ANALYZING THE DISTRIBUTION OF ENERGY OVER THEFREQUENCY RANGES
E.G.ZHYLYAKOV A.U. LIKHOSHERSTNYY V.V. KRASILNIKOV
Belgorod National Research University
e-mail: Zhilyakov@bsu.edu.ru ozzy.osbourne.man@gmail.com
In the article discusses a new method for recognition of objects or images the earth's surface by constructing a neural network, which calculated the proportion of energy allocated objects.
Key words: aerospace images, neural network, frequency repre- sentation, the proportion of energy pattern recognition.