УДК 004.932.2 Федоров Роман Константинович,
канд. техн. наук, старший научный сотрудник, Институт динамики систем и теории управления СО РАН,
тел. (3952) 45-31-08, e-mail: [email protected] Шигаров Алексей Олегович, научный сотрудник, Институт динамики систем и теории управления СО РАН
тел. (3952) 45-31-02, e-mail: [email protected]
ЛОГИКО-СИНТАКСИЧЕСКИЙ ПОДХОД К РАСПОЗНАВАНИЮ ИЗОБРАЖЕНИЙ С УЧЕТОМ ПРОСТРАНСТВЕННЫХ ОГРАНИЧЕНИЙ
R.K. Fedorov, A.O. Shigarov
LOGICAL APPROACH TO SYNTACTIC IMAGE RECOGNITION WITH SPATIAL CONSTRAINTS
Аннотация. В данной работе предлагается подход к распознаванию объектов на изображениях, который основывается на логическом выводе с использованием структурного описания объектов. Поиск границ объектов на изображении выполняется как унификация встроенного предиката line с учетом множества ограничений, заданных описанием.
Ключевые слова: изображение, распознавание, полутоновые изображения, логический вывод, сегмент.
Abstract. In this paper an approach to recognizing objects in images is proposed. The approach is based on a logical conclusion using structural descriptions of objects. Searching borders of objects in the image is performed as a built-in unification predicate line satisfying the set of constraints defined by the description.
Keywords: image, recognition, half-tone pictures, logical conclusion, segment.
Введение
В работе будем рассматривать полутоновые изображения в видимом диапазоне. Распознавание объектов на растровых изображениях является нетривиальной задачей. Особенностью является зашумленность, размытость, наличие большого числа различных объектов. Часто эти объекты накладываются друг на друга и имеют сложную текстуру, что приводит к неоднородности изображения распознаваемых объектов. Текстура соседних объектов может совпадать, а участки границ между ними - отсутствовать. Усложняет анализ изображений различная освещенность частей одного и того же объекта. Можно утверждать, что методы анализа изображений в худшем случае
должны распознавать объекты, основываясь только на частичной информации о границах объектов, представленных перепадами яркости серого.
Рис. 1. Здание на космоснимке
Рассмотрим некоторый локальный участок изображения, который содержит прямолинейный участок границы объекта (далее сегмент). Часто на изображении перепад яркости вдоль линии, перпендикулярной сегменту объекта, происходит плавно вследствие размытия и различных шумов (см. рис. 1). Причем реальная граница может находиться во всех возможных местах перепада яркости. Учитывая наличие других объектов, на зашумленном растровом изображении имеется большое число возможных расположений сегментов границы объекта, часть из которых являются ложными.
С 1960-х годов развивается подход - синтаксическое распознавание образов [1], основным отличием которого является непосредственное использование структуры образов в процессе распознавания. В литературе данный подход также принято называть лингвистическим или структурным распознаванием, или распознаванием мето-
Современные технологии. Механика и машиностроение
ш
дами теории формальных грамматик. Использование информации о структуре образов может помочь отбросить заведомо неподходящие границы на изображении. Например, поиск сегментов границ ограниченной длины является одним из способов значительно сократить количество вариантов границ объекта. Так, обычно длина прямолинейных сегментов границ объекта превосходит длину сегментов, полученных при дроблении границы в результате шума.
Авторы работы [1] указывают, что использование описания структуры образа в алгоритмах распознавания требует его формализации на некотором формальном языке:
G = (V, V, P, Q, S),
где Vn, V, Р и S - множества нетерминалов, терминалов, правил подстановки и начальный символ соответственно, а Q - множество вероятностных мер, заданных на множестве правил подстановки Р. Учитывая шумы и отсутствие информации, в работе [1] предлагается воспользоваться следующим приемом - считать недетерминированными правила подстановки и ставить в соответствие каждому из них некоторую вероятностную меру. При этом правила подстановок P могут опираться на пространственные дескрипторы, например «слева», «справа», «над» и т. д.
Предлагаемый подход
В рамках синтаксического подхода предлагается подход, в котором распознавание объекта основывается на логическом выводе с использованием структурного описания объектов. Поиск сегментов объектов на изображении выполняется как унификация встроенного предиката line с учетом множества ограничений, заданных описанием.
Введем следующие обозначения: S a N02 - множество точек на плоскости;
L a N0™ - множество значений (яркость серого, цвет в формате RGB или CMYK и т. д.); f: S ^ V - растровое изображение.
В данной работе границы объекта моделируются только с помощью сегментов. Пространственные дескрипторы положения сегментов можно пытаться формализовать различными способами [2]. С целью сокращения количества альтернатив расположения сегментов объекта сформулируем следующие пространственные дескрипторы.
1. Поиск сегментов ограниченной длины позволяет значительно сузить множество альтернатив. В частности, можно исключить из рассмотрения сегменты более мелких или крупных объектов по сравнению с теми, которые требуется распознать. Для определения длины сегментов введем
вспомогательную функцию вычисления Евклидова расстояния между двумя точками:
len: S2 Ж.
2. Значительное сужение множества сегментов дает использование информации об относительном положении сегментов объекта. Для задания относительного положения сегментов кроме вычисления длины сегмента необходима функция вычисления углов между двумя сегментами с общей точкой:
angle:S3 ^А, где A = {a:aeReO<a<360}.
Пространственные дескрипторы положения сегментов объекта можно определить как набор ограничений с использованием этих функций. Далее будем называть их пространственными ограничениями. Структура образа может задаваться набором дескрипторов, описывающих отношения частей образа, т. е. конъюнкцией ограничений. Множество сегментов соответствует структуре образа, если выполняются все ограничения.
Часто реальный объект на изображении может иметь или не иметь какую-то часть. Поэтому использование дизъюнкции в описании структуры образа увечит выразительность языка описания [3].
Учитывая наличие ограничений, дизъюнктивно-конъюнктивной формы описания структуры объектов и необходимость гибкого переборного механизма, наиболее подходящим механизмом является «Prolog III» (CLP - Constraint Logic Programming), опубликованный в работе [4]. Его основное отличие от классического Пролога состоит в наличии ограничений, с помощью которых, в частности, можно выразить пространственные дескрипторы структуры образа. Существует довольно много реализаций CLP, например CLP(B), CLP(FD), CLP(R) и т. д. Для реализации предлагаемого подхода необходимо их дополнить следующими сущностями:
1) множество переменных, описывающих положение точек на изображении (область определения этих переменных ограничена размерами изображения);
2) множество пространственных ограничений;
3) специальные предикаты.
Определим возможные пространственные ограничения. Введем предварительно множество знаков сравнения (множество бинарных отношений): 0 = {=, >, <, < >} .
Пространственные ограничения могут быть следующие:
len(^, s2 )0c,
angle(^, s2, s3 )6c,
x(s)6c,
y( s)dc, qOc,
где - знак сравнения, s- переменные, опи-
сывающие точки на плоскости, c - числовая константа, q - вещественная переменная. Например, можно выразить следующие ограничения:
angle(s, s2, s) = 90, len(s, s2 ) > 20, len(s,s2) < 30.
Специальные предикаты необходимы для поиска границ объектов на изображении. Унификация этих предикатов должна возвращать всевозможные варианты прохождения границы, удовлетворяющие ограничениям. Возможно несколько таких предикатов, соответствующих виду участка границы, например предикаты, соответствующие отрезку, дуге окружности, квадратичным кривым и т. д. Все они будут отличаться набором параметров. В этой работе рассматривается только предикат для поиска прямолинейных отрезков границы сегментов:
line(sl7 S2, q), где s , s - точки на плоскости, q - некоторая оценка из отрезка [0,1]. Переменные s , s2 могут
быть не определены. В этом случае реализация этого предиката должна организовать перебор допустимых пар точек на изображении и для каждой пары вычислить оценку прохождения сегмента границы. Введем функцию оценки:
line:S2 £ = {6:6еМё0<6<1}, где значению 1 соответствует четкое выделение прямолинейной границы между двумя точками, а значению 0 - полное ее отсутствие. Реализаций этой функции оценок может быть несколько. Приведем одну из них.
Реализация функции line
На растровом изображении имеются два вида контуров:
1) первый вид контура разделяет две разнородные области;
2) второй вид контура разделяет две однородные области, при этом в месте прохождения контура имеется частичное увеличение или уменьшение яркости.
Предлагается эвристический метод, ориентированный на выделение контуров первого типа на изображениях в градациях серого. Решение в
данном алгоритме принимается на основе анализа двух прямоугольников, примыкающих к возможному сегменту (см. рис. 2). Ширина прямоугольников, т. е. окрестность анализа, задается константой.
Рис. 2. Область анализа функции line
Значения яркости пикселей делятся на n равнопромежуточных диапазонов. Обозначим че-
Г ^
рез w число появлений в прямоугольнике r пикселей из диапазона яркости i. Функцию оценки определим следующим образом:
n
Z min(w1, w2) line(s1, s2 ) = 1 П-•
Z max(w1, w2)
i
В отличие от релеевского детектора, предложенного в работе [5], данная функция анализирует некоторую окрестность сегмента между двумя произвольными точками. В целом, использование такой функции позволит выбирать положение сегмента, согласованное с положением всего объекта и отдельных участков его границы.
Процедура поиска распознаваемого объекта
Процедуру поиска объекта в рамках этого подхода можно построить как логический вывод цели. В процессе вывода производится унификация набора отрезков
ОЦ = {(р1Р1\...,(Р1Р1)},
удовлетворяющих некоторым пространственным отношениям.
Апробация подхода
Для проверки предлагаемого подхода реализован поиск объектов в среде программирования «Borland Delphi». Реализован механизм поиска, содержащий следующее описание формы объекта, выраженного на языке Пролог (см. рис. 3).
Современные технологии. Механика и машиностроение
m
house(s1,s2,s3,s4) :-line(s1,s2,b1), Ь1>0.8, angle(s1,s2,s3)=90, line(s2,s3,b2), Ь2>0.8, angle(s2,s3,s4)=90, line(s3,s4,b3), Ь3>0.8, line(s4,s1,b4).
Рис. 3. Описание формы объекта на Прологе
Это описание соответствует прямоугольным объектам. Эксперимент проводился на ряде изображений, в том числе на космоснимке г. Иркутска с разрешением 0,7 метра на пиксель. Результаты эксперимента приведены на рис. 4, 5, 6.
Рис. 4. Тестовое изображение
Рис. 5. Тестовое изображение
Необходимо заметить, что изменение структуры образа распознаваемого объекта приводит к значительным изменениям программного кода тестового алгоритма. Поэтому описание структуры образа на некотором языке позволит более гибко применять новые знания в распознавании изображений.
Заключение
Результаты апробации подтверждают эффективность подхода: использование дополнительной информации при сегментации и распознавании изображения позволяет находить объекты, представленные недостаточно четко. Недостатком является большая вычислительная сложность. В дальнейшем предлагается развить предложенный подход - разработать удобный язык описания свойства объектов и создать интерпретатор этого языка, который бы позволил эффективно по времени и качеству находить распознаваемые объекты.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Ту Дж., Гонсалес Р. Принципы распознавания образов : пер. с англ. М. : Мир, 1978. 411 с.
2. Чэн Ш.-К. Принципы проектирования систем визуальной информации : пер, с англ. М. : Мир, 1994. 408 с.
3. Гуревич И. Б. Схема синтеза логических моделей изображений, допускаемых эффективными распознающими операторами // Компьютерная оптика. 1995. № 14-15-1. С. 133-147.
4. Colmerauer A. An Introduction to Prolog III // Communications of the ACM. 1990. Vol. 33 (7). P. 69-90.
5. Минченков М. В., Юрин Д. В. Многостадийный алгоритм сегментации изображений // Современные проблемы фундаментальных и прикладных наук : тез. докл. XLIII конф. / МФТИ. Москва-Долгопрудный, 2000. Ч. V. С. 59.
Рис. 6. Космоснимок