Алгоритм идентификации объектов по изображениям, основанный на разделении гиперплоскостью и нечувствительный к изменению условий освещения и ракурса

Зубюк Андрей Владимирович; Федотов Андрей Борисович

А. В. Зубюкa, А. Б. Федотовb

Московский государственный университет имени М. В. Ломоносова, физический факультет, кафедра математического моделирования и информатики.

Россия, 119991, Москва, Ленинские горы, д. 1, стр. 2.

E-mail: [email protected], b [email protected] Статья поступила 13.07.2015, подписана в печать 21.08.2015.

Предложен алгоритм идентификации объектов по их изображениям, сочетающий сильные стороны методов морфологического анализа изображений Пытьева, а именно инвариантность относительно изменения неконтролируемых условий регистрации изображений, с вычислительной эффективностью и простотой методов, основанных на разделении классов изображений гиперплоскостями. Работа алгоритма продемонстрирована на изображениях объектов, снятых при разных условиях освещения и ракурсах. Алгоритм может быть применен для интерпретации микроскопических изображений в биофизике, анализа формы акустических сигналов в геофизике, исследования природных ресурсов Земли по спутниковым снимкам и т. д.

Ключевые слова: морфологический анализ изображений, распознавание образов, разделяющая гиперплоскость, метод опорных векторов.

УДК: 004.93. PACS: 07.05.Pj, 07.05.Mh.

Введение

Трудности при решении многих задач анализа изображений и сигналов связаны с тем, что зарегистрированные изображения и сигналы, помимо полезной для исследователя информации, несут также информацию об условиях их регистрации, которые исследователю не известны и могут неконтролируемо изменяться. Так, например, изображение какого-либо объекта несет информацию не только о его геометрической форме, ориентации в пространстве и других характеристиках, присущих непосредственно этому объекту, но также и об условиях освещения, при которых получено данное изображение, характеристиках и настройках использованной камеры и т. п. Пусть решается задача опознавания изображенного объекта, тогда условия освещения и характеристики камеры следует считать «мешающими» параметрами, изменение которых не должно влиять на результат узнавания. Приведем еще один пример. Порожденный удаленным источником — таким как ядерный взрыв или горный обвал — акустический сигнал, распространяясь в атмосфере, претерпевает значительные искажения, вследствие чего несет информацию не только об источнике звука, но и об акустических свойствах атмосферы [1]. При решении задачи идентификации источника звука «мешающими» параметрами следует считать акустические свойства атмосферы, и их изменение не должно влиять на результат идентификации.

Для решения подобных задач были разработаны методы морфологического анализа изображений и сигналов [2-8], в рамках которых изображения и сигналы различной природы рассматриваются как

элементы функциональных пространств, что позволяет использовать для их описания и анализа универсальные методы линейной алгебры и функционального анализа. В связи с этим далее в настоящей работе будем говорить об анализе изображений, подразумевая, что те же методы могут быть применены и для анализа различных сигналов. В основе методов морфологического анализа лежит идея инвариантности относительно изменения неизвестных и неконтролируемых условий регистрации. Максимальный инвариант класса всех таких изменений называется формой изображения, она может быть определена как множество всех изображений, несущих одну и ту же полезную информацию и отличающихся лишь условиями их регистрации. При решении прикладных задач методами морфологического анализа используется техника ортогонального или косого проецирования на форму изображения, что определяет их вычислительную эффективность в случаях, когда форма изображения представляет собой достаточно простое множество, например, линейное подпространство малой размерности. Однако если форма изображения не является линейным подпространством и имеет большую размерность, задача проецирования на нее становится достаточно сложной как в математическом, так и в вычислительном плане.

Другим распространенным подходом к решению некоторых задач интерпретации изображений и сигналов, таких как идентификация объектов по их изображениям или идентификация типов источников звука по зарегистрированным акустическим сигналам, является разделение классов изображений

25 ВМУ. Физика. Астрономия. № 6

или сигналов достаточно простыми многообразиями (например, гиперплоскостями) в пространстве признаков [9-14]. Данный подход прост в реализации и позволяет строить более эффективные с вычислительной точки зрения алгоритмы по сравнению с алгоритмами, основанными на свойственной методам морфологического анализа технике проецирования. Основная трудность данного подхода состоит в отыскании признаков, т. е. числовых характеристик изображения, использование которых позволит произвести желаемое разделение классов изображений. Известны методы, позволяющие произвести отбор подобных признаков автоматически [15-19]. Однако в большинстве задач анализа изображений удачный выбор признаков зависит от интуиции и опыта исследователя [20-27]. Кроме того, такие признаки зачастую оказываются неинвариантными относительно всевозможных изменений условий регистрации.

В настоящей работе рассмотрена модель регистрации изображений объектов, освещаемых некогерентными источниками света; при этом предполагается, что каждый светочувствительный детектор используемой для регистрации камеры дает сигнал на выходе, пропорциональный падающему на него световому потоку. В результате исследования данной модели было показано, что множества изображений разных объектов, полученных при всевозможных условиях освещения и ракурсах, могут быть разделены гиперплоскостями непосредственно в пространстве изображений. Это позволило разработать алгоритм, основанный на разделении гиперплоскостью и нечувствительный к изменению условий освещения и ракурса, позволяющий идентифицировать объекты по их изображениям и автоматически обучаться идентификации. В работе приведены результаты тестирования разработанного алгоритма на реальных изображениях и сравнения его качества с широко известным методом опорных векторов [13, 14].

1. Модель регистрации изображений

Полем зрения будем называть конечное подмножество X = |х[,..., xn} координатной плоскости (—то, то) х (—то, то), состоящее из точек Xl, ..., xn, называемых пикселями. Изображением будем называть всякую функцию f: X ^ (—то, то), значения f (х) которой будем называть яркостями изображения f, x €Х. Линейную комбинацию изображений f и g с коэффициентами а и в соответственно определим как изображение

x ^ аf (х) + вg(x), а их скалярное произведение (и, g) — как число

и, ^ = Е f ^ш.

хех

Множество всех изображений с определенными выше линейными операциями и скалярным произве-

дением образует евклидово пространство размерности п, которое будем называть пространством изображений и обозначать К.

Рассматриваемая в настоящей работе модель регистрации изображений определяется следующими условиями, налагаемыми на используемую для регистрации камеру, оптические свойства снимаемых объектов, а также источники света.

1. Используемая камера. Яркость и(х) зарегистрированного камерой изображения и в точке х € X пропорциональна световому потоку, падающему на светочувствительный детектор, соответствующий пикселю х.

2. Оптические свойства снимаемых объектов. Снимаемые объекты не излучают свет сами по себе, а лишь отражают падающий на них свет. При освещении объекта точечным источником света для каждой точки поверхности объекта справедлива следующая связь между интенсивностями падающего и отраженного света:

1ге{(в)= £/шс(«), (1)

где в и е — единичные векторы, определяющие направления падения и отражения света соответственно; /¡„с(в) и /ге[(е) — интенсивности света, падающего в направлении в и отраженного в направлении е соответственно; £ — коэффициент отражения света, не зависящий от /¡пс(«).

3. Источники света. Освещение, при котором проводится регистрация, формируется точечными некогерентными источниками света.

2. Форма изображения объекта,

регистрируемого при неизменном ракурсе

Рассмотрим регистрацию изображений одного и того же объекта при неизменном ракурсе съемки. Совокупность скалярных параметров, определяющих выбранный ракурс, обозначим ф. Такими параметрами могут быть, например, два угла, задающих ориентацию снимаемого объекта в пространстве. Варьироваться могут лишь условия освещения объекта. Сформулированные выше ограничения 1-3 позволяют определить, что представляет собой множество всех изображений объекта, полученных при всевозможных условиях освещения, являющееся в данном случае формой изображения объекта [6].

Действительно, пусть изображение и € К рассматриваемого объекта получено при условиях освещения Ь. Изменим в а ^ 0 раз яркости всех источников света, формирующих освещение Ь, и обозначим новые условия освещения аЬ. При изменении освещения Ь на аЬ изменяется в а раз интенсивность падающего на объект света, следовательно, в силу (1), в а раз изменяется и интенсивность отраженного света, а значит и световой поток, падающий на каждый детектор камеры. Поэтому согласно условию 1, налагаемому на камеру, изображение объекта, полученное при освещении аЬ, есть аи.

Таким образом, если / — изображение объекта, то а/ — изображение того же объекта, полученное, возможно, при других условиях освещения, а ^ 0.

Рассмотрим теперь изображения /1 еК и /2 еК рассматриваемого объекта, полученные при условиях освещения Ь1 и Ь2 (наличие какой-либо связи между освещениями Ь1 и Ь2 в данном случае не предполагается). Пусть Ь1+2 есть освещение, представляющее собой суперпозицию освещений Ь1 и Ь2, т.е. Ь1+2 получено одновременным включением источников света, формирующих освещения Ь1 и Ь2. В силу линейности (1) и некогерентности источников света (условие 3) световой поток, падающий на каждый детектор камеры при освещении Ь1+2 есть сумма световых потоков, формируемых освещениями Ь1 и Ь2 в отдельности. Поэтому изображение объекта, полученное при освещении ¿1+2, есть /1 + /2. Таким образом, если /1 и /2 — изображения одного объекта, то /1 + /2 — изображение того же объекта.

Суммируя вышесказанное, получаем, что форма изображения объекта, снимаемого при неизменном ракурсе ф, есть множество Уф сК, удовлетворяющее условиям

/ е Кф ^ а/ е Уф, а ^ 0, /1, /2 е Уф ^ /1 + /2 е Уф. То есть форма изображения Уф является выпуклым конусом [28].

3. Форма изображения объекта, регистрируемого при изменяющемся ракурсе

Пусть теперь изменяться могут не только условия освещения объекта, но и ракурс съемки ф. Множество, в пределах которого может принять свое значение векторный параметр ф, обозначим Ф. Форма изображения У рассматриваемого объекта в этом случае может быть выражена следующим образом:

У =и yф,

ф£ф

где Уф — выпуклый конус, представляющий собой множество изображений объекта, зарегистрированных при фиксированном ракурсе ф е Ф и всевозможных условиях освещения. Такое множество У является конусом, но, вообще говоря, не выпуклым (закрашенная серым область на рис. 1).

Рис. 1. Наглядное представление формы изображения объекта, снимаемого при всевозможных условиях освещения и ракурсах. Точками выделены выпуклые конусы Vvi и Уф2, каждый из которых есть множество изображений объекта, зарегистрированных при одном ракурсе, но разных условиях освещения. Форма изображения объекта (выделена серым) есть объединение выпуклых конусов, соответствующих всевозможным ракурсам съемки; она представляет собой конус, но, вообще говоря, не выпуклый. Ее дополнение до выпуклого конуса (выделено штриховкой) состоит из изображений, которые не могут быть зарегистрированы в реальности

Обозначим V выпуклую оболочку формы V, которая в силу теоремы Каратеодори [28] и того, что размерность dim R = n пространства изображений R конечна, может быть представлена в виде

' n+1

V = af

i=1

а ^0, fi е V, i = 1,...,n+1,

а = (2)

n+1

=1

i=1 )

и в рассматриваемом случае является выпуклым конусом. Обозначим 5У дополнение формы У до ее выпуклой оболочки У, т.е. 5У = У \ У. На рис. 1 множество 5У обозначено штриховкой. В соответствии с (2) всякое изображение / из 5У может быть представлено в виде выпуклой комбинации некоторых изображений рассматриваемого объекта, среди которых найдутся изображения, зарегистрированные при разных ракурсах и входящие в комбинацию с положительными коэффициентами (иначе / е Уф с У при некотором ф е Ф ). Пример такого изображения для случая, когда снимаемым объектом является гипсовая фигурка медвежонка, приведен на рис. 2. Как видно из рисунка, подобные изображе-

ние. 2. Пример нереалистичного изображения, являющегося суммой двух изображений одного объекта, зарегистрированных при разных ракурсах

ния выглядят как наложения принципиально разных изображений, в связи с чем далее будем считать, что они не являются изображениями каких-либо реальных объектов и не могут быть зарегистрированы.

Суммируя вышесказанное, получаем, что форма изображения объекта, снимаемого при произвольном ракурсе, есть конус V, выпуклая оболочка которого V не содержит никаких реальных изображений, кроме изображений рассматриваемого объекта.

4. Идентификация и обучение идентификации

Пусть имеются два физических объекта О; и 02, изображения которых, снятые при любых ракурсах и любых условиях освещения, кроме полного отсутствия освещения, отличаются друг от друга. Рассмотрим задачу идентификации данных объектов по их изображениям. Итак, пусть предъявлено изображение g €К одного из объектов О\, О2, требуется определить, изображением какого из двух объектов оно является.

Обозначим V(1) форму изображения объекта Ог, регистрируемого при изменяющихся условиях освещения и ракурсе, 1 = 1,2. В соответствии с выводами предыдущего раздела выпуклая оболочка V() формы V(1), являющаяся выпуклым конусом, содержит реальные изображения только объекта Ог и не содержит изображений объекта О|,

т.е. V() п V() = {0}, | = 1. Сделаем более сильное, но вполне реалистичное предположение, состоящее в том, что выпуклая комбинация любых изображений объекта О\ не может быть представлена в виде выпуклой комбинации изображений объекта О2 и наоборот, т. е. что V() пV 1 = {0}, | = г. Учитывая все сделанные предположения и все перечисленные

„ тг(') тт(1) 1/(2)

свойства множеств V , получаем, что V и V могут быть разделены гиперплоскостью в пространстве изображений К, проходящей через начало координат. То есть найдется такое изображение т € К, ||т|| > 0, что

,т) < 0 при g € V^, _(2)

,т) ^ 0 при g € V ,

(3)

ТгО)

причем т) = 0, если и только если g € V п п V(2) = {0}.

Поскольку V(г) с V() и изображение g = 0 соответствует исключенной из рассмотрения ситуации полного отсутствия освещения, неравенства (3) могут быть использованы для решения задачи идентификации следующим образом:

Для поиска изображения т € К, ||т|| >0, в (4) может быть использован следующий эвристический алгоритм. Пусть

и!0,..., Ь (5)

— изображения объекта Ог, полученные при разных условиях освещения и ракурсах, г = 1,2. Множество изображений (5) будем называть обучающей выборкой. Определим т следующим образом:

где в(1) = 1Y.fl Ц

1 1=1

т = в(2) — в(1), где в(1) = ^ /Я/ ^ , г = 1,2.

(6)

Такой выбор т основан на следующих соображениях. Если условия освещения и ракурсы, при которых зарегистрированы изображения из обучающей

I = 1,..., Ьг, «рав-

:(1)

если (¿, т) <0, то g — изображение О1, если (g, т) >0, то g — изображение О2.

(4)

выборки, таковы, что ц /

номерно разбросаны» по пересечению конуса V(1) с единичной сферой, то вектор в(г) расположен на луче, лежащем «в центре» конуса V(1). В связи с этим можно рассчитывать, что гиперплоскость, ортогональная изображению т, соединяющему1 в(1) и в(2), разделит конусы V(1) и V(2).

5. Тестирование алгоритма идентификации и обучения идентификации

Для тестирования предложенного выше алгоритма было использовано 240 изображений гипсовых фигурок, аналогичных приведенным на рис. 2 слева и в центре, из них 120 — изображения гипсовой фигурки медвежонка (объект О1), и еще 120 — изображения гипсовой фигурки девушки (объект О2). Изображения обеих фигурок были зарегистрированы при разных условиях освещения и ракурсах.

Имеющееся множество изображений случайным образом разбивалось на две части.

1. Обучающая выборка. Для обучения, т. е. для построения изображения т по формуле (6), отбирались Ь = Ь1 = Ь2 изображений каждой фигурки.

2. Тестовая последовательность. Оставшиеся 240 — 2Ь изображений использовались для тестирования алгоритма идентификации, работающего согласно (4).

Такое случайное разбиение производилось многократно. По результатам проведенных тестов рассчитывалась средняя частота а ошибок идентификации, т. е. отношение количества изображений из тестовой последовательности, для которых фигурка медвежонка была опознана как фигурка девушки или наоборот, к общему количеству изображений, использованных для тестирования. Зависимость а от размера Ь обучающей выборки приведена на рис. 3 (сплошная линия).

Кроме этого, на рис. 3 штрихпунктирной линией отображена аналогичная зависимость для другого широко применяемого алгоритма идентификации

1 Слово «соединять» здесь применено в связи с геометрической интерпретацией векторной разности в трехмерном

пространстве, в соответствии с которой вектор с = Ь — а соединяет концы векторов а и Ь.

-Алгоритм, предложенный

в настоящей работе ---Метод опорных векторов

L

Рис. 3. Зависимость средней частоты а ошибок идентификации от размера L обучающей выборки для алгоритма, предложенного в настоящей работе (сплошная линия), и метода опорных векторов (штрих-пунктирная линия)

и обучения идентификации, использующего разделение классов изображений гиперплоскостью, — метода опорных векторов (support vector machine, SVM) [13, 14]. В отличие от алгоритма, предложенного в настоящей работе, SVM разделяет классы изображений гиперплоскостью, не проходящей, вообще говоря, через начало координат, и не использует при ее построении каких-либо представлений о модели регистрации изображений.

Как видно из рис. 3, алгоритм, предложенный в настоящей работе, демонстрирует меньшую среднюю частоту ошибок, чем метод опорных векторов.

Заключение

Разработан алгоритм идентификации и обучения идентификации объектов по их изображениям, зарегистрированным при разных условиях освещения и ракурсах. Работоспособность алгоритма обоснована как теоретически путем анализа модели регистрации изображений, так и практически в ходе тестирования на реальных изображениях, при котором предложенный алгоритм продемонстрировал более высокое качество идентификации в сравнении с методом опорных векторов.

Дальнейшее развитие алгоритма может состоять в его адаптации к практически важному случаю, когда неизвестными и неконтролируемыми являются не только условия освещения и ракурс съемки объектов, но и характеристики светочувствительных детекторов используемой для съемки камеры.

Работа выполнена при финансовой поддержке РФФИ, грант № 14-07-00409 А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Список литературы

1. Куличков С.Н., Чуличков А.И., Демин Д.С. Морфологический анализ инфразвуковых сигналов в акустике. М., 2010.

2. Пытьев Ю.П. // ДАН СССР. 1975. 224, № 6. С. 1283.

3. Пытьев Ю.П. // ДАН СССР. 1983. 269, № 5. С. 1061.

4. Pyt'ev Yu.P. // Pattern Recognition and Image Analysis. 1993. 3, N 1. P. 19.

5. Pyt'ev Yu.P. // Pattern Recognition and Image Analysis. 1998. 8, N 4. P. 517.

6. Пытьев Ю.П., Чуличков А.И. Методы морфологического анализа изображений. М., 2010.

7. Визильтер Ю.В., Желтов С.Ю. // Изв. РАН. ТиСУ. 2008. № 6. С. 113.

8. Vizilter Yu.V., Zheltov S.Yu. //J. Computer and Systems Sciences International. 2009. 48, N 2. P. 282.

9. Ту Дж., Гонсалес Р. Принципы распознавания образов. М., 1978.

10. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. М., 1974.

11. Bishop C.M. Pattern Recognition and Machine Learning. Springer Science & Business Media, 2006.

12. Fisher R.A. // Annals of Eugenics. 1936. 7, N 2. P. 179.

13. Boser B.E., Guyon I., Vapnik V.N. // Proc. of the 5-th Annual Workshop of Computational Learning Theory. 1992. 5. P. 144.

14. Cortes C., Vapnik V. // Machine learning. 1995. 20, N 3. P 273.

15. Pearson K. // The London, Edinburgh, and Dublin Philosophical Magazine and J. of Sci. 1901. 6, N 2. P. 559.

16. Hotelling H. // J. of Educational Psychology. 1933. 24, N 6. P. 417.

17. Jolliffe I. Principal component analysis. Springer, 2002.

18. Tenenbaum J.B., De Silva V., Langford J.C. // Science. 2000. 290, N 5500. P. 2319.

19. Lee J.A., Verleysen M. Nonlinear Dimensionality Reduction. Springer Science & Business Media, 2007.

20. Chellappa R., Bagdazian R. // IEEE Trans. Pattern Analysis and Machine Intelligence. 1984. 6, N 1. P. 102.

21. Zhang G., Ma Z.M., Tong Q. et al. // Proc. of Int. Conf. on Intelligent Information Hiding and Multimedia Signal Processing. 2008. P. 71.

22. Boles W.W. // Fourth Internat. Symposium on Signal Processing and Its Applications. 1996. 2. P. 601.

23. Szewczyk R., Grabowski K., Napieralska M. et al. // Pattern Recognition Lett. 2012. 33, N 8. P. 1019.

24. Abbasi S., Mokhtarian F., Kittler J. // Multimedia Systems. 1999. 7, N 6. P. 467.

25. Daoudi M., Matusiak S. // J. of Visual Languages & Computing. 2000. 11, N 3. P. 287.

26. Местецкий Л.М. // Машинное обучение и анализ данных. 2014. 1, № 9. С. 1291.

27. Сидякин С.В., Визильтер Ю.В. // Компьютерная оптика. 2014. 38, № 3. С. 511.

28. Рокафеллар Р. Выпуклый анализ. М., 1973.

An algorithm for object identification based on hyperplane separation but tolerant to illumination and viewing angle variations

A.V. Zubyuka, A.B. Fedotovb

Department of Mathematical Modeling and Informatics, Faculty of Physics, Lomonosov Moscow State

University, Moscow 119991, Russia.

E-mail: a [email protected], b [email protected].

A new algorithm for object identification by their images is proposed. It combines tolerance against imaging conditions variations proper to morphological methods for image analysis by Pyt'yev with computational simplicity of methods based on separating classes of images with hyperplane. The algorithm was tested on images taken in different illuminations and views. It can be applied to analyse microscopic image in biophysics, acoustic signals in geophysics, Earth resources using satellite data, etc.

Keywords: morphological image analysis, pattern recognition, hyperplane separation, support vector machine. PACS: 07.05.Pj, 07.05.Mh. Received 13 June 2015.

English version: Moscow University Physics Bulletin 6(2015). Сведения об авторах

1. Зубюк Андрей Владимирович — мл. науч. сотрудник; тел.: (495) 939-46-94, e-mail: [email protected].

2. Федотов Андрей Борисович — студент; e-mail: [email protected].

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Зубюк Андрей Владимирович, Федотов Андрей Борисович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Зубюк Андрей Владимирович, Федотов Андрей Борисович