Научная статья на тему 'Компьютерное обнаружение лиц людей на изображении'

Компьютерное обнаружение лиц людей на изображении Текст научной статьи по специальности «Математика»

CC BY
137
44
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Компьютерное обнаружение лиц людей на изображении»

8/ = ^г-М + cj,jr - cjr-1,jr , = М + 1 , Gk .

60. Определить номер расширяемого промежутка Г» и включаемой в него вершины jt из условия:

-г» • / • , • ч

»Г»! ( Г» ^ jГ - ^Г ).

г = М + ! Gk

70. Пересчитать текущий цикл, его оценку и множе-

min min }= в.* ^г*, r = 1,t + 1je Gj- j Jt

'k :

вк+1 = ВкиШ> Ь»+1 = ь'к + 6£ , Gk+1 = ек \0,}, »=»+1.

80. Если ек #0 - идти к 40.

90. Если Ь»к > Ь»к-1 - принять к=к+1, идти к 30.

10о. Если Ьк < Ь"к-1 - запомнить новое решение Ц,Вк и перейти к 30.

11о' Писать вк, вк-!, Ьк = Ь'к-! . 12о' Конец.

Пункты 50, 60 выполняются совместно, так что по мере вычисления элементов 6Г в памяти ЭВМ хранится

только меньший элемент 6Г , а также г», jt.

При выполнении пункта 90 полагается, что для задач большой размерности необходимое условие к<п-2 будет соблюдено.

В пункте 110 учтена возможность получения одного экстремума при разных решениях (кортежах) Вк и

В» вк-1*

Отметим возможность некоторых обобщений метода, особенность оптимального решения и некоторые проблемные вопросы.

Метод практически не изменяется, если требуется найти гамильтонов (полный) путь между двумя различными вершинами. В начальном маршруте промежуточным берется номер любой другой вершины.

В оптимальном цикле упорядоченность номеров вершин не меняется при выходе коммивояжера из любого другого пункта и возвращении в него же.

Имея оптимальный цикл, легко решается вопрос из какого пункта следует начать обход остальных, что-

бы длина пути до прибытия на последний пункт (без возвращения в исходный) была минимальной. Для решения задачи следует найти max сц из всех дуг, состав-Си) J

ляющих оптимальный цикл, и в качестве исходного выбрать пункт, при котором наиболее длинная дуга окажется последней; то есть пункт, соответствующий концу наиболее длинной дуги. Так, для оптимального цикла имеем:

L(1, 3, 5, 6, 4, 2, 1) = 42 L=13+8+5+4+2+10+=42 ^max су = =13.

Следовательно, обход может быть закончен на 13 ед. раньше, если обход начать из A3 и закончить в Ац:

L(3, 5, 6, 4, 2, 1 ) = 29.

В заключение отметим, что поскольку объем счета при МРЦ близок к минимально возможному (наиболее простой алгоритм - на каждом шаге идти к ближайшему пункту [1] - для получения варианта решения требует сП < 0,5 п2 операций сравнения) (см. (5)) и при этом гарантируется требуемая достоверность решения, то проблема решения классической задачи коммивояжера в значительной мере теряет свою актуальность. Однако может быть предложена более общая постановка задачи, в которой при обходе всех пунктов в каждый из них коммивояжер должен доставить с тонн ^ = 1,п) груза. Оптимальный маршрут (цикл) должен соответствовать минимуму энергозатрат в тоннокилометрах. Частный случай этой задачи ^ср0 и вес транспортного средства со#0) соответствуют классической задаче коммивояжера.

Обобщенная задача еще более усложняется, если грузоподъемность транспортного средства не позволяет развезти все грузы за один заезд.

Возможные подходы к решению обобщенной задачи к настоящему времени нам неизвестны, как неизвестны и методы решения рассмотренных задач при не-полносвязной матрице расстояний между пунктами.

Список литературы

1. Основы теории оптимального управления. //Под ред. В.Ф. Кротова .-М.: Высш. шк., 1990.-430 с.

2. Гмурман В. Е. Теория вероятностей и математическая статистика. - М.: Высш. шк., 1997. - 479 с.

КОМПЬЮТЕРНОЕ ОБНАРУЖЕНИЕ ЛИЦ ЛЮДЕЙ НА ИЗОБРАЖЕНИИ

К.В. Мурыгин, К.М. Нюнькин

Как известно, большую часть информации об окружающем мире человек получает с помощью зрения. Современные же компьютеры практически полностью лишены зрения. Связано это прежде всего со сложностью обработки зрительной информации. У человека этим занимается самый большой участок коры мозга и сетчатка глаза, которая, собственно говоря, тоже представляет собой часть мозга, вынесен-

ную на периферию. С компьютерами самого недавнего прошлого нечего было и мечтать о создании искусственной зрительной системы. Но сейчас мощностей современных компьютеров уже хватает для решения хотя бы части задач анализа зрительной информации. Стремительно развивается производство сравнительно дешевых специализированных компьютерных видеокамер. В то же время вводимые

25

ими изображения используются только для передачи через Интернет. В связи с этим становится актуальной задача разработки программных средств, которые могли бы обрабатывать вводимые изображения и анализировать содержащуюся в них визуальную информацию. Одна из наиболее простых задач такого рода - определение присутствия человека перед монитором компьютера, что позволит, например, гасить экран, когда человек отсутствует. Это экономит электроэнергию и продлевает срок службы монитора. Следующая задача - определение личности работающего за компьютером человека. Это позволит повысить надежность обеспечения прав доступа к информации и одновременно сделать эту процедуру более дружественной по отношению к человеку.

Большинство алгоритмов распознавания лиц предполагают, что положение лица в кадре известно или же оно легко выделяется на окружающем фоне. Однако во многих случаях это далеко не так. Вообще говоря, этап определения наличия и положения лица в кадре так или иначе обязательно должен быть пройден перед выполнением собственно распознавания. Поэтому проблема обнаружения и локализации лица на изображении является весьма актуальной и имеет самостоятельное значение.

Существует множество различных подходов в решении задачи локализации на изображении лица человека и его деталей. Одно из направлений заключается в поиске на изображении заданных шаблонов лица или отдельных его частей. Для поиска соответствия шаблона с участками изображения могут использоваться различные методы [1], начиная с простого вычитания изображений и заканчивая разложением по базису "собственных" лиц. Одним из наиболее перспективных методов такого поиска является корреляция шаблона с изображением [2, 3].

В настоящей работе рассматриваются две системы локализации лиц людей на изображении, разработанные в институте проблем искусственного интеллекта (г. Донецк). Первая из них используется для определения факта присутствия человека перед монитором компьютера и управления его включением и выключением. Вторая позволяет точнее определить положение и размер лица на изображении и может послужить основой для построения системы распознавания человека по его лицу.

Система КОЛО (компьютерное обнаружение лица оператора) [5] использует тот факт, что лицо человека имеет характерную форму, близкую к эллиптической, и его контур может быть аппроксимирован эллипсом.

Работа этой системы после предварительной обработки изображения начинается с детектирования границ, для чего используется оператор градиента в виде:

1(х+1, у) - 1(х -1, у)

О =

2

1(х,у +1) - 1(х, у -1)

2

(1)

где 1(х,у) - яркость изображения в точке (х,у). Использование такого выражения вместо более точного

квадратного корня из суммы квадратов практически не ухудшает оценки модуля градиента, но вычисляется значительно быстрее. Одновременно с вычислением абсолютного значения градиента (1) выполняется подавление слабых границ, на которых величина градиента не превышает определенный порог. Оставшиеся ненулевые точки соответствуют границам. Однако эти границы имеют некоторую конечную толщину и в таком виде не могут быть использованы. Поэтому выполняется утончение линий подавлением немаксимальных точек в перпендикулярном к границе направлении (то есть в направлении градиента).

В результате контур лица, содержащегося на изображении (как и границы других объектов), будет представлен в виде карты границ, представляющей собой "изображение", на котором первоначально обнаруженные точки границ отмечены белым цветом на черном фоне. Линии границ хотя и имеют толщину равную одному пикселу, но их точки никак не связаны между собой. Прежде чем с этими границами что-либо делать, необходимо их проследить и связать вместе точки, принадлежащие отдельным фрагментам границ. Кроме того, необходимо разделить ошибочно соединенные фрагменты границ разных объектов и соединить мелкие фрагменты границы одного объекта. Отсюда вытекает необходимость предварительной обработки найденных границ, которая выполняется в несколько этапов.

Вначале на карте границ обнаруживаются и сбрасываются точки, соответствующие ситуациям, которые могут мешать прослеживанию фрагментов, то есть точки пересечений и Т-образных соединений. Затем отмечаются те точки границ, которые представляют собой концы фрагментов, и удаляются единичные точки, которые могут мешать последующим соединениям. Далее соединяются фрагменты, концы которых отстоят друг от друга на один пиксел. Затем связываются вместе точки, составляющие отдельные фрагменты границ. Далее выполняются разрывы фрагментов в точках резких поворотов (здесь, скорее всего, соединились фрагменты границ разных объектов). Затем с учетом информации о том, с какой стороны от фрагмента светлая область, а с какой темная, можно выполнить соединение фрагментов, которые представляют собой части одной и той же границы. На заключительном шаге предварительной обработки границ выполняются разрывы фрагментов в точках перегибов. Смысл этой операции в том, что точки перегиба могут указывать на переход от одной границы к другой, например, на переход от контура головы к контуру плеча (рис. 1).

После выполнения предыдущих шагов будет получено множество фрагментов границ различных объектов, присутствующих на сцене. Возникает проблема выделить из этой смеси фрагменты границ лица или головы, соединив которые, можно определить положение лица на изображении. Для решения этой задачи воспользуемся тем, что контуры лица и головы на изображении имеют характерную форму, близкую к эллиптической [4].

26

Крутой Соеди- , поворот нения

I

Перегибы

1>У

Рис. 1. Примеры границ

Точки возможного контура лица или головы (принадлежащие отдельным фрагментам границ) аппроксимируются эллипсом, уравнение которого можно представить в следующем линеаризованном виде:

аи • х2 + а22 • у2 + 2 • а^ • ху +

+2 • а10 • х + 2 • а20 • у + аоо = 0 . (2)

В отличие от Зггокеу [4] мы допускаем, что эллипс (2) может быть наклонен. Кроме того, аппроксимация эллипсом точек выполняется не только для пар фрагментов, но и для единичных достаточно больших фрагментов. В критерий оценки качества аппроксимирующего эллипса вводится суммарная длина фрагментов, относящихся к найденному эллипсу. Причем входящие в критерий ошибка аппроксимации и суммарная длина фрагментов для устранения зависимости от масштаба изображения нормируются на размер эллипса. В результате весовая функция, характеризующая "качество" найденного эллипса, примет вид: ЭДа + Ь)

W = -

(3)

Здесь N - оценка суммарной длины найденных частей эллипса, в качестве которой принята сумма длин дуг (то есть угловых размеров) фрагментов; а и Ь - полуоси; е - ошибка аппроксимации.

Следующее дополнение алгоритма связано с тем, что искомый контур головы вследствие шума на изображении может быть разорван на несколько фрагментов, число которых превышает 2. При построении эллипсов по парам фрагментов такому контуру будет соответствовать несколько эллипсов с близкими параметрами. Их число может достигать М • (М -1)

2

при М фрагментах, то есть растет квад-

ратично с ростом М. Качество же всех этих эллипсов из-за небольших размеров фрагментов будет малым. Объединение таких близких эллипсов позволит получить один эллипс, имеющий высокое значение критерия W.

Отметим также, что в результате работы алгоритма на изображении может быть обнаружено несколько эллипсов, однако не все из них будут соответствовать лицам, поэтому необходимо отобрать только лучшие (по критерию (3)) из них.

Проведенные испытания системы КОЛО [5] показали ее высокую эффективность при различных

условиях освещения и независимость от наклонов и поворотов головы. В то же время эта система в ряде случаев не позволяет правильно оценить размер лица и определить его точное положение.

Использование корреляционного подхода для поиска лиц. Одна из основных проблем, с которой приходится сталкиваться при решении задачи обнаружения лица, - это различие условий получения изображения. Особенно важны условия освещения (рис. 2). При изменении освещения изображение лица может существенно меняться, появляются тени, которые вносят существенный вклад в значение корреляции с равномерно освещенным шаблоном.

Рис. 2. Изображения лица, полученные при разных условиях освещения

Для устранения влияния условий освещения разобьем лицо на конечное число областей, яркость точек в которых можно связать с яркостью точек шаблона линейным преобразованием:

I, = а • I + Ь , (4)

здесь 14 - распределение яркости шаблона; I - распределение яркости тестируемой области изображения; а и Ь - действительные числа. Назовем эти области областями однородного освещения.

Для устойчивого обнаружения лица области однородного освещения должны быть достаточно большими и включать в себя характерные особенности лица.

Описанное выделение областей однородного освещения и сравнение их с соответствующими областями шаблонного изображения с учетом условия (4) позволяет существенно снизить влияние яркости и контрастности изображения на обнаружение лиц.

В качестве основного признака, выделяющего лица в пространстве изображений, будем использовать значение корреляции исследуемого изображения и шаблона. Шаблон представляет собой изображение центральной части лица, содержащее основные его элементы: глаза, брови, нос и рот (рис. 3). В качестве корреляционной функции используется сумма значений корреляционных функций в предполагаемых областях однородного освещения:

8 = ^X, здесь Si = , 1 N П i ^ 2

а VI• X^

2

(5)

где и Ii - яркости соответствующей точки шаблона и тестируемого изображения; N - число областей однородной освещенности, каждой из которых соответствует свой индекс г

Использовалось два фиксированных варианта разбиения шаблона на области однородной освещен-

2

к

27

ности, показанных на рисунке 3. Целевая функция, определяющая соответствие данной точки изображения шаблону, строилась в виде взвешенной суммы 81 и 82:

Рис. 3. Разбиение на области однородной освещенности

S = aSj + bS

»2> (6) где 81 и 82 - суммы значений корреляционных функций для каждого из вариантов разбиения, а и Ь - весовые коэффициенты, такие, что их сумма а+Ь=1.

Целевая функция (6) достигает максимума в тех областях изображения, которые наиболее похожи на заданный шаблон, то есть лицо человека. Для обнаружения лиц людей на изображениях необходимо определить весовые коэффициенты а и Ь, а также пороговое значение целевой функции (6).

Как правило, размер лица в кадре непостоянный и может изменяется в некотором диапазоне (рис. 4). Поэтому для обнаружения лиц произвольных масштабов необходимо искать соответствие несколько раз, изменяя масштаб либо шаблона, либо исходного изображения. В наших исследованиях проводилось обнаружение лиц восьми масштабов, размеры которых изменялись в 1.15 раза (34x46, 40x53, 45x60, 53x71, 60x80, 68x91, 80x106, 91x121 на изображении размером 320x240).

Следует отметить, что весовые коэффициенты а и Ь, а также пороговое значение целевой функции (6) могут быть различными для различных масштабов.

Рис. 5. Области лиц и не лиц в пространстве

_параметров S1 и S2_

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На основе приведенных данных по критерию минимизации суммы ошибок первого и второго рода для каждого из масштабов лиц было рассчитано уравнение прямой, наилучшим образом разделяющей области изображений лиц и не лиц. Для всех размеров шаблона такая прямая оказалась параллельной оси 81, то есть в выражении (6) а=0, Ь=1, и пороговое значение целевой функции (6) совпадает с порогом по 82. В таблице приведены значения порогов для каждого из масштабов лиц.

Таблица

Масштаб (межзрачковое расстоян.) 22 26 30 35 40 45 53 60

Порог Мин. суммы ошибок 0.979 0.979 0.979 0.980 0.980 0.981 0.982 0.983

Мин. ложных обнаружений 0.980 0.980 0.980 0.981 0.982 0.983 0.984 0.985

Рис. 4. Обнаружение лиц разных масштабов

Для определения весовых коэффициентов и соответствующего им порогового значения целевой функции (6) были проведены специальные эксперименты, в ходе которых на вход системы подавались изображения, содержащие лица людей различных масштабов, а также изображения фона. Общее число изображений составило 4500. Из них половина изображений содержала лица людей, а половина нет. Результаты этих исследований приведены на рисунке 5. По вертикальной оси отложена величина 81 (для разбиения шаблона на 16 частей, показанного на рисунке 3 справа), по горизонтальной - 82 (для разбиения шаблона на 4 части, показанного на рисунке 3 слева). Точки соответствуют отдельным изображениям.

Точки изображений лиц и фона в пространстве параметров 81 и 82 частично перекрываются. Поэтому на рисунке 5 они разделены и приведены отдельно: слева - изображения фона, справа - лиц.

Если более важно не допускать ложного обнаружения лиц, величину порога следует увеличить (см. третью строку таблицы).

В заключение отметим, что обе рассмотренные системы позволяют эффективно обнаруживать лица людей на вводимых в компьютер изображениях. При размере поступающих на обработку изображений 320*240 точек скорость работы обеих программ различается незначительно и на компьютере с процессором Celeron-350 составляет 3-4 кадра в секунду. Каждая из систем имеет свои достоинства и недостатки. Так, система КОЛО практически нечувствительна к размерам лиц, наклонам и поворотам, а также к условиям освещения. Система, использующая корреляционный подход, довольно чувствительна к наклонам и поворотам головы, работает в ограниченном диапазоне размеров лица (расстояние между глазами на изображении должно составлять от 22 до 60 точек) и более чувствительна к условиям освещения. Вместе с тем, она позволяет точнее определять положение и размеры человеческих лиц, чем система КОЛО. Указанные достоинства и недостатки корреляционного метода определяют его возможную область применения - локализация изображений лиц в стандартной фронтальной проекции с целью облегчения их последующего распознавания.

Список литературы

1. Brunelli R., Poggio T. Template Matching: Matched Spatial Filters and Beyond. // Pattern Recognition, 1997, v.30, №.5. -p.751-768.

28

2. Brunelli R., Poggio T. Face Recognition through Geometrical Features. // Proceedings of ECCV'92, S. Margherita Ligure, -p.792-800.

3. Brunelli R., Poggio T. Face Recognition: Features versus Templates. // IEEE Trans on PAMI, 1993, v.15, №.10. - p.1042-1052.

4. Sirohey S.A. Human face segmentation and identification./ Technical Report CS-TR-3176 (CAR-TR-695). - University of Maryland, Nov.1993. -33p.

5. Нюнькин К.М. Компьютерная система автоматической локализации человеческих лиц на изображении. // Искусственный интеллект. - 1999. - № 1. -С.72-82.

МНОГОАГЕНТНЫЕ СИСТЕМЫ ПОДДЕРЖКИ ОТКРЫТОГО ОБРАЗОВАНИЯ В ТЕХНИЧЕСКОМ УНИВЕРСИТЕТЕ

Е.А. Луговская, В.Б. Тарасов

В эпоху рыночной экономики и зарождения информационного (постиндустриального) общества происходят кардинальные изменения условий функционирования технических университетов, вызывающие необходимость заново пересмотреть многие традиционные аксиомы их организации [1, 2]. Главными современными тенденциями развития инженерного образования, определяющими новые стратегии деятельности его учреждений, становятся глобализация, информатизация, интеллектуализация и клиентоцентризм. Поэтому ранее неоспоримое достоинство процветающих институтов высшего образования - постоянная, устойчивая структура, мало зависящая от внешнего мира, -теперь часто оборачивается недостатком. Такая жесткая, детерминированная, инерционная организация не позволяет своевременно отслеживать конъюнктуру рынка и удовлетворять все возрастающие требования заказчиков образовательных услуг. Это происходит потому, что в больших, закрытых и сильно централизованных системах значительные средства затрачиваются на внутренние нужды (обработку информации для принятия решений) и мало ресурсов остается на развитие, совершенствование самих процессов и технологий, а также на связанную с этим поисковую и адаптационную деятельность.

Сегодня актуально построение открытых, гибких, децентрализованных образовательных систем, способных успешно функционировать и эволюционировать в сложной и плохо определенной среде. В отличие от закрытых систем, мало взаимодействующих с внешней средой, открытые системы характеризуются периодическим и интенсивным обменом с внешней средой. Здесь границы между системой и средой достаточно условны и нечетки. У открытой системы хорошие возможности и средства адаптации к изменениям среды, в том числе путем модификации своей структуры и параметров. Иными словами, они способны к развитию путем самообновления - ликвидации старых и создания новых структур внутри самих себя.

Подобные системы должны благоприятствовать проведению инноваций различных видов, которые становятся необходимым условием выживания и конкурентоспособности технических университетов. Речь идет об инновациях учебно-педагогических процессов, образовательных структур и взаимоотношений между преподавателями и студентами, а также между самим университетом и его партнерами. Яркими примерами подобных инновационных стратегий служат концепция

открытого образования [3], модели виртуального университета [4] и виртуальной кафедры [2].

Открытое образование

Одной из характерных черт информационного общества является формирование новой парадигмы образования как инструмента социального благополучия. С одной стороны, это означает возникновение массовых потребностей в непрерывном образовании на протяжении всей жизни. С другой стороны, речь идет об обеспечении права любого члена общества независимо от его местонахождения на получение в любой период времени образовательных услуг в интересующей его области. Все это приводит к необходимости проведения новой образовательной политики на основе стратегии открытого образования. Открытость образовательных систем означает свободу зачисления в число обучаемых и выбора учебных курсов, составление индивидуального учебного плана, а также свободу места, времени, форм и темпов обучения. Открытое инженерное образование должно строиться на основе сетевых информационных технологий, позволяющих объединять образовательные ресурсы крупнейших технических и классических университетов, ведущих научных организаций и передовых промышленных предприятий с целью формирования гибких, переструктурируемых учебных модулей, которые обеспечат интенсификацию, индивидуализацию и непрерывность обучения.

Для открытого образования как новой формы обучения следует разработать соответствующие модели обучения, ориентированные на особенности и проблемы информационного общества, его культуру и потребности. В частности, требуется переход от традиционной дисциплинарной к междисциплинарной, синергетиче-ской модели обучения, в которой ведущая роль будет принадлежать электронным источникам информации (в особенности, ресурсам сети Интернет), функции преподавателя сместятся в сторону координации учебного процесса (то есть на смену одностороннего диктата преподавателя придет педагогика сотрудничества), а функции интерпретатора знаний начнут перераспределяться от преподавателя к студенту.

Итак, становление открытого образования предполагает многообразие гибких сетевых образовательных структур, различающихся по виду узлов сети и характеру их взаимодействия (в частности, по уровню кооперации и координации). На наш взгляд, базовыми единицами подобных посттейлоровских организаций в сфере

29

i Надоели баннеры? Вы всегда можете отключить рекламу.