Научная статья на тему 'Разработка метода синтеза и визуализации объемных изображений'

Разработка метода синтеза и визуализации объемных изображений Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
104
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АЛГОРИТМ ВОССТАНОВЛЕНИЯ ТРЕХМЕРНЫХ ИЗОБРАЖЕНИЙ / АКСОНОМЕТРИЯ 3D-СЦЕНЫ / СИСТЕМА ФОРМИРОВАНИЯ ОБЪЕМНОГО ВИДЕО / 3D-ВИДЕОКАМЕРА / РАСТР МИКРОЛИНЗ / АКУСТООПТИЧЕСКИЙ ДЕФЛЕКТОР / ДИФРАКЦИОННАЯ ЛИНЗА / РЕФЕРЕНСНЫЙ ЛУЧ / ГОЛОГРАММА СВЕТЯЩЕЙСЯ ТОЧКИ / ТРЕХМЕРНЫЙ ЛАЗЕРНЫЙ ДИСПЛЕЙ / ГОЛОГРАФИЧЕСКАЯ СИСТЕМА ОБЪЕМНОГО ВИДЕНИЯ / МИКРОЗЕРКАЛЬНЫЙ МОДУЛЯТОР / СИНТЕЗ ГОЛОГРАММЫ / 3D IMAGES RECONSTRUCTION ALGORITHM / 3D SCENE ISOMETRIC VIEW / VOLUMETRIC VIDEO FORMING SYSTEM / 3D CAMCORDER / MICROLENS RASTER / ACOUSTO-OPTIC DEFLECTOR / DIFFRACTIVE LENS / REFERENCE RAY / LIGHT POINT HOLOGRAM / 3D LASER DISPLAY / VOLUMETRIC HOLOGRAM VIEWING SYSTEM / MICROMIRROR MODULATOR / HOLOGRAM SYNTHESIS

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Кольцов Михаил Михайлович, Кузнецов Сергей Викторович

Представлены технологии кодирования стереокадров в 2D-кадры с добавлением информации о глубине расположения пикселей и визуализации видеопотока, состоящего из таких кадров, с применением лазерной дифракции на акустических голограммах с визуализацией результирующего поля растром микролинз.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Кольцов Михаил Михайлович, Кузнецов Сергей Викторович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Developing system of syntheses and visualization of volumetric images

Technologies for coding stereo frames into 2D-frames with addition of information about the depth of pixels location and rendering of the video stream consisting of such frames with using of laser diffraction at acoustic holograms with resulting field visualization by microlenses raster are presented.

Текст научной работы на тему «Разработка метода синтеза и визуализации объемных изображений»

Телевидение и обработка изображений

УДК 778.38.01:535

М. М. Кольцов, С. В. Кузнецов

Санкт-Петербургский государственный электротехнический

университет "ЛЭТИ"

| Разработка метода синтеза и визуализации объемных изображений

Представлены технологии кодирования стереокадров в 2D-кадры с добавлением информации о глубине расположения пикселей и визуализации видеопотока, состоящего из таких кадров, с применением лазерной дифракции на акустических голограммах с визуализацией результирующего поля растром микролинз.

Алгоритм восстановления трехмерных изображений, аксонометрия 3D-сцены, система формирования объемного видео, 3D-видеокамера, растр микролинз, акустооптический дефлектор, дифракционная линза, референсный луч, голограмма светящейся точки, трехмерный лазерный дисплей, голографическая система объемного видения, микрозеркальный модулятор, синтез голограммы

В настоящее время рынок систем объемного видения находится в стадии формирования. Современные стереоскопические системы и системы виртуальной реальности, основанные на бинокулярном зрении человека [1], [2], имеют ряд очевидных недостатков, таких, как малые углы оглядывания, скачки стереоскопии, кулисность изображения, малая глубина зоны стереоскопического видения, отсутствие вертикального параллакса. Перечисленные недостатки стереоскопических систем приводят к дискомфорту, повышают утомляемость и в итоге разрушают у наблюдателя ощущение стереоэффекта. Кроме того, стереосистемы невозможно использовать для решения задач, требующих объемного видения в относительно большой зоне пространства при перемещении наблюдателя. Эти и другие причины привели к разработкам действительно объемных систем видения, основанных на воспроизведении 3D-изображения на пространственном экране или в объеме пространства после дифракции на двумерной голограмме.

Интерес к методам восстановления трехмерной структуры сцен по их плоским изображениям в середине XX в. связан с исследованиями в области искусственного интеллекта, а практическая потребность в робототехнических устройствах, способных ориентироваться в трехмерном пространстве, постоянно поддерживает этот интерес в последние десятилетия [3].

Работы в области систем синтеза, передачи и визуализации объемных изображений ведутся на кафедре радиоэлектронных средств Санкт-Петербургского государственного электротехнического университета "ЛЭТИ" им. В. И. Ульянова (Ленина) с 1992 г. С 2006 г. создается и исследуется лазерная проекционная голографическая система объемного видения. Работы поддерживались грантом по программе СТАРТ06 от Фонда содействия развитию малого бизнеса в научно-технической сфере*. За прошедшее время разработаны все основные узлы как системы кодирования объемного видео по нескольким плоским ракурсам, так и лазерной проекционной системы визуализации объемных изображений.

* Государственные контракты от 30.06.2006 г. № 4462р/6849 и от 28.12.2007 г. № 5568р/6849. © Кольцов М. М., Кузнецов С. В., 2010

Также разработан алгоритм реконструкции трехмерных изображений по двум или более плоским телевизионным кадрам, снятым под различными ракурсами.

При отображении трехмерного пространства на плоскости информация о расстоянии до различных элементов сцены проявляется только в виде косвенных признаков: через относительные размеры объектов, затенение одних объектов другими, различную освещенность и т. д. Один из способов получения информации о глубине состоит в регистрации нескольких изображений сцены под различными углами. В этом случае одни и те же объекты трехмерной сцены на различных изображениях отображаются смещенными, причем величины этого смещения зависят от расстояния объектов до точки наблюдения. Сопоставляя смещения, в ряде случаев можно реконструировать трехмерную структуру сцены.

В настоящей статье рассмотрен алгоритм расчета глубины залегания пикселей изображения кадра на основе оценки двух ракурсов (стереопары) одного кадра изображения. Назначение разработанного алгоритма - определение диспарантности для пары стереоизображений, представленных двумя плоскими ракурсами объекта или группы объектов. Глубина точек сцены при известной диспарантности может быть найдена элементарными преобразованиями, учитывающими параметры стереоскопической системы [4]. Алгоритм опирается на следующие операции:

• медианная фильтрация изображения с целью повышения помехоустойчивости;

• разбиение каждого изображения стереопары на области, условно принадлежащие одному объекту, т. е. выделение объектов или их частей из общего ландшафта двух ракурсов изображения по критерию близкой цветности;

• обнаружение соответствующих друг другу областей на левом и правом изображениях стереопары по максимуму корреляционной функции при смещении областей и нахождение диспарантности по величине этого смещения.

Алгоритм позволяет обрабатывать два потока видео от стереокамеры, преобразуя два плоских ракурса в формат плоского кадра с добавлением координаты глубины залегания для групп пикселей этого кадра (формат 2D+). Он реализован программно, однако использование только целочисленных операций позволяет реализовать его аппаратно, причем в этом случае обработка изображений стереоснимков будет производиться в реальном времени. Работоспособность алгоритма проверялась на программной реализации, при этом стереопары обрабатывались не в реальном времени. Результирующий снимок с добавлением каждому пикселю координаты глубины выводился в виде аксонометрии 3D-сцены с помощью программного пакета OpenGL (рис. 1).

Как видно из рисунка, качество изображения вполне приемлемо; на двух аксонометриях под разными углами просматривается рельефность снимков, т. е. смещение деталей в зависимости от глубины залегания объектов сцены.

Рис. 1

Рис. 2

Структурная схема системы формирования объемного видео показана на рис. 2. Две цифровые видеокамеры синхронизируются блоком синхронизации, в результате чего образуются левый и правый плоские ракурсы кадров. Два потока кадров поступают на блок вычисления глубины по диспарантности. Этот блок состоит из четырех банков видеопамяти, а также цифровой БИС, реализующей корреляционные алгоритмы выделения областей по близкой цветности, определения диспарантностей этих областей и расчетов по ним координат глубины залегания областей. В каждый момент два банка используются для записи очередной пары кадров, в то время как другие два банка предоставляют информацию для обработки в цифровую БИС. Банки переключаются каждый кадр. На выходе блока вычисления глубины формируется общий цифровой видеопоток, содержащий информацию о плоском кадре и информацию о глубине залегания пикселей этого кадра. Для кадра формата DVD при 24 битах цветности на пиксель общим объемом 1.2 Мбайт добавляется 400 кбайт информации о глубине залегания пикселей этого кадра. Как правило, скорость изменения данной информации от одной группы пикселей к другой мала, что позволяет эффективно сжимать ее отдельно от сжатия плоского кадра, как это характерно для формата 2D+.

В результате обработки порождается видеопоток в стандарте MPEG-4, который может быть передан по любому рассчитанному для такого потока каналу (телевизионному, Интернет и пр.). Информация о глубине передается в виде а-канала.

На приемной стороне в зависимости от целей устанавливаются сменные аппаратные блоки, позволяющие отображать трехмерную информацию либо в виде аксонометрии на плоском мониторе, либо в виде объемного изображения на объемном мониторе. Компьютер со специализированным программным обеспечением выводит видеопоток после преобразования на соответствующее устройство. На компьютере устанавливается программное обеспечение в виде 3D-проигрывателя на базе пакета OpenGL, которое декомпрессирует поток и формирует на плоском дисплее видеоряд, используя информацию а-канала для интерактивной смены ракурсов изображения по команде пользователя. При наличии же на приемной стороне дисплея объемного отображения информация о глубине используется непосредственно для воспроизведения трехмерной динамической картины.

В специальных целях диспетчирования или дистанционного управления возможно преобразование информации о глубине и ее вывод на экран как дополнительной в символьном виде.

Наилучший эффект восприятия видеопотока с информацией о глубине отдельных пикселей достигается при визуализации объемных изображений. Далее рассматривается приемная часть системы объемного видео на основе этой технологии.

Предлагается технология визуализации объемных изображений, опирающаяся на дифракцию лазерного излучения на сложной акустической голограмме, сформированной

49

Известия вузов России. Радиоэлектроника. 2010. Вып. 2======================================

в акустооптическом дефлекторе (АОД) с дальнейшей визуализацией поля на основе растра микролинз, статической голограммы или на вращающемся экране.

В АОД луч отклоняется с помощью акустических волн. Возможность отклонения оптического луча с помощью акустической волны основана на периодическом пространственном изменении плотности среды под воздействием ультразвука, которое приводит к аналогичному изменению ее показателя преломления n в результате упругооптического эффекта.

Ультразвуковая волна в какой-либо среде представляет собой следующие друг за другом на определенном расстоянии сжатия и разряжения среды. Расстояние между двумя сжатиями определяется длиной звуковой волны в веществе, т. е. периодом фазовой решетки Л . При сжатии и разряжении среды изменяется ее плотность, а следовательно, и показатель

преломления среды: nx = n + An cos [2л/ак (t - х/уак)J, где n - показатель преломления невозмущенной среды; An - амплитуда изменения показателя преломления; Уак - частота акустической волны; x - текущая координата; Уак = Л/ак - скорость звука в среде. Волна создает градиент показателя преломления: |grad(n)| = dn/dx = -(2лАп/Л)sin(2тсх/Л) . При

прохождении оптического излучения сквозь нее возникает дифракция или рефракция луча.

Пусть световой пучок падает на границу прозрачной среды, в которой возбуждены акустические волны. Световые волны направлены под углом ф к ультразвуковым, и ширина акустического столба в направлении распространения света достаточно мала. Изменение показателя преломления влияет только на фазу световой волны, т. е. среда с изменяющимся в пространстве показателем преломления представляет собой фазовую пространственную решетку. При использовании импульсного режима работы источника оптического поля (лазера), а также ввиду того, что скорость распространения света на несколько порядков больше скорости звуковой волны, акустический столб можно считать неподвижным.

Применение режима дифракции Брэгга позволяет отклонить оптический пучок в максимум первого порядка на угол 9 = Х/Л, где X - длина волны оптического пучка. Развертка оптического луча требует изменения угла 0, для чего необходимо последовательно возбуждать в дефлекторе акустические волны различной длины (частоты).

При низкой скорости сканирования, когда в апертуре дефлектора находится звуковая волна одной длины, оптический пучок в целом отклоняется в одну точку пространства. Сигнал возбуждения АОД Y (t) при этом имеет вид

Y (t) = A cos (2/), (1)

где A - амплитуда сигнала, определяющая яркость оптического поля в точке пространства после дифракции под заданным углом; f - несущая частота; t - текущее время.

В режиме развертки отклоняющая система на базе АОД должна работать в реальном режиме времени, т. е. луч должен отклоняться за время, существенно меньшее необходимого для заполнения всей апертуры дефлектора акустической волной заданной частоты. Уменьшение длительности каждого гармонического сигнала ведет к неполному заполнению апертуры АОД и к уширению точки оптического поля после дифракции под заданным углом.

Для ликвидации уширения длительность каждого сигнала возбуждения АОД выбирается не менее длительности его апертуры Т. Развертка формируется суммированием в апертуре АОД гармонических сигналов с различными амплитудами A и частотами f, определяющими яркости и углы отклонения 0 после дифракции. В результате после дифракции в дальней зоне формируется строка точек с заданной яркостью.

При более высокой скорости сканирования, когда в апертуре дефлектора одновременно находятся звуковые волны нескольких длин, происходит расщепление оптического пучка. Амплитуды и фазы у парциальных пучков определяются спектральным составом акустических волн, т. е. создается пространственное распределение оптического поля, промодулированного акустическим сигналом. Сумма синфазных колебаний различных длин, определяющих отклонения парциальных лучей на необходимые углы, порождает результат, стремящийся к 5-функции, т. е. в апертуре дефлектора возникает сигнал с высоким пик-фактором, что существенно снижает эффективность дифракции.

Наименьшим пик-фактором в дефлекторе обладает сигнал с линейной частотной модуляцией (ЛЧМ): Y (t) = A cos [2тс( f + tF/T) t] , где F - девиация частоты, определяющая

полосу частот после дифракции. Спектр такого сигнала с высокой степенью точности постоянен в этой полосе, что позволяет создать оптическую строку с равной яркостью пикселей. Начальная фаза такого сигнала меняется во времени согласно квадратичному закону:

При необходимости управления яркостью сигнал усложняется за счет введения зависимости амплитуды от несущей частоты A( f). Таким образом, задача состоит в нахождении распределения начальных фаз суммируемых гармонических сигналов с различными амплитудами и частотами, определяющими необходимое распределение яркостей в строке подсвеченных точек после дифракции, в наименьшей степени отличающегося от зависимости (2), обеспечивающей минимальный пик-фактор, близкий к пик-фактору ЛЧМ-сигнала.

Параллельным возбуждением АОД сложными акустическими голограммами формируется линия точек в изображении. Шаг дифракционной решетки (длина акустической волны) определяет отклонение на необходимый угол. Для получения предельного разрешения длина волны и частота сигнала f не должны меняться во времени. Таким образом, по закону, аналогичному закону для ЛЧМ-сигнала, должна меняться только начальная фаза сигнала возбуждения акустической волны. Используя принцип дуальности, можно задать аналогичный изменению во времени для ЛЧМ-сигнала (2) закон изменения фазы в частотной области для каждого гармонического сигнала возбуждения АОД:

Отсутствие временной зависимости фазы (в пределах формирования строки пикселей излучением импульсного лазера) обеспечивает выполнение условия предельного разрешения после дифракции света на такой решетке.

При интегрировании гармонических сигналов (1) с фазовым законом (3) по всему диапазону занимаемых частот (углов отклонения) F получается следующий вид сигнала возбуждения в АОД сложной голограммы с минимальным пик-фактором:

Ф = 2nt2 F/T.

(2)

(3)

F

Y (t) = (1/F ) j A ( f ) cos [ 2 л/ (t + fT/F)] J/. 0

При переходе к дискретному формированию сигнала следует ввести N - число гармоник в диапазоне F; к - номер гармоники; i -индекс по времени; А/ - шаг дискретизации по частотам гармоник; At - минимальный шаг дискретизации сигнала во времени. Тогда после дискретизации получаем:

N

Y (iAt) = X A (к) cos [2л (F0 + кAf )At (i + к -1)], (4)

к=1

где Fo - начальная частота радиосигнала в диапазоне частот возбуждения АОД. Физический

смысл формулы (4) заключается в том, что сигнал возбуждения создает в апертуре АОД совокупность ультразвуковых бегущих волн (сложную голограмму), причем начальный фазовый сдвиг каждой волны относительно предыдущей пропорционален частоте, что снижает пик-фактор суммы таких волн. Для получения максимальной эффективности дифракции при предельной скорости смены строк используется импульсный лазер, излучающий короткие импульсы в моменты полного заполнения апертуры сложной голограммой для дифракции и получения в дальней зоне строки светящихся точек на одной и той же глубине залегания в строке.

Добавление в рассмотренную модель сигнала изменения частоты во временном интервале формирования строки возбуждает ультразвуковую волну, после дифракции на которой парциальный световой пучок не только отклоняется на заданный угол, но и приобретает изменяемый средний радиус волнового фронта. В результате перетяжка этого пучка (светящаяся точка) изменяет свое положение по глубине сцены. По уже описанным причинам рассмотренное изменение частоты также должно быть линейным. При этом формула (4) примет вид

N

Y (iAt)= X A(к) cos [2^(F0 + kAf )At (i + к - l) + (i -M/2)F1 (к)/t], (5)

к=1

где M - число дискретов акустического сигнала в апертуре АОД, вводимое для управления

локализацией светящейся точки по глубине; Fi (к) - девиация частоты, задающая кривизну

волнового фронта после дифракции света на парциальной ультразвуковой решетке.

Добавление линейного изменения частоты к несущей частоте каждой к-й гармоники в подобной сложной голограмме незначительно снижает эффективность дифракции, но позволяет управлять не только положением точек в строке по горизонтальной оси и их яркостью, но и положением в пространстве по глубине.

Физический смысл формулы (5) заключается в том, что сигнал возбуждения создает в апертуре АОД сумму ультразвуковых бегущих волн (сложную голограмму). При этом наблюдается начальный фазовый сдвиг каждой волны относительно предыдущей, пропорциональный частоте, и линейное изменение несущей частоты с центром в центре апертуры АОД по направлению распространения волны. В этой же точке располагаются центры дифракционных линз, получаемых за счет указанной девиации частот. Поскольку голограмма одномерная, то формируются дифракционные цилиндрические линзы. Использование импульсного лазера с короткими импульсами в момент полного заполнения апер-

Голограмма микролинз световой точки

Рис. 3

туры сложной голограммой вызывает дифракцию и получение в дальней зоне строки светящихся точек на различной глубине залегания в строке.

На рис. 3 приведена структурная схема трехмерного лазерного дисплея, который реализует "рельефный" принцип формирования изображения. При этом строки пикселей выводятся параллельно по горизонтальной координате с заданной глубиной залегания каждого пикселя. Расположение каждой строки по вертикальной координате управляется по второму каналу АОД. На рис. 3 для примера показаны две строки растра такого изображения.

Трехмерный лазерный дисплей содержит следующие основные устройства:

• визуализатор, состоящий из растра микролинз и проецирующей голограммы (аналог сферического зеркала);

• блок синхронизации заполнения звукопровода АОД сложной голограммой и вспышек лазера;

• импульсный лазер с коллимирующими и фокусирующими оптическими элементами;

• двухкоординатный АОД, управляющий сканированием лазерного луча, его фокусировкой и модулирующий его яркость;

• двухканальный радиоэлектронный блок, формирующий радиосигналы для возбуждения АОД;

• цифровой блок, включающий в себя двухканальную буферную видеопамять. Первый канал буферной памяти хранит выборки радиосигнала, возбуждающие в АОД акустические голограммы, формирующие после дифракции строки по горизонтальной координате и глубине. Второй канал хранит выборки радиосигнала, возбуждающие в АОД акустические волны для управления смещением пучка по вертикальной координате;

• компьютерный интерфейс.

Закодированное в виде выборок радиосигнала для АОД объемное изображение считывается из памяти управляющего компьютера и через шину передается в буферную видеопамять цифрового блока объемного дисплея (рис. 3). Буферная видеопамять имеет два банка, попеременно принимающих информацию от компьютера и передающих ее через цифроаналоговый преобразователь в радиоэлектронный блок по двум каналам синхронно с лазерными импульсами. Блок синхронизации синхронизирует считывание выборок из видеопамяти с импульсами лазера. Радиоэлектронный блок усиливает радиосигналы и возбуждает акустические волны в АОД. Оптический пучок лазера, продифрагиро-

53

Рис. 4

вавший в АОД, проходит систему линз и попадает на растр микролинз, диаметр каждой из которых равен 1 мм. В каждую микролинзу попадает парциальный оптический пучок после дифракции, образующий горизонтальную строку пикселей. Усредненный фазовый фронт каждого пикселя строки определяет глубину залегания его фокуса после микролинзы. Вертикальное положение строки определяется радиосигналом второго канала АОД. Голограмма световой точки действует как сферическая линза, перепроецирующая полученное световое распределение в свой задний объем с необходимым изменением масштаба.

Сравнение описанной голографической системы объемного видения с наиболее близкой к ней также голографической системой на микрозеркальном модуляторе с многослойным транспарантом на основе жидких кристаллов [5] показывает, что технология на основе АОД позволяет существенно упростить расчет голограмм, так как они являются одномерными. При этом подсвечиваются только границы объектов сцены, а не весь растр объема, что снижает требования к мощности лазерного излучения, но позволяет сформировать лишь контурную сцену. За счет отображения лишь контуров существенно сокращается время расчета объемного кадра для динамического изображения.

В настоящее время разработан макетный образец проекционного голографического дисплея, в котором голограмма синтезируется программно на компьютере. При этом время расчета одного кадра занимает 5.. .10 с в зависимости от сложности изображения, что в десятки раз меньше, чем время расчета двумерной голограммы. Сформированные последовательности кадров отображаются в реальном времени с частотой смены 25 Гц. В дальнейшем синтез голограммы будет выполняться на специализированном процессоре в реальном масштабе времени одновременно с отображением динамической сцены. На рис. 4 приведены фотографии двух ракурсов самолета, воспроизведенных проекционным лазерным дисплеем.

Список литературы

1. Stereoscopic display exploits the brain. Three dimensional imaging // Laser focus world. 2000. Vol. 36, № 9. P. 102.

2. Грегори Р. Л. Глаз и мозг. Психология зрительного восприятия. М.: Прогресс, 1979, 270 с.

3. Golovkov A., Kuznetsov S., Voronov A. Image formation in the three-dimensional laser display // Pattern recognition and image analysis. 1996. Vol. 6, № 4. P. 823-826.

4. Литвак И. И., Ломов Б. Ф., Соловейчик И. Е. Основы построения аппаратуры отображения в автоматизированных системах / под ред. А. Я. Брейтбарта. М.: Сов. радио, 1975. 352 c.

5. Huebschman M., Munjuluri B., Garner H. Digital micromirrors enable holographic video display // Laser focus world. 2004. Vol. 40, № 5. P. 111-116.

M. M. Koltsov, S. V. Kuznetsov

Saint-Petersburg state electrotechnical university "LETI"

Developing system of syntheses and visualization of volumetric images

Technologies for coding stereo frames into 2D-frames with addition of information about the depth of pixels location and rendering of the video stream consisting of such frames with using of laser diffraction at acoustic holograms with resulting field visualization by microlenses raster are presented.

3D images reconstruction algorithm, 3D scene isometric view, volumetric video forming system, 3D camcorder, microlens raster, acousto-optic deflector, diffractive lens, reference ray, light point hologram, 3D laser display, volumetric hologram viewing system, micromirror modulator, hologram synthesis

Статья поступила в редакцию 17 сентября 2009 г.

УДК 621.397.43:004.932.72'1

Я. В. Рыбак

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Санкт-Петербургский государственный университет телекоммуникаций

им. проф. М. А. Бонч-Бруевича

Оценка эффективности предварительной обработки изображений для метода распознавания лиц с применением анализа главных компонентов

Проанализировано влияние различных методов предварительной обработки изображений, основанных на анализе главных компонентов, в системах детектирования и распознавания лиц. Показана чувствительность методов к изменениям яркостной составляющей изображения. Приведены результаты тестирования на распространенных базах изображений лиц, позволяющие сделать вывод о перспективности предложенных методов предварительной обработки.

Обнаружение лиц, распознавание лиц, анализ главных компонентов, вероятность ошибочного решения, вероятность пропуска

В последние годы в цифровых системах охранного телевидения все чаще применяется программное обеспечение, дополненное различными интеллектуальными детекторами, например модулем распознавания лиц. Одним из наиболее эффективных способов распознавания лиц является анализ главных компонентов (principal component analysis -PCA) лица. Однако существенный недостаток указанного метода состоит в необходимости соблюдения одинаковых условий получения изображений, применяемых затем для выделения особенностей лиц и получения "собственных изображений" - собственных векторов пространства векторов учебного набора изображений лиц [1].

Известны эксперименты по улучшению характеристик изображений, применяемых для PCA, однако их результаты имеют противоречивый характер [2], при этом отсутствует единая методика оценки методов. В связи с этим возникла необходимость анализа различных методов предварительной обработки для выявления эффективности таких характери-

© Рыбак Я. В., 2010

55

i Надоели баннеры? Вы всегда можете отключить рекламу.