Федотов Н.Г. , Курынов Д.А. , Петренко А.Г. , Смолькин О.А. , Кольчугин А.С. МИНИМИЗАЦИЯ ПРОСТРАНСТВА ПОИСКОВЫХ ПРИЗНАКОВ В ИНФОРМАЦИОННОЙ СИСТЕМЕ
Работа выполнена в рамках проекта РФФИ № 06-07-89167-а
В процессе машинной генерации признаков поиска биометрической информации в базе данных фотографических изображений человеческих лиц получается большое количество признаков, среди которых некоторые могут быть малоинформативными или дублирующими. Такие признаки вносят некоторую избыточность в поисковую систему. В результате возникает проблема минимизации пространства признаков. Цель данной минимизации является исключение из пространства наименее информативных признаков, что повышает информативность, эффективность и быстродействие системы.
В процессе исследования была разработана процедура определения минимального набора эффективных поисковых признаков на основе коэффициентов разложения Карунена-Лоэва. Разложение Карунена-Лоэва может быть представлено как в непрерывном, так и в дискретном виде. В рамках поставленной задачи нас интересует дискретное преобразование Карунена-Лоэва.
Основанием применения дискретного разложения Карунена-Лоэва в качестве средства селекции признаков является наличие у него определенных оптимальных свойств. Далее будет описан алгоритм процедуры минимизации признакового пространства.
X (Г1)
Имеем M классов объектов для поиска щ.
,й
Через X:
i {tn
обозначим выборку значений n при-
знаков, относящихся к одному из классов
й, i = 1, M .
Дискретный вариант обобщенного разложение Карунена-Лоэва представляется формулами xt =
j=1
и в
матричной форме xi = ФС. ,
причем предполагается,
что коэффициенты Cj
Cj.
удовлетворяют условию E |Cj | = 0 Собственные вектора корреля-
. Оператор математического ожидания вычисляется по всем значениям
п
ционной матрицы имеют выражение Я = ^р(^)Е|хг-хг-1 . Коэффициенты этого разложения определяются по фор-
I=1
мулам
Фс. = х ^Ф'Фсу = Ф'ху ^ с = ФХ т.к. Ф'Ф = 1
в силу ортонормированности базисных векторов, составляющих матрицу Ф.
Разработан алгоритм формирования минимального набора поисковых признаков при предварительной селекции после генерации.
Пусть имеем М классов фотообъектов для поиска ,...,®м и п поисковых признаков. Через / обо-
значим выборку значений признака £ ( у = 1,п ), объекта класса I этап. Строится корреляционная матрица
(i = 1, м ).
n
Признаки 1 2 n
Класс щ M [f її ] M [f 12 ] M [f 1n ]
Класс щ M [f 21] M [f 22 ] M [f 2n ]
Класс щм M [f M1] M \f M 2 ] M [fMn ]
То есть для всех реализаций поисковых признаков изображений, относящихся к одному классу, находится среднее значение признака у данного класса (робот и фотопортрет, относящийся к одному человеку).
II этап. Вычисляем значение дисперсии Пу = М ^/у^ математического ожидание распределения признаков.
Признаки 1 2 n
Класс щ M [f 11 ] M [f 12 ] M [f 1n ]
Класс щ M [f 21] M [f 22 ] M [f 2n ]
Класс (0М M [fM1] M \fM 2 ] M [fMn ]
Dj (j = 1, п) D {M [f,1 ]) i=1M D {M [fa ]) i = 1M Dn {M [fn ]) i=1M
III этап. Упорядочиваются Пу (У = 1,п) таким образом, чтобы выполнялось неравенство
П > в2 >... > вт_1 >вт >... .
При упорядочивании координатных функций фу в порядке убывания соответствующих им собственных значений (] = 1, п) коэффициенты разложения обладают также в порядке убывания разделительным каче-
ством. Это означает следующее. Пусть координатным функциям ф и ф соответствуют значения дисперсии и П и при этом П > П . Тогда признак хг обладает лучшими разделительными свойствами чем х/ . Использование признака хг вносит в поисковую систему больше информации чем признак х/ .
IV этап. Зная информативность каждого признака, требуется исключить малоинформативные признаки.
n
Для этого находится сумма всех дисперсий ^ = 2 D и в набор эффективных признаков включаются призна-
j=1
ки до тех пор пока не достигнуто kS. Те признаки, которые вошли в систему, считаются эффективными (обозначим их число m), а те, которые не вошли, малоинформативными. Экспериментальным путем установлено, что оптимальное значение к есть 0.8 > к > 0.95 в зависимости от требуемой точности решения задачи распознавания.
В дискретном случае принцип минимизации среднеквадратичной ошибки предполагает, что разложение
m
Карунена-Лоэва минимизирует ошибку и аппроксимация в разложении xt cijtyj числа базисных векторов
j=i
меньше п. Эта ошибка определяется выражением
m
C=x—2 jj
j=i
где вообще говоря m < n, l = 0 при m = n.
Разработанный алгоритм минимизации пространства поисковых признаков позволяет повысить эффективность интеллектуальной системы, что является резким основание его применения.
ЛИТЕРАТУРА
1. Julius T. Tou, Rafael C. Gonzalez. Pattern Recognition Principles. Addison-Wesley Publishing Copany, 1974.
2. Федотов Н.Г. Методы стохастической геометрии в распознавании образов. - М.: Радио и связь,
1990.