Научная статья на тему 'Минимизация пространства поисковых признаков в информационной системе'

Минимизация пространства поисковых признаков в информационной системе Текст научной статьи по специальности «Математика»

CC BY
85
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Федотов Н. Г., Курынов Д. А., Петренко А. Г., Смолькин О. А., Кольчугин А. С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Минимизация пространства поисковых признаков в информационной системе»

Федотов Н.Г. , Курынов Д.А. , Петренко А.Г. , Смолькин О.А. , Кольчугин А.С. МИНИМИЗАЦИЯ ПРОСТРАНСТВА ПОИСКОВЫХ ПРИЗНАКОВ В ИНФОРМАЦИОННОЙ СИСТЕМЕ

Работа выполнена в рамках проекта РФФИ № 06-07-89167-а

В процессе машинной генерации признаков поиска биометрической информации в базе данных фотографических изображений человеческих лиц получается большое количество признаков, среди которых некоторые могут быть малоинформативными или дублирующими. Такие признаки вносят некоторую избыточность в поисковую систему. В результате возникает проблема минимизации пространства признаков. Цель данной минимизации является исключение из пространства наименее информативных признаков, что повышает информативность, эффективность и быстродействие системы.

В процессе исследования была разработана процедура определения минимального набора эффективных поисковых признаков на основе коэффициентов разложения Карунена-Лоэва. Разложение Карунена-Лоэва может быть представлено как в непрерывном, так и в дискретном виде. В рамках поставленной задачи нас интересует дискретное преобразование Карунена-Лоэва.

Основанием применения дискретного разложения Карунена-Лоэва в качестве средства селекции признаков является наличие у него определенных оптимальных свойств. Далее будет описан алгоритм процедуры минимизации признакового пространства.

X (Г1)

Имеем M классов объектов для поиска щ.

Через X:

i {tn

обозначим выборку значений n при-

знаков, относящихся к одному из классов

й, i = 1, M .

Дискретный вариант обобщенного разложение Карунена-Лоэва представляется формулами xt =

j=1

и в

матричной форме xi = ФС. ,

причем предполагается,

что коэффициенты Cj

Cj.

удовлетворяют условию E |Cj | = 0 Собственные вектора корреля-

. Оператор математического ожидания вычисляется по всем значениям

п

ционной матрицы имеют выражение Я = ^р(^)Е|хг-хг-1 . Коэффициенты этого разложения определяются по фор-

I=1

мулам

Фс. = х ^Ф'Фсу = Ф'ху ^ с = ФХ т.к. Ф'Ф = 1

в силу ортонормированности базисных векторов, составляющих матрицу Ф.

Разработан алгоритм формирования минимального набора поисковых признаков при предварительной селекции после генерации.

Пусть имеем М классов фотообъектов для поиска ,...,®м и п поисковых признаков. Через / обо-

значим выборку значений признака £ ( у = 1,п ), объекта класса I этап. Строится корреляционная матрица

(i = 1, м ).

n

Признаки 1 2 n

Класс щ M [f її ] M [f 12 ] M [f 1n ]

Класс щ M [f 21] M [f 22 ] M [f 2n ]

Класс щм M [f M1] M \f M 2 ] M [fMn ]

То есть для всех реализаций поисковых признаков изображений, относящихся к одному классу, находится среднее значение признака у данного класса (робот и фотопортрет, относящийся к одному человеку).

II этап. Вычисляем значение дисперсии Пу = М ^/у^ математического ожидание распределения признаков.

Признаки 1 2 n

Класс щ M [f 11 ] M [f 12 ] M [f 1n ]

Класс щ M [f 21] M [f 22 ] M [f 2n ]

Класс (0М M [fM1] M \fM 2 ] M [fMn ]

Dj (j = 1, п) D {M [f,1 ]) i=1M D {M [fa ]) i = 1M Dn {M [fn ]) i=1M

III этап. Упорядочиваются Пу (У = 1,п) таким образом, чтобы выполнялось неравенство

П > в2 >... > вт_1 >вт >... .

При упорядочивании координатных функций фу в порядке убывания соответствующих им собственных значений (] = 1, п) коэффициенты разложения обладают также в порядке убывания разделительным каче-

ством. Это означает следующее. Пусть координатным функциям ф и ф соответствуют значения дисперсии и П и при этом П > П . Тогда признак хг обладает лучшими разделительными свойствами чем х/ . Использование признака хг вносит в поисковую систему больше информации чем признак х/ .

IV этап. Зная информативность каждого признака, требуется исключить малоинформативные признаки.

n

Для этого находится сумма всех дисперсий ^ = 2 D и в набор эффективных признаков включаются призна-

j=1

ки до тех пор пока не достигнуто kS. Те признаки, которые вошли в систему, считаются эффективными (обозначим их число m), а те, которые не вошли, малоинформативными. Экспериментальным путем установлено, что оптимальное значение к есть 0.8 > к > 0.95 в зависимости от требуемой точности решения задачи распознавания.

В дискретном случае принцип минимизации среднеквадратичной ошибки предполагает, что разложение

m

Карунена-Лоэва минимизирует ошибку и аппроксимация в разложении xt cijtyj числа базисных векторов

j=i

меньше п. Эта ошибка определяется выражением

m

C=x—2 jj

j=i

где вообще говоря m < n, l = 0 при m = n.

Разработанный алгоритм минимизации пространства поисковых признаков позволяет повысить эффективность интеллектуальной системы, что является резким основание его применения.

ЛИТЕРАТУРА

1. Julius T. Tou, Rafael C. Gonzalez. Pattern Recognition Principles. Addison-Wesley Publishing Copany, 1974.

2. Федотов Н.Г. Методы стохастической геометрии в распознавании образов. - М.: Радио и связь,

1990.

i Надоели баннеры? Вы всегда можете отключить рекламу.