Научная статья на тему 'Алгоритмы формирования признакового пространства по критерию сопряженности векторов измерений'

Алгоритмы формирования признакового пространства по критерию сопряженности векторов измерений Текст научной статьи по специальности «Математика»

CC BY
400
85
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Компьютерная оптика
Scopus
ВАК
RSCI
ESCI
Область наук
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Алгоритмы формирования признакового пространства по критерию сопряженности векторов измерений»

АЛГОРИТМЫ ФОРМИРОВАНИЯ ПРИЗНАКОВОГО ПРОСТРАНСТВА ПО КРИТЕРИЮ СОПРЯЖЕННОСТИ ВЕКТОРОВ ИЗМЕРЕНИЙ

В.А. Фурсов, В.А. Шустов Институт систем обработки изображений РАН

Введение

Одной из центральных в общей проблеме распознавания образов является проблема формирования признакового пространства. К сожалению, пока отсутствуют полностью формализованные методы ее решения. Обычно в рамках этой общей проблемы рассматривают два типа задач: добавление к имеющемуся набору признаков новых, улучшающих качество распознавания и, наоборот, исключение из заданного избыточного множества признаков наименее информативных (редукция признакового пространства).

Пусть обобщенная (линейная по параметрам) разделяющая функция имеет вид:

ё(*) = аТу(х) = +2 w / = \,й , (1)

где а=[^0, w]т=[w0,wь...wd] - Мх1 - вектор искомых параметров (весовых коэффициентов [4]), х - вектор, компоненты которого суть признаки, а у (х) -Мх1 - вектор обобщенных признаков, который, в частности, может быть задан в виде у (х)=[1,х]т. Для N обучающих объектов (Ы>М) имеем ЫхМ -матрицу У, строки которой уТ, 1 = , а столбцы (векторы признаков) далее обозначаются как У..

. = ш.

В работах [1, 2] рассматривалась задача формирования признакового пространства при обучении распознаванию образов по малому числу наблюдений с использованием показателей сопряженности векторов признаков. В частности, была предложена мера взаимной ориентации векторов признаков, вычисляемая для каждого вектора Уь / = 1, М величина

= (уТТо(ь- 1)ТоТ(ь- 1)УТУ2/(УТУ2, (2)

где Т0(Ь-1) - ^(N^+1) - матрица, составленная из (N-¿+1) собственных векторов, соответствующих нулевым собственным значениям матрицы У (ь - 1)УТ (ь -1), Уь - ^Ь - матрица, составленная из Ь векторов-столбцов матрицы У (2<Ь<М), а матрица У(ь -1) формируется из матрицы Уь путем вычеркивания одного, в данном случае, /-го вектора-столбца У1

В работе [2] указывалось, что в общем случае для матрицы У из М столбцов возможно = 2 С'М , / = 2,М различных вариантов построения матриц УЬ , для каждого из которых должно рассчитываться Ь показателей (2). Если вычисляются только М показателей (для исходной

^М - матрицы У) и исключаются векторы (признаки), для которых этот показатель оказался равным нулю, то гарантируется, что среди сингулярных чисел матрицы У не окажется нулевых. Однако при этом возникает опасность, что будут исключены также и информативные признаки.

Например, если среди векторов признаков имеются два линейно-зависимых, показатель (2), вычисленный по матрице УМ, будет равен нулю для обоих, в случае трех компланарных векторов он окажется равным нулю для всех трех и так далее Конечно, последовательный "просмотр" всех возможных из множества ^М вариантов подпространств позволит избежать исключения информативных признаков. Однако при этом объем вычислительной работы, особенно при большой размерности исходного признакового пространства (например, несколько сотен), будет непомерно большим даже для многопроцессорных систем.

В настоящей работе исследуются процедуры формирования признакового пространства, позволяющие, как правило, избежать потери информативных признаков, но при этом объем вычислительной работы остается примерно таким же, как и в случае вычисления М показателей (2) для исходной ШМ - матрицы У.

1. Особенности задачи

В [3] рассматривался основанный на вычислении показателей (2) алгоритм, в котором использовалась матрица УМ-1, формируемая из матрицы У путем вычеркивания одного, в данном случае, /-го вектора-столбца У,, и вычислялись М показателей. Далее полученные величины сравнивались с заданным допустимым значением Б. Если оказывалось, что < Б, то столбец У,, исключался. Величина Б определялась экспериментально и не должна была быть слишком малой, так как малые значения 8 говорят о сильной мультиколлинеарности векторов матрицы У и, следовательно, о плохой обусловленности задачи оценивания.

В описанной процедуре при наличии, например, двух линейно-зависимых векторов признаков величина 8 для обоих столбцов матрицы будет равна нулю, независимо от того, какой вклад каждый из этих признаков вносит в эффективность распознавания. При этом по результатам сравнения 8 с порогом Б будут исключены оба столбца и есть опасность избавиться от "хороших" признаков, хотя информативность одного из них или их суммы, возможно, достаточно велика.

В таблице 1 приведен простой пример матрицы У из четырех признаков и значения величин 8

для каждого из них. В этом примере, строго следуя описанному выше правилу сравнения параметров сопряженности с допуском, следовало бы исключить все векторы (признаки), хотя среди них имеется четыре варианта признакового пространства, содержащих пары ортогональных векторов.

Таблица 1. Пример неопределенной ситуации

Ясно, что если сначала последовательно вычислить все коэффициенты парной сопряженности и из каждой пары векторов (Уь У3) и (У2, У4), для которых показатель с очевидностью равен нулю, исключить по одному вектору, то неопределенность снимается. Поскольку среди признаков может оказаться любое число линейно-зависимых, процедуру вычисления 8 мы обязаны выполнить для трех, четырех и так далее векторов во всех возможных сочетаниях. Ниже описываются другие, обладающие меньшей вычислительной сложностью, алгоритмы, позволяющие избежать исключения информативных признаков.

2. Процедуры формирования

признакового пространства

Возможны несколько путей уменьшения вычислительной сложности процедуры отбора информативных признаков. Можно, например, исключать признаки последовательно по одному, каждый раз после исключения производя перерасчет параметров 8 для остающихся признаков. Можно изменить способ вычисления 8 таким образом, чтобы линейная зависимость между признаками учитывалась при вычислении меры сопряженности только один раз. Для этого необходимо вычислять сопряженность с подпространством, которое формируется несколько иначе. В частности, при вычислении 8 для /-го столбца исключаются все столбцы с первого по 1- тый включительно. Для того чтобы подчеркнуть отличия в схеме формирования подпространства, вычисленный таким способом показатель сопряженности типа (2), будем обозначать V/.

Ясно, что значения VI уже не будут инвариантны к порядку следования признаков в обучающей матрице, однако такой способ позволяет избежать указанные ранее трудности. По сути, если принять за величину, которая характеризует вклад вектора в сопряженность всей совокупности признаков обучающей матрицы, то величина VI представляет собой некоторую "добавочную" сопряженность, вносимую одним признаком к ранее выбранной группе признаков.

Различные алгоритмы выбора признаков можно построить, комбинируя во всех возможных сочетаниях следующие три фактора:

• использование параметров 81 или VI,

• исключение "плохих" признаков из начальной группы (уменьшение) или добавление "хороших" признаков (увеличение),

• вычисление параметров сопряженности векторов один раз или пересчет этих показателей каждый раз при изменении количества признаков.

Для удобства их дальнейшего сопоставления эти комбинации сведены в таблицу 2 и обозначены цифрами 1-7. Далее алгоритмы будут называться по номерам, указанным в таблице.

Таблица 2. Классификация алгоритмов

№ Пока- Изменение Пересчет

п/п затель размерности показателя

1 81 уменьшение да

2 81 уменьшение нет

3 81 увеличение да

4 81 увеличение нет

5 V! уменьшение да

6 V! уменьшение нет

7 ^ увеличение все равно

3. Результаты экспериментов Для оценки эффективности алгоритмов формирования признакового пространства установим зависимость относительного количества неправильно классифицируемых обучающих объектов от числа выбранных из начальной группы признаков для случая распознавания двух классов. Для оценки параметров разделяющей гиперплоскости используется метод наименьших квадратов [4].

Задача оценивания параметров классификатора решается следующим образом. Ищется разделяющий вектор а, удовлетворяющий в смысле минимальной среднеквадратической ошибки уравнению

Уа=Ь, (3)

где Ь - вектор, формируемый по заданным допускам, определяющим область решений [4]. Предполагается, что число строк N матрицы У ненамного превышает число столбцов (признаков) М.

Последнее обстоятельство дает основание классифицировать задачу определения вектора а как задачу оценивания по малому числу наблюдений. Это вовсе не означает, что число наблюдений исчисляется единицами. Речь идет о числе степеней свободы, то есть фактически о размерности нуль-пространства матрицы Ут. Например, при числе признаков 500, выборка из 700 обучающих объектов должна считаться малой.

Для сравнения указанных в таблице 2 алгоритмов проводились следующие эксперименты. Строились зависимости процента ошибочного распознавания цифр для всех типов алгоритмов для различных систем признаков. В качестве цифр использовались монохромные 256-цветные изображения раз-

№ Признаки

объекта Ух У2 Уз У4

1 0 2 0 4

2 0 4 0 8

3 1 0 3 0

4 2 0 6 0

8 0 0 0 0

личных шрифтов размера 16x12. Системы признаков представляли собой суммы интенсивностей пикселов не перекрывающихся областей изображения размера 4x4, 2x2 и 1x1. Количество обучающих примеров по каждой цифре равнялось 30. Таким образом, размеры обучающей матрицы были равны соответственно 60x13, 60x49 и 60x193. В последнем случае, при использовании в качестве системы признаков интенсивностей пикселов изображения, обучающая матрица получается недоопределенной, поэтому можно было использовать алгоритмы только 3, 4 и 7 типов.

Для сравнения эффективности алгоритмов с тем эффектом, которого можно достичь, формируя набор признаков, по которым происходит классификация наилучшим образом, строились графики зависимостей процента достижимого минимума и среднего путем перебора всех возможных наборов указанного количества признаков.

Проведенный анализ результатов показал следующее. Алгоритмы 3, 4 и 7, которые формируют признаковое пространство путем наращивания количества признаков, дают одинаковые результаты на различных обучающих матрицах.

На рисунке 1 представлены графики зависимости процента ошибок распознавания от числа используемых признаков, выбранных соответствующим методом для распознавания цифр 2 и 3. В качестве признаков использовалась сумма интенсивно-стей пикселей прямоугольных областей изображения размера 4x3. График иллюстрирует количество ошибок распознавания при использовании части признаков, отобранных различными способами: а -выбор лучших признаков перебором; Ь - средняя ошибка по всем комбинациям признаков; с - выбор признаков алгоритмом 1-го типа; ё - алгоритмом 6-го типа; е - 2-го типа;/- 5-го типа.

Графики ошибок при использовании алгоритмов всех типов близки к графику среднего, который соответствует среднему числу ошибок при случайном выборе группы признаков. При этом алгоритмы, использующие перерасчет параметров дают более хорошую выборку, а алгоритмы с наращиванием признакового пространства более плохую, чем остальные. Наилучшие результаты по различным обучающим матрицам показал метод первого типа.

Заключение

С помощью описанных алгоритмов анализа признакового пространства можно упорядочить признаки по степени их важности для распознавания, используя только обучающую матрицу. Эксперименты подтверждают существование связи мер сопряженности с информативностью признаков

количество признаков

Рис. 1. Зависимость относительного числа ошибок распознавания от числа признаков. При совместном использовании описанных алгоритмов формирования признакового пространства с оценкой параметров разделяющей гиперплоскости методом наименьших квадратов можно получить оценку сверху ошибки распознавания при использовании для классификации подпространства признакового пространства указанного размера. При этом такие оценки достигают нуля быстрее, нежели оценка по среднему и требуют для своего вычисления гораздо меньших вычислительных затрат.

Все алгоритмы гарантируют невырожденность информационной матрицы, формируемой для оценивания по методу наименьших квадратов.

Работа выполнена при поддержке РФФИ, грант 99-01-00079.

Литература

1. Фурсов В.А. Метод проекций на нуль-пространство в проблеме распознавания образов по малому числу наблюдений // Тр. Всероссийской конференции "Математические методы распознавания образов" (ММРО-9). Москва, 15-19 ноября, 1999 г. С. 119-121.

2. Vladimir A. Fursov. Training in Pattern Recognition from a small number of observations using projections onto null-space // Prog 15th International Conference on Pattern recognition (ISPR) 2000. V. 2/ Р. 789-792.

3. Фурсов В.А. Шустов В.А. Формирование признакового пространства по критерию сопряженности векторов измерений// Компьютерная оптика. № 20. С. 140-142.

4. Дуда Р., Харт П. Распознавание образов и анализ сцен. Пер с англ. М., Мир. 1976. 512 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.