2011
УДК 519.711.3
Доклады БГУИР
№4 (58)
О РЕАЛИЗАЦИИ РАСПОЗНАВАТЕЛЯ С МИНИМАЛЬНЫМ ЧИСЛОМ
ВХОДОВ
О.В. ГЕРМАН, Н.Л. БОБРОВА, АР. САМКО
Белорусский государственный университет информатики и радиоэлектроники П. Бровки, 6, Минск, 220013, Беларусь
Поступила в редакцию 14 февраля 2011
Дан наиболее удобный, в практическом отношении, вариант в задачах распознавания с большим количеством входных признаков при взаимной независимости, где коэффициенты распознающей (дискриминаторной) функции могут быть получены через решение системы линейных неравенств, либо на основе методологии МГУА, либо обучением нейрораспозна-вателя. Для получения системы взаимно независимых входных признаков используется основная идея факторного анализа.
Ключевые слова: нейрораспознаватель, соотношение Хотеллинга, нормированное значение, соотношение Тэрстоуна, дискриминаторная функция, древовидная структура, метод обучения персептрона, процедура обратного распространения ошибки.
Введение
Одна из основных задач реализации нейрораспределителя состоит в его обучении. При большом числе входов (измеряемом десятками) и их взаимозависимости обучение распознавателя становится крайне сложным и трудоемким процессом.
Наиболее удобный в практическом отношении вариант получаем при взаимной независимости входных признаков, так что коэффициенты распознающей (дискриминаторной) функции могут быть получены относительно легко через решение системы линейных неравенств [1], либо на основе методологии МГУА [2], либо обучением (нейро)распознавателя [3].
Для получения системы взаимно независимых входных признаков и значительного, в общем случае, сокращения их числа вполне можно использовать основную идею факторного анализа, определяемую соотношением Хотеллинга [4]:
ZJ = + ау 2 ^ +...+ а^т , (1)
у = 1,...,п;т << п.
Здесь X] - нормированное значение у-го входного признака; ¥т - вводимые в рассмотре-
ние независимые факторы; аук (к = 1,т) - весовые коэффициенты факторов (нагрузки).
Наша задача в этой работе - показать, как, отправляясь от (1), получить (ней-ро)распознаватель с небольшим числом взаимно независимых входов и как адаптировать механизм распознавания в этом случае. Следует отметить важность этой задачи для практики. Во-первых, при небольшом числе входов обучение нейрораспознавателя становится относительно простым, например, на основе процедуры обратного распространения ошибки. Во-вторых, при независимости входов друг от друга принципиально можно добиться линейной распознающей функции или, во всяком случае, исключить в представлении функции комбинации, включающие попарные произведения входных признаков или их степеней.
Формализация
Рассматриваем входную таблицу (двумерную матрицу) входов Х=[ху], у = 1, п, i = 1, k (п - число признаков; к - число объектов). Один дополнительный (п+1)-й признак (который обозначим У) играет роль диагностического (например, в простейшем случае трактуемый как «норма/отклонение», «пригоден/непригоден», «Да/Нет» и т.п.). Пронормируем значения Ху, перейдя к
7 _ _
У ~
а.
(2)
где Ху - среднее значение у- го входного признака; оу - его среднеквадратичное отклонение. Пусть Z=[Zy] - таблица нормированных входных признаков. Замечание. Признак У не нормируем; в таблице Z он не присутствует. В отличие от (1) будем использовать разложение
Z = F ■ А, где
(3)
211212 • ■г!п ~а11а12 • •а1п /11/12 ■ • /1п
2 = г21г22 • , А = ■а2п , F = /21/22 ■ • /2п
_ Zк1Zк 2 • ••2кп _ _ак1ак2 • ■■акп _ _/и/к2 ■ •■/кп _
В описываемом здесь подходе к построению нейрораспознавателя Z заменяется на F, причем /-строке в Z соответствует /-строка в F и наоборот. При этом в соответствии с положениями факторного анализа число факторов т значительно меньше п, например, т«(0,1^0,25)п). Матрица А является «фиксированной»: при обученном нейрораспознавателе эта матрица не изменяется и играет роль связки между Z и F, позволяя для каждого нового образца < zt1, zt 2,..., ztn > легко находить соответствующий набор факторов < /л, /п,..., , > . Далее имеем
12т ■ 2 =1ATFT ■ F ■ А.
Произведение —Рт ■ F суть корреляционная матрица независимых факторов, а посколь-
п
1 т
ку факторы взаимно независимы, то—F ■ F = Е (Е - единичная диагональная матрица).
п
Аналогично А.2т ■ 2 дает нам корреляционную матрицу входных признаков - Яг.
Получаем известное соотношение Тэрстоуна
Я = Ат ■ А .
(4)
Отыскание матрицы А можно найти в [4]. В общем случае эта матрица не единственная, т.е. из (4) можно получить сколь угодно много решений. Для того, чтобы решение было единственным, применяют процедуру «вращения» пространства признаков. Более подробно об этом можно читать в [4].
Зная А, из (3) получим
2 ■ Ат = F ■ (А ■ Ат ), 2 ■ Ат ■ (А ■ Ат Г1 = F.
п
п
Соотношение (5) по Z и А позволяет найти F. Нетрудно убедиться, что для каждого нового образца <zt1,zt2,...,zn,> из (5) находим вектор-строку <fíl,/2,...,/п,> только по одной вектор-строке zt.
Итак, мы достигли следующего. Вместо входной матрицы Х мы имеем таблицу
^ ,У) =
/11/12 ■■■ У1 /21/22 ■■■ .А2т У2
/к1/к 2 ■ /кт
У.
(6)
где значения диагностического признака У определяются в общем случае существенно меньшим числом независимых факторов.
Таблица (6) используется как обучающая для определения дискриминаторной функции, которая в простейшем случае имеет линейный вид
ф(^,...,^) = а • /1 +а2 • У2 +... + ат • /т.
(7)
Следует также иметь в виду, что минимизация числа признаков в факторном анализе достигается не только тем, что отбрасываются зависимые признаки, но и тем, что оставляют лишь те признаки, которые в совокупности позволяют восстановить исходную таблицу наблюдений с приемлемой в статистическом смысле точностью.
Определение структуры распознавателя
Распознаватель с древовидной структурой [1] может быть представлен в общем виде, как показано на рис. 1.
Рис. 1. Распознаватель с древовидной структурой В узлах дерева находятся линейные неравенства вида ^ ц/ 30, где - весовые коэф-
I
фициенты при факторах/ (/ = 1, п). Вход в дерево осуществляется через его корневую вершину. Проверяется выполнение неравенства у^/ + у^/2 +... ут• /т > 0.
Если неравенство выполняется, то осуществляется переход по ребру «Да», показанный на рис. 1, если не выполняется, то переходим по ребру «Нет». В следующей вершине проверяется следующее неравенство и т.д., пока не доберемся к листовой вершине, например, х^/1 + х2-/2 +... хт• /т > 0. Теперь уже по выполнимости/невыполнимости этого неравенства на данном входном образце </1,/2,...,/т > получаем заключение о принадлежности входного объекта к классу 1 или классу 2. Проблема построения древовидного распознавания кратчайшей длины остается актуальной.
По таблице (6) строим систему неравенств с неравенствами вида
Л- С1 + / 2 • С2 + ... + /т • ст > 0 ,
если признак У/ соответствует набору </л,/п,...,/п,> класса 1, и
/1 С1 + /г 2 ^ С2 + ... + /гт • Ст < 0,
если признак У/, (г=1,...,к) соответствует классу 2. Здесь Сг - неизвестные коэффициенты, которые необходимо найти. В [1, 5] описана стратегия решения системы линейных неравенств на основе устранения невязок (СУН). В этой стратегии все неравенства предварительно приводятся к виду «>» и последовательно устраняются невязки. Невязкой считается неравенство вида
/, + /п+... + / •d > d
^ г1 1 Л г 2 2 Л гт т т+1 >
(8)
где dm+1>0. Пусть, например,/п>0. Тогда строится подстановка с новой переменной d1 > 0:
± = ^
_ d2 ■ /г 2 /г1 /г1
/. d
^ т т
/1
+ d1.
(9)
Подстановка (9) проводится в текущую систему неравенств. Получаем новую систему. Если невязок нет, то такая система выполняется для нулевых значений переменных. В противном случае находим очередную невязку, выражаем из нее переменную с положительным коэффициентом и т.д. Если в неравенстве-невязке все коэффициенты при переменных отрицательны, то при условии неотрицательности переменных (что обеспечивается стратегией СУН) делаем вывод о несовместимости системы. В описываемом подходе подобная невязка «исключается» из текущей системы неравенств и процесс ведется далее (с возможными последующими исключениями невязок из системы) до описанного решения.
Итак, после получения системы без невязок найдем коэффициенты с1, с2,..., ст и получим неравенство для корневой вершины дерева:
С1\/1 + С2/2 + ... С т Х >
(10)
Если это неравенство выполняется на данном входе < /1,/2,...,/т > , то вход относим к классу 1, в противном случае - к классу 2. Однако в силу того, что при выполнении СУН могли оказаться некоторые неравенства-невязки, следует проверить, для каких из этих неравенств принимается ложное решение: подставляем в (10) значения /1,/2,...,/т соответствующей строки таблицы (6).
Таким образом, в общем случае следует искать новые разложения неравенства для второго уровня распознавателя на рис. 1,а, возможно и на более глубоких уровнях. На каждом очередном уровне число неравенств, участвующих в записи системы, последовательно сокращается. В идеале, разумеется, достаточно только одного единственного неравенства для работы распознавателя. В худшем случае - к (к - число строк в таблице 6). Все определяется тем, как «перемешаны» точки относительно класса 1 и 2 в п-мерном пространстве. Например, можно показать, что при перемешивании типа «локализованного выступа» (рис. 2) достаточно «в среднем случае» 4 неравенства. Наиболее плохой вариант полного перемешивания (рис. 3) потребовал в экспериментах около 0,3 ■ к неравенств.
. Класс 2
Рис. 2. Перемешивание типа «локализованного выступа»
^ - + + "
+ +■
+ . + +
Рис. 3. Вариант полного перемешивания
Оценка сложности древовидного распознавателя
Имеется бесчисленное множество взаимного расположения двух множеств точек. Начнем рассмотрение со случая, представленного на рис. 4.
4
4
+ •
« *
Рис. 4. Вариант расположения множеств
Здесь точки одного множества представлены кружками, а второго - крестиками. Особенность такого расположения в том, что точки обоих множеств расположены компактно, без перемежения. Вместе с тем, разделить такие множества точек с помощью линейной дискрими-наторной функции нельзя. Такой функции просто нет, так как она в силу построения точек должна была быть неоднозначной. Обозначим через р - плотность точек рассматриваемого (внутреннего) множества, т.е. число точек, приходящееся на единицу площади (например, мм2); N - число точек множества.
Сначала будем считать, что точки внутреннего множества можно заключить в круг, не содержащий точек внешнего множества (рис. 5,а).
а б
Рис. 5. Систематизация расположения множеств
Тогда число неравенств Z, требуемых для классификации, можно оценить исходя из числа сторон внешнего (минимального по числу сторон) многоугольника, описанного вокруг этого круга и такого, что в области, принадлежащие многограннику и не принадлежащие кругу (закрашены серым цветом на рис. 5,б), не попадает ни одна из точек внешнего множества.
Площадь внутреннего круга примерно равна
^=N
(11)
р
Обозначив радиус окружности, ограничивающей круг, через г, получим
2 N л-г =--> г
р V
N (.2)
л-р
Площадь правильного многоугольника с п сторонами, описанного вокруг окружности радиусом г, составляет
л
SMN = л-г2 -tg- (13)
п
Теперь требуемое минимальное число неравенств можно оценить как Z = п при условии
Р- ^ - Sin ) < 1. (14)
Имеем из (14)
/ 2 ж л 2. л 1Ч N . л 1Ч
р-(лг -tg — лг ) = р-лг (tg—1) = р-л--(tg — 1)< 1.
п п л-р п
Итак, получаем следующее результирующее соотношение:
- л
N - -1) < 1. (15)
п
Это соотношение при больших N можно упростить до
л
tg- < 1 (16)
п
Это соотношение начинает выполняться при п = 5, а при п = 4 имеем пороговое значение. Замечательным является тот факт, что число неравенств не зависит ни от плотности, ни от числа точек при выполнении рассмотренных допущений. Поскольку эллипс является растяжением круга и описывающего его многоугольника, то соотношение (6) сохраняет свою силу, ибо площади при растяжении не изменяются. Итак, число неравенств для локализации вложенных множеств без перемешивания точек оценивается величиной в пределах десятка независимо ни от плотности, ни от числа точек. Рассмотренные случаи дают нам убедительные примеры тех ситуаций, когда преимущества классифицирующего дерева проявляются в полную силу.
Заключение
Итак, описываемый подход реализации включает следующие шаги. Определяем таблицу типа (6) для исходной таблицы Х, причем число независимых факторов составляет порядка 0,1-0,25 от исходного числа признаков, что существенно важно в задачах распознавания с большим (десятки, сотни) числом признаков. Каждый новый входной экземпляр <х1,х2,...,хп > с помощью (5) переводится в </1,У2,...,^ > и набор </1,У2,...,^ > подается на распознаватель. Размер матрицы А после обучения не растет и остается фиксированным. Построение дис-криминаторной функции на F значительно проще и может строиться, например, методом обучения персептрона на основе процедуры обратного распространения ошибки. Представленный в статье древовидный распознаватель дает отличные результаты при объеме области перемешивания двух множеств порядка 20-30% (от объема исходного множества).
ABOUT REALIZATION OF DISCERNDER WITH MINIMUM NUMBER OF
ENTRANCES
O.V. GERMAN, N.L. BOBROVA, A.R. SAMKO
Abstract
The most comfortable in a practical relation variant is given at mutual independence of entrance signs, where the coefficients of recognizing (by a discriminator) function can be got through the decision of set of linear inequalities, or on the basis of methodology of MGUA. For the receipt of the system of mutually independent entrance signs we use the basic idea of factor analysis.
Литература
1. Герман О.В., Дорожкина Н.Н. Теория информационных процессов и систем. Мн., 2007.
2. Ивахненко А.Г., Юрачковский О.П. Моделирование сложных систем по экспериментальным данным. М., 1987.
3. Галушкин А.И. Теория нейронных сетей. М., 2000.
4. Иберла К. Факторный анализ. М., 1980.
5. Герман О.В., Дорожкина Н.Н. //Вестник Ставропольского университета. 1999. В. 20. С. 85-99.