Вычислительные технологии
Том 8, № 6, 2003
О НЕКОТОРЫХ СПОСОБАХ ПОВЫШЕНИЯ ПРОЗРАЧНОСТИ НЕЙРОННЫХ СЕТЕЙ
Н.А. Игнатьев, Ш. Ф. Млдрлхимов Национальный университет Узбекистана, Ташкент e-mail: [email protected]
The measure of a structural variety of the neural network representing noncrossing classes of objects is introduced. A method of selection of the sets of information with various types of attributes, based on a calculation of the contribution of each attribute to the division of objects of different classes, is described.
Введение
Вопросы оценивания точности решения задач с помощью нейронных сетей (НС) без особых оговорок можно отнести к числу приоритетных. Классический способ разделения выборки на обучающую и контрольную для оценивания точности подвергался вполне обоснованному сомнению в работе [1], где особо отмечалось, что при синтезе НС с минимальной конфигурацией через решение задачи минимального покрытия обучающей выборки объектами-эталонами необходимо использование новых, нетрадиционных способов определения возможных (вероятных) ошибок на данных, которые НС не видела при обучении.
Как правило, для принятия решения НС о принадлежности допустимых объектов к непересекающимся классам в задачах распознавания с “учителем"используется принцип “победитель забирает все". Анализ роли отдельных нейронов сети в выявлении (становлении) “победителей"позволяет сделать этот процесс достаточно прозрачным. С этой целью для каждого класса объектов с описаниями в разнотипном признаковом пространстве вычисляется значение устойчивости, которое может рассматриваться как некоторый аналог такой известной характеристики качества классификации, как чувствительность [2]. Эта новая характеристика выражается в усредненной оценке снижения качества распознавания при потере одного нейрона (эталона), определяющего конкретный класс объектов. Предлагается метод отбора информативных наборов разнотипных признаков, основное назначение которого — повышение эффективности и объяснение процесса решения задач распознавания с “учителем"при реализации НС.
1. Вычисление устойчивости покрытия классов объектами-эталонами обучающей выборки
Устойчивость объектов и классов, определяемая в [3], вводилась как мера структурного разнообразия классифицированных выборок объектов при использовании различных мет© Институт вычислительных технологий Сибирского отделения Российской академии наук, 2003.
рик в качестве меры близости между объектами. Так как для объектов с описаниями в разнотипном признаковом пространстве метрики в качестве меры близости неприменимы, устойчивость классов рассматривается на локально-оптимальных покрытиях (ЛОП) обучающей выборки объектами-эталонами. Подробное описание процесса синтеза НС с минимальной конфигурацией в форме решения задачи о минимальном покрытии дается в [4]. Для вычисления устойчивости классов предлагается использовать число некорректно распознанных объектов обучающей выборки, получаемое при последовательном удалении каждого объекта-эталона из ЛОП по методу “скользящего экзамена".
Пусть задано множество объектов обучения Е0 = Бт}, содержащее представите-
лей / непересекающихся классов К\,..., К с описанием объектов в разнотипном признаковом пространстве посредством множества количественных I и номинальных 3 признаков,
I I I + I 3 1= п.
Обозначим через П? = {51,..., 5*}, £ > /, множество объектов-эталонов ЛОП из Е0, ] = 1, 2,..., полученное по результатам работы алгоритма, реализующего метод, описанный в [4]. Отличные друг от друга ЛОП являются результатом применения различных схем предъявления объектов-кандидатов на удаление из обучающей выборки процедурой “последовательное исключение".
Для распознавания принадлежности произвольного допустимого объекта Б = {61,..., Ьп} по П? к классам К1,..., Кг используем ту же формулу, что ив [4]:
<^(Б, Бг) = ^ ЫгА + ^ + ^го, (1)
где wri — “веса” нейрона сети, определяемого объектом-эталоном Бг = {хг1 , ...,хгп},г £ {1,...,£}. Корректность распознавания объектов обучающей выборки по (1) следует из самого процесса построения ЛОП объектами-эталонами на Е0. Для каждого непересека-ющегося класса К из Е0 и покрытия П? определим меру их структурного разнообразия через вычисление значение устойчивости Yjd = 7.? (К).
Положим, что Р.д — число некорректно распознанных объектов обучающей выборки из класса Kd при удалении объекта Бг (Бг £ Kd П П?) по методу “скользящего экзамена". Значение устойчивости покрытия П? в классе Kd, d = 1,/, вычисляется как
md - ^2 Р?г
й1еКлПП,
7jd = = ,
mjd
где md, т]2 — соответственно количество объектов в классе Kd и число объектов покрытия
П? из класса Kd. Очевидно, что наиболее устойчивое покрытие класса Kd достигается
при тах Yjd, а значимость Бг £ П? при сравнении его с другими объектами покрытия П? (П,}
определяется величиной Pji.
Анализ применения операции пересечения к различным ЛОП обучающей выборки объектами-эталонами показывает, что множество, получаемое при этом, либо является пустым, либо содержит изолированные (аномальные) нейроны (эталонные объекты) с низкой значимостью. Теоретический и практический интерес представляет оценка качества работы НС при удалении из ЛОП более чем одного эталона.
2. Отбор информативных наборов разнотипных признаков
Совмещение процесса отбора информативных наборов количественных признаков и син-
П
теза НС описано в [1]. Введение ограничений у = 1, уі > 0, на веса признаков в метрике
і=1
р(а, Ь) = */Е Уі2(аі — Ьі)2 позволило проводить направленный отбор информативных при-
п
2 г
г=1
знаков, не прибегая к полному перебору.
Процесс отбора информативных наборов разнотипных признаков при классификации с “учителем", как правило, связан с решением таких проблем, как:
а) преобразование признаков к единому типу шкал измерений с минимальной потерей исходной информации либо задание системы окрестностей объектов по множеству количественных признаков;
б) выбор меры близости между объектами и критерия отбора.
Вычисление оптимальных значений е-порогов, определяющих окрестности допустимых объектов по каждому количественному признаку, использовалось для реализации критерия отбора в [3]. Строились два числовых вектора С = (с1,...,с*) и О = (д1,...,д*), т(т — 1)
£ =-----2----, где с равен абсолютной разности значений количественного признака меж-
{1, d = г,
Производилась перестановка
— 1, d = г.
значений элементов с, с? £ С и gi,gj £ О так, чтобы в итоге вектор С представлял упорядоченную по убыванию последовательность чисел. Оптимальный е-порог определялся
р
значением элемента ср £ С, для которого ^ gi = тах. При больших наборах данных (500
i=1
объектов и более) такой способ вычисления окрестностей объектов для последующего отбора информативных признаков практически неприемлем.
Далее будем считать, что {п}т — множество значений количественного признака д £ I объектов из Е0, А = (а0,...,аг) — целочисленный вектор, значения элементов которого удовлетворяют условиям а0 = 0, щ = т, аг < аг+1, г = 1, / — 1. Пусть
% , ,..., Пт (2)
— упорядоченная последовательность {^}т и и1,..., «1,..., м1,..., « — набор целых чисел, в котором мр является количеством значений д-признака объектов класса Кр в (2) с порядковыми номерами от а4-1 + 1 до а*.
Очевидно, что наилучшая разделимость классов, получаемая при переводе к номинальной шкале измерений, будет тогда, когда значения номинального признака одинаковы внутри каждого класса и не совпадают ни с одним значением из других классов, а число градаций признака равно числу классов.
Все значения количественного признака д £ I в (2) с номерами от а4-1 до а*, £ = 1,/, согласно критерию
II \ / I
ЕЕ(«Р — 1)«Р Е I К | (т—| к |)
р=1 i=1 / \i=1 / • /0\
--------------------------------г-------------------------> тт (3)
гг г \ / г \ {А}
Е Е«Р(т— | Ki I — Е «р + «р ЖЕ I Ki | (| К | —1)
,р=1 i= 1 ?=1 / \^=1
считаются эквивалентными в номинальной шкале измерений.
Положим, что (wfc}П — синаптические веса n признаков, полученные как произведение величин внутриклассового сходства и межклассового различия так же, как и в [4], а множество количественных признаков I = 0. В частном случае I = 0 может быть результатом преобразования по (3) количественных признаков в номинальные. Для отбора информативных разнотипных признаков используем критерий, определяемый на множестве комбинаций наборов признаков H(r) = (£i, ...,£r), 2 < r < n, с помощью (1) как
’5г)’/г = f
Ф(г) = _ (С Q\ f Uf ^ max’ (4)
r \j=i -a^(SjЛ), )
где /i, /j — номера классов объектов Si, Sj; a — параметр сглаживания объекта Si, вычисляемый по формуле
a = I K, | (| КЛ | -1)
ai
(т- 1 |)(т- 1 1 -1)’
С учетом линейной формы (1) и наличия пропусков в данных критерий (4) примет вид
Ф(г) = 1
r
^ m Г wp> fi /j и xip xjp ^
^ ^ ^ ^ ^ ^ \ eipwp; fi = /j и xip xjp)
рея(r) i=1 ^ip + gip j=i,Xip=@,Xjp=@ I 0 x x
ip jp
max, (5)
д дгр(дгр 1) - „ ^
где в™ = ------ , др, др — число значений р-го признака без пропусков соответственно
дгр(дгр 1)
класса с номером / и всех остальных; @ — код пропуска.
Вклад признака р € Н(г) в (5) обозначим через
{^р) ^ У,; ) хр Х^'р >
— Др^р, /г = /;, хр х;р,
0 г- = г •
^ л-^р ~г~ х;р*
В более удобной форме вычисление значения Ар запишется так:
I Мр I Мр _____
Е Е 4; (гр - 1) Е Е 4; 4;
, i=1;=1 i=1;=1 , ч
Ар = “------------------------------------1-— ’ (6)
Е др(др 1) Е дрдр
i=1 i=1
где гр;, гр; — количество значений ^'-й градации р-го признака соответственно класса К и его дополнения СК = ир — число градаций р-го признака.
Упорядочим множество {Ар}П в порядке убывания значений. Для получения информативного набора из £ признаков достаточно выбрать первые по порядку убывания £ показателей. Одной из целей исключения малоинформативных признаков из набора является повышение значимости нейронов сети. Порядок следования признаков по величине вклада (6) может быть востребован при построении информационных моделей различных прикладных задач.
Для решения проблемы разномасштабности измерений количественных признаков предлагается использовать значения весов и>р € {^^р € I, вычисляемых с помощью (3), в метрике
Эта метрика может быть использована в методе линейных оболочек [1] для построения минимальной конфигурации нейронной сети.
3. Вычислительный эксперимент
Для вычислительного эксперимента были взяты медицинские данные из [5], содержащие описания 161 объекта с помощью 29 количественных признаков. Объекты выборки разделены на два непересекающихся класса: 1-й класс — контрольная группа (111 человек), 2-й класс — больные нефритом (50 человек). Перечень признаков, упорядоченных по мере увеличения их вклада (6) в разделение объектов классов, выглядел следующим образом:
— рост;
— вес;
— степень укорочения переднезаднего размера левого желудочка в систолу;
— фракция выброса;
— систолический показатель;
— возраст;
— длительность интервала PQ на ЭКГ;
— коэффициент К1;
— удельное периферическое сопротивление;
— минутный объем;
— длительность интервала QRS на ЭКГ;
— длительность диастолы;
— сердечный индекс;
— частота пульса;
— длительность интервала RR на ЭКГ;
— длительность систолы;
— длительность интервала QT на ЭКГ;
— коэффициент К2;
— конечный систолический размер левого желудочка;
— пульсовое артериальное давление;
— конечный систолический объем левого желудочка;
— ударный объем;
— индекс Кердо;
— конечный диастолический размер левого желудочка;
— конечный диастолический объем левого желудочка;
— систолическое артериальное давление;
— диастолическое артериальное давление;
— среднее артериальное давление;
(7)
где Б (Ь1) Ьп) ) (аг1) ат) ) ^р
— размер полости левого предсердия.
Рассматривались два варианта получения множества покрытий. Для формирования множества покрытий по первому варианту использовались схемы с выбором индексов объектов — кандидатов на исключение из покрытия по модулю к. Например, при к = 2 последовательность индексов была такой: 2,4,6,...,160,1, 3, 5,...,161,... Вычисление весовых
1 п
коэффициентов в (1) производилось так: шгг = хгг, шг0 = — ад^.
г=1
В таблице приведены результаты анализа структуры множества из ста полученных покрытий с тремя наиболее высокими и низкими показателями значений устойчивости классов. В скобках указано общее количество некорректно распознанных объектов при последовательном удалении эталонов класса из покрытия по методу “скользящего экзамена".
Пять объектов выборки (два из первого класса и три из второго) присутствовали в каждом из ста покрытий, что косвенным образом указывает на их аномальность. Исходя из количественных соотношений объектов первого (контрольная группа) и второго (больные нефритом) классов можно сделать вывод, что неоднородность представления данных во втором классе выше, чем в первом.
Принцип выбора объектов — кандидатов на удаление из покрытия при реализации второго варианта был такой же, как и в первом. Дополнительно для проведения экспериментов использовались различные наборы признаков {Z}, получаемые последовательным уда-
Покрытие 1-го класса Устойчивость 1-го класса Покрытие 2-го класса Устойчивость 2-го класса
9(14) 10.77 8(9) 5.12
8(16) 11.87 9(12) 4.22
10(12) 9.90 8(9) 5.12
14(16) 6.78 13(16) 2.61
14(18) 6.64 11(18) 2.90
13(17) 7.23 12(17) 2.75
Результаты экспериментов на 26 наборах признаков.
лением самых малоинформативных из них, начиная с первого (возраст). Метрика (7) служила основой для вычисления весовых коэффициентов в (1) 'Шгі = ХгіУ2, и’гО =---
гЄZ
по определяемому набору признаков Z, 2 <| Z |< п.
Аналогично [1] оценка сложности решающей функции определялась как произведение
количества объектов Р покрытия выборки на размерность признакового пространства
Т
| Z |. Для сравнительного анализа покрытий использовалось значение К = —:------ , где
Р 1 Z 1
7 — усредненное значение устойчивости двух классов.
Результаты экспериментов на 26 наборах признаков с выбором наиболее высоких и низких показателей К на каждом из них приведены в виде диаграммы на рисунке (по оси абсцисс — число т удаленных признаков, по оси ординат — значение К).
Список литературы
[1] Игнатьев Н.А. Выбор минимальной конфигурации нейронных сетей // Вычисл. технологии. 2001. Т. 6, № 1. С. 23-28.
[2] Прикладная статистика: Классификация и снижение размерности: Справочное издание / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин. М.: Финансы и статистика, 1989.
[3] Игнатьев Н.А. Размытая классификация объектов с учетом локальности // Вопр. вычисл. и прикл. математики. Ташкент. 1990. № 90. С 34-39.
[4] Игнатьев Н.А. К вопросу построения эффективных нейронных сетей для данных, описываемых разнотипными признаками // Вычисл. технологии. 2001. Т. 6, № 5. С. 34-38.
[5] Knowledge Discovering from Clinical Data Based on Classification Tasks Solving / N.A. Ignat’ev, F.T. Adilova, G.R. Matlatipov, P.P. Chernysh // MediNFO. Amsterdam: IOS Press. 2001. P. 1354-1358.
Поступила в редакцию 10 февраля 2003 г.