УДК 004.93 С.А. СУББОТИН
КОМПЛЕКС ХАРАКТЕРИСТИК И КРИТЕРИЕВ СРАВНЕНИЯ ОБУЧАЮЩИХ ВЫБОРОК ДЛЯ РЕШЕНИЯ ЗАДАЧ ДИАГНОСТИКИ
И РАСПОЗНАВАНИЯ ОБРАЗОВ___________________________________
Abstract. The actual problem of criteria set development for evaluating the training sample quality in the problems of diagnostics and pattern recognition on the features is solved in the paper. The experiments were conducted for the study of implementation of proposed criteria in practical problems solving. It confirms the practical usefulness of the developed criteria and software.
Key words: training set, training set quality, pattern recognition, diagnostics.
Анотація. Вирішено актуальне завдання розроблення комплексу критеріїв для оцінювання якості навчальних вибірок у задачах діагностики та розпізнавання образів за ознаками. Проведено експерименти з дослідження програмної реалізації запропонованих критеріїв при вирішенні практичних завдань, що підтвердили практичну корисність розробленого математичного забезпечення.
Ключові слова: навчальна вибірка, якість навчальної вибірки, розпізнавання образів, діагностика.
Аннотация. Решена актуальная задача разработки комплекса критериев для оценивания качества обучающих выборок в задачах диагностики и распознавания образов по признакам. Проведены эксперименты по исследованию программной реализации предложенных критериев при решении практических задач, подтвердившие практическую полезность разработанного математического обеспечения.
Ключевые слова: обучающая выборка, качество обучающей выборки, распознавание образов, диагностика
Автоматизация процессов принятия решений в задачах диагностики и распознавания образов, как правило, предполагает необходимость решения задачи построения модели зависимости принимаемого решения от наблюдаемых переменных по прецедентам.
Для решения данной задачи применяют широкий арсенал методов математической статистики и вычислительного интеллекта, в частности, искусственные нейронные сети, нечеткие системы, деревья решений, методы распознавания образов, кластер-анализ [1-3].
Однако, несмотря на различия в обработке данных и структуре моделей, присущие разным методам, общим для них является использование обучающей выборки наблюдений для структурно-параметрической идентификации модели принятия решений.
При этом возникают две задачи:
- задача выбора метода, способного решить задачу наилучшим образом при наименьших затратах машинных и человеческих ресурсов;
- задача формирования такой выборки из имеющегося набора наблюдений, которая позволила бы синтезировать модель принятия решений наилучшим образом при наименьших затратах ресурсов.
Целью данной работы является создание комплекса критериев, характеризующих обучающую выборку с различных сторон и отражающих наиболее важные для моделирования свойства выборки. Это позволит обеспечить решение поставленных задач, а также существенным образом автоматизировать выбор метода построения модели из имеющихся в наборе и выбор экземпляров для включения в обучающую выборку.
2. Постановка задачи и анализ литературы
Пусть мы имеем обучающую выборку < x,у > , состоящую из экземпляров x = , 5 = 1,2,..., S,
характеризующихся набором значений признаков x5 = , i = 1,2,...,N , которым сопоставлены
1. Введение
© Субботин С.А., 2010
ISSN 1028-9763. Математичні машини і системи, 2010, № 1
значения выходного признака у = где 5 - номер экземпляра выборки, N - количество
описательных (входных) признаков, характеризующих экземпляры выборки, £ - количество экземпляров в выборке. Для задач классификации обозначим число классов К.
Необходимо разработать комплекс критериев, отражающих наиболее важные свойства выборки для решения задач диагностики и распознавания образов.
Важнейшими свойствами выборки для решения задач распознавания образов являются [4-6]:
- репрезентативность - характеризует представительность выборки по отношению к генеральной совокупности (на практике данное свойство при неизвестных характеристиках генеральной совокупности обеспечивается достаточностью объема и полнотой выборки);
- полнота выборки определяется обеспеченностью классов экземплярами;
- размерность - характеризует, с одной стороны, пространственную сложность выборки, а с другой - минимальное количество операций обработки выборки;
- противоречивость - характеризует количество одинаковых объектов выборки, принадлежащих к разным классам;
- равномерность - показывает, насколько равномерно распределены экземпляры выборки по классам;
- компактность расположения классов в пространстве признаков - отражает простоту решения задачи распознавания (чем компактнее расположены экземпляры каждого класса, тем проще построить распознающую модель);
- сложность - характеризует затраты ресурсов памяти (пространственная сложность) и вычислительных ресурсов (вычислительная сложность) для обработки выборки.
Для некоторых из данных свойств ранее были предложены численные критерии, характеризующие их [4-7]. Однако известные критерии не отражают всей полноты свойств обучающих выборок, а также применимы не для всех задач (например, применимы только для задач с вещественной выходной переменной [6,7]).
Поэтому представляется целесообразным проанализировать и доработать известные критерии, а также разработать новые характеристики для формирования комплекса показателей, способного охарактеризовать важнейшие свойства выборки.
3. Критерии сравнения и характеристики обучающей выборки
Будем характеризовать свойства обучающей выборки < х, у > с помощью следующего набора характеристик.
Размерность выборки определим как Бш = N8 .
Данный показатель может изменяться от 1 до некоторой константы, поскольку число признаков и число экземпляров в обучающей выборке должны быть конечны. Тем не менее, для формирования обобщенного критерия данный критерий оказывается неудобным из-за плавающей верхней границы. Для устранения данного недостатка будем использовать относительную размерность выборки.
Относительную размерность выборки определим как Бг = 1 - ехр(- 1п(Бш)).
Величина Бт будет принимать значения в диапазоне [0,1] . При этом она будет
чувствительной к малым размерностям, что практически очень полезно и удобно для сравнения различных выборок, в том числе для автоматизации процесса формирования выборки на основе интегрального критерия качества.
Некоторые из рассматриваемых далее критериев требуют задания выходной переменной как номера класса. Поэтому в задачах оценивания, где выходная переменная является вещественной, применение данных критериев предполагает выделение псевдоклассов, для чего можно использовать разбиение диапазона значений выходной переменной на равномерные интервалы:
Косвенно полноту и равномерность выборки предлагается характеризовать такими показателями, как
- оценка априорной вероятности (частоты) q -го класса по выборке:
где 5е1 - количество экземпляров выборки, принадлежащих q-му классу, К - количество классов, выделяемое в данной задаче;
- минимальная частота класса в выборке:
Данная величина будет изменяться в диапазоне от нуля (если классы имеют одинаковые частоты) до некоторой положительной константы (если классы имеют неодинаковые частоты). Причем она будет тем больше, чем выше неравномерность частот классов;
- инверсное нормированное среднее отклонение частоты класса по выборке:
Данная величина будет изменяться в диапазоне от нуля (если классы имеют неодинаковые частоты) до единицы (если классы имеют одинаковые частоты). Причем она будет тем меньше, чем выше неравномерность частот классов.
Для оценки неравномерности обучающей выборки в [4] используется показатель
ys = round 1 +---------------------------
max
p=1,2,...,S
{УР }(round (ln S) -1)
V
J
где round (a) - функция округления.
sq
p( y=q )=s. q = i, 2, к,
- среднее отклонение частоты класса по выборке:
2
V
J
К Г
I
д=1
1 К |
К ^
К к=1
Его недостатком является то, что данный показатель имеет подвижную верхнюю границу в области значений. Выполнив нормирование, получим относительную характеристику неравномерности обучающей выборки:
1
К к=1 у
Полученный показатель будет принимать значения в диапазоне от 0 до 1: чем меньше будет его значение, тем более равномерным будет распределение экземпляров выборки по классам.
Соответственно определим характеристику относительной равномерности обучающей
выборки как Ыг = 1 - Rg .
Полученный показатель будет принимать значения в диапазоне от 0 до 1 : чем больше будет его значение, тем более равномерным будет распределение экземпляров выборки по классам.
Равномерность распределения экземпляров выборки по оси значений г -го признака определим как
V ^ 4-1 "
1 х
Куг = -1 юй
1 о і—і гі х g=1
1°>, (*' , g )| , 1Щг (*' , g )> 0
5=1 у 5=1
х / \
° 1щг (Х5 , g )= °
5=1
1, (g -1) £
« - т.іп РгР ))х
тах (хр ) - тіп (хр )
р=1, 2, ..., X р=1, 2, ..., X
£ g,
либо
щ, (х5, g) = *
(
, в противном случае
1
ехр
0, в противном случае.
-іх:- <2g -1)[ р тах , (х,р) - р.тіп ,(х')
2 Л (х5 - тіп (х5))X
/ Л\ ^ 5=1, 2, ..., X
(g -1) £--------------ГГГ----------------------------:-£ g,
тах ( хг ) - тіп ( хг )
5=1, 2, ..., X г 5=1, 2, ..., X 1
Чем ближе значение Еу, к единице, тем равномернее распределены экземпляры по оси значений г -го признака. В свою очередь, чем ближе значение Еу, к нулю, тем менее равномерно
распределены экземпляры по оси значений г -го признака.
Неравномерность распределения экземпляров выборки по оси значений г -го признака:
ЫЕу = 1 - Еу .
2
Чем ближе значение ЫЕу( к единице, тем менее равномерно распределены экземпляры по оси значений г -го признака. В свою очередь, чем ближе значение ЫЕу( к нулю, тем равномернее
распределены экземпляры по оси значений г -го признака.
Равномерность покрытия экземплярами выборки признакового пространства определим как
N
1 N
Еу = — У Еу . N1=1 г
Чем ближе значение Еу к единице, тем равномернее распределены экземпляры в пространстве признаков, что лучше с точки зрения адекватности отображения свойств генеральной совокупности выборки в рассматриваемой части признакового пространства, однако хуже с точки зрения возможной избыточности выборки. В свою очередь, чем ближе значение Еу к нулю, тем менее равномерно распределены экземпляры в пространстве признаков, что хуже с точки зрения адекватности отображения свойств генеральной совокупности выборки в рассматриваемой части признакового пространства.
Неравномерность покрытия экземплярами выборки признакового пространства:
ЫЕу = 1 - Еу .
Чем ближе значение ЫЕу к единице, тем менее равномерно распределены экземпляры по оси значений г -го признака. В свою очередь, чем ближе значение ЫЕу к нулю, тем равномернее распределены экземпляры по оси значений г -го признака.
Равномерность распределения экземпляров q -го класса по оси значений г -го признака:
1 Sq
Еу4, =— У га*,
1 а4 4—1 Щ ’ О g=l
1, = 4, (g -1) <
I У {<(х‘,g)| у‘ = 4}| ,У {№X,^|у‘' = 4}> 0,
V 5=1 У 5=1
0, У {№ X, g )| у' = 4}= 0,
5=1
(X' - Ш1П (хр ))-
р=1, 2, ..., О
шах (хр) - ш1п (хр)
р=1, 2, ..., О р=1, 2, ..., О
<
g,
0, в противном случае
либо
№ (х', g)
ехр
х' - 2- (2g - 1)Г тж о(хр ) - гшп(хр )
2о V р=1, 2, ..., - р=1, 2, ..., -
У
(х' - ш1п (х'))-
4, (g -1) < ^ 2 - -
шах (х') - ш1п (х')
5=1, 2, ..., - 1 5=1, 2, ..., - 1
< g.
0, в противном случае.
Чем ближе значение Еу‘4 к единице, тем равномернее распределены экземпляры по оси
значений 1 -го признака, и, следовательно, ситуация хуже с точки зрения гипотезы о компактности
классов и разделяющих свойств 1 -го признака. В свою очередь, чем ближе значение Еу‘4 к нулю, тем
менее равномерно распределены экземпляры по оси значений г -го признака, и, следовательно, ситуация лучше с точки зрения гипотезы о компактности классов и разделяющих свойств г -го признака.
Неравномерность распределения экземпляров 4 -го класса по оси значений 1 -го признака:
Чем ближе значение ЫЕу4 к единице, тем менее равномерно распределены экземпляры
4-го класса по оси значений 1 -го признака. В свою очередь, чем ближе значение ЫЕу4 к нулю, тем равномернее распределены экземпляры 4 -го класса по оси значений 1 -го признака.
Равномерность покрытия экземплярами 4 -го класса признакового пространства:
Чем ближе значение Еу4 к единице, тем равномернее распределены экземпляры 4-го класса в пространстве признаков, что хуже с точки зрения гипотезы о компактности классов. В свою очередь, чем ближе значение Еу4 к нулю, тем менее равномерно распределены экземпляры в пространстве признаков, что лучше с точки зрения гипотезы о компактности классов.
Неравномерность покрытия экземплярами 4 -го класса признакового пространства:
Чем ближе значение ЫЕу4 к единице, тем менее равномерно распределены экземпляры 4 -го класса в пространстве признаков.
Средняя равномерность покрытия экземплярами классов признакового пространства будет определяться как
— 1 к
Еу = — У Еу 4.
к 41
Минимальный уровень равномерности покрытия экземплярами классов признакового пространства будет определяться как
4=1,2,..,К
Повторяемость обучающей выборки, согласно [4], может быть определена как показатель, характеризующий количество одинаковых экземпляров, принадлежащих к одному и тому же классу. Пронормировав, формально это можно представить как
ыеу4 = 1 - Еу4 .
1 N
Еу4 =- Еу4 .
Еу = ш1п {Еу4 }
„—1 у I- •*
где Г(х, У, 5, !);
1,У5 = yg,"1 = 1,2,...,N : *; = х!,
| 0, в противном случае.
Величина Яр будет минимальной (равной нулю) в случае, если все экземпляры обучающей выборки отличны друг от друга, и максимальной (равной единице), если все экземпляры одинаковы.
Однако такой показатель будет реагировать только на абсолютные совпадения обучающих примеров. На практике же часто приходится иметь дело с выборками, в которых содержатся не одинаковые, но близкие по свойствам (почти одинаковые) экземпляры одного класса. Для учета подобных случаев переопределим показатель г как
г( х, у,;, g) =
ехр
Г
)
V
,;
-«У (X - )2
\
(=1
У; = у!,
0, у:1 ф у!.
Здесь а - коэффициент, регулирующий положение границы локальной близости экземпляров одного класса, а > 0 . В простейшем случае можно положить а = 1.
Полученная формула будет применима для задач распознавания образов, однако будет мало пригодна для задач оценивания. Для задач, где выходная переменная принимает вещественные значения в некотором диапазоне, переопределим показатель г как
ехр
N
-«У (X -X!)2
л
0,
1=1
у5 - У!
<8,
у5 -у!\ >8.
где 8 - константа, регулирующая чувствительность для определения подобия значений выходной переменной, 8> 0 . Значение константы 8 предлагается автоматически определять предварительно на основе формулы
8 =
1
25 -1
шах {у5}- ш1п {у;}1 +
г=1,2,...,5 5=1,2,...,5 ) А
Л
У У (у5 - у! )2
5=1 !=5+1 )
В качестве противоположной характеристики выборки по отношению к повторяемости определим уникальность экземпляров выборки как Яп = 1 - Яр.
При построении распознающих моделей часто выдвигается требование независимости входных переменных. Для оценивания качества выборки с точки зрения данного требования будем использовать показатели:
усредненной независимости входных переменных: Мр = 1-
2
У У|
3=г+\
где г, . - коэффициент парной корреляции, для вещественных признаков определяемый по формуле
У
S ( s л
C Xs -CX
s=— v g=1 J
s
C=
V g=1 J
- C xg
S ( s л2 ( s л
C Xis - C Xg X) - C xg
s=— v g=1 J V g=1 J
2
- минимальной независимости входных переменных: Idp = 1 - max r A ;
i=1,2,...,N;',]
]=i+1,...,N
- максимальной независимости входных переменных: Idp = 1 - min r A.
i =1,2,..., N J ', ]l ] =i +1,..., N
Наряду с независимостью входных переменных между собой, при решении задач построения моделей выдвигается требование наличия связи между выходной и входными переменными, причем предпочтительнее линейная связь. Для характеристики отображения в выборке связи входных и выходной переменных предлагается использовать показатели:
- максимальной линейной связи входных и выходной переменных: Ydp = max r ,
i=1,2,...,Nl i,yl
где r y - коэффициент парной корреляции i -го признака и выходного признака;
- 1 N I I
- средней линейной связи входных и выходной переменных: Ydp = ~CCpy|;
- комбинированные показатели независимости входных переменных и линейности связи с выходной переменной:
2
IY = max
Y i=1,2,...,N
]=i+1, ..., N
{r,y |(l - h,] |)}, h = i=m[nN&,y |(l - |r-, ] |)}, !y =
i=1,2,...,N; ]'=i+1,...,N
N N / \
Y ~ N(N -1)C [ІЦСі(і _ lr',] ^
J
Компактность расположения экземпляров q -го класса по i -му признаку:
s s
2CZ {(X,' - Xig )2 I y = yg
q}
Cof = 1
s=1 g=s+1
sq (sq - —)[ {xis j ys = q} - i—lin {xs j ys = q}~]
V s=1,2,..,s s=1,2,..,s J
Чем больше значение Со^ , тем, в среднем, компактнее расположены экземпляры q -го
класса по i -му признаку.
Компактность расположения экземпляров q -го класса:
s s N
2CCC {(X' - Xig )2 I y = yg = q}
Coq = 1 —
s=1 g=s+1 i=1
sq (sq - —)]C ( =nax {xis I ys = q} - mins{xi' I ys = q}
і v s=l,2,..,s s=l,2,..,s
Чем больше значение Соq , тем, в среднем, компактнее расположены экземпляры q-го класса в пространстве признаков.
Компактность расположения экземпляров q -го и р -го классов по 1 -му признаку:
r
2
S S
2£ £{(x -xg)21(y = qvy = p)v(yg = qvyg = p)}
Со,,Р =!----------------------f=Lg=fl^----------------------------------------------------------------------
(Sp + sq)(Sp + Sq - 1)f max {x/ | (ys = q v ys = p)}- minК | (ys = q v ys = p)}]
у s=1,2,..,S s=1,2,..,S J
Чем больше значение Cof’p , тем, в среднем, сложнее отделить q-й и p -й классы друг от друга по i -му признаку, но легче отделить в совокупности q-й и p -й классы от остальных классов по i -му признаку.
Компактность расположения экземпляров q-го и p -го классов в пространстве признаков:
S S N
2£ £ £ {(x - xg)21 (y = q v ys = p) v (yg = q v yg = p)}
Co(q’ p) =1---------------------s=1 g=s+11=N----------------------------------------------------------------------------------
p + Sq)(Sp + Sq -1)£ | max (xs | (ys = q v ys = p)} - min (xs | (ys = q v ys =
s=1’2’..’S
(Sp + Sq)(Sp + Sq -1)£[ max(xf |(ys = q v ys = p)} - min {xi" |(ys = q v ys = p)}
TT [ s=1’2’..’S s=1’2’..’S
i=1 4
Чем больше значение Co(q,р), тем, в среднем, сложнее отделить q-й и р -й классы друг от друга, но легче отделить в совокупности q -й и р -й классы от остальных классов.
— 1 к
Усредненная компактность классов: Со = — ^ Соq.
К q=1
Чем больше значение усредненной компактности классов, тем теснее внутри каждого класса расположены экземпляры, что свидетельствует в пользу гипотезы о компактности классов.
Минимальная компактность классов: Сошп = шт (Со4).
q=1,2,..,K
Чем больше значение минимальной компактности классов, тем теснее внутри каждого класса расположены экземпляры, что свидетельствует в пользу гипотезы о компактности классов.
Отделимость q -го класса:
1
Seq
1 + min Co(q’ p)
p=1,2,...’K
Чем меньше минимальная совместная компактность q -го класса со всеми остальными классами, тем более легко отделить экземпляры q -го от остальных классов. Следовательно, будет больше значение отделимости q -го класса.
Отделимость классов:
& =------------1-----------.
1 + шт Со^, р)
q=1,2,...,K; p=q+1,2,...,K;
Чем больше значение отделимости классов, тем более компактно расположен каждый из классов и сильнее его отделимость от других классов, что обуславливает применение методов распознавания, основанных на гипотезе о компактности.
Упрощенный показатель компактности-отделимости классов определим по формуле
2
5С = 1 - ехр
Ш1П <
&р, I
5=1,2,...,5; 1 р=5+1,...,5
У{(*' -хр)2|У ф ур}
7=1
1 + ш1п |у (х- х-)
6'*Р’ I ,=1
5=1,2,...,5; ^ ,=1 р=5+1,...,5
Значения данного показателя будут расположены в интервале от 0 до 1: чем меньше значение критерия, тем более тесно расположены (более сложно разделимы) разные классы и тем менее сконцентрированы экземпляры одного и того же класса.
В [4] предложено характеризовать противоречивость обучающей выборки как (формула приведена в уточненном виде с подстановками)
2 5 5
СМ = —2— у у -
5 (5 -1) £ Р^,
у С?- су')
V 7=1
V
у Су - сур)+
=1
1
у= 1
х - хр )2 '
где х, = 5У х,, с, = У{х I у' = ч}
5=1 ° 5=1
Достоинством данного критерия является то, что его значения находятся в интервале от 0 до 1: чем больше значение критерия, тем более противоречивой является выборка. Недостатком критерия является его зависимость от гипотезы компактности образов: на практике образы могут быть представлены множеством кластеров, а также содержать взаимопроникновения. Этот критерий также не применим для задач с вещественным выходом.
Относительную противоречивость обучающей выборки будем оценивать по формуле
1с
1
У У^'(х,у 5,
где Т'(х, У, 5, g);
1,У5 ф yg,",= 1,2,...,N : х,5
0, в противном случае
х
либо
Т'( х, у, 5, g) = «
^ -аУ(х’ - х,)2 ^ у5 ф уг,
0, У5 = уг
либо
Т'(х, у, 5, g) = «
од- аУ(х,5 - х!)2 и у5 - у^ > 3
0, у5 -у"\<3
,=1 g I
Показатель относительной противоречивости будет принимать значения в диапазоне от 0 до 1: чем меньше будет его значение, тем меньше доля одинаковых экземпляров, принадлежащих к разным классам.
В свою очередь, относительную непротиворечивость обучающей выборки определим как
Сп = 1 - 1с.
Показатель относительной непротиворечивости будет принимать значения в диапазоне от 0 до 1: чем больше будет его значение, тем меньше доля одинаковых экземпляров, принадлежащих к разным классам.
Сложность обучающей выборки < х, у > для аппроксимации функции у = /(х) в случае, когда
выходная переменная является вещественной, может быть оценена с помощью константы Липшица [6, 7]:
Ц х, У)
тах і
«=1,2,...,5; ё=ї+1,...,5
■і(У - Уё )2
,У (х - хё)
V і=і
Для задач распознавания, когда выходная переменная принимает дискретные значения, константа Липшица будет зависеть в основном от знаменателя. При этом следует учесть тот факт, что номера классов в числителе могут не выражать степень их различия. Поэтому определим сложность аппроксимации, модифицировав константу Липшица следующим образом:
Ь'(х, у) = тах ■
**ё, 5=1,2,...,5; ё =5+1,...,5
г
і=1
(х - хё )2
I ы
тіп Іу (х* - х ё )2
ё =5+1,...,5
Рассмотренные показатели сложности выборки сильно зависят от размерностей входных и выходной переменной и не удобны в использовании при сравнении разных задач. Для устранения данного недостатка, а также оптимизации вычислений предлагается использовать модифицированные показатели сложности обучающей выборки (здесь также обеспечивается неравенство знаменателя нулю):
- для задач с вещественной выходной переменной:
Ц"( х, У):
тах і
я=1,2,...,5; ё=^+1,...,5
V у (/ - уг)
.ёЧ 2
N
1 + у Пі (х - хё )2
і=1
Ґ
где V, =
1
V
тах їх*}- тіп їх*}
V 5=1,2,...,^ і 5=1,2,...,^
тах
V 5=1,2,...,5
- для задач с дискретнои выходной переменной:
Ц"( х, У) =
N
1 + ІУ V (х- х,)2
5=1,2,...,^; ё=5+1,...,5
і=1
1
1
2
1
1
Модифицированный показатель будет характеризовать относительную сложность аппроксимации зависимости по обучающей выборке. При этом его значения будут находиться в диапазоне от нуля до единицы: чем меньше будет значение показателя относительной сложности, тем лучше выборка будет подходить для решения задачи.
Для показателя относительной сложности определим альтернативный ему показатель
относительной простоты аппроксимации зависимости по обучающей выборке как Бг = 1 - Ь .
Значения показателя относительной простоты аппроксимации зависимости по обучающей выборке будут находиться в диапазоне от нуля до единицы: чем больше будет значение показателя относительной простоты, тем лучше будет подходить выборка для решения задачи.
На основе комплекса рассмотренных характеристик возможно определить интегральные показатели качества обучающей выборки:
- критерий отбора экземпляров:
гэкз. Бтах °норм. ^ + Еу) ®
Iп =-----------------------> тах,
д 28 (1 + Вр)
где 8тах - максимально возможное число экземпляров выборки;
- критерий отбора признаков:
I призн. _
Ытах (Мр + 1ёр + 1йр + У<!р + 1у + 1у)(Бе + Бе + Со) ® тах
1Ш 1 + 1 (Еу + Еу + Еу)(СМ + 1е) Ь"
6
где #тах - максимально возможное число признаков в выборке;
- обобщенный показатель качества выборки:
а ЫгКп(Мр + Мр + 1йр + Уёр + 1у + 1у)(Бе + Бе + Со)
/п = —р-------------------------------=- ------------------------> тах.
д 18 + ЪВг (Еу + Еу + ЕУ)(Спй + 1е)Ь"
4. Эксперименты и результаты
Разработанный комплекс критериев был программно реализован в виде библиотеки функций на языке пакета МаАаЬ, которая использовалась для исследования практической применимости разработанных критериев.
Для исследования предложенного комплекса критериев и программного обеспечения, реализующего их, использовались выборки данных для задач: определения вида ирисов [8], автоматической классификации сельскохозяйственных растений на культурные и сорные по данным дистанционного зондирования [9], неразрушающей диагностики лопаток газотурбинных авиадвигателей [1], прогнозирования суммарного показателя качества жизни (СПКЖ) больных хроническим обструктивным бронхитом [10].
Характеристики выборок и расчетные значения критериев представлены в табл. 1.
Критерий Задача
Ирисы Фишера Распознавание растений Диагностика лопаток СПКЖ- бронхит
5 150 248 248 32 32 86
N 4 55 5 100 10 106
К 3 2 2 2 2 0
Бш 600 13640 1240 3200 320 9116
Вт 0,99833 0,99993 0,99919 0,99969 0,99687 0,99989
Ршт 0,33333 0,41935 0,41935 0,5 0,5 0,10465
s 0 0,013007 0,013007 0 0 0,034749
s норм 1 0,98708 0,98708 1 1 0,96585
Яё 0 0 0 0 0 0
Яе 0 0 0 0 0 0
N 1 1 1 1 1 1
Еу 0,085526 0,21092 0,24596 0,30663 0,36599 0,087689
Жу 0,91447 0,78908 0,75404 0,69337 0,63401 0,91231
Еу 0,077894 0,34922 0,39197 0,28915 0,33444 0,084681
Еу 0,03125 0,32343 0,35024 0,23249 0,31756 0,060485
Яр 0,000089 0 0 0,0020161 0,0020161 0
Яп 0,99991 1 1 0,99798 0,99798 1
Мр 0,40588 0,15256 0,12047 0,73728 0,35286 0,80346
Ійр 0,037135 0,000012 0,019812 0,089 0,0092664 0,02352
Ійр 0,88243 0,49649 0,21094 0,99996 0,86321 1
У<ір 0,95655 0,16513 0,070793 0,65551 0,67929 0,93089
Уёр 0,7787 0,05694 0,030351 0,21573 0,57528 0,38172
Іт 0,69056 0,05725 0,0069386 0,65165 0,5471 0,71621
Іт 0,035242 0,31 10-8 0,0002240 0,00016274 0,0057847 0
Іт 0,24716 0,011098 0,001956 0,18522 0,2197 0,23898
Со 0,90486 0,91523 0,91265 0,88221 0,85429 0,86195
Со 0,89057 0,89445 0,88996 0,8794 0,83283 0,81453
& 0,56051 0,51382 0,51474 0,51786 0,53182 0,53194
5С 0,048771 0,000464 0,0024585 0,98999 0,63083 0,99981
Спй 0,34042 0,010598 0,084844 0,11061 0,33531 -
Іс 0,006711 0 0 0 0 0
Сп 0,99329 1 1 1 1 1
Ь - - - - - 0,0059119
Ь 0,51803 0,1553 0,43095 0,16441 0,35889 0,15809
0,48197 0,8447 0,56905 0,83559 0,64111 0,84191
тЭКЗ. 1 ( 0,54271 0,59764 0,61493 0,652 0,68162 0,52527
т призн. 1 ( 0,33129 0,074592 0,38343 0,45633 3,555 0,53811
0,33126 0,073629 0,034407 0,45541 0,35481 0,51973
Как видно из табл. 1, разработанный комплекс критериев позволяет оценить качество обучающей выборки с различных сторон и на практике автоматизировать процесс формирования (выбора) обучающего множества для решения задач диагностики и распознавания образов.
В частности, предложенные обобщенные показатели качества обучающих выборок достаточно хорошо показывают уменьшение размерности задачи, повышение информативности ее описания, изменение сложности решения задачи и др.
5. Заключение
С целью автоматизации формирования обучающих множеств, отбора информативных признаков и выбора метода обучения распознавания образов в работе решена актуальная задача разработки математического обеспечения для оценивания свойств обучающих выборок.
Научная новизна работы заключается в том, что: получили дальнейшее развитие метод и критерий оценки сложности обучающей выборки на основе константы Липшица, модифицированный путем нормирования и учета специфики задачи, что позволяет оценивать сложность аппроксимации функции по выборке как для задач с вещественным, так и для задач с дискретным выходом; модифицирован показатель повторяемости обучающей выборки; впервые предложены интегральные показатели качества выборки (критерий отбора экземпляров, критерий отбора признаков, обобщенный показатель качества выборки), методы и критерии оценки относительной размерности выборки, относительной простоты аппроксимации зависимости, относительной противоречивости и непротиворечивости обучающей выборки, критерии отделимости классов, критерии компактности классов, упрощенный показатель компактности-отделимости классов, показатели независимости входных переменных и их связи с выходной переменной, характеристики равномерности и неравномерности выборки. Разработанные и модифицированные методы и критерии позволяют количественно выразить пригодность выборки для решения задач диагностики и распознавания образов.
Практическая ценность работы состоит в том, что разработано программное обеспечение, позволяющее для заданной обучающей выборки автоматически рассчитывать показатели ее качества, что дает возможность автоматически формировать обучающие множества и сравнивать их, а также выбирать наиболее эффективные для решения задачи методы.
Работа выполнена в рамках госбюджетной темы "Информационные технологии автоматизации распознавания образов и принятия решений для диагностики в условиях неопределенности на основе гибридных нечеткологических, нейросетевых и мультиагентных методов вычислительного интеллекта" кафедры программных средств Запорожского национального технического университета.
СПИСОК ЛИТЕРАТУРЫ
1. Интеллектуальные средства диагностики и прогнозирования надежности авиадвигателей / В.И. Дубровин, С.А. Субботин, А.В. Богуслаев, В.К. Яценко. - Запорожье: ОАО "Мотор-Сич", 2003. - 279 с.
2. Субботін С.О. Неітеративні, еволюційні та мультиагентні методи синтезу нечіткологічних і нейромережних моделей: Монографія / С.О. Субботін, А.О. Олійник, О.О. Олійник; під заг. ред. С.О. Субботіна. - Запоріжжя: ЗНТУ, 2009. - 375 с.
3. Субботін С.О. Подання й обробка знань у системах штучного інтелекту та підтримки прийняття рішень: Навчальний посібник / Субботін С.О. - Запоріжжя: ЗНТУ, 2008. - 341 с.
4. Олешко Д.Н. Построение качественной обучающей выборки для прогнозирующих нейросетевых моделей / Д.Н. Олешко, В.А. Крисилов, А.А. Блажко // Штучний інтелект. - 2004. - № 3. - С. 567 - 573.
5. Крисилов В.А. Представление исходных данных в задачах нейросетевого прогнозирования / В.А. Крисилов, К.В. Чумичкин, А.В. Кондратюк. - Hейроинформатика-2003. - М.: МИФИ, 2003. - Ч. 1. - С. 184 -191.
6. Царегородцев В.Г. Оптимизация предобработки данных: константа Липшица обучающей выборки и свойства обученных нейронных сетей / В.Г. Царегородцев // Hейрокомпьютеры: разработка, применение. - 2003. - №7. -С. 3 - 8.
7. Царегородцев В.Г. Предобработка обучающей выборки, выборочная константа Липшица и свойства обученных нейронных сетей / В.Г. Царегородцев // Материалы X Всероссийского семинара "Hейроинформатика и ее приложения". - Красноярск, 2002. - С. 146 - 150.
8. Fisher R.A. The use of multiple measurements in taxonomic problems / R.A. Fisher // Annual Eugenics. - 1936. - Vol. 7. - Part II. - P. 179 - 188.
9. The plant recognition on remote sensing results by the feed-forward neural networks / V. Dubrovin, S. Subbotin,
S. Morshchavka et al. // Smart Engineering System Design. - 2001. - N 3. - P. 251 - 256.
10. Кривенко В.И. Hейросетевое моделирование суммарного показателя качества жизни больных хроническим обструктивным бронхитом в ассоциации с клиническими особенностями течения заболевания / В.И. Кривенко, Л.К Евченко, С.А. Субботин // Вестник новых медицинских технологий. - 2001. - Т. VIII, № 4. - С. 7 - 10.
Стаття надійшла до редакції 08.08.2009