распознавания образов / В. А. Лапко, А. Н. Капустин // Автометрия. 2006. № 6. С. 26-34.
3. Parzen, E. On estimation of a probability density function and mode / E. Parzen // Ann. Math. Statistic. 1962. Vol. 33. P. 1065-1076.
4. Епанечников, В. А. Непараметрическая оценка многомерной плотности вероятности / В. А. Епанечников //
Теория вероятности и ее применения. 1969. Т. 14. Вып. 1. С. 156-161.
5. Живоглядов, В. П. Непараметрические алгоритмы адаптации / В. П. Живоглядов, А. В. Медведев. Фрунзе : Илим, 1974.
A. V. Lapko, V. A. Lapko
NONPARAMETRIC SYSTEMS OF PATTERN RECOGNITION FOR A MULTIALTERNATIVE PROBLEM THE CLASSIFICATIONS, BASED ON DECOMPOSITION OF TRAINING SAMPLE ON ITS DIMENSION
From positions ofprinciples of decomposition of training sample and technology ofparallel calculations the technique of synthesis multilevel nonparametric systems of pattern recognition for a multialternative problem of classification is offered. Their application provides effective processing the information of the big dimension.
УЦК 004.032.26 (06)
И. В. Ковалев, E. А. Энгель
ИСПОЛЬЗОВАНИЕ НЕЧЕТКИХ НЕЙРОСЕТЕВЫХ АЛГОРИТМОВ В ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМАХ ОБРАБОТКИ ИНФОРМАЦИИ
Рассмотрены вопросы применения нечетких нейросетевых алгоритмов для обработки информации. Модифицированы алгоритмы Apriori и PredictiveApriori на основе нечетких нейросетей. Описаны нечеткая нейросе-тевая система Data Mining и результаты ее испытаний на реальных задачах.
Введение. Одним из магистральных направлений развития информационных технологий является переход от обработки данных к обработке знаний, что требует наличия эффективных методов и средств выделения знаний. В настоящее время постоянно увеличивающаяся мощность средств вычислительной техники позволяет внедрять методы: интеллектуальной обработки данных во все более широкие области. Этому способствует достигнутый в настоящее время уровень разработки теоретической и практической базы систем с искусственным интеллектом [1]. Важным направлением интеллектуализации обработки данных следует считать появление систем класса Data Mining, назначение которых состоит в автоматизации процессов поиска новых знаний при обработке больших баз данных.
Применение интеллектуализации в обработке данных позволяет использовать формальные модели знаний в условиях недостатка квалифицированных исполнителей и существенно повысить уровень обработки данных за счет использования новых моделей представления данных.
В настоящее время большинство программных продуктов, таких как SAS Enterprise Miner, PolyAnalyst, WEKA, в основу которых положены идеи Data Mining, ориентировано на использование в сфере бизнеса, однако средства интеллектуального анализа данных находят применение таких областях, как медицина, биология, физические исследования, телекоммуникационные системы.
Авторами было проведено исследование эффективности применения алгоритмов Data Mining, в частности
нечетких нейросетевых алгоритмов ассоциации, для выделения различных участков телеметрической информации (ТМИ). Исходными данными являются множество телеметрических (ТМ) сигналов, снятых с реальных объектов. Требуется построить нейросетевые классификаторы на основе нечетких ассоциативных правил и оценить ошибку построенных классификаторов.
Особенности задачи анализа ТМИ. Типовой задачей анализа ТМИ является задача обработки быстроменяю-щихся параметров (БМП). Применение систем автоматического приобретения знаний в задаче обработке ТМИ открывает пути к созданию эффективных программных комплексов обработки ТМИ, использование которых возможно при минимальных затратах человеческих ресурсов.
Основные этапы анализа ТМИ с использованием технологии Data Mining представлены ниже (рис. 1). Процесс приобретения знаний основан на построении нечетких продукционных правил, описывающих особенности ТМИ-сигнала. На основе нечетких продукционных правил строятся нейросетевые классификаторы [2]. Примерами классов выделяемых событий могут являться временные участки соответствующие ударным вибрациям, вибрациям на переходных режимах, вибрациям на установившихся стационарных, квазистационарных режимах.
Процесс приобретения знаний состоит из нескольких этапов:
- предварительной обработки сигнала и получения векторного описания сигнала с использованием спект-
рально-временного анализа Фурье и разложения сигнала по алгоритму вейвлет-пакета;
- кластер-анализа на основе полученных векторных описаний сигнала, решающего задачу автоматической сегментации ТМ-сигнала с целью выделения стандартных и нерегламентированных событий. Выделенные участки используются в качестве эталонов;
- получения описания знаний в виде нечетких продукционных правил с помощью алгоритмов «Деревья решений» и построения ассоциативных правил;
- реализации полученных правил для автоматического анализа ТМ-сигнала.
Одной из особенностей задач обработки БМП ТМИ является необходимость обработки очень больших массивов телеметрических данных. Следует отметить, что алгоритмы ассоциации хорошо зарекомендовали себя именно для обработки больших объемов данных. В отличие от классификаторов, построенных на основе деревьев решений, классификаторы, построенные на основе алгоритмов ассоциации, являются более точными. Однако эти классификаторы, как правило, не являются полными. Достоинством продукционных правил, построенных на основе алгоритмов ассоциации, является принципиальная (для понимания человеком) вычислительная простота, а основным недостатком - резкий (экспоненциальный) рост объема вычислений с увеличением числа параметров и фактически полное непринятие в расчет редко встречаемых параметров. Если формализовать продукционные правила нечеткими нейросетями, то указанные недостатки нивелируются. В результате получается гибридная система приобретения знаний на основе нечетких нейросетевых алгоритмов ассоциации.
Ассоциация используется для поиска групп характеристик, наблюдаемых большей частью одновременно. Анализ ассоциации имеет смысл в том случае, когда несколько характеристик связаны друг с другом. Модели, построенные на базе нейросетевых алгоритмов ассоциации, характеризуют близость различных одновременно наблюдаемых категориальных характеристик и могут быть выражены в виде нечетких правил.
Использование нечетких нейросетевых алгоритмов ассоциации для обработки ТМИ. Наиболее широко используемым и хорошо зарекомендовавшим себя алго-
ритмом в настоящее время является алгоритм Арпоп [3], который используется во многих коммерческих и свободно распространяемых системах. Основным достоинством алгоритма Арпоп, с точки зрения анализа данных является его гибкость. Эксперт имеет возможность задавать два основных параметра: минимальную поддержку и минимальную достоверность правила, что позволяет получать существенно различные группы правил.
Опыт решения практических задач обработки ТМИ показывает, что использование только алгоритма Арпоп является недостаточным. На начальных этапах обработки данных в ряде случаев сложно задать значения параметров минимальной поддержки и минимальной достоверности. В этом случае удобно применять алгоритм PredictiveApriori [4], который осуществляет поиск наиболее точных правил. На вход алгоритма PredictiveApriori подается только число правил, которые следует найти.
Поскольку эти алгоритмы не предполагают наличия целевой переменной, авторами для решения задачи анализа БМП ТМИ предложена модификация данных алгоритмов. В частности, модифицирован этап генерации нейросетевых кандидатов и этап построения нечетких правил. На этапе генерации нейросетевых кандидатов рассматриваются только кандидаты, в состав которых входит целевая переменная. При построении нечетких правил строятся только правила, в левой части которых расположена целевая переменная.
Алгоритмы Арпоп и PredictiveApriori можно описать следующим образом.
Модифицированный алгоритм Арпоп:
F = {часто встречающиеся 1-элементные наборы} для (к = 2; Fk_1 <> 0 ; к ++) {
Ск = Apriorigen(Fk_1) // генерация наборов нейросетевых кандидатов, в состав которых входит целевая переменная для всех объектов Т {
СТ = subset(Ck, Т) // удаление избыточных нечетких правил для всех кандидатов с е СТ с.соиП ++ }
Fk = { с е Ск | с.соиП >= т^ирроН} // отбор нейро-сетевых кандидатов
для каждого/е Fk вызов RuleGen(f) // построение нечетких правил,
«Сырые»
данные
Результаты ' анализа
Рис. 1. Основные этапы анализа ТМИ
// в правой части которых расположена целевая переменная
Результат U полученных правил}
Модифицированный алгоритм PredictiveApriori.
1. Пусть т = 1 (начальное значение минимальной поддержки).
2. For i = 1...k do построить набор i-элементных ассоциативных правил [х ^ у]. Определить их достоверность. Пусть п, (с) - распределение достоверности правил.
3. Пусть для всех с
У k п, {с)С )(2' -1) п(с) Д------------- ■
У ,=l(k )(2' -1)
4. Пусть Х0 = {0}, и пусть X1 = {{a1}, ...,{ak}} - 1- элементные наборы.
5. For i = 1...k - 1 While (i = 1 orXt1 Ф 0):
5.1. Ifi >1 Then определить i-элементный набор ней-росетевых кандидатов, в состав которых не входит целевая переменная.
5.2. Подсчитать поддержку сгенерированных нейро-сетевых наборов. Удалить из X наборы, поддержка которых меньше т.
5.3. Для всех хе X, вызвать процедуру RuleGen(x), которая осуществляет поиск наилучших нечетких правил с левой частьюХ. В правой части располагается целевая переменная.
5.4. If best был изменен Then увеличить т так, чтобы оно принимало минимальное значение, при котором выполняется
E(с 11, т) > E(c(best[n] | conf (best[n]), s(best[n])).
IfT > размер базы данных Then выход.
5.5. If т увеличен на последнем шаге Then удалить изX. наборы, у которых поддержка меньше, чем т.
6. Вывести best [1]... best [n], список из n наилучших нечетких правил ассоциации.
Использование описанных выше алгоритмов требует предварительного разбиения значений признаков на интервалы, т. е. преобразования количественных признаков в качественные [5]. Существующие системы таких преобразований, как правило, используют фильтр дискретизации [6]. Однако использование только фильтра дискретизации является недостаточным, поскольку в этом случае не учитываются следующие основные проблемы, возникающие при разбиении значений количественных признаков на интервалы.
- низкая поддержка. Если число интервалов, на которые производится разбиение значений признака велико (интервалы малы), то поддержка каждого отдельного интервала может оказаться ниже минимального порога и часть правил, содержащих признак, будет потеряна;
- низкая достоверность. Часть правил может получить достаточную поддержку, только если количественный признак имеет определенное значение или если интервал разбиения мал. С увеличением интервала разбиения увеличивается число теряемых правил.
Возникшие проблемы можно решить, если рассматривать все возможные интервалы разбиения количественного признака. В этом случае будут найдены наи-
меньшие возможные интервалы, которые имеют достаточную поддержку. Однако при этом возникают другие проблемы.
- время выполнения. Пусть количественный признак принимает n значений, тогда необходимо рассмотреть ~O(n2) интервалов;
- ненужные правила. Если значение количественного признака имеет достаточную поддержку, то достаточную поддержку будут иметь все интервалы, которые включают это значение, и, следовательно, увеличится число неинтересных правил.
Описанные выше проблемы особенно остро встают при анализе ТМИ, поскольку там речь идет о работе с большим объемом количественных данных.
Использование нечетких нейросетей помогает найти решение, которое позволит за приемлемое время найти ассоциативные правила и потеря информации при этом будет минимальной. Также следует учитывать, что в ряде случаев эксперт имеет априорную информацию о ТМ-сигнале. Эта информация может быть получена в том числе и при помощи простейших средств визуализации.
Имеющийся опыт решения реальных задач анализа ТМИ показывает, что целесообразно использовать следующий набор фильтров.
- ручной фильтр;
- фильтр на основе расчета энтропии [6];
- равномерное разбиение значений количественных характеристик;
- разбиение на равные интервалы значений количественных характеристик.
Система анализа ТМИ на базе нечетких нейросете-вых алгоритмов. Для описания процесса выделения основных событий, содержащихся в записях ТМИ, была разработана нечеткая нейросетевая система Data Mining (рис. 2). В этой системе реализован процесс приобретения знаний, основанный на построении нечетких продукционных правил, описывающих особенности ТМ-сигнала.
Данные, поступающие на вход системы, располагаются в таблицах базы данных и представляют собой ТМ-сигналы.
Подсистема предварительной обработки предназначена для получения векторного описания ТМ-сигнала с использованием спектрально-временного анализа Фурье [7] и разложения сигнала по алгоритму вейвлет-пакета [8].
Подсистема кластер-анализа решает задачу автоматической сегментации ТМ-сигнала с целью выделения стандартных и нерегламентированных событий. В подсистеме кластер-анализа реализованы следующие алгоритмы.
- алгоритм расширяющегося нейронного газа;
- алгоритм максимизации ожидания (ЕМ) [9].
В подсистеме построения деревьев решений используются следующие алгоритмы.
- алгоритм построения деревьев решений С4.5 [10];
- алгоритм построения деревьев решений CART [11].
В подсистеме ассоциации применяются следующие
алгоритмы.
- модифицированный алгоритм построения ассоциативных правил на основе нечетких нейросетей Apriori;
- модифицированный алгоритм построения ассоциативных правил на основе нечетких нейросетей PredictiveApriori.
В результате работы алгоритмов построения деревьев решений и алгоритмов нечетких нейросетей получается описание событий в ТМ-сигнале в виде следующих нечетких правил.
Если
(компонента AS1 лежит в интервале 1) и (компонента AS2 лежит в интервале 2)
и, (компонента ASi лежит в интервале i);
То класс сегмента = значение класса.
Под компонентами ASi понимаются компоненты векторного описания сегментов сигнала.
Записанные в таком виде правила создают нечеткую базу знаний, описывающую различные события в телеметрическом сигнале.
Описание проведенных экспериментов. С помощью разработанной авторами системы был проведен ряд экспериментов с реальными сигналами, поступающими от различных датчиков. Сигналы подавались на вход системы после предварительной обработки (применялось преобразование Фурье, число сглаженных спектральных коэффициентов Фурье - 16). Классы событий определялись по результатам кластер-анализа. класс 1 - переходный процесс; класс 2 - ударный процесс; класс 3 - установившиеся вибрации; класс 4 - остальные участки сигнала. Исследование было проведено на десяти различных сигналах. Ошибки построенных нейросетевых классификаторов находятся в диапазоне 2...10 %.
Анализ результатов применения нечетких нейросе-тевых алгоритмов ассоциации для обработки ТМИ. Анализ проведенных экспериментов показал, что основная причина возникновения ошибок нейросетевого классификатора на основе нечетких ассоциативных правил состоит в неполноте построенного нейросетевого классификатора, что является прямым следствием маленького объема выборки.
Возможны следующие решения возникшей проблемы.
- увеличение объема обучающей выборки;
- увеличение числа правил за счет добавления правил с низким значением параметра поддержки (сильные правила), однако это может привести к тому, что полученный набор нечетких правил будет сложно анализировать и увеличится время работы классификатора.
Проведенные авторами исследования показали, что нейросетевые классификаторы на основе нечетких ассоциативных правил являются высокоэффективными, если обучающая выборка обладает следующими свойствами.
- выборка имеет большой объем (порядка нескольких сотен векторов);
- в состав наименьшего из классов, полученных в результате кластер-анализа, входит не менее 10% векторов от общего числа векторов обучающей выборки.
Полученные результаты показывают работоспособность разработанной системы и подтверждают эффективность использования алгоритмов Data Mining. Применение этих алгоритмов позволяет повысить уровень достоверности результатов обработки данных телеметрии и приводит к повышению эффективности работы специалистов по анализу ТМИ.
Библиографический список
1. Zadeh, L. A. From computing with numbers to computing with words-from manipulation of measurements to manipulation of perceptions / L. A. Zadeh // IEEE Transactions on Circuits and Systems. 1999. Vol. 45. P. 105-119.
2. Энгель, Е. А. Модифицированная нейросеть для обработки информации с использованием селекции существенных связей : автореф. дис. ... канд. техн. наук / Е. А. Энгель. Красноярск, 2004.
3. Agrawal, R. Fast algorithms for mining association rules in large databases / R. Agrawal, R. Srikant // Proc. International Conference on Very Large Databases. St. Augustin, 1994. P. 275-278.
4. Scheffer, T. Finding Association Rules That Trade Support Optimally against Confidence / T. Scheffer // Proc. of the 5th European Conf. on Principles and Practice of Knowledge Discovery in Databases (PKDD’01). Munchen, 2001. P. 113-117.
Рис. 2. Обобщенная архитектура системы 14
5. Agrawal, R. Mining quantitative association rules in large relational tables / R. Agpawal, R. Srikant // Proc. of the ACM SIGMOD Conference on Management of Data. Montmal, 1996. P. 315-327.
6. Witte, I. H. Data Mining: practical machine learning tools and techniques with Java implementation / I. H. Witte,
H. Ian. Berlin : Academic Press, 2000.
7. Марпл-мл., С. Л. Цифровой спектральный анализ и его приложения : пер. с англ. / С. Л. Марпл-мл. М. : Мир, 1990.
8. Воробьев, В. И. Tеopия и практика вейвлет-преобразования I В. И. Воробьев, В. Г. Грибунин. СПб. : ВУС, 1999.
9. McLaghlan, G. The EM algorithm and extensions I G. McLaghlan, T. Krishnan. London :Wiley, 1997.
10. Quinlan, J. R. C 4.5: Programs for Machine learning I J. R. Quinlan. Madrid : Morgan Kaufmann Publishers, 1993.
11. Murthy, S. Automatic construction of decision trees from data: A Multi-disciplinary survey I S. Murthy. Bern : Kluwer Academic Publishers, 1997.
I. V. Kovalev, E. A. Engel
USAGE OF ALGORITHM OF FUZZY NEURAL NETWORKS AT INTELLECTUAL SYSTEM OF DATA PROCESSING
It is covered problems of usage Fuzzy Neural Networks algorithms for data processing. Modified Apriori and PredictiveApriori algorithms base on Fuzzy Neural Networks (FNN). The Fuzzy Neural Data Mining system and results of tests are considered.
УЦК 681.513
А. В. Лапко, В. А. Лапко
НЕПАРАМЕТРИЧЕСКИЕ СИСТЕМЫ РАСПОЗНАВАНИЯ ОБРАЗОВ, ОСНОВАННЫЕ НА ПРИНЦИПЕ ДЕКОМПОЗИЦИИ ОБУЧАЮЩИХ ВЫБОРОК1
Предложены многоуровневые непараметрические системы распознавания образов, основанные на принципе декомпозиции обучающих выборок по их объему и по признакам классифицируемых объектов. Такие системы характеризуются высокой вычислительной эффективностью за счет возможности использования параллельных вычислительных технологий
Введение. Использование непараметрических классификаторов - одно из активно развивающихся направлений теории распознавания образов. Его практическая значимость состоит в возможности создания типовых информационных средств, адаптируемых к особенностям функционирования объектов различной природы [1].
Однако по мере усложнения условий классификации появляются методические и вычислительные трудности в применении традиционных непараметрических алгоритмов распознавания образов, особенно при обработке больших статистических данных значительной размерности. Подобные условия часто встречаются при анализе аэрокосмической информации, исследовании медико-биологических, экологических и экономических процессов.
Перспективное направление решения возникающих проблем связано с применением принципов декомпозиции задач распознавания образов и последовательных процедур формирования решений.
Необходимо на основе анализа асимптотических свойств непараметрической оценки смеси плотностей вероятности обосновать эффективность использования принципов декомпозиции при решении задач распозна-
вания образов в условиях больших выборок и разработать методику синтеза многоуровневых непараметрических систем классификации, обеспечивающих применение параллельных вычислительных технологий.
Непараметрическая оценка смеси плотности вероятности и ее свойства. Пусть V = (х', I = 1, п- - выборка из п независимых наблюдений одномерной случайной величины х с плотностью вероятности р (х -, вид которой априори неизвестен.
Разобьем выборку V на Т групп наблюдений Vj = (х‘, 1е 1j. -, ] = 1, Т, где 11 - множество номеров наблюдений х, составляющих у-ю группу, причем
T ___
U Ij =1 = ( =1, n )■
j=1
На основе каждой выборки Vj построим непараметрическую оценку плотности вероятности [2]
(x )=rV Уф
Ґ , л x - x‘
j = 1, T
(l)
где Ф() - ядерные функции, удовлетворяющие условиям нормированности, положительности и симметрично-
1 Работа выполнена при поддержке Российского фонда фундаментальных исследований (код проекта 07-01-00006).