Научная статья на тему 'Сравнительный анализ алгоритмов генерации баз нечетких продукционных правил на примере решения задачи классификации'

Сравнительный анализ алгоритмов генерации баз нечетких продукционных правил на примере решения задачи классификации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
445
94
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БАЗА НЕЧЕТКИХ ПРОДУКЦИОННЫХ ПРАВИЛ / ФУНКЦИИ ПРИНАДЛЕЖНОСТИ / АЛГОРИТМ АБЕ-ЛЭНА / РЕЙТИНГОВЫЙ АЛГОРИТМ / НЕПРОТИВОРЕЧИВОСТЬ / ПОЛНОТА / ОПТИМИЗАЦИЯ СТРУКТУРЫ БАЗЫ ПРАВИЛ / FUZZY PRODUCTION RULES' DATABASE / RULES' DATABASE OPTIMIZATION / MEMBERSHIP FUNCTION / ALGORITHM ABE-LAN / RATING ALGORITHM / CONSISTENCY AND COMPLETENESS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Солдатова Ольга Петровна

Предложена методика оценки непротиворечивости и полноты, основанная на используемых в теории градуированных формальных логических систем понятиях синтаксических и семантических выводов. Для оптимизации структуры результирующей базы правил реализованы возможность выбора типа и настройки параметров функций принадлежности и метод исключения дублирующих и противоречивых правил. Исследования проводились на данных известной задачи классификации ирисов Фишера, полученных из репозитория UСI.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Солдатова Ольга Петровна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPARATIVE ANALYSIS OF ALGORITHMS OF FUZZY PRODUCTION RULES’ DATABASE GENERATION WITH AN EXAMPLE OF SOLVING THE CLASSIFICATION PROBLEM

The proposed method of estimation of consistency and completeness, based on the one used in the theory of graded formal logical systems the notions of syntactic and semantic conclusions. To optimize the structure of the resulting rule base allows selection of the type and settings of the parameters of membership functions and the elimination method overlapping and contradictory regulations. Studies were conducted on data from well-known problems of classification of iris flower data set obtained from the UCI repository.

Текст научной работы на тему «Сравнительный анализ алгоритмов генерации баз нечетких продукционных правил на примере решения задачи классификации»



УДК 004.032.26

О. П. Солдатова

СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ ГЕНЕРАЦИИ БАЗ НЕЧЕТКИХ ПРОДУКЦИОННЫХ ПРАВИЛ НА ПРИМЕРЕ РЕШЕНИЯ ЗАДАЧИ КЛАССИФИКАЦИИ1

O. P. Soldatova

COMPARATIVE ANALYSIS OF ALGORITHMS OF FUZZY PRODUCTION RULES’ DATABASE GENERATION WITH AN EXAMPLE OF SOLVING THE CLASSIFICATION PROBLEM

Аннотация. Предложена методика оценки непротиворечивости и полноты, основанная на используемых в теории градуированных формальных логических систем понятиях синтаксических и семантических выводов. Для оптимизации структуры результирующей базы правил реализованы возможность выбора типа и настройки параметров функций принадлежности и метод исключения дублирующих и противоречивых правил. Исследования проводились на данных известной задачи классификации ирисов Фишера, полученных из репозитория UCI.

Abstract. The proposed method of estimation of consistency and completeness, based on the one used in the theory of graded formal logical systems the notions of syntactic and semantic conclusions. To optimize the structure of the resulting rule base allows selection of the type and settings of the parameters of membership functions and the elimination method overlapping and contradictory regulations. Studies were conducted on data from well-known problems of classification of iris flower data set obtained from the UCI repository.

Ключевые слова: база нечетких продукционных правил, функции принадлежности, алгоритм Абе-Лэна, рейтинговый алгоритм, непротиворечивость, полнота, оптимизация структуры базы правил.

Key words: fuzzy production rules’ database, membership function, algorithm Abe-Lan, rating algorithm, consistency and completeness, rules’ database optimization.

Введение

При ведении научных исследований, обработке результатов наблюдения или эксперимента обычно приходится сталкиваться с проблемой обработки больших массивов числовой информации. Проблема неточности, неполноты, недетерминированности многих экспериментальных данных привела в настоящее время к использованию для этих целей систем нечеткого вывода, содержащих базы продукционных правил [1, 2]. Использование нечетких продукционных правил позволяет не только обрабатывать нечеткие знания, но и способствует адекватному пониманию принципов функционирования системы, доступному экспертам в различных прикладных областях. Существенным недостатком систем нечеткого вывода является субъективный подход к разработке базы нечетких правил вывода. Если данная база правил

1 Работа выполнена при государственной поддержке Министерства образования и науки РФ в рамках реализации мероприятий Программы повышения конкурентоспособности СГАУ среди ведущих мировых научно-образовательных центров на 2013-2020 гг.

44

Измерение. Мониторинг. Управление. Контроль

строится на основе экспертных оценок, она может содержать противоречивые правила и не обладать свойством полноты. Следовательно, требуется разработка алгоритмов автоматической генерации баз правил, алгоритмов проверки на непротиворечивость и полноту и алгоритмов оптимизации параметров и структуры базы на основе полученных оценок. Алгоритмы извлечения правил из числовых данных для решения задач классификации и аппроксимации предложены в [3-6]. В данной работе анализируются предложенные модификации рейтингового алгоритма и алгоритма Абе-Лэна [1, 4].

1. Методика генерации баз нечетких продукционных правил

Генерация базы правил состоит из двух этапов:

1. Генерация начальной базы правил.

2. Определение оптимальной структуры базы правил.

Для реализации первого этапа необходимо также решить две задачи:

1) разбить пространство входных и выходных переменных на кластеры;

2) определить алгоритм формирования начальной базы правил.

Для решения задачи классификации с известным числом классов и имеющейся обучающей выборкой первая задача решена остается решить задачу выбора алгоритма генерации. В данной статье анализируются два алгоритма генерации: рейтинговый алгоритм и алгоритм Абе-Лэна.

Для оптимизации базы правил необходимо:

1) определить критерии оптимальности базы правил;

2) провести параметрическую оптимизацию базы и сократить число правил.

В качестве критериев оптимизации предлагается использовать оценки непротиворечивости и полноты базы данных на основе теории градуированных формальных логических систем. В качестве параметрической оптимизации базы предлагается использовать настройку параметров функций трех функций фуззификации: треугольной, трапецеидальной и функции Гаусса. В качестве метода сокращения числа правил предлагается исключение из базы дублирующих и противоречивых правил.

Исходя из поставленной задачи, можно перейти к описанию объекта с п входами и одним выходом:

У = f (^2,..., Хп ),

для которого известны интервалы изменения входов и выхода:

Xj є

, і = 1,...,n; yє

уШіп у max

(1)

(2)

где xmin, xmax, уmin, уmax - минимальные и максимальные значения входов и выходов соответственно.

По имеющейся обучающей выборке из М пар экспериментальных данных входы -выход

jx (р), Ур)}, (3)

где X(pT=jxj(pТ, x2pТ,..., xXpTJ - входной вектор в p-й паре, p = 1,...,M, необходимо синтезировать знания об объекте в виде системы нечетких правил вида

ЕСЛИ (( є ( )И (х2 є а2 )И... И (хп є on ))ТО у є ), (4)

где ak, dj - некоторые интервалы входных и выходных данных соответственно, описанные формулой (2).

2. Алгоритмы генерации баз нечетких продукционных правил

Алгоритм Абе-Лэна применяется для извлечения нечетких продукционных правил из числовых данных для решения задачи аппроксимации. Суть метода описана в [1], алгоритм предложен в [4].

45

В представленной работе база правил формируется на основе модифицированного алгоритма Абе-Лэна, приведенного ниже:

1. Определяется количество параметров на основании обучающей выборки.

2. Определяются границы интервалов значений каждого параметра.

3. Рассчитываются границы интервалов и шаг для значений каждого параметра:

s =-

max, - min,

Ti -1

, i = 1,..., n,

(5)

где s, - шаг изменения ,-го параметра; max,, min, - максимальное и минимальное значения i-го параметра; Tt - количество значений i-го параметра; n - общее количество входных и выходных параметров;

Ъ] = mini; e1 = min, + s,; |i(b1) = 1; jije1) = 0; (6)

b{ = mini + (j-1) • st; mj = min, + j• s,; ej = min, + (j + 1) • s,; (7)

»(b/) = » (ej) = 0; |i(m/) = 1; J = 2,..., Tt -1; (8)

bTi = max j - Si; eTi = max,; |i( bT) = 0; |i( ej1) = 1, (9)

где bj - координата 1-й точки j-го значения i-го параметра; mi - координата точки

с максимальным значением функции принадлежности j-го значения i-го параметра; ej - координата последней точки J-го значения i-го параметра; ц(xj) - значение функции

принадлежности в точке xj-го значения ,-го параметра.

4. Для всех примеров обучающей выборки в соответствии с используемыми функциями принадлежности производится расчет значений функции принадлежности входных и выходных параметров в соответствии с формулами (6)-(9) и формируются правила.

5. Если в полученной базе нет правил, у которых интервалы значений входных параметров для данного интервала выходных параметров перекрываются с интервалами значений входных параметров других правил, то формирование базы правил закончено. Иначе следует перейти к шагу 6.

6. Для правил с перекрытиями вычисляется число правил, у которых интервалы значений входных параметров перекрываются с данным правилом.

7. Для правила с перекрытиями, имеющего максимальное число перекрывающихся правил, вычисляется значение выхода как среднее значение выходов перекрывающихся правил.

8. Если в базе нет перекрывающихся правил, алгоритм заканчивает работу. База правил сформирована. Иначе следует вернуться к шагу 7.

Построение базы правил с помощью модифицированного рейтингового алгоритма состоит из следующих шагов [1]:

1. Пространства входных и выходных переменных, разбитые на отрезки.

Каждый обучающий пример из выборки принадлежит интервалу, который определяется

минимальным и максимальным значениями по каждой переменной

x Є

xmin xmax xi , xj ,

y є

ymin y max

Области определений переменных разбиваются на отрезки. Число отрезков, а

также их длина для каждой переменной подбираются индивидуально. На каждом из отрезков задается функция принадлежности соответствующему нечеткому множеству.

2. Формирование начальной базы правил.

Подход к формированию начальной базы правил основан на том, что изначально каждому примеру из обучающей выборки ставится в соответствие отдельное правило. Для

этого для каждого (xjk), xjj),..., xП), y(к)), к = 1,..., p, где p - число обучающих примеров в

выборке, определяются степени принадлежности заданных значений переменных к соответствующим нечетким множествам. Далее каждому обучающему примеру ставятся в соответствие те нечеткие множества, степени принадлежности к которым у соответствующих

Измерение. Мониторинг. Управление. Контроль

значений переменных из этого примера являются максимальными. Сформированное таким образом множество правил и составляет начальную базу.

3. Определение рейтингов правил.

Все примеры из обучающей выборки размерар (xf ), х(к),..., x(к^ у(к^, к = 1,..., р, «предъявляются» каждому правилу. В результате для каждого правила определяется его рейтинг:

i = (X1k))'^A,.2 (X2k))---VAn (х{к))-^Б, (У(к)), i = 1 ..., m

к=1

(10)

t (к)\ (к)

где р^ (х) I - степень принадлежности j-й компоненты входного вектора X ' к нечеткому

множеству Аік , j = 1,..., n ; рБ (у(к)) - степень принадлежности выходного значения у к нечеткому множеству Бі; к - номер обучающего примера в выборке; і - номер правила в базе правил.

4. Сокращение числа правил.

После подсчета рейтингов правил из базы правил исключаются правила с наименьшими рейтингами в группах правил, имеющих одинаковые предпосылки и разные заключения. Такие правила являются противоречащими друг другу, и из группы подобных правил необходимо оставлять только одно с наибольшим рейтингом.

3. Методика оценки базы правил на непротиворечивость и полноту

Одним из сложнейших этапов проектирования базы правил является оценка качества построенного набора правил. Основная проблема состоит в выборе критериев оценки качества составленной базы. Кроме того, являются затруднительными само вычисление некоторых критериев, а также оценка удовлетворительных показателей для данной предметной области. Для оценки качества базы правил будем использовать два ее свойства: непротиворечивость и полноту. В данной работе для проверки базы правил на непротиворечивость и полноту был использован подход из теории градуированных формальных логических систем, основанный на понятиях оцененного синтаксиса и семантики [7]. Каждому правилу в базе правил будет соответствовать синтаксическая оценка, определяемая как степень принадлежности посылки правила, и семантическая оценка, определяемая как степень принадлежности заключения правила. Будем считать, что база правил является непротиворечивой, если степени принадлежности посылок и заключений (Csyn и Csem соответственно) по каждому правилу связаны соотношением

Csyn (Xj)(Rj) < Csem (Yj)(Rj). (11)

База правил является полной, если для каждого правила выполняется соотношение

Csyn (Xj)(Rj) = Csem (Yj)(Rj), (12)

где Rj - правило вывода, j = 1,..., M; Xj ,Yj - посылка и заключение j -го правила;

Csyn,Csem - синтаксическая и семантическая оценки j -го правила соответственно.

В качестве оценки для определения непротиворечивости базы продукционных правил будем использовать отношение числа правил, соответствующих критерию (11) к общему числу правил.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Однако понятие полноты градуированной логической системы гораздо сложнее, чем понятие непротиворечивости. Определение полноты такой системы заключается в определении некого «предела» совпадения различных характеристик истинности. Для этого определяется максимальное значение всех посылок и минимальное из всех возможных заключений по каждому правилу, не соответствующему критерию (12), разность данных значений и есть «предел» полноты.

4. Оптимизация базы правил

Оптимизация базы правил производится в целях уменьшения количества правил и улучшения оценок полноты и непротиворечивости. В качестве критериев оптимизации в данной работе были приняты максимумы оценок непротиворечивости и полноты, приведенных в

47

.2SM,№4(io)

формулах (11) и (12). Параметрическая оптимизация баз правил производилась посредством изменения типов и параметров функций принадлежности. В качестве функций принадлежности исследовались треугольная, трапецеидальная функции и функция Гаусса. Оптимизация базы правил за счет сокращения числа правил была реализована с помощью метода исключения дублирующих правил, а также сохранения из группы противоречивых правил одного правила с максимальной оценкой. Для алгоритма Абе-Лэна в качестве оценки использовалось

Csem ~ ~ ~

, для рейтингового алгоритма - максимальный рейтинг в группе

противоречивых правил.

5. Экспериментальные исследования

Результатом работы разработанной программной системы является набор правил, отражающий закономерности предметной области [8]. В качестве обучающего множества для разработанной системы был взят набор данных для задачи классификации - ирисы Фишера из репозитория UCI (Machine Learning Repository) [9]. Ирисы Фишера состоят из данных о 150 экземплярах ириса, по 50 экземпляров из трех видов ириса. Для каждого экземпляра измерялись в сантиметрах четыре характеристики: длина чашелистика; ширина чашелистика; длина лепестка; ширина лепестка.

В табл. 1 приведены результаты исследований зависимости оценок непротиворечивости и полноты базы правил от алгоритма генерации при использовании функции Гаусса с заданным параметром кривизны, равным 1, и настроенными с помощью алгоритма кластеризации L-средних центрами и радиусами. В табл. 2, 3 приведены результаты исследований влияния типа функции фуззификации на оценки непротиворечивости и полноты, в табл. 4 - результаты исследований влияния метода сокращения правил на «предел» полноты.

Таблица 1

Зависимость оценок непротиворечивости и полноты базы от алгоритма генерации

Оценка Алго ритм

Алгоритм Абе-Лэна Рейтинговый алгоритм

Оценка полноты 0,52 0,61

Оценка непротиворечивости 0,68 0,80

Таблица 2

Зависимость степени непротиворечивости и полноты базы от типа функции принадлежности для рейтингового алгоритма

Оценка Тип функции

Треугольная Трапецеидальная Функция Гаусса

Оценка полноты 0,61 0,58 0,64

Оценка непротиворечивости 0,75 0,79 0,85

Таблица 3

Зависимость степени непротиворечивости и полноты базы от типа функции принадлежности для алгоритма Абе-Лэна

Оценка Тип функции

Треугольная Трапецеидальная Функция Гаусса

Оценка полноты 0,52 0,50 0,55

Оценка непротиворечивости 0,69 0,64 0,70

Таблица 4

Влияние алгоритма сокращения правил на «предел» полноты

Оценка Тип функции

Треугольная Трапецеидальная Функция Гаусса

Оценка полноты для рейтингового алгоритма 0,69 0,69 0,75

Оценка полноты для алгоритма Абе-Лэна 0,64 0,60 0,69

48

Измерение. Мониторинг. Управление. Контроль

Заключение

Сравнительный анализ двух алгоритмов генерации баз нечетких продукционных правил показал преимущество рейтингового алгоритма по сравнению с алгоритмом Абе-Лэна: оценка непротиворечивости базы правил, полученной с помощью рейтингового алгоритма, составляет 0,80, оценка полноты - 0,60. Соответствующие характеристики, полученные с помощью алгоритма Абе-Лэна, равны 0,68 и 0,50. Анализ влияния функции принадлежности на полноту и непротиворечивость базы правил показал более высокие оценки при использовании функции Гаусса по сравнению с треугольной и трапецеидальной функциями: оценка непротиворечивости для рейтингового алгоритма равна 0,85, а оценка полноты 0,64. Для алгоритма Абе-Лэна эти значения соответственно равны 0,70 и 0,55. В соответствии с реализованным алгоритмом сокращения числа правил противоречивые правила исключаются из базы, поэтому оценка непротиворечивости базы равна 1,00; «предел» полноты увеличился для рейтингового алгоритма в среднем на 10 %, а для алгоритма Абе-Лэна - в среднем на 9 %.

Тем не менее можно сделать вывод о неполноте исходных данных в обучающей выборке, так как максимальная оценка полноты не превышает 0,75. Полученные оценки непротиворечивости сгенерированной базы правил можно объяснить наличием пересечений параметров в двух классах ирисов из заданных трех классов.

Список литературы

1. Борисов, В. В. Нечеткие модели и сети / В. В. Борисов, В. В. Круглов, А. С. Федулов. -М. : Горячая линия - Телеком, 2007. - 284 с.

2. Рутковская, Д. Нейронные сети, генетические алгоритмы и нечеткие системы / Д. Рут-ковская, М. Пилинский, Л. Рутковский. - М. : Горячая линия - Телеком, 2007. - 452 с.

3. Abe, S. Fuzzy rule extraction directly from numerical data for function approximation / S. Abe,

M.-S. Lan // IEEE Transaction Systems, Man, and Cybernetics. - 1995. - Vol. 25. - Р. 119-129.

4. Abe, S. A metod for fuzzy rule extraction directly from numerical data and its application to pattern classification / S. Abe, M.-S. Lan // IEEE Transaction on Fuzzy Systems. - 1995. -Vol. 3, № 1. - Р. 18-28.

5. Круглов, В. В. Искусственные нейронные сети. Теория и практика / В. В. Круглов,

В. В. Борисов. - М. : Горячая линия - Телеком, 2002. - 382 с.

6. Nelles, O. Comparison of two construction algorithms for Takagi-Sugeno fuzzy models /

O. Nelles, A. Fink, R. Babuska, M. Setnes // International Journal of Applied Mathematics and Computer Science. - 2000. - Vol. 4, № 10. - Р. 835-855.

7. Новак, В. Математические принципы нечеткой логики / В. Новак, И. Перфильева,

И. Мочкорж. - М. : Физматлит, 2006. - 352 с.

8. Свидетельство о государственной регистрации программы для ЭВМ № 2014617382 Программный имитатор нейронных сетей «Нейрокомбайн» / Солдатова О. П., Варже-ва Н. А., Гусев А. С., Шауберт А. В., Андрианова А. Ю., Ледаков Я. А., Лезин И. А., Лезина И. В. - Заявка № 2014613074, дата поступл. 08.04.2014, зарегистрировано в Реестре программ для ЭВМ 18.08.2014.

9. Bache, K. UCI Machine Learning Repository / K. Bache, M. Lichman. - Irvine, CA : University of California, School of Information and Computer Science, 2013. - URL: http://archive.ics.uci.edu/ml.

Солдатова Ольга Петровна

кандидат технических наук, доцент, кафедра информационных систем и технологий, Самарский государственный аэрокосмический университет имени академика С. П. Королева E-mail: op-soldatova@yandex.ru

Soldatova Olga Petrovna

candidate oftechnical sciences, associate professor, sub-department of information systems and technologies,

Samara State Aerospace University named after academician S. P. Korolev

УДК 004.032.26 Солдатова, О. П.

Сравнительный анализ алгоритмов генерации баз нечетких продукционных правил на примере решения задачи классификации / О. П. Солдатова // Измерение. Мониторинг. Управление. Контроль. - 2014. - № 4 (10). - С. 43-48.

i Надоели баннеры? Вы всегда можете отключить рекламу.