Научная статья на тему 'Коллективное формирование базы правил нечеткого классификатора'

Коллективное формирование базы правил нечеткого классификатора Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
114
50
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сергиенко Р. Б.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Коллективное формирование базы правил нечеткого классификатора»

workflow, который позволяет регистрировать, но не отображать в истории для оператора переход в состояние STELLA. Таким образом, нарушение технологической дисциплины не будет заметно для оператора, просматривающего свою версию истории токена. В то же время администратор системы имеет возможность отслеживать всю историю, включая нарушения технологической дисциплины.

Применение метода. Предложенный способ реализации произвольных переходов в ТП применим, например, в системах мониторинга. Здесь решается задача отслеживания эволюции токена, который движется по графу описания ТП. Информация об эволюции токена может поступать в систему мониторинга нерегулярно: с опозданиями, с опережением (прогнозирование), с перерывами или с нарушением хронологического порядка. Для решения задачи мониторинга каждому токену исходной системы (подчиняющемуся исходному негибкому ТП) сопоставляется парный ему токен системы мониторинга (подчиняющийся расширенному гибкому ТП, включающему состояние STELLA).

При составлении расширенного варианта описания ТП, который соответствует исходному ТП, содержащему N состояний, в предложенном методе добавляются новое состояние STELLA и 2N новых переходов (из каждого исходного состояния в состояние STELLA и обратно). Очевидной альтернативой этого метода является заблаговременное добавление переходов из каждого исходного состояния в каждое из остальных (и обратно), причем без добавления каких-либо новых состояний. Таких новых переходов будет N (N-1) штук за вычетом изначально разрешенных переходов. В отсутствие состояния STELLA нужно будет разрабатывать новый механизм различения изначально разрешенных и произвольных переходов, а квадратичный рост числа переходов усложняет описания расширенного ТП и повышает вероятность ошибок разработчика.

Рассмотренный в настоящей статье подход удобен для интерактивных систем, особенно для таких применений, когда нарушения технологической дисциплины происходят редко и на разных стадиях выполнения ТП, то есть когда для большинства токенов дополнительные переходы оказываются ненужными и только затрудняют оператору восприятие системы.

Предложенный метод в основном реализуется путем заблаговременного усложнения исходного описания ТП на языке высокого уровня. Полученные результаты расширяют область применимости информационных систем, построенных на основе технологии workflow.

Литература

1. Workflow Management Coalition. URL: http://www. wfmc.org (дата обращения: 10.09.2012).

2. Will M.P. van der Aalst, K.M. van Hee. Workflow Management: Models, Methods, and Systems. Cambridge Massachusetts USA. MIT Press. 2002.

3. Mohan R., Cohen M.A., Schiefer J. A state machine based approach for a process driven development of web-applications. 14th Intern. Conf. on Advanced Information Systems Engineering, CAISE 2002, Lecture Notes in Computer Science. Berlin, Heidelberg. Springer-Verlag. 2002. Vol. 2348, pp. 52-66.

4. Will M.P. van der Aalst,Pesic M., Schonenberg H. Declarative workflows: Balancing between flexibility and support. Computer science research and development. Amsterdam. Springer. 2009. Vol. 23, pp. 99-113.

5. Standalone workflow system Perl-workflow. URL: http:// search. cpan.org/dist/Workflow/ (дата обращения: 10.09.2012).

References

1. Workflow Management Coalition, Available at: http:// www.wfmc.org (accessed 10 September 2012).

2. Will M.P. van der Aalst, K.M. van Hee. Workflow Management: Models, Methods, and Systems. Cambridge Massachusetts USA, MIT Press, 2002.

3. Mohan R., Cohen M.A., Schiefer J., 14-th Intern. Conf. CAISE 2002, Berlin, Heidelberg, Springer-Verlag, 2002, Vol. 2348, pp. 52-66.

4. Will M.P. van der Aalst, Pesic M., Schonenberg H.,

Declarative workflows: Balancing between flexibility and support, CSRD, Amsterdam, Springer, 2009, Vol. 23, pp. 99-113.

5. Standalone workflow system Perl-workflow, Available at: http://search.cpan.org/dist/Workflow/ (accessed 10 September 2012).

УДК 004.89

КОЛЛЕКТИВНОЕ ФОРМИРОВАНИЕ БАЗЫ ПРАВИЛ НЕЧЕТКОГО КЛАССИФИКАТОРА

(Работа поддержана грантом КГАУ «Красноярский краевой фонд поддержки научной и научно-технической деятельности» в 2012 г., а также НИР 2011-1.2.1-113-025 2, ГК№ 16.740.11.0742, в рамках ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 гг.)

Р.Б. Сергиенко, к.т.н., ст. преподаватель (Сибирский государственный аэрокосмический университет им. академика М.Ф. Решетнева, просп. им. газ. «Красноярскийрабочий», 31, г. Красноярск, 660014, Россия, romaserg@list.ru)

Рассматривается подход к коллективному формированию базы правил нечеткого классификатора ансамблем нечетких классификаторов, сгенерированных самонастраивающимися коэволюционными алгоритмами. Представлены

результаты применения данного подхода при решении практических задач классификации. Основной результат работы - новый метод коллективного формирования нечеткого классификатора. При наличии нескольких заранее сгенерированных нечетких классификаторов появляется возможность сформировать с использованием самонастраивающихся коэволюционных алгоритмов нечеткий классификатор, превосходящий по эффективности первоначальные. При этом число используемых нечетких правил не увеличивается. Разработанный метод имеет следующие свойства: позволяет получать классификаторы, превосходящие по точности классификации исходные при сохранении ограничения на число используемых правил; снижает разброс в значениях эффективности нечетких классификаторов при многократном запуске, то есть обладает повышенной статистической устойчивостью; наиболее эффективен для сложных задач классификации (по числу классов или атрибутов). Значения точности классификации, вычисленные с помощью разработанного метода, превосходят значения, полученные многими современными алгоритмами классификации.

Ключевые слова: нечеткий классификатор, коллективный выбор, ансамбль алгоритмов, коэволюционный алгоритм.

FUZZY CLASSIFIER BASE RULE COLLECTIVE FORMING

Sergienko RB., Ph.D., Senior Lecturer (Academician M.F. Reshetnev Siberian State Aerospace University, 31, Krasnoyarsky RabochyAv., Krasnoyarsk, 660014, Russia, romaserg@list.ru)

Abstract. An approach of fuzzy classifier base rule collective forming with generated with self-tuning revolutionary algorithms fuzzy classifier ensemble is observed. Results of the approach applying for practical classification problems are presented. The main result of our work is collective fuzzy classifier forming method. Having generated some fuzzy classifiers we are able to construct more effective classifier from previous classifiers using again cooperative-competitive coevolutionary algorithm. A number of using fuzzy rules isn't increasing with this method. The approach of multistep fuzzy classifier forming has the following features: the method improves classification performance without increasing number of rules, the method reduces diversity of performance values for multiple algorithm runs, i.e. the method has higher statistical stability, the method is more effective for more complicated classification problems (more attributes and classes).Fuzzy classifier forming methods comparison with alternative classification methods by performance value demonstrates that both fuzzy classifier forming methods have better efficiency that present-day classification algorithms.

Keywords: fuzzy classifier, collective decision, algorithm ensemble, coevolutionary algorithm.

Нечеткий классификатор - это алгоритм классификации, основанный на извлечении нечетких правил из массивов данных [1]. Преимуществом данного подхода является возможность явной интерпретации причинно-следственных закономерностей, приводящих к отнесению объекта классификации к различным классам.

Автором разработан и исследован новый подход к формированию нечетких классификаторов, использующий самонастраивающиеся коэволю-ционные алгоритмы и гибридизирующий основные подходы к формированию нечетких систем генетическими алгоритмами - Питтсбургский (индивид - база правил целиком) и Мичиганский (индивид - отдельное нечеткое правило) [2]. Процедура включает следующие основные этапы.

1. Формирование начальной популяции для Мичиганского этапа. Данная операция очень важна, так как случайное генерирование правил для начального заполнения популяции неприемлемо -при значительном числе информативных признаков в задаче классификации вероятность случайной генерации правила, которому соответствовал хотя бы один элемент из обучающей выборки, крайне мала. Эта проблема становится существенной уже при размерности четыре и выше. Поэтому необходимо использовать априорную информацию из обучающей выборки.

2. Мичиганский этап генерирования нечеткого классификатора. Индивиды представляют собой отдельные нечеткие правила. Длина хромосомы равна числу информативных признаков, каждый

ген соответствует нечеткому числу. Функция пригодности индивидов - доверительный уровень правила, вычисляемый по обучающей выборке. Применяется коэволюционный генетический алгоритм безусловной оптимизации. Популяция с наибольшей точностью классификации используется на следующей стадии генерирования нечеткого классификатора.

3. Питтсбургский этап генерирования нечеткого классификатора. Индивиды представляют собой базу нечетких правил целиком. Длина хромосомы равна числу правил, найденных на Мичиганском этапе. Хромосомы бинарные, бит «1» означает использование соответствующего нечеткого правила, найденного на предыдущем этапе, бит «0» - исключение правила из базы. Пригодность -точность классификации базы правил. Вводится ограничение на максимально допустимое число правил, используемых в базе. Применяется коэво-люционный генетический алгоритм условной оптимизации [3].

Подробно результаты исследования эффективности метода формирования нечеткого классификатора самонастраивающимися коэволюци-онными алгоритмами и преимущества метода описаны в [2].

В основу разработанного метода формирования коллективов нечетких классификаторов положены стохастические алгоритмы оптимизации. Несмотря на статистическую устойчивость метода, разброс в показателях эффективности получаемых нечетких классификаторов при увеличе-

нии сложности решаемых задач классификации (увеличение числа классов и/или числа признаков) и ограниченности вычислительных ресурсов возрастает. Кроме того, показательной является ситуация, когда в обучающей выборке некоторые классы представлены ограниченным числом элементов. При различных запусках автоматизированной процедуры формирования нечетких классификаторов могут получаться базы правил примерно одного уровня точности классификации в целом, но при этом в одной базе правил имеются характерные правила для одних редких классов и отсутствуют для других, в другой же базе ситуация аналогичная, но для иных классов. Интуитивно понятно, что подобные нечеткие классификаторы могли бы взаимно дополнять друг друга, существенно повышая точность классификации в целом. Поэтому возникла идея разработки метода с использованием коллектива полученных ранее нечетких классификаторов.

Разработка и исследование метода коллективного формирования базы правил нечеткого классификатора

Для решения указанной проблемы можно рассмотреть разные подходы. Тривиальным является объединение нескольких баз правил в одну большую базу. Однако при этом теряется свойство компактности нечеткого классификатора, важное для простоты интерпретируемости алгоритма экспертами в соответствующей проблемной области. Кроме того, исследования в [2] показали, что увеличение числа используемых правил может приводить к существенному снижению точности классификации. Разнообразные методы голосования в коллективах решающих правил также не лишены указанных недостатков.

Поэтому предлагается формировать новую базу нечетких правил ограниченного объема на основе нескольких сгенерированных баз нечетких правил путем отбора определенных правил из исходных баз правил. По сути в модифицированном виде повторно реализуется Питтсбургский этап формирования нечеткого классификатора. Аналогом множества правил, полученного на Мичиганском этапе, является множество правил из всех исходных нечетких классификаторов, сгруппированных в единый массив. Целевая функция -точность классификации базой нечетких правил, вводится ограничение на число используемых правил, используется коэволюционный алгоритм условной оптимизации. Данный метод должен позволить генерировать компактные базы правил повышенной точности, обладающие преимуществами нескольких исходных нечетких классификаторов.

Для исследования предлагаемого коллективного метода формирования базы правил нечеткого

классификатора ансамблем исходных нечетких классификаторов взяты следующие практические задачи классификации из репозитория UCI [4]:

1. Credit (Australia-1) (задача о выявлении подозрительных транзакций c кредитными картами, австралийский вариант, 14 признаков, 2 класса);

2. Credit (Germany) (задача о выдаче банковского кредита, 24 признака, 2 класса);

3. Liver Disorder (диагностирование заболевания печени, 6 признаков, 2 класса);

4. Iris (классификация видов ириса, 4 признака, 3 класса);

5. Yeast (классификация типов дрожжей, 8 признаков, 10 классов);

6. Glass Identification (классификация сортов стекла по содержанию химических элементов, 9 признаков, 7 классов);

7. Landsat Images (распознавание типов земель по спутниковым изображениям, 36 признаков (методом главных компонент размерность задачи сокращена до 4 признаков), 6 классов).

В таблице 1 приведены результаты исследований на тестовых задачах классификации. В качестве коллектива нечетких классификаторов взяты классификаторы, полученные на предыдущем этапе исследований. Приведены минимальные, максимальные, средние значения точности классификации, а также среднеквадратичные уклонения, полученные по результатам статистических исследований (10 или 20 запусков в зависимости от сложности задачи). При генерации нового классификатора из коллектива классификаторов исходное ограничение на максимально допустимое число используемых правил сохранялось.

Из таблицы 1 видно, что метод коллективного формирования базы правил нечеткого классификатора позволил статистически значимо повысить точность классификации для всех задач при сохранении ограничения на число используемых правил. Отметим, что эффективность метода в большей мере проявляется при увеличении сложности задачи (увеличении числа признаков или классов). Так, для задач Iris (4 признака, 3 класса) или LandSat Images (4 признака, 6 классов) прирост по точности классификации около 1 %, тогда как для задачи Glass Identification (9 признаков, 7 классов) средние и максимальные показатели точности классификации увеличены на 8-9 %. Кроме того, почти во всех задачах отмечено существенное сокращение разброса в значениях показателей при многократном запуске алгоритма, что свидетельствует о повышенной статистической устойчивости коллективного метода формирования нечеткого классификатора.

В таблице 2 приведено сравнение максимальных значений точности классификации, полученных коллективным методом формирования базы правил нечеткого классификатора, со значениями, полученными исходным (базовым) методом фор-

мирования нечеткого классификатора, а также рядом современных алгоритмов классификации согласно данным, приведенным в [5] и [6].

Таблица 1

Результаты исследования эффективности метода коллективного формирования базы правил нечеткого классификатора

Задача Значения Среднеквадратичные уклонения

Максимальные Средние Минимальные

Исх. Кол. Исх. Кол. Исх. Кол. Исх. Кол.

Glass Identification-20 0,757 0,836 0,737 0,824 0,706 0,813 0,01388 0,00737

Glass Identification-30 0,827 0,874 0,782 0,861 0,757 0,827 0,01831 0,01354

Liver Disorder-10 0,687 0,713 0,666 0,705 0,632 0,699 0,01500 0,00449

Liver Disorder-15 0,710 0,739 0,682 0,731 0,655 0,719 0,01669 0,00608

Liver Disorder-20 0,725 0,757 0,692 0,748 0,655 0,739 0,01731 0,00554

Iris-3 0,947 0,980 0,908 0,980 0,767 0,980 0,05643 0

Iris-4 0,973 0,980 0,951 0,980 0,900 0,980 0,02623 0

Iris-5 0,987 0,987 0,971 0,987 0,940 0,987 0,01303 0

Iris-6 0,987 0,993 0,975 0,993 0,933 0,987 0,01073 0,00211

Landsat Images-10 0,849 0,851 0,839 0,850 0,821 0,848 0,00783 0,00107

Landsat Images-15 0,857 0,861 0,847 0,859 0,836 0,856 0,00416 0,00144

Landsat Images-20 0,857 0,864 0,849 0,863 0,835 0,862 0,00546 0,00090

Yeast -20 0,598 0,609 0,573 0,605 0,540 0,602 0,01801 0,00241

Yeast-30 0,606 0,641 0,587 0,633 0,555 0,625 0,01710 0,00431

Yeast-60 0,626 0,674 0,593 0,668 0,542 0,662 0,02207 0,00429

Credit (Australia-1)-10 0,870 0,891 0,827 0,888 0,758 0,886 0,02482 0,00174

Credit (Australia-1)-20 0,890 0,919 0,861 0,918 0,841 0,910 0,01231 0,00269

Credit (Australia-1)-30 0,891 0,926 0,873 0,924 0,854 0,922 0,01035 0,00171

Credit (Germany)-50 0,767 0,795 0,761 0,791 0,755 0,783 0,00357 0,00431

Credit (Germany)-80 0,794 0,821 0,790 0,815 0,784 0,809 0,00296 0,00534

Примечение: исх. - значения для исходного множества нечетких классификаторов; кол. - значения, полученные после генерации нечеткого классификатора из коллектива нечетких классификаторов; число после наименования задачи обозначает значение ограничения на число используемых правил; жирным шрифтом выделены наилучшие показатели (максимальная точность классификации, минимальное среднеквадратичное уклонение).

Таблица 2

Сравнительная таблица эффективности различных методов классификации

Алгоритм Credit Credit Liver

Australia-1 Germany Disorder

Коллективный метод 0,926 0,821 0,757

формирования нечеткого классификатора

Базовый метод формирования 0,891 0,794 0,725

нечеткого классификатора

Байесовский подход 0,847 0,679 0,629

Многослойный персептрон 0,833 0,716 0,693

Бустинг 0,760 0,700 0,656

Бэггинг 0,847 0,684 0,630

Метод случайных подпространств 0,852 0,677 0,632

Коэволюционный метод 0,866 0,746 0,644

обучения алгоритмических

композиций

Разработанный алгоритм реализован в виде программной системы, созданной в интегрированной среде разработки Microsoft Visual Studio 2008, язык C++. Программная система предусматривает унифицированный формат ввода исходных данных, не зависящий от предметной области решаемой задачи классификации.

Таким образом, разработанный и реализованный в виде программной системы коллективный метод формирования нечеткого классификатора ансамблем исходных нечетких классификаторов с использованием кооперативно-конкурирующего коэволюционного алгоритма позволяет получать классификаторы, превосходящие по точности классификации исходные при сохранении ограничения на число используемых правил, а также обладает повышенной статистической устойчивостью. Кроме того, значения точности классификации, получаемые разработанным методом, превосходят значения, полученные многими современными алгоритмами классификации.

Литература

1. Ishibuchi H., Nakashima T. and Murata T. Performance Evaluation of Fuzzy Classifier Systems for Multidimensional Pattern Classification Problems, IEEE Trans. on Systems, Man, and Cybernetics, 1999. Vol. 29, pp. 601-618.

2. Сергиенко Р.Б. Метод формирования нечеткого классификатора самонастраивающимися коэволюционными алгоритмами // Искусственный интеллект и принятие решений. 2010. № 3. С. 98-106.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Sergienko R.B. and Semenkin E.S. Competitive Cooperation for Strategy Adaptation in Coevolutionary Genetic Algorithm for Constrained Optimization // WCCI 2010 IEEE World Congress on Computational Intelligence. CCIB, Barcelona, Spain (July, 18-23), 2010, pp. 1626-1631.

4. UCI Machine Learning Repository. URL: http://kdd.ics. uci.edu/ (дата обращения: 23.03.2011).

5. Воронцов К.В., Каневский Д.Ю. Коэволюционный метод обучения алгоритмических композиций // Таврический вестн. информатики и матем. 2005. № 2. С. 51-66.

6. Тестирование многослойного персептрона. URL: http:// poligon.machinelearning.ru/Report/View.aspx?reportId=4&page=1 &from=list (дата обращения: 12.04.2011).

References

1. Ishibuchi H., Nakashima T. and Murata T., IEEE Trans. on Systems, Man, and Cybernetics, 1999, Vol. 29, pp. 601-618.

2. Sergienko R.B., Iskusstvenny intellekt i prinyatie resheny [Artificail Intelligence and Decision Making], 2010, Vol. 3, pp. 98-106.

3. Sergienko R.B. and Semenkin E.S., IEEE World Congress on Computational Intelligence, CCIB, Barcelona, Spain (July, 18-23), 2010, pp. 1626-1631.

4. UCI Machine Learning Repository, avaliable at: http://kdd. ics.uci. edu/ (accessed 23 March 2011).

5. Vorontsov V.V. and Kanevsky D.U., Tavrichesky Vestnik Informatiki i Matematiki [Tavria's Gerald of Informatics and Mathematics], Feb. 2005, pp. 51-66.

6. Multilayer Perceptron Test, avaliable at: http://poligon. machinelearning.ru/Testing/Report.aspx?ReportID=4 (accessed 12 April 2011).

i Надоели баннеры? Вы всегда можете отключить рекламу.