Научная статья на тему 'О выборе эффективных настроек генетического алгоритма оптимизации параметров классификаторов в задаче классификации повреждений стальных листов'

О выборе эффективных настроек генетического алгоритма оптимизации параметров классификаторов в задаче классификации повреждений стальных листов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
82
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИАГНОСТИКА СТАЛЬНЫХ ПЛАСТИН / DIAGNOSTICS OF STEEL PLATES / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / DATA MINING / ГЕНЕТИЧЕСКИЙ АЛГОРИТМ / GENETIC ALGORITHM / ОПТИМИЗАЦИЯ / OPTIMIZATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мамонтов Д.Ю.

Производится выбор настроек генетического алгоритма с последующим применением их в системе RapidMiner при оптимизации классификаторов в задаче определения типов повреждений стальных пластин.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Мамонтов Д.Ю.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ABOUT THE CHOICE OF EFFECTIVE SETTINGS OF GENETIC ALGORITHM FOR CLASSIFIERS PARAMETERS OPTIMIZATION IN STEEL SHEETS DEFECTS IDENTIFICATION

In this article, the selection of genetic algorithm's settings is fulfilled following their application within RapidMiner system for the classifiers optimization in the task of steel plates' defects identification.

Текст научной работы на тему «О выборе эффективных настроек генетического алгоритма оптимизации параметров классификаторов в задаче классификации повреждений стальных листов»

УДК 519.87

О ВЫБОРЕ ЭФФЕКТИВНЫХ НАСТРОЕК ГЕНЕТИЧЕСКОГО АЛГОРИТМА ОПТИМИЗАЦИИ ПАРАМЕТРОВ КЛАССИФИКАТОРОВ В ЗАДАЧЕ КЛАССИФИКАЦИИ

ПОВРЕЖДЕНИЙ СТАЛЬНЫХ ЛИСТОВ

Д. Ю. Мамонтов

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: mamontov.bs@yandex.ru

Производится выбор настроек генетического алгоритма с последующим применением их в системе RapidMiner при оптимизации классификаторов в задаче определения типов повреждений стальных пластин.

Ключевые слова: диагностика стальных пластин, интеллектуальный анализ данных, генетический алгоритм, оптимизация.

ABOUT THE CHOICE OF EFFECTIVE SETTINGS OF GENETIC ALGORITHM

FOR CLASSIFIERS PARAMETERS OPTIMIZATION IN STEEL SHEETS DEFECTS

IDENTIFICATION

D. Yu. Mamontov

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: mamontov.bs@yandex.ru

In this article, the selection of genetic algorithm's settings is fulfilled following their application within RapidMiner system for the classifiers optimization in the task of steel plates' defects identification.

Keywords: diagnostics of steel plates, data mining, genetic algorithm, optimization.

При изготовлении стальных изделий, невозможно избежать брака, однако возможно своевременно его обнаружить и исключить из партии. Несовершенства, полученные конструкцией на стадии изготовления, называются дефектами. Для выявления возможных дефектов на всех этапах контроля качества применяются методы технической диагностики, основанные на различных физических свойствах изделий. Однако во всех случаях полученные данные требуют дальнейшего анализа с использованием интеллектуальных информационных технологий. Для настройки методов интеллектуального анализа данных, часто применяется генетический алгоритм. Данная работа посвящена изучению выбора эффективных настроек генетического алгоритма применяемого для оптимизации работы классификаторов в задаче диагностики повреждений стальных листов.

База данных была предоставлена итальянским научно-исследовательским центром наук о коммуникации Semeion [1]. База содержит 1941 вектор и 7 классов дефектов: Pastry (пригар), Z_Scratch (зигзагообразные царапины), K_Scatch (простые царапины), Stains (точечно-пятнистая неоднородность), Dirtiness (корочки), Bumps (вмятины), Other_Faults (другое). Для решения задачи использовалась система анализа данных RapidMiner Studio 5.3.015 [2].

В качестве исследуемых методов анализа данных были выбраны: искусственная нейронная сеть (ANN, [3]), оптимизированная по количеству циклов обучения; метод ближайших соседей (k-NN, [4]), оптимизированный по количеству ближайших соседей; деревья решений (DT, [5]), оптимизированный по минимальному размеру для разделения; случайный лес (RF, [6]), оптимизированный по количеству деревьев.

После применения данных методов со стандартными настройками (установленными по умолчанию в системе RapidMiner), на тестовом наборе данных были получены следующие оценки точности диагностирования: ANN - 72,85 %, k-NN - 71,65 %, DT - 50,34 %, RF - 50,23 % [7]. Такие результаты не могут быть признаны удовлетворительными.

Секция «Математические методы моделирования, управления и анализа данных»

Поэтому для настройки параметров классификаторов необходимо применить оптимизационный алгоритм, например - эволюционный [8]. Однако хорошо известно, что генетические алгоритмы тоже требуют настройки для более эффективной работы [9; 10]. Выбор эффективных настроек генетического алгоритма представляет собой отдельную и сложную задачу.

Для решения этой задачи генетический алгоритм был реализован на языке C++ в среде RAD Studio Builder XE8. На ряде тестовых задач была исследована эффективность генетического алгоритма с целью выбора настроек, которые впоследствии будут использованы при оптимизации классификаторов в системе RapidMiner. Тестирование производилось на трех функциях, зависящих от двух независимых переменных: Растригина, Шекеля и квадратичной, представляющих три основных типа возможных поверхностей отклика целевой функции в реальных задачах. В результате проведенного тестирования, представляющего собой полный перебор всех возможных настроек, были выявлены следующие конфигурации алгоритма, обеспечивающие лучшую, среднюю и худшую эффективности соответственно:

1) турнирная селекция (размер турнира 9), слабая мутация, вероятность скрещивания 0,95;

2) турнирная селекция (размер турнира 6), слабая мутация, вероятность скрещивания 0,6;

3) пропорциональная селекция, средняя мутация, вероятность скрещивания 0,6;

Эффективность решения исходной задачи идентификации дефектов стальных пластин после

оптимизации классификаторов с помощью генетического алгоритма с лучшими, средними и худшими настройками:

1) ANN - 73.36 %, k-NN - 73.88 %, DT - 50.39 %, RF - 50.54 %;

2) ANN - 72.80 %, k-NN - 73.31 %, DT - 50.23 %, RF - 46.57 %;

3) ANN - 73.26 %, k-NN - 49.62 %, DT - 50.49 %, RF - 45.18 %.

На основании проведенного сравнения по критерию Стьюдента, можно сделать вывод о том, что изменение настроек генетического алгоритма не позволило достичь статистически значимого улучшения эффективности работы классификаторов.

Таким образом, нельзя утверждать, что настройки генетического алгоритма, показавшие на тестовых задачах требуемую эффективность можно применять на реальной задаче рассчитывая на аналогичный результат. Это может быть связано как с нерепрезентативностью множества тестовых задач, так и с непереносимостью выводов по тестовым задачам на реальную практическую задачу. Для преодоления первого недостатка подхода необходимо расширять тестовое множество, в том числе и задачами из реальной жизни [11; 12]. Во втором случае выходом может быть использование самонастраивающихся подходов при применении алгоритмов стохастической оптимизации [13; 14].

Библиографические ссылки

1. Semeion, Research Center of Sciences of Communication, Via Sersale 117, 00128, Rome, Italy. Available at: www.semeion.it (дата обращения: 21.02.2016).

2. RapidMiner Studio Downloadable GUI for machine learning, data mining, text mining, predictive analytics and business analytics. Available at: https://rapidminer.com/ (дата обращения: 21.02.2016).

3. Wang S. C. Artificial neural network. New York: Springer US - Interdisciplinary Computing in Java Programming, 2003. Pp. 81-100.

4. Wang, H. and Bell, D. Extended k-Nearest Neighbours Based on Evidence Theory: The Computer Journal. 2004. Nov. Vol. 47(6). Pp. 662-672.

5. Osei-Bryson K. M. Overview on decision tree induction. New York: Springer US - Advances in Research Methods for Information Systems Research, 2014. Pp. 15-22.

6. Antipov E. A., Pokryshevskaya E. B. Mass appraisal of residential apartments: An application of Random forest for valuation and a CART-based approach for model diagnostic // Expert Systems with Applications. 2012. Vol. 39. No. 2. P. 1772-1778.

7. Мамонтов Д. Ю. О применении методов интеллектуального анализа данных в задачах технической диагностики // Решетневские чтения : материалы XIX Междунар. науч.-практ. конф., по-свящ. 55-летию Сиб. гос. аэрокосмич. ун-та им. акад. М. Ф. Решетнева (10-14 нояб. 2015, г. Красноярск). 2015. Ч. 2. С. 65-67.

8. Гуменникова А. В., Емельянова М. Н., Семенкин Е. С., Сопов Е. А. Об эволюционных алгоритмах решения сложных задач оптимизации // Вестник СибГАУ. 2003. № 4. С. 14.

9. Бежитский С. С., Семенкин Е. С., Семенкина О. Э. Гибридный эволюционный алгоритм для задач выбора эффективных вариантов систем управления // Автоматизация. Современные технологии. 2005. № 11. С. 24.

10. Семенкин Е. С., Семенкина М. Е. Применение генетического алгоритма с модифицированным оператором равномерной рекомбинации при автоматизированном формировании интеллектуальных информационных технологий // Вестник СибГАУ. 2007. № 3(16). С. 27-33.

11. Семенкин Е.С., Клешков В.М. Модели и алгоритмы распределения общих ресурсов при управлении инновациями реструктурированного машиностроительного предприятия // Проблемы машиностроения и автоматизации. 2006. № 3. С. 24-30.

12. Yakimov Y. I., Semenkin E. S., Yakimov I. S. Two-level genetic algorithm for a fullprofile fitting of x-ray powder patterns // Zeitschrift fur Kristallographie, Supplement. 2009. № 30. С. 21-26.

13. Akhmedova S., Semenkin E. Co-operation of biology related algorithms meta-heuristic in ANN-based classifiers design // Proceedings of the 2014 IEEE Congress on Evolutionary Computation, CEC 2014. 2014. С. 867-872.

14. Semenkin E., Semenkina M. Spacecrafts' control systems effective variants choice with self-configuring genetic algorithm // ICINCO 2012 - Proceedings of the 9th International Conference on Informatics in Control, Automation and Robotics. 2012. С. 84-93.

© Мамонтов Д. Ю., 2016

i Надоели баннеры? Вы всегда можете отключить рекламу.