Научная статья на тему 'Исследование эффективности интеллектуальных методов анализа данных в задаче классификации повреждений стальных листов'

Исследование эффективности интеллектуальных методов анализа данных в задаче классификации повреждений стальных листов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
133
36
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДЕФЕКТЫ СТАЛЬНЫХ ПЛАСТИН / STEEL PLATES DAMAGES / КЛАССИФИКАЦИЯ / CLASSIFICATION / НЕЙРОННЫЕ СЕТИ / NEURAL NETS / МЕТОД БЛИЖАЙШИХ СОСЕДЕЙ / K-NEAREST NEIGHBOR ALGORITHM / НАИВНЫЙ БАЙЕСОВСКИЙ КЛАССИФИКАТОР / NAIVE BAYES CLASSIFIER / АВТОМАТИЧЕСКИЙ МНОГОСЛОЙНЫЙ ПЕРСЕПТРОН / AUTOMATED MULTILAYER PERCEPTRON / ДЕРЕВЬЯ РЕШЕНИЙ / DECISION TREE / СРАВНИТЕЛЬНЫЙ АНАЛИЗ ЭФФЕКТИВНОСТИ / PERFORMANCE COMPARISON

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мамонтов Д. Ю.

Проводится сравнение пяти методов интеллектуального анализа данных в задаче классификации типов повреждений стальных листов. Проанализированы результаты и предоставлены рекомендации по дальнейшей работе над данной задачей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EFFECTIVENESS INVESTIGATION OF DATA MINING TECHNIQUES IN CLASSIFICATION OF STEEL PLATES DEFECTS

In the article, a comparing of five data mining techniques in the task of classification of types of steel plates damages is carried out. Results are analyzed and recommendations on further work are provided.

Текст научной работы на тему «Исследование эффективности интеллектуальных методов анализа данных в задаче классификации повреждений стальных листов»

Секция ««Математические методы моделирования, управления и анализа данных»

УДК 519.87

ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ ИНТЕЛЛЕКТУАЛЬНЫХ МЕТОДОВ АНАЛИЗА

ДАННЫХ В ЗАДАЧЕ КЛАССИФИКАЦИИ ПОВРЕЖДЕНИЙ СТАЛЬНЫХ ЛИСТОВ

Д. Ю. Мамонтов Научный руководитель - Е. С. Семенкин

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-mail: [email protected]

Проводится сравнение пяти методов интеллектуального анализа данных в задаче классификации типов повреждений стальных листов. Проанализированы результаты и предоставлены рекомендации по дальнейшей работе над данной задачей.

Ключевые слова: дефекты стальных пластин, классификация, нейронные сети, метод ближайших соседей, наивный байесовский классификатор, автоматический многослойный персептрон, деревья решений, сравнительный анализ эффективности.

EFFECTIVENESS INVESTIGATION OF DATA MINING TECHNIQUES IN CLASSIFICATION OF STEEL PLATES DEFECTS

D. Yu. Mamontov Scientific supervisor - E. S. Semenkin

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]

In the article, a comparing of five data mining techniques in the task of classification of types of steel plates damages is carried out. Results are analyzed and recommendations on further work are provided.

Keywords: steel plates damages, classification, neural nets, k-nearest neighbor algorithm, naive Bayes classifier, automated multilayer perceptron, decision tree, performance comparison.

В современном мире широко используются стальные изделия. Стальной лист имеет широкое применение в различных отраслях промышленности, в том числе в области производства летательных аппаратов и других изделий машиностроительной отрасли [1]. В связи с этим требуется, чтобы стальной лист соответствовал высочайшим требованиям качества, которые к нему предъявляют. Таким образом, с целью минимизации затраты и сокращения времени на прохождение контроля качества целесообразно исследовать эффективность интеллектуальных методов анализа данных в задаче классификации повреждений стальных листов.

База данных, используемая в данной работе, была предоставлена итальянским научно-исследовательским центром наук о коммуникации Semeion [2]. Входной вектор составлен из 27 независимых переменных, которые приблизительно описывают геометрическую форму дефекта, его границы и другие параметры. Задача состоит в том, чтобы правильно определить тип дефекта поверхности в нержавеющих стальных плитах, с 7 классами возможных дефектов. В базе содержится 1941 образец. Семь возможных классов дефектов стальных листов: Pastry (пригар), Z_Scratch (зигзагообразные царапины), K_Scatch (простые царапины), Stains (точено-пятнистая неоднородность), Dirtiness (корочки), Bumps (вмятины), Other_Faults (другое).

Для решения поставленной задачи в данной работе используется программное обеспечение RapidMiner Studio 6.3.000 [3].

Ход работы:

1. Загрузка данных.

2. Нормализация входных значений.

Актуальные проблемы авиации и космонавтики - 2015. Том 1

3. Оптимизация параметров применяемых методов с помощью генетического алгоритма.

4. Обучение и тестирование моделей (X-Validation).

5. Расчет t-критерия Стьюдента для всех применяемых методов (T-Test).

В качестве методов анализа данных были выбраны следующие алгоритмы: искусственная нейронная сеть (ANN, [4]) с 1 скрытым слоем, состоящим из 13 нейронов с сигмоидальной логистической функцией в качестве функции активации (оптимизировалась по количеству циклов обучения, скорость обучения 0,11, импульс 0,61); метод ближайших соседей (k-NN, [5]), оптимизированный по количеству ближайших соседей; деревья решений (DT, [6]) с параметрами, установленными по умолчанию (оптимизация не дала значимых улучшений в работе); наивный байесовский классификатор с оценкой плотности ядра (NBK, [7]), оптимизированный по количеству ядер; автоматический многослойный персептрон (AutoMLP, [8]), оптимизированный по количеству циклов обучения.

После выполнения четвертого этапа для всех методов попарно рассчитывался /-критерий Стьюдента (Г-Test). Полученные значения меньшие, чем 0.05, указывают на статистически достоверное различие между средними значениями эффективности работы алгоритмов. Результаты расчетов занесены в таблицу.

Эффективность методов анализа данных при классификации дефектов

ANN 0.732 +/- 0.022 k-NN 0.726 +/- 0.015 DT 0.696 +/- 0.022 AutoMLP 0.733 +/- 0.025

DT 0.000 0.000 0.000 0.000

ANN 0.514 0.002 0.927

k-NN 0.002 0.480

NBK 0.003

Как видно три метода выдают статистически неразличимые результаты, а именно: AutoMLP, k-NN и ANN. Это означает, что на практике они справляются с решением поставленной задачи приблизительно с одинаковой эффективностью, причем лучше, чем деревья решений и наивный байесовский классификатор. В этой связи можно сделать вывод, что методы интеллектуального анализа данных, реализованные в пакете RapidMiner, не позволяют построить достаточно эффективные системы распознавания типов дефектов стальных пластин (даже после оптимизации по параметрам ошибка более 25 %). В такой ситуации необходимо разрабатывать и применять более эффективные методы интеллектуального анализа данных. Перспективными направлениями здесь являются методы автоматизированного проектирования классификаторов на нечеткой логике [9-11] и искусственных нейронных сетях [12; 13], а также других методов анализа данных с применением самонастраивающихся адаптивных алгоритмов оптимизации и моделирования [14-16] для их структурно-параметрической адаптации под задачу. Автоматизированное проектирование групповых технологий интеллектуального анализа данных [17; 18] является еще одним перспективным направлением развития исследуемого подхода.

Библиографические ссылки

1. Семенкин Е. С., Клешков В. М. Модели и алгоритмы распределения общих ресурсов при управлении инновациями реструктурированного машиностроительного предприятия // Проблемы машиностроения и автоматизации. 2006. № 3. С. 24-30.

2. Научно-исследовательский центр наук о коммуникации Semeion, Рим, Италия [Электронный ресурс]. URL: www.semeion.it (дата обращения: 04.03.15).

3. RapidMiner Studio: экспертное программное обеспечение для интеллектуального анализа данных [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения: 04.03.15).

4. Wang S. C. Artificial neural network. New York: Springer US - Interdisciplinary Computing in Java Programming, 2003. P. 81-100.

5. Wang H., Bell D. Extended k-Nearest Neighbours Based on Evidence Theory // The Computer Journal. 2004. Vol. 47(6) Nov. P. 662-672.

6. Osei-Bryson K. M. Overview on decision tree induction. New York // Springer US - Advances in Research Methods for Information Systems Research, 2014. P. 15-22.

Секция «Математические методы моделирования, управления и анализа данных»

7. Xiang Z. L. Novel Naive Bayes based on Attribute Weighting in Kernel Density Estimation // San Antonio: Joint 7th International Conference on and Advanced Intelligent Systems (ISIS), 2014. P. 1439— 1442.

8. Simple, effective, fully automated learning rate and size adjustment / Breuel T. M., Shafait F. Automlp // The Learning Workshop. 2010. P. 122-131.

9. Semenkin E., Stanovov V. Fuzzy Rule Bases Automated Design with Self-configuring Evolutionary Algorithm // Informatics in Control, Automation and Robotics (ICINCO), 11th International Conference on. INSTICC, 2014. Vol. 1. P. 318-323.

10. Stanovov V., Semenkin E. Self-adjusted evolutionary algorithms based approach for automated design of fuzzy logic systems // Вестник СибГАУ. 2013. Вып. 4(50). С. 148-152.

11. Semenkina M., Semenkin E. Hybrid self-configuring evolutionary algorithm for automated design of fuzzy classifier // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2014. Vol. 8794. P. 310-317.

12. Brester K., Semenkin E. Development of adaptive genetic algorithms for neural network models multicriteria design // Вестник СибГАУ. 2013. Вып. 4(50). С. 99-103.

13. Akhmedova Sh., Semenkin E. Co-operation of Biology Related Algorithms meta-heuristic in ANN-based classifiers design // Proceedings of the IEEE Congress on Evolutionary Computation 2014. P.867-872.

14. Ахмедова Ш. А., Семенкин Е. С. Новый коллективный метод оптимизации на основе кооперации бионических алгоритмов // Вестник СибГАУ. 2013. № 4(50). С. 92-99.

15. Семенкин Е. С., Семенкина М. Е. Применение генетического алгоритма с модифицированным оператором равномерной рекомбинации при автоматизированном формировании интеллектуальных информационных технологий // Вестник СибГАУ. 2007. № 3. С. 27-33.

16. Semenkin E. S., Semenkina M. E. Self-configuring Genetic Algorithm with Modified Uniform Crossover Operator // Advances in Swarm Intelligence. Lecture Notes in Computer Science 7331. SpringerVerlag, Berlin Heidelberg, 2012. P. 414-421.

17. Semenkina M., Semenkin E. Classifier ensembles integration with self-configuring genetic programming algorithm // Lecture Notes in Computer Science. 2013. Т. 7824 LNCS. С. 60-69.

18. Семенкин Е. С., Шабалов А. А., Ефимов С. Н. Автоматизированное проектирование коллективов интеллектуальных информационных технологий методом генетического программирования // Вестник СибГАУ. 2011. № 3. С. 77-81.

© Мамонтов Д. Ю., 2015

i Надоели баннеры? Вы всегда можете отключить рекламу.