7. Hall M., Frank E., Holmes G., Pfahringer B., Reutemann P., Witten I. H. The WEKA Data Mining Software: An Update, SIGKDD Explorations, 2009, Vol. 11, iss. 1.
8. Burkhardt F., Paeschke A., Rolfes M., Sendlmeier W. F., and Weiss B. A database of german emotional speech. In Interspeech, 2005, рp. 1517-1520.
9. Haq S., Jackson P. Machine Audition: Principles, Algorithms and Systems, chapter Multimodal Emotion
Recognition. IGI Global, Hershey PA, Aug. 2010, рр. 398-423.
10. Schmitt A., Ultes S., and Minker W. A parameterized and annotated corpus of the cmu let's go bus information system // Proceedings of International Conference on Language Resources and Evaluation (LREC), 2012.
© Лосева Е. Д., Бежитский С. С., 2015
УДК 519.87
О ПРИМЕНЕНИИ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В ЗАДАЧАХ ТЕХНИЧЕСКОЙ ДИАГНОСТИКИ*
Д. Ю. Мамонтов
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: [email protected]
Производится сравнение эффективности различных методов интеллектуального анализа данных в задачах классификации типов повреждений стальных пластин, а также диагностики отказов электродвигателей.
Ключевые слова: техническая диагностика, интеллектуальный анализ данных, классификация, эволюционный алгоритм, оптимизация.
ON DATA MINING TOOLS APPLICATION FOR SOLVING PROBLEMS OF TECHNICAL DIAGNOSTICS
D. Yu. Mamontov
Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]
In this article, the effectiveness of various data mining methods is compared to the problems of steel plate damage identification and diagnostics of electromotors.
Keywords: technical diagnostics, data mining, classification, evolutionary algorithm, optimization.
Безусловным требованием к ракетно-космической технике является ее надежность, обеспечение которой требует значительных усилий на всех стадиях разработки и изготовления, начиная от оценки качества исходных материалов и заканчивая приемочным контролем качества комплектующих и всего изделия в целом. Для выявления возможных дефектов на всех этапах контроля качества применяются методы технической диагностики, основанные на различных физических свойствах изделий. Однако во всех случаях полученные данные требуют дальнейшего анализа с использованием интеллектуальных информационных технологий. Данная работа посвящена изучению эффективности таких технологий в задачах технической диагностики.
Для этого были выбраны две базы с данными технической диагностики на различных этапах оценки
качества. База данных о стальных пластинах предоставлена итальянским научно-исследовательским центром наук о коммуникации Semeion [1]. База содержит 1941 вектор и 7 классов дефектов. Вторая база данных оценки качества электромоторов предоставлена университетом прикладных наук Германии. База содержит 58509 векторов и 11 классов [2]. Для решения задач использовалась система анализа данных Rapid Miner Studio 5.3.015 [3].
В качестве исследуемых методов анализа данных были выбраны: искусственная нейронная сеть (ANN [4]) с 1 скрытым слоем, состоящим из 19 нейронов с сигмоидальной логистической функцией в качестве функции активации (скорость обуче-
* Работа выполнена в рамках проекта RFMEFI57414X0037.
Решетнеескцие чтения. 2015
ния 0,11, импульс 0,61, оптимизированная по количеству циклов обучения 45); метод ближайших соседей (k-NN [5]), оптимизированный по количеству ближайших соседей; деревья решений (DT [6]) с параметрами, установленными по умолчанию (оптимизация не дала существенных улучшений в точности результатов); наивный байесовский классификатор с оценкой плотности ядра (NBK [7]), оптимизированный по количеству ядер; автоматический многослойный персептрон (AutoMLP [8]), оптимизированный по количеству циклов обучения. Для анализа второй базы использовались те же методы, но без оптимизации.
После применения перечисленных методов на первом наборе данных были получены следующие оценки точности диагностирования: ANN - 72,85 %, k-NN - 71,65 %, DT - 50,34 %, NBK - 69,02 %, AutoMLP - 72,48 %. Следующий шаг был попыткой объединить несколько методов в одном алгоритме. Это ансамбли с голосованием, включающие все методы или только лучший и худший из них. Первый ансамбль показал результат 74,40 %, а второй - 74,23 %. Применение процедуры баггинга (10 итераций) для искусственной нейронной сети позволило получить самый высокий результат 75,09 %.
Применения методов на второй базе данных дало следующие результаты: ANN - 98,09 %; k-NN - 11,64 %; DT - 65,54 %; NBK - 77,81 %; AutoMLP - 98,78 %. В отличие от первой базы данных, наблюдается широкий разброс в точности у различных методов от 11 до 98 %, поэтому использование ансамбля методов могло дать положительный эффект, если бы эти алгоритмы ошибались в различных частях выборки. Однако этого не происходило, и ансамбль не давал прироста в точности. Оба вида ансамблей дали худшие результаты (93,59 и 74,23 %). Применение баггинга позволило слегка повысить точность ANN (99,34 %).
Можно утверждать, что методы интеллектуального анализа данных позволяют достигать иногда высоких результатов в области технической диагностики, но это обычно требует значительных затрат времени специалистов в обеих областях (технической диагностики и анализа данных). Стоит заметить, что использование готовых программных продуктов, таких как Rapid Miner Studio, не всегда позволяет гибко настраивать алгоритмы, что мешает достигать более высоких результатов, хотя и позволяет относительно быстро получить некоторый полезный результат. Поэтому применение полученных таким образом моделей на практике несет в себе большие риски, что недопустимо в ракетно-космической отрасли. В такой ситуации необходимо разрабатывать и применять более эффективные методы, основанные на специальных эволюционных алгоритмах [9; 10], а также отказываться от использования готовых универсальных программных продуктов.
Библиографические ссылки
1. Semeion, Research Center of Sciences of Communication [Electronic resourse]. Via Sersale 117, 00128, Rome, Italy. URL: www.semeion.it (date of visit: 21 August 2015).
2. Bayer C. [et al.]. Sensorless drive diagnosis using automated feature extraction, significance ranking and reduction // Emerging Technologies & Factory Automation (ETFA) IEEE 18th Conference on. IEEE,
2013. С. 1-4.
3. Rapid Miner Studio Downloadable GUI for machine learning, data mining, text mining, predictive analytics and business analytics [Electronic resourse]. URL: https://rapidminer.com/ (date of visit: 21 August 2015).
4. Wang S. C. Artificial neural network. New York : Springer US - Interdisciplinary Computing in Java Programming, 2003. Pp. 81-100.
5. Wang H., Bell D. Extended k-Nearest Neighbours Based on Evidence Theory // The Computer Journal. 2004. Vol. 47(6). rp. 662-672.
6. Osei-Bryson K. M. Overview on decision tree induction. New York : Springer US - Advances in Research Methods for Information Systems Research,
2014. Pp. 15-22.
7. Xiang Z. L. Novel Naive Bayes based on Attribute Weighting in Kernel Density Estimation // Joint 7th Intern. Conf. on and Advanced Intelligent Systems (ISIS). San Antonio. 2014. Pp. 1439-1442.
8. Breuel T. M., Shafait F. Automlp Simple, effective, fully automated learning rate and size adjustment // The Learning Workshop. 2010. Pp. 122-131.
9. Бежитский С. С., Семенкин Е. С., Семенкина О. Э. Гибридный эволюционный алгоритм для задач выбора эффективных вариантов систем управления // Автоматизация. Современные технологии. 2005. № 11. С. 24.
10. Семенкин Е. С., Семенкина М. Е. Применение генетического алгоритма с модифицированным оператором равномерной рекомбинации при автоматизированном формировании интеллектуальных информационных технологий // Вестник СибГАУ. 2007. Вып. 3(16). С. 27-33.
References
1. Semeion, Research Center of Sciences of Communication, Via Sersale 117, 00128, Rome, Italy. Available at: www.semeion.it [21 August 2015].
2. Bayer C. [et al.]. Sensorless drive diagnosis using automated feature extraction, significance ranking and reduction // Emerging Technologies & Factory Automation (ETFA), 2013 IEEE 18th Conference on. IEEE, 2013. С. 1-4.
3. Rapid Miner Studio Downloadable GUI for machine learning, data mining, text mining, predictive analytics and business analytics. Available at: https://rapidminer.com/ [21 August 2015].
4. Wang S. C. Artificial neural network. New York : Springer US - Interdisciplinary Computing in Java Programming, 2003. Pp. 81-100.
5. Wang H. and Bell D. Extended ^-Nearest Neighbours Based on Evidence Theory // The Computer Journal, Vol. 47(6) Nov. 2004, рp. 662-672.
6. Osei-Bryson K. M. Overview on decision tree induction. New York : Springer US - Advances in Research Methods for Information Systems Research, 2014. Pp. 15-22.
7. Xiang Z. L. Novel Naive Bayes based on Attribute Weighting in Kernel Density Estimation. San Antonio // Joint 7th International Conference on and Advanced Intelligent Systems (ISIS), 2014. Pp. 1439-1442.
8. Breuel T. M., Shafait F. Automlp Simple, effective, fully automated learning rate and size adjustment // The Learning Workshop. 2010. Pp. 122-131.
9. Bezhitskiy S. S., Semenkin E. S., Semenkina O. E. Hybrid evolutionary algorithms for the choice of effective
variants of control systems // Avtomatizatsiya. Sovremennye technologii. 2005. № 11. P. 24.
10. Semenkin E. S., Semenkina M. E. Application of genetic programming algorithm with modified uniform crossover operator for automated design of intelligent information technologies // Vestnik SibSAU. 2007. No. 3(16), рp. 27-33.
© Мамонтов Д. Ю., 2015
УДК 519.6
ИССЛЕДОВАНИЕ ВЛИЯНИЯ РАЗНООБРАЗИЯ ИНДИВИДУАЛЬНЫХ МОДЕЛЕЙ
НА ТОЧНОСТЬ АНСАМБЛЯ
Е. С. Мангалова
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: [email protected]
Задачи анализа данных возникают в ракетно-космической отрасли, экономике, медицине и т. д. Одним из методов их решения являются ансамбли моделей. Исследуется вопрос повышения точности ансамбля за счет увеличения разнообразия моделей.
Ключевые слова: анализ данных, идентификация, ансамблевое обучение, разнообразие ансамбля.
RESEARCH OF INFLUENCE OF INDIVIDUAL MODELS DIVERSITY ON ENSEMBLE ACCURACY
E. S. Mangalova
Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]
Data analysis problems arise in space-rocket industry, economics, medicine, etc. Ensembles of models are one of the methods to solve them. This paper investigates the issue of increasing the ensemble accuracy by increasing the models diversity.
Keywords: data analysis, identification, ensemble learning, ensemble diversity.
Введение. Универсальность методов интеллектуального анализа данных позволяет применять их в различных технических областях (в том числе и в ракетно-космической отрасли), в экономике, медицине и т. д. На сегодняшний день существует широкий спектр методов анализа данных для решения задач идентификации и распознавания образов. Однако при решении сложных задач может оказаться, что ни один из алгоритмов не обеспечивает желаемой точности. В подобных случаях целесообразно строить ансамбли моделей [1].
Под обучением ансамбля моделей понимается процедура обучения конечного набора индивидуальных моделей ^(х) (/ = 1,2,.... N) и их последующая агрегация в едином правиле:
H (х) = F (((I), h1( 7),..., hN (х)).
Одна из основных задач, возникающих при построении ансамбля - генерация разнообразных индивидуальных моделей [2], так как объединение одинаковых моделей в ансамбле не может повысить точность прогноза.
Задача генерации разнообразия усложняется тем, что, во-первых, индивидуальные модели обучаются для решения одной задачи, по одной обучающей выборке и вследствие этого обычно сильно коррелиро-ваны, во-вторых, индивидуальные модели не должны быть слишком неточными. Нахождение компромисса между точностью индивидуальных моделей и их разнообразием - одна из ключевых задач при построении ансамбля моделей [3].
В данной работе исследуются взаимосвязи между точностью ансамбля, точностью индивидуальных моделей и их разнообразием.