УДК 519.87
ОБ ЭФФЕКТИВНОСТИ МЕТОДОВ ИНТЕЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
ПРИ КЛАССИФИКАЦИИ ТИПОВ СТЕКЛА ПО ЕГО ХИМИЧЕСКОМУ СОСТАВУ
А. В. Скороход Научный руководитель - Е. С. Семенкин
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева
Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: SkorokhodAV@yandex.ru
Рассматривается решение задачи классификации типов осколков стекла методами интеллектуального анализа данных в платформе программной системы RapidMiner. Произведено сравнение эффективности использованных методов и установлены наиболее эффективные из них.
Ключевые слова: тип стекла, классификация, дерево решений, нейронная сеть, метод к-бли-жайших соседей, индукция правил, дискриминантный анализ.
DATA MINING TECHNIQUES EFFECTIVENESS IN GLASS IDENTIFICATION
A. V. Skorokhod Scientific supervisor - E. S. Semenkin
Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: SkorokhodAV@yandex.ru
The glass classification problem is solved using methods of data mining adopted from RapidMiner system. The performance of the used methods is compared and the most effective approaches are determined.
Keywords: type of glass, classification, decision tree, neural network, к-nearest neighbors algorithm, multilayer perceptron, discriminant analysis.
Классификация осколков стекла по типу их исходного использования является актуальной задачей в ситуациях расследования причин и последствий различных происшествий - правонарушений, преступлений, аварий, природных и техногенных разрушений и катастроф, когда очень важно восстановить картину произошедшего, учесть факторы, приведшие к происшествию. Для этого необходимо собрать всю возможную информацию. Решение задачи классификации фрагментов стекла по его химическому составу поможет предоставить информацию о типе осколков стекла, что, возможно, прольет свет на картину произошедшего.
Данная задача решалась составителями базы данных в области криминалистики [1]. Осколки, полученные с места преступления, являются вещественными доказательствами и определение их принадлежности крайне важно для следствия. Исходная база данных содержит 214 образцов с девятью атрибутами: показатель преломления стекла и показатели содержания натрия, магния, алюминия, кремния, калия, кальция, бария, железа. Классы стекла, к которым могут быть отнесены осколки: оконное стекло 1, оконное стекло 2, окно автомобиля 1, окно автомобиля 2, контейнер, посуда, стекло фар.
Авторы используемой базы данных B. German и V. Spiehler для решения данной задачи использовали методы индукция правил (RI, [1]), k-ближайших соседей (k-NN, [2]), и дискриминантный анализ (LDA, [3]). В данной работе кроме этих методов были использованы также нейронная сеть (ANN, [4]) и деревья решений (DT, [5]). Все методы реализованы в программной системе RapidMiner [6], которая и использовалась при проведении численных экспериментов. Структура базы данных приводилась к виду, обеспечивающему минимальную логическую избыточность, при помощи оператора нормализации. Для обучения каждой технологии системы был использован метод перекрестной проверки (Cross Validation, [6]). С помощью оператора T-test по t-критерию Стьюдента была провере-
Секция «Математические методы моделирования, управления и анализа данных»
на гипотеза о различии средних для двух выборок для данных векторов производительности использованных методов.
Эффективность каждого метода (усредненная по 10 экспериментам доля правильно классифицированных событий и ее разброс), полученная описанным способом в ходе численных экспериментов с системой RapidMiner, а также результаты Мей представлены в таблице.
Эффективность методов анализ данных при классификации стекла
ANN 0,696+/-0,073 k-NN 0,719+/-0,084 DT 0,607+/-0,053 RI 0,649+/-0,044 LDA 0,581+/-0,156
ANN 0,522 0,006 0,442 0,055
k-NN 0,002 0,037 0,026
DT 0,076 0,625
RI 0,098
Значения в таблице, меньшие, чем 0,050, выделенные жирным шрифтом, указывают на статистическую значимость различий между фактическими средними значениями.
Из таблицы видно, что лучшую точность классификации демонстрирует метод k-ближайших соседей, сопоставимый с ним результат показывает нейронная сеть, а остальные методы работают хуже и это различие статистически значимо.
Из таблицы следует также, что методы интеллектуального анализа данных, реализованные в пакете RapidMiner, не позволяют построить достаточно эффективные системы классификации стекол (даже лучший метод дает почти 30 % ошибки), т. е. необходимо разрабатывать и реализовывать более мощные интеллектуальные технологии анализа данных. Анализ научной литературы показывает, что перспективным направлением в этой связи является разработка технологий автоматизированного проектирования классификаторов на нечеткой логике [8-10] и искусственных нейронных сетей [11; 12], а также других методов анализа данных с применением для выбора их эффективных структур и настройки параметров самонастраивающихся адаптивных алгоритмов оптимизации и моделирования [13-15]. Еще одним перспективным направлением является автоматизация проектирования коллективов технологий интеллектуального анализа данных [16; 17].
Библиографические ссылки
1. Evett Ian W., Spiehler E. J. Rule Induction in Forensic Science // KBS in Government. 1987. P.107-118.
2. Angiulli F. Fast nearest neighbor condensation for large data sets classification, IEEE Transactions on Knowledge and Data Engineering. 2007. Vol. 19, no. 11. P. 1450-1464, Nov.
3. Sparse Discriminant Analysis / Line Clemmensen, Trevor Hastie, Daniela Witten and Bjarne Ersboll // Technometrics. 2011. Vol. 53, no. 4. P. 406-413.
4. Горбань А. Н. Обобщенная аппроксимационная теорема и вычислительные возможности нейронных сетей // Сибирский журнал вычислительной математики. 1998. Т. 1, № 1. С. 12-24.
5. Yuan Y., Shaw M. J. Induction of fuzzy decision trees. Fuzzy Sets and Systems 69. 1995. P. 125139.
6. RapidMiner [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения: 21.12.2014).
7. Shao J. Linear Model Selection by Cross-validation // Journal of the American Statistical Association. 1993. Vol. 88. P. 486-494.
8. Semenkin E., Stanovov V. Fuzzy Rule Bases Automated Design with Self-configuring Evolutionary Algorithm // Informatics in Control, Automation and Robotics (ICINCO), 11th International Conference on. INSTICC, 2014. Vol. 1. P. 318-323.
9. Stanovov V., Semenkin E. Self-adjusted evolutionary algorithms based approach for automated design of fuzzy logic systems // Вестник СибГАУ. 2013. Вып. 4 (50). С. 148-152.
10. Semenkina M., Semenkin E. Hybrid self-configuring evolutionary algorithm for automated design of fuzzy classifier // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2014. Vol. 8794. P. 310-317.
11. Brester K., Semenkin E. Development of adaptive genetic algorithms for neural network models multicriteria design // Вестник СибГАУ. 2013. Вып. 4 (50). С. 99-103.
12. Akhmedova Sh., Semenkin E. Co-operation of Biology Related Algorithms meta-heuristic in ANN-based classifiers design // Proceedings of the IEEE Congress on Evolutionary Computation. 2014. P.867-872.
13. Ахмедова Ш. А., Семенкин Е. С. Новый коллективный метод оптимизации на основе кооперации бионических алгоритмов // Вестник СибГАУ. 2013. № 4(50). С. 92-99.
14. Семенкин Е. С., Семенкина М. Е. Применение генетического алгоритма с модифицированным оператором равномерной рекомбинации при автоматизированном формировании интеллектуальных информационных технологий // Вестник СибГАУ. 2007. № 3. С. 27-33.
15. Semenkin E. S., Semenkina M. E. Self-configuring Genetic Algorithm with Modified Uniform Crossover Operator // Advances in Swarm Intelligence. Lecture Notes in Computer Science 7331. SpringerVerlag, Berlin Heidelberg, 2012. P. 414-421.
16. Семенкин Е. С., Шабалов А. А., Ефимов С. Н. Автоматизированное проектирование коллективов интеллектуальных информационных технологий методом генетического программирования // Вестник СибГАУ. 2011. № 3. С. 77-81.
17. Semenkina M., Semenkin E. Classifier ensembles integration with self-configuring genetic programming algorithm // Lecture Notes in Computer Science. 2013. Т. 7824 LNCS. С. 60-69.
© Скороход А. В., 2015