<Тешетневс^ие чтения. 2016
2. Hardie V. Prikladnaya neparametricheskaya regressiya. (Applied nonparametric regression). M. : Mir. 1993. 327 p.
3. Medvedev A. V. Osnovy teorii adaptivnyh sistem. (Fundamentals of the adaptive systems theory). Izd: SibGAU. Krasnoyarsk. 2015. 525 p.
4. Cypkin Ja. 3. Informacionnaja teorija identifikacii. (Information theory of identification). M. : Nauka. Fizmatlit, 1995. 336 p.
5. Kuz'min M. V., Maltseva T. V., Medvedev A. V. O KT-modeliah mnogomernih bezinercionnih sistem s zpazdivaniem. (About KT-models of of multidimensional inertialess systems with lags). Reshetnevskie chtenia: material of XIX Sibsau conferention. Krasnoyarsk, 2015. Vol. 2, pp. 55-57.
© Кузьмин М. В., Медведев А. В., 2016
УДК 519.854.33
СРАВНЕНИЕ МОДИФИЦИРОВАННОГО МЕТОДА ЛОГИЧЕСКОГО АНАЛИЗА ДАННЫХ С ДРУГИМИ АЛГОРИТМАМИ НА ПРАКТИЧЕСКИХ ЗАДАЧАХ*
Р. И. Кузьмич1, И. С. Масич2
1Сибирский федеральный университет Российская Федерация, 660041, г. Красноярск, просп. Свободный, 79 2Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: kuzrom88@mail.ru
Приводится сравнительный анализ модифицированного метода логического анализа данных с известными алгоритмами классификации данных. Сравнение проводится на задачах классификации результатов радарного сканирования ионосферы и выявления спама.
Ключевые слова: закономерность, классификация, классификатор.
COMPARISON OF THE MODIFIED METHOD OF LOGICAL DATA ANALYSIS WITH OTHER ALGORITHMS BASED ON PRACTICAL PROBLEMS
R. I. Kuzmich1, I. S. Masich2
1Siberian Federal University 79, Svobodny Av., Krasnoyarsk, 660041, Russian Federation
2Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: kuzrom88@mail.ru
The comparative analysis of the modified method of logical data analysis with known data classification algorithms is conducted. A comparison is carried out based on the problems of the classification results of the radar scan of the ionosphere and the spam detection.
Keywords: pattern, classification, classifier.
Основным объектом изучения в проводимой авторами работе является метод логического анализа данных, относящийся к логическим алгоритмам классификации, принцип работы которых состоит в выявлении закономерностей в данных и формализации их в виде набора правил, т. е. набора закономерностей, описываемых простой логической формулой. В работе проводится сравнение модифицированного метода логического анализа данных с известными алгоритмами классификации: алгоритм построения 1-правил (1-Я), RIPPER, CART, C4.5, Random Forest, Adaboost [1-3].
* Работа выполнена в рамках проекта № 346 государственного задания № 2014/211.
Экспериментальное сравнение проводится на задачах классификации результатов радарного сканирования ионосферы и выявления спама.
В основе предлагаемого подхода к классификации данных лежит метод, происходящий из теории комбинаторной оптимизации и называемый логическим анализом данных [4].
Последовательные элементы метода [4]: 1. Для исключения избыточных переменных в исходной выборке данных во множестве переменных определяется некоторое подмножество Б, используя которое можно отличать положительные наблюдения от отрицательных. Далее для работы метода используются проекции О/ и множеств О+ и О- на Б.
Математические методы моделирования, управления и анализа данных.
2. Множество О/ покрывается семейством однотипных подмножеств уменьшенного пространства, каждое из которых имеет значительное пересечение с О/, но не пересекается с либо допускается небольшое пересечение с О!Г для большего увеличения пересечения с О/. Такие подмножества называются «положительными закономерностями. Аналогично множество О!Г покрывается отрицательными закономерностями.
3. Определяется подмножество положительных закономерностей, объединение которых покрывает все наблюдения О/, и подмножество отрицательных закономерностей, объединение которых покрывает все наблюдения О!Г.
4. Положительный или отрицательный характер некоторого наблюдения, покрываемого объединением двух подмножеств, определяется с помощью классификатора, основанного на этих подмножествах.
Для метода логического анализа данных с целью усиления обобщающих способностей классификатора и повышения его интерпретируемости за счет сокращения числа правил, используемых в нем, предлагаются две модификации. Первая модификация базируется на использовании алгоритмической процедуры наращивания закономерностей. Она применяется к каждой построенной закономерности и заключается в максимальном увеличении степени данных закономерностей при условии сохранения покрытия. Алгоритмическая процедура наращивания закономерностей позволяет повысить информативность правил, тем самым, способствуя увеличению точности принимаемых классификатором решений. Вторая модификация основывается на алгоритмической процедуре построения классификатора как композиции информативных закономерностей, которая отличается от известных процедур построения классификатора совместным использованием критерия бустинга для оценки информативности закономерностей и новой итеративной процедуры выбора порога информативности. Она позволяет сократить количество правил в классификаторе при сохранении высокой точности [5].
Далее приводится описание задач классификации, на которых проводилось сравнение алгоритмов классификации [6].
Классификация результатов радарного сканирования ионосферы. Система радаров, с помощью кото-
Библиографические ссылки
1. Classification and Regression Tree / L. Breiman [et al.] // Wadsworth & Brooks/Cole Advanced Books & Software. Pacific California, 1984.
рой собраны данные, состоит из фазированной антенной решетки, которая включает 16 высокочастотных антенн с общей передаваемой мощностью порядка 6,4 кВт. Цели системы - свободные электроны в ионосфере. «Хороший» радарный возврат является доказательством некоторого типа структуры в ионосфере. «Плохой» - ее отсутствия, т. е. сигналы проходят через ионосферу. При проведении классификации результатов радарного сканирования ионосферы с целью определения существования некоторого типа структуры в ионосфере использовалась выборка данных, состоящая из 225 положительных наблюдений (структура существует) и 126 отрицательных наблюдений (структура отсутствует). Каждое наблюдение характеризовалось вектором из 34 численных признаков. Выборка не имеет пропусков в данных.
Выявление спама. Понятие «спам» разнообразно: реклама продукции или веб-сайтов, схемы быстрого заработка денег, «письма счастья» и т. д. Необходимо отличать спам от важной корреспонденции, иметь признаки, которые будут полезны при построении спам-фильтра общего назначения для электронной почты. При проведении классификации для данной задачи с целью определения спама и не спама использовалась выборка данных, состоящая из 181 положительного наблюдения (спам) и 279 отрицательных наблюдений (не спам). Каждое наблюдение характеризовалось вектором из 57 численных признаков. Выборка не имеет пропусков в данных.
В таблице приведено сравнение результатов классификации по точности для 6 алгоритмов, полученных в системе анализа данных WEKA, с результатами модифицированного метода логического анализа данных (LAD). Выборки для каждой задачи разделены случайным образом на обучающую (80 %) и экзаменующую (20 %). Проведено по 20 экспериментов для каждого метода, результаты экспериментов усреднены.
Согласно данным, приведенным в таблице, модифицированный метод логического анализа данных по точности решения задач превосходит сравниваемые с ним алгоритмы классификации. Кроме того, преимуществом метода является возможность соблюдать баланс между различными критериями сравнения алгоритмов классификации путем целенаправленной настройки параметров метода.
2. Quinlan J. R. Bagging, Boosting, and C4.5 // Proceedings of 13th National Conference on Artificial Intelligence. 1996. Pp. 725-730.
3. Breiman L. Random Forests // Machine Learning 2001. 45(1). P. 5-32.
Сравнение алгоритмов классификации
Задача Алгоритм Показатель ^^^^^^^ 1-R RIPPER CART C4.5 Random Forest Adaboo st LAD
Выявление спама Количество верно классифицированных наблюдений, % 82,6 91,3 90,2 90,2 89,1 91,3 92,4
Радарное сканирование ионосферы Количество верно классифицированных наблюдений, % 78,6 82,8 82,8 81,4 84,2 88,5 90
Решетневс^ие чтения. 2016
4. Hammer P. L., Bonates T. Logical Analysis of Data: From Combinatorial Optimization to Medical Applications [Electronic resource] // RUTCOR Research Report 10-2005, 2005. URL: http://rutcor.rutgers. edu/pub/rrr/reports2005/10_2005.pdf (дата обращения: 20.02.2016).
5. Кузьмич Р. И., Масич И. С. Построение модели классификации как композиции информативных паттернов // Системы управления и информационные технологии. 2012. № 2(48). С. 18-22.
6. UCI Machine Learning Repository [Electronic resource]. URL: http://archive.ics.uci.edu/ml/index.html.
References
1. Classification and Regression Tree / L. Breiman, J. H. Friedman, R. Olshen, C. J. Stone // Wadsworth & Brooks/Cole Advanced Books & Software, Pacific California, 1984.
2. Quinlan J. R. Bagging, Boosting, and C4.5 // Proceedings of 13th National Conference on Artificial Intelligence. 1996. Pp. 725-730.
3. Breiman L. Random Forests // Machine Learning 45 (1): 5-32, 2001.
4. Hammer P. L., Bonates T. Logical Analysis of Data: From Combinatorial Optimization to Medical Applications // RUTCOR Research Report 10-2005, 2005. [Electronic resource]. URL: http://rutcor.rutgers. edu/pub/rrr/reports2005/10_2005.pdf.
5. Kuzmich R. I., Masich I. S. Constructing a classification model as a composition of informative patterns // Control Systems and Information Technology : Scientific and Technical Journal. № 2 (48), 2012, рр. 18-22.
6. UCI Machine Learning Repository [Electronic resource]. URL: http://archive.ics.uci.edu/ml/index.html.
© Кузьмич Р. И., Масич И. С., 2016
УДК 519.24
ПРОВЕРКА ГИПОТЕЗЫ О НЕЗАВИСИМОСТИ ДВУМЕРНЫ1Х СЛУЧАЙНЫХ ВЕЛИЧИН НА ОСНОВЕ АЛГОРИТМА РАСПОЗНАВАНИЯ ОБРАЗОВ1
А. В. Лапко1,2*, В. А. Лапко1,2, Е. А. Юронен1
1Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 2Институт вычислительного моделирования СО РАН Российская Федерация, 660036, г. Красноярск, Академгородок, 50/44 E-mail: lapko@icm.krasn.ru
Предлагается новая методика проверки гипотезы о независимости случайных величин. Её основу составляет непараметрический алгоритм распознавания образов. Рассматриваемая методика не требует дискретизации области значений случайных величин.
Ключевые слова: проверка гипотез, распознавание образов, независимые случайные величины, оценка Розенблатта-Парзена.
TESTING HYPOTHESIS OF TWO-DIMENSIONAL RANDOM VARIABLES INDEPENDENCE ON THE BASIS OF ALGORITHM OF PATTERN RECOGNITION
A. V. Lapko1, 2*, V. A. Lapko1, 2, E. A. Yuronen1
1Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation
2Institute of Computational Modeling SB RAS 50/44, Akademgorodok, Krasnoyarsk, 660036, Russian Federation E-mail: lapko@icm.krasn.ru
The new technique of testing hypothesis of random variables independence is proposed. Its basis is made by nonparametric algorithm ofpattern recognition. The considered technique does not demand sampling of area of values of random variables.
Keywords: testing of hypothesis, pattern recognition, independent random variables, Parzen-Rosenblatt estimate.
Проверка гипотез о распределениях случайных величин с использованием непараметрических алго-
1 Работа выполнена в рамках государственного задания Минобрнауки РФ № 2.914.2014/K.
ритмов распознавания образов рассмотрена в работах [1; 2]. Обоснована возможность перехода от задачи сравнения законов распределения случайных величин к проверке гипотезы о равенстве вероятности ошибки распознавания образов пороговому значению. Этот