Научная статья на тему 'Исследование влияния разнообразия индивидуальных моделей на точность ансамбля'

Исследование влияния разнообразия индивидуальных моделей на точность ансамбля Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
68
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕХНИЧЕСКАЯ ДИАГНОСТИКА / TECHNICAL DIAGNOSTICS / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / DATA MINING / КЛАССИФИКАЦИЯ / CLASSIFICATION / ЭВОЛЮЦИОННЫЙ АЛГОРИТМ / EVOLUTIONARY ALGORITHM / ОПТИМИЗАЦИЯ / OPTIMIZATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мангалова Е. С.

Задачи анализа данных возникают в ракетно-космической отрасли, экономике, медицине и т. д. Одним из методов их решения являются ансамбли моделей. Исследуется вопрос повышения точности ансамбля за счет увеличения разнообразия моделей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RESEARCH OF INFLUENCE OF INDIVIDUAL MODELS DIVERSITY ON ENSEMBLE ACCURACY

Data analysis problems arise in space-rocket industry, economics, medicine, etc. Ensembles of models are one of the methods to solve them. This paper investigates the issue of increasing the ensemble accuracy by increasing the models diversity.

Текст научной работы на тему «Исследование влияния разнообразия индивидуальных моделей на точность ансамбля»

Математические методы моделирования, управления и анализа данных

7. Xiang Z. L. Novel Naive Bayes based on Attribute Weighting in Kernel Density Estimation. San Antonio // Joint 7th International Conference on and Advanced Intelligent Systems (ISIS), 2014. Pp. 1439-1442.

8. Breuel T. M., Shafait F. Automlp Simple, effective, fully automated learning rate and size adjustment // The Learning Workshop. 2010. Pp. 122-131.

9. Bezhitskiy S. S., Semenkin E. S., Semenkina O. E. Hybrid evolutionary algorithms for the choice of effective

variants of control systems // Avtomatizatsiya. Sovremennye technologii. 2005. № 11. P. 24.

10. Semenkin E. S., Semenkina M. E. Application of genetic programming algorithm with modified uniform crossover operator for automated design of intelligent information technologies // Vestnik SibSAU. 2007. No. 3(16), рp. 27-33.

© Мамонтов Д. Ю., 2015

УДК 519.6

ИССЛЕДОВАНИЕ ВЛИЯНИЯ РАЗНООБРАЗИЯ ИНДИВИДУАЛЬНЫХ МОДЕЛЕЙ

НА ТОЧНОСТЬ АНСАМБЛЯ

Е. С. Мангалова

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: [email protected]

Задачи анализа данных возникают в ракетно-космической отрасли, экономике, медицине и т. д. Одним из методов их решения являются ансамбли моделей. Исследуется вопрос повышения точности ансамбля за счет увеличения разнообразия моделей.

Ключевые слова: анализ данных, идентификация, ансамблевое обучение, разнообразие ансамбля.

RESEARCH OF INFLUENCE OF INDIVIDUAL MODELS DIVERSITY ON ENSEMBLE ACCURACY

E. S. Mangalova

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]

Data analysis problems arise in space-rocket industry, economics, medicine, etc. Ensembles of models are one of the methods to solve them. This paper investigates the issue of increasing the ensemble accuracy by increasing the models diversity.

Keywords: data analysis, identification, ensemble learning, ensemble diversity.

Введение. Универсальность методов интеллектуального анализа данных позволяет применять их в различных технических областях (в том числе и в ракетно-космической отрасли), в экономике, медицине и т. д. На сегодняшний день существует широкий спектр методов анализа данных для решения задач идентификации и распознавания образов. Однако при решении сложных задач может оказаться, что ни один из алгоритмов не обеспечивает желаемой точности. В подобных случаях целесообразно строить ансамбли моделей [1].

Под обучением ансамбля моделей понимается процедура обучения конечного набора индивидуальных моделей ^(х) (/ = 1,2,.... N) и их последующая агрегация в едином правиле:

H (х) = F (((I), h1( 7),..., hN (х)).

Одна из основных задач, возникающих при построении ансамбля - генерация разнообразных индивидуальных моделей [2], так как объединение одинаковых моделей в ансамбле не может повысить точность прогноза.

Задача генерации разнообразия усложняется тем, что, во-первых, индивидуальные модели обучаются для решения одной задачи, по одной обучающей выборке и вследствие этого обычно сильно коррелиро-ваны, во-вторых, индивидуальные модели не должны быть слишком неточными. Нахождение компромисса между точностью индивидуальных моделей и их разнообразием - одна из ключевых задач при построении ансамбля моделей [3].

В данной работе исследуются взаимосвязи между точностью ансамбля, точностью индивидуальных моделей и их разнообразием.

Решетнеескцие чтения. 2015

Зависимость ошибки ансамбля от разнообразия моделей в ансамбле. В работе [4] показано, что ошибка коллективной модели зависит от точности индивидуальных моделей и их разнообразия следующим образом:

N

err(H | x) = ^ wterr(hi | x) - ambi(H | x),

i=1

в том случае, если правило объединения моделей представляет собой среднее взвешенное, а в качестве меры точности выбрана среднеквадратическая ошибка

err (hi | x) = (f (x) - hi (x) )2, err(H | x) = (f (x) - H(x))2,

неопределенность ансамбля в точке x определяется как

_ N _ _ 2

ambi(H | x) = ^ w; ( (x) - H(x))

i=1

и показывает рассогласование среди индивидуальных моделей в точке x . Эту величину будем понимать под мерой разнообразия ансамбля.

Однако данные соотношения справедливы только для одного правила объединения моделей в ансамбле (среднего взвешенного) и одного (квадратичного) критерия качества. В работе проведены численные исследования, показывающие зависимость точности ансамбля от разнообразия входящих в него моделей при использовании различных правил агрегации моделей в ансамбль и различных критериев качества.

Численные исследования. В ходе исследований решались задачи из репозитария [5]. Задачи отличались количеством наблюдений, количеством признаков и типами этих признаков. В качестве индивидуальных моделей использовались деревья регрессии и нейронные сети. В качестве правила объединения моделей в ансамбле - среднее взвешенное, медиана, мода, выбор лучшей индивидуальной модели по валидационной выборке. Были выбраны следующие критерии качества: RMSLE (Root Mean Squared Logarithmic Error), MAE (Mean Absolute Error), MSE (Mean Squared Error).

Разнообразие генерировалось с помощью бутстреп-метода. Из обучающей выборки могут быть сформированы различные обучающие подмножества. Чем меньшие мощности имеют попарные пересечения этих подмножеств, тем более разнообразны обученные на них индивидуальные модели. Из обучающей выборки формируется N подмножеств размерностью M: вероятность попадания каждого наблюдения в i-е обучающее подмножество - M / n, где n - количество наблюдений в обучающей выборке. Каждая модель обучается по своему обучающему подмножеству.

Исследования показали сильное влияние разнообразия моделей в ансамбле на его точность. Для всех рассмотренных способов агрегации моделей в ансамбль (кроме выбора лучшей модели по валидаци-онной выборке) и критериев качества уменьшение размерности подмножеств M от n до некоторого значения, зависящего от решаемой задачи, приводит одновременно к увеличению разнообразия моделей и повышению точности ансамбля.

References

1. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. URL: http://statweb.stanford.edu/~tibs/Elem StatLearn/ (accessed: 1.09.2015).

2. Zhou Z.-H. Ensemble Methods: Foundations and Algorithms. Chapman & Hall/CRC, 2012. 236 p. Machine Learning & Pattern Recognition series.

3. Kuncheva L. I. Combining Pattern Classifiers. Methods and Algorithms, Wiley, 2004.

4. Krogh A., Vedelsby J. Neural network ensembles, cross validation and active learning // Advanced in Neural Information Processing System 7. Cambridge : MIT Press, 1995. Pр. 231-238.

5. UCI Machine Learning Repository: Data Sets. URL: http://archive.ics.uci.edu/ml/datasets.html (accessed: 1.09.2015).

© Мангалова Е. С., 2015

УДК 004.414.23

НЕЧЕТКАЯ СИСТЕМА УПРАВЛЕНИЯ ВЕРОЯТНОСТЬЮ МУТАЦИИ В ГЕНЕТИЧЕСКОМ АЛГОРИТМЕ*

Я. С. Матюхина, Л. В. Липинский

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-mail: автора: [email protected]

Генетические алгоритмы широко и успешно применяются в задачах проектирования аппаратно-программных комплексов, однако их надежность и скорость работы на каждой отдельной задаче в большой степени зависят от выбранных настроек алгоритма.

Ключевые слова: генетический алгоритм, задачи оптимизации, нечеткая логика, нечеткий контроллер.

* Работа выполнена в рамках и при финансовой поддержке проекта RFMEFI57414X0037.

i Надоели баннеры? Вы всегда можете отключить рекламу.