Научная статья на тему 'О задаче максимизации разнообразия моделей в ансамблях параллельного обучения'

О задаче максимизации разнообразия моделей в ансамблях параллельного обучения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
53
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНСАМБЛЕВОЕ ОБУЧЕНИЕ / ENSEMBLE LEARNING / ДЕКОМПОЗИЦИЯ ОШИБКИ / ERROR DECOMPOSITION / ОПТИМИЗАЦИЯ / OPTIMIZATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мангалова Е. С., Мангалова М. С.

Исследуется влияние разнообразия индивидуальных моделей на точность ансамбля параллельного обучения. Предложен алгоритм обучения ансамбля, основанный на максимизации разнообразия индивидуальных моделей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DIVERSITY MAXIMIZATION PROBLEM IN BAGGING ENSEMBLES

The influence of individual models diversity on the bagging ensemble accuracy is analysed. An algorithm of ensemble learning based on maximization of individual models diversity is described.

Текст научной работы на тему «О задаче максимизации разнообразия моделей в ансамблях параллельного обучения»

Решетневскуе чтения. 2014

Библиографические ссылки

1. Молокова Н. В., Конных М. А. Modeling of the Dynamics of Spreading of Spilled Hydrocarbons Taking into Account the Gravity-Capillary Interaction // Журнал СФУ. 2012. Вып. 5(4). С. 462-470.

2. Медведев А. В. Теория непараметрических систем. Моделирование // Вестник СибГАУ. 2010. Вып. 4. С. 4-9.

3. Мальцева Т. В., Медведев А. В. О компьютерном исследовании К-моделей // Вестник СибГАУ. 2013. Вып. 3 (49).

4. Мальцева Т. В., Медведев А. В., Молокова Н. В. О К-моделях и их приложении [Электронный ресурс]. М. : Институт проблем управления им. В. А. Трапезникова РАН, ВСПУ-2014. С. 2992-3003.

References

1. Molokova N. V., Modeling of the Dynamics of Spreading of Spilled Hydrocarbons Taking into Account the Gravity-Capillary Interaction // SFU, Ю-asnoyarsk,

2012, № 5(4), p. 462-470.

2. Medvedev A. V. VestnikSibGAU, 2010, no. 4 (30), р. 4-9.

3. Maltseva T. V., Medvedev A. V., About komp'jutering research K-models // Vestnik SibGAU,

2013, no. 3 (49).

4. Maltseva T. V., Medvedev A. V., Molokova N. V, About K-models and their application // VSPU, Moscow,

2014, p. 2992-3003.

© Мальцева Т. В., Молокова Н. В., 2014

УДК 519.6

О ЗАДАЧЕ МАКСИМИЗАЦИИ РАЗНООБРАЗИЯ МОДЕЛЕЙ В АНСАМБЛЯХ ПАРАЛЛЕЛЬНОГО ОБУЧЕНИЯ

E. C. Мангалова, М. С. Мангалова

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Россия, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 Е-mail: [email protected]

Исследуется влияние разнообразия индивидуальных моделей на точность ансамбля параллельного обучения. Предложен алгоритм обучения ансамбля, основанный на максимизации разнообразия индивидуальных моделей.

Ключевые слова: ансамблевое обучение, декомпозиция ошибки, оптимизация.

DIVERSITY MAXIMIZATION PROBLEM IN BAGGING ENSEMBLES

E. S. Mangalova, M. S. Mangalova

Siberian State Aerospace University named after academician M. F. Reshetnev 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation E-mail: [email protected]

The influence of individual models diversity on the bagging ensemble accuracy is analysed. An algorithm of ensemble learning based on maximization of individual models diversity is described.

Keywords: ensemble learning, error decomposition, optimization.

Построение ансамблей параллельного обучения - где H(x) - ансамбль параллельного обучения;

один из наиболее универсальных и популярных методов , /_\ , /_\

J ^ j f « x),...,hN (x) - индивидуальные модели, входящие

решения задач интеллектуального анализа данных. 1 N

Основной проблемой при построении ансамблей яв- в ансамбль; (x1,f (x1)),...,(xn,f (xn)) - тестовая вы-

ляется генерация разнообразия ансамбля, поскольку объ- „,„. Г ,ТТ.

„ борка; E(H) - ошибка ансамбля; Em (H) - средняя

единение похожих моделей не может привести к сущест- m

венному повышению точности решения задачи [1]. ошибка индивидуальных моделей; A(H) - мера раз-

Крогом и Веделсби в работе [2] была предложена нообразия ансамбля. Так как величина A(H) неотри-

декомпозиция ошибки ансамбля, показывающая

_ „ _ цательна, ошибка ансамбля моделей E(H) не пре-

влияние разнообразия моделей на точность ансамбля:

вышает среднюю ошибку индивидуальных моделей E(H) = Em (H) - A(HX E (H).

1 n N 2

1 уу(/(xx )-H(x ))2 = Декомпозиция ошибки ансамбля показывает, что

nN j=1 i=j J J ' наилучший ансамбль состоит из наиболее точных и

1 N n 2 1 п N 2 разнообразных моделей.

= — (x) - f ))--((*,■) -H(xj)) , В работе [3] была показана эффективность некото-

nN i=1 j=1 nN j=1 i=1 рых приемов, позволяющих за счет увеличения раз-

Математические методы моделирования, управления и анализа данных

нообразия моделей повысить точность ансамбля. Одним из наиболее распространенных методов генерации разнообразия является формирование различных обучающих подмножеств для построения индивидуальных моделей. Обучающие подмножества одинакового объема формируются случайным образом.

Полагая, что модели одного класса, обученные по обучающим подмножествам одного объема, близки по точности, задачу минимизации ошибки ансамбля моделей можно свести к задаче максимизации разнообразия индивидуальных моделей.

В работе предложен алгоритм построения ансамбля, основанный на получении максимального разнообразия индивидуальных моделей. Алгоритм можно разделить на два этапа.

На первом этапе строится множество индивидуальных моделей /\(х), ...,hM (х) по различным обучающим подмножествам (М превышает Ы).

На втором этапе из множества моделей / (х),. . ., hM (х) случайным образом выбирается одна

и добавляется в ансамбль, а затем последовательно (до достижения определенного исследователем количества моделей) в ансамбль добавляются модели, позволяющие максимально увеличить разнообразие моделей, входящих в ансамбль.

Предложенный алгоритм был исследован на ряде тестовых задач и показал высокую эффективность.

Библиографические ссылки

1. Kuncheva L. I. Combining Pattern Classifiers: Methods and algorithms. John Wiley & Sons, Hoboken, NJ, 2004.

2. Krogh A., Vedelsby J. Neural network ensembles, cross validation and active learning // Advanced in Neural Information Processing System 7. Cambridge : MIT press, 1995. P. 231-238.

3. Мангалова Е. С., Агафонов Е. Д. О проблеме генерации разнообразия ансамблей индивидуальных моделей в задаче идентификации // Тр. XII Всерос. совещания по проблемам управления. URL: http://vspu2014.ipu.ru/proceedings/prcdngs/3214.pdf.

References

1. Kuncheva L. I. Combining Pattern Classifiers: Methods and algorithms. John Wiley & Sons, Hoboken, NJ, 2004.

2. Krogh A., Vedelsby J. Neural network ensembles, cross validation and active learning // Advanced in Neural Information Processing System 7. Cambridge: MIT press, 1995. P. 231-238.

3. Mangalova E. S., Agafonov E. D. O probleme generacii raznoobrazija ansamblej individual'nyh modelei v zadache identifikacii // Trudy XII Vserossijskogo soveshanija po problemam upravlenija. Available at: http ://vspu2014.ipu.ru/proceedings/prcdngs/3 214 .pdf.

© Мангалова Е. С., Мангалова М. С., 2014

УДК 62.501

О ^-МОДЕЛЯХ ДИСКРЕТНО-НЕПРЕРЫВНЫХ ПРОЦЕССОВ

А. В. Медведев

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-mail: [email protected]

Рассматриваются задачи идентификации дискретно-непрерывных процессов в случае, когда априорная информация соответствует как непараметрическому, так и параметрическому уровню одновременно. Часто это относится к системе многосвязных объектов.

Ключевые слова: непараметрические модели, К-модели, априорная информация.

ABOUT K-MODELS OF DISCRETE-CONTINUOUS PROCESSES

A. V. Medvedev

Siberian State Aerospace University named after academician M. F. Reshetnev 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation Е-mail: [email protected]

Some problems of identification of discrete-continuous process in case when a priory information corresponds to either non-parametric and parametric levels simultaneously are considered. It belongs to the system of multiply connected objects.

Keywords: non-parametric models, K-models, a priory information.

Проблема идентификации является одной из идентификации в широком смысле, наряду с доста-важнейших в теории управления и других областях точно хорошо развитой теорией идентификации в науки [1]. Основное внимание мы уделим задачам узком смысле. Ниже рассматривается случай, когда

i Надоели баннеры? Вы всегда можете отключить рекламу.