Научная статья на тему 'ОПИСАНИЕ ПРОЦЕССА ПРОГНОЗИРОВАНИЯ ПРОБЛЕМНЫХ СОСТОЯНИЙ С ПРИМЕНЕНИЕМ АНСАМБЛЕВЫХ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ'

ОПИСАНИЕ ПРОЦЕССА ПРОГНОЗИРОВАНИЯ ПРОБЛЕМНЫХ СОСТОЯНИЙ С ПРИМЕНЕНИЕМ АНСАМБЛЕВЫХ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
115
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАШИННОЕ ОБУЧЕНИЯ / БЭГГИНГ / БУСТИНГ / СТЕКИНГ / ПРОБЛЕМНЫЕ СОСТОЯНИЯ / БАЛАНСИРОВКА ДАННЫХ / SHAP-ЗНАЧЕНИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Фирюлина М.А., Каширина И.Л.

В данной статье описан процесс разработки моделей машинного обучения для прогнозирования проблемных состояний. В основе формирования систем поддержки принятия решений в условиях проблемных ситуаций предполагается использование ансамблевых методов машинного обучения: бэггинг, бустинг и стекинг. С целью повышения качества построенных моделей применяется метод балансировки данных, описаны алгоритмы андерсэмплинга и оверсэмплинга. Так как использование сложных моделей машинного обучения снижает способность объяснения полученного результата, приведены различные способы интерпретации построенных моделей. По результатам исследования сформирован метод прогнозирования проблемных состояний. Такой подход способствует поэтапному решению выявленной проблемной ситуации и последовательному достижению поставленной цели.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Фирюлина М.А., Каширина И.Л.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DESCRIPTION OF THE PROCESS OF PREDICTING PROBLEM STATES USING ENSEMBLE METHODS OF MACHINE LEARNING

This paper describes the process of developing machine learning models for predicting problem states. The formation of decision support systems in problem situations is based on the using of ensemble methods of machine learning: bagging, boosting and stacking. The algorithms of undersampling and oversampling is applied for improving the quality of the models. Using of complex machine learning models reduces the ability to explain the result obtained, therefore various ways of interpreting the constructed models are given. Based on the results of the study, a method for predicting problem states was formed. This approach contributes to the gradual solution of the identified problem situation and the consistent achievement of the goal.

Текст научной работы на тему «ОПИСАНИЕ ПРОЦЕССА ПРОГНОЗИРОВАНИЯ ПРОБЛЕМНЫХ СОСТОЯНИЙ С ПРИМЕНЕНИЕМ АНСАМБЛЕВЫХ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ»

Описание процесса прогнозирования проблемных состояний с применением ансамблевых методов машинного обучения

М.А. Фирюлина, И.Л. Каширина Воронежский государственный университет, Воронеж

Аннотация: В данной статье описан процесс разработки моделей машинного обучения для прогнозирования проблемных состояний. В основе формирования систем поддержки принятия решений в условиях проблемных ситуаций предполагается использование ансамблевых методов машинного обучения: бэггинг, бустинг и стекинг. С целью повышения качества построенных моделей применяется метод балансировки данных, описаны алгоритмы андерсэмплинга и оверсэмплинга. Так как использование сложных моделей машинного обучения снижает способность объяснения полученного результата, приведены различные способы интерпретации построенных моделей. По результатам исследования сформирован метод прогнозирования проблемных состояний. Такой подход способствует поэтапному решению выявленной проблемной ситуации и последовательному достижению поставленной цели.

Ключевые слова: машинное обучения, бэггинг, бустинг, стекинг, проблемные состояния, балансировка данных, БИар-значения.

Введение

Проектирование сложных систем различной предметной области подразумевает предварительный анализ нештатных ситуаций в период эксплуатации. Проблемным называется состояние, при котором система оказывается в ситуации дестабилизации нормального состояния. Анализ таких состояний требует разработки соответствующих расчетных процедур, позволяющих прогнозировать ожидаемые характеристики исследуемого объекта [1, 2].

Прогнозирование проблемных состояний является актуальной задачей многих предметных областей, например, прогнозирование смертности пациентов в медицине или прогнозирование отказа работы автоматизированных систем в инженерии или прогнозирование техногенных катастроф при мониторинге экологических данных. Полученный прогноз позволяет сформировать комплекс мероприятий, снижающих вероятность

аварий, уменьшающих прямые экономические потери и ущерб в ходе работы бизнес-процессов.

Задача прогнозирования проблемных состояний отличается от других задач прогнозирования тем, что на конечный результат влияет не только предшествующая динамика, но и совокупность значимых признаков, которые способствовали конечному результату. Важным этапом является процесс выявления взаимосвязей между исходными значениями переменных. Большие наборы данных и передовые алгоритмы машинного обучения позволяют моделировать и изучать сложные многофакторные отношения между многочисленными предикторами развития проблемной ситуации [3].

Для прогнозирования проблемных ситуаций могут использоваться методы машинного обучения, отличающиеся высокой точностью. В частности, в качестве аппарата решения подобных задач могут применяться ансамблевые методы машинного обучения, объединяющие несколько моделей с целью получения лучшей эффективности прогнозирования, чем можно получить от каждого алгоритма по отдельности.

Отметим, что на практике проблемные и стабильные состояния системы возникают неравномерно. Проблемные ситуации встречаются гораздо реже, что приводит к дисбалансу обучающей выборки в задачах машинного обучения. Такого рода дисбаланс приводит к тому, что проблемные состояния прогнозируются гораздо хуже стабильных, тогда как именно они и являются самыми важными. С целью улучшения точности прогноза применяются различные методы балансировки данных [4, 5].

Так как критичность исхода является главной характеристикой проблемных состояний, конечным пользователям важно понимать, на каких основаниях модель получила тот или иной прогноз. Интерпретируемость призвана дать представление о построенной модели и объяснить, каким образом получен конечный результат. Поэтому системы принятия решений

для прогнозирования проблемных ситуаций должны включать инструментарий объяснения полученных прогнозов.

Рассматриваемая задача определяет требование конструирования и повышения эффективности результатов работы ансамблевых методов машинного обучения для прогнозирования проблемных состояний в сложных системах. Таким образом, можно выделить несколько этапов процесса построения систем принятия решений для решения задачи

прогнозирования проблемных состояний, которые приведены на рис. 1.

Рис. 1. - Схема поэтапного процесса построения моделей прогнозирования

проблемных состояний

Анализ значимости исходных признаков

Первый этап описываемого алгоритма подразумевает поиск внутренних и внешних факторов, которые могут иметь влияние на прогнозируемый результат. К внутренним факторам можно отнести характеристики исследуемого объекта, объем имеющихся ресурсов. Внешние факторы - это метеорологические показатели, человеческий фактор, уровень развития инновационных технологий рассматриваемой области. Состояние внешней и внутренней среды системы позволяет оценить вероятность возникновения потенциальных проблемных состояний.

М Инженерный вестник Дона, №4 (2022) ivdon.ru/ru/magazine/arcliive/n4y2022/7589

С этой целью можно использовать различные методы статистического анализа и машинного обучения, позволяющие проверять гипотезы о влиянии каждого из признаков на возникновение проблемной ситуации. Значимость отбора признаков и анализа их взаимосвязи заключается в исключении незначимых признаков, что приводит к повышению точности прогноза, облегчению интерпретируемости результатов и упрощению настройки гиперпараметров модели машинного обучения. Конечной целью исследования является нахождение взаимосвязей между признаками, которые характеризуют изучаемый объект в рамках определенных условий [5]. В таблице 1 перечислены статистические методы и методы машинного обучения, а также цель их применения для выявления зависимостей и

сокращения числа входных предикторов.

Таблица № 1

Методы анализа значимости входных предикторов

Метод Цель применения

1 2

Корреляционный анализ Оценка степени линейной зависимости между парами входных предикторов, с целью исключения избыточности входных данных.

Дисперсионный анализ Выявление степени различия между значениями признаков, которые влияют на прогноз.

Визуальный анализ Анализ плотности распределения непрерывных входных признаков в зависимости от прогнозируемого класса проблемной ситуации, графики вида "ящик с усами" для анализа разброса значений входной переменной, соответствующих стабильной и проблемной ситуации.

Метод Каплана-Мейера Используется для выявления влияния значений категориальных входных признаков на вероятности наступления проблемного состояния до заданного момента времени.

Карты Кохонена Разновидность нейронных сетей, представляют инструментарий нелинейного анализа признаков для поиска их значимых комбинаций. Способны извлекать значимые паттерны признаков даже из зашумленных данных.

Анализ распределенных лагов Модели линейной регрессии на основе временных рядов, используется для оценки величины запаздывания влияния входных признаков.

М Инженерный вестник Дона, №4 (2022) ivdon.ru/ru/magazine/arcliive/n4y2022/7589

1 2

Методы машинного обучения Метод PredictionValuesChange показывает, насколько в среднем прогноз изменяется при изменении значения входного предиктора. Метод LossFunctionChange оценивает значимость признака, сравнивая значение функции потерь модели с использованием данного признака и без него.

Ансамблевые методы построения моделей МО

На втором этапе разрабатываются ансамблевые модели машинного обучения. Ансамбль моделей - это комбинация нескольких алгоритмов обучения, которые позволяют построить модель более эффективную и точную, чем любая из моделей, построенная с помощью отдельного алгоритма. В текущем исследовании рассматриваются три вида ансамблей: бэггинг, бустинг и стекинг [6]. На рис. 2 представлены схематические представления о принципах работы каждого вида ансамблей.

т^т А

-ЧА. •V*

Бэггинг Бустинг Стекинг

Рис. 2. - Принцип работы ансамблевых методов Бэггинг представляет собой ансамбль моделей одного вида, обучающихся параллельно и независимо друг от друга, на различных случайных подвыборках одного и того же обучающего множества. Конечная модель формируется путем усреднения прогнозов в задаче регрессии или путем мажоритарного голосования в задаче классификации. Типичным примером бэггинга является метод случайного леса. К достоинствам бэггинга можно отнести эффективную обработку данных с большим количеством входных признаков, нечувствительность к масштабированию, возможность

обработки как непрерывных, так и категориальных признаков, не прибегая к методам кодирования, высокую параллелизуемость. Однако данный метод менее интерпретируем, по сравнению с отдельными моделями.

Бустинг — это процедура последовательного направленного построения ансамбля моделей машинного обучения, когда каждый следующий алгоритм стремится компенсировать ошибки предыдущих алгоритмов. Примером данного метода является один из самых универсальных и сильных методов - градиентный бустинг. Многие исследования показывают превосходство данного метода по сравнению с остальными моделями [7, 8] на широком круге задач.

Идея стекинга состоит в том, чтобы обучить нескольких разных слабых моделей и объединить их, обучив результирующую модель для прогнозирования проблемных состояний на основе предсказаний, возвращаемых этими слабыми моделями. При данном подходе используются алгоритмы разного типа, результаты которых объединяются в один с помощью обучаемой метамодели.

Эффективность ансамблевых методов на сегодняшний день неоспорима. В такой области, как прогнозирование проблемных ситуаций, их преимущество является особенно существенным, так как даже небольшое улучшение точности алгоритмов машинного обучения может позволить предотвратить какие-то критические ситуации.

Применение алгоритмов балансировки данных

Особенность входных данных в задачах прогнозирования проблемных ситуаций заключается в том, что количество экземпляров класса стабильных состояний больше. Это обусловлено тем, что на практике критические ситуации возникают реже. Несбалансированность данных может привести к смещению оценки, что означает, что прогнозирование проблемных состояний будет происходить хуже, хотя их предсказание важнее. С целью

выравнивания примеров мажоритарного (стабильных состояний) и миноритарного (проблемных состояний) классов, применяются различные алгоритмы балансировки данных [9]. На рис. 3 изображен принцип работы методов андерсэмплинга и оверсэмплинга. Оверсэмплинг заключается в увеличении примеров миноритарного класса, андерсэмплинг подразумевает уменьшение примеров мажоритарного класса. Какой метод выбрать -

зависит от предметной области и характера проблемной ситуации.

ооо о о п о о ° о о о о О о п

О О о о Ои

о О о о о о ООО ООО о 0

ООО о О

п о о ° о о о

о О о п

° о о О Ои о О о о о о Ооо

ООО О 0

V

О О о

° о о о о О О

о О о о О о О О о

о

о О

V

ООО О о О о ©• О «О®

п000 о о °о

° о О о оо о

о о о о о О оо °р «рО О •о0 О

Андерсэмплинг Оверсэмплинг

Рис. 3. - Принцип работы методов балансировки данных Общие шаги алгоритмов балансировки данных можно описать следующим образом.

Шаг 1. Определить число m по следующему правилу: при пороге отсечения 0,5 количество миноритарных примеров необходимо увеличить в количество раз, равное соотношению значений ложноположительной и ложноотрицательной классификации, полученных с помощью матрицы ошибок классификации.

Шаг 2. Случайным образом или по правилу (для андерсэмплинга: правило Томека, метод кластерных центроидов, метод ближайших соседей, для оверсэмплинга: SMOTE, ADASYN) выбираются m мажоритарных (при

М Инженерный вестник Дона, №4 (2022) ivdon.ru/ru/magazine/arcliive/n4y2022/7589

андерсэмплинге) или миноритарных (при оверсэмплинге) примеров и удаляются (при андерсэмплинге) или дублируются (при оверсэмплинге).

Метрики оценки качества моделей МО

Четвертый этап подразумевает разработку инструментария для проведения вычислительного эксперимента оценки качества построенных моделей. В случае, если задача прогнозирования проблемной ситуации представляет собой задачу классификации (0- стабильная ситуация, 1-проблемная), для оценки качества разработанных алгоритмов можно использовать метрики, основанные на матрице ошибок классификации.

Элементы этой матрицы отображены на рис. 4.

TP - True Positive число верно предсказанных примеров проблемного класса 1 FN - False Negative число примеров класса 1, предсказанных как класс 0

TN - True Negative число верно предсказанных примеров класса 0 FP - False Positive число примеров класса 0, предсказанных как класс 1

Рис. 4. - Матрица классификации для задач прогнозирования проблемных

состояний

Основные метрики задач прогнозирования проблемных ситуаций - это доля правильных ответов (Accuracy), чувствительность (Sensitivity) и специфичность Specificity.

(TP + TN)

Accuracy =

Sensitivity = Specificity =

(TP + TN + FP + FN) TP

(TP + FN)

TN (TN + FP )

и

Если задача прогнозирования проблемной ситуации формулируется, как задача регрессии (например, когда ведется мониторинг параметра, значение которого не должно выходить за заданные границы), то для оценки точности таких моделей можно использовать метрики: коэффициент

|2

1. п

Zl a - у

детерминации R2 = 1 - -, где y =-Z у , корень из среднеквадратической

Z У - yt

11 п

ошибки rmse = -zi a —y |2, средняя абсолютная процентная ошибка V-t-

- п | a — y i

mape = -z—^-il *ioo%. Здесь y- истинное значение, a - прогнозное.

n t=i y

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Методы интерпретации данных

Использование сложных комбинаций моделей машинного обучения повышает точность прогнозирования, но снижает уровень интерпретируемости. В задачах прогнозирования наступления проблемной ситуации нельзя полностью полагаться на модели машинного обучения, необходима экспертная оценка. Но экспертам предметной области важно понимать, на каких основаниях модель получила результат для принятия окончательного решения. Поэтому на конечном этапе прогнозирования предлагается использовать современные методы интерпретации и визуализации данных, к числу которых относятся методы, основанные на методологии SHAP (SHapley Additive explanation). SHAP - значения показывают, насколько выбранный признак изменил результат прогнозирования. Идея такого подхода основана на принципе, используемом в теории игр для определения того, насколько каждый игрок при совместной игре способствует ее успешному исходу. С использованием SHAP-значений можно наглядно визуализировать причины, которые обусловили прогноз проблемного состояни. На рис. 5 в качестве иллюстрации приведен пример

п

i=1

и

SHAP-графика для одного из пациентов в задаче прогнозирования смертности после инфаркта миокарда (ИМ). По данному графику можно увидеть среднее значение риска смертности после ИМ в обучающей выборке, равное 0.2632, при этом риск смертности данного пациента составляет 0.46. Красным цветом выделены неблагоприятные факторы, увеличивающие риск смирности, синим - благоприятные, которые его понижают. Можно сделать выводы, что для данного пациента наиболее повышающими риск факторами является старшая возрастная группа (более 80 лет), наличие хронической сердечной недостаточности второго типа и заднебазальная локализация инфаркта [10].

В данном исследовании приведен общий поэтапный процесс разработки эффективной модели прогнозирования проблемного состояния на основе ансамблевых методов машинного обучения для различных предметных областей. Этот подход подразумевает поиск и выделение значимых факторов на основе системного анализа данных, построение наиболее точных ансамблевых моделей машинного обучения, применение методов балансировки данных, с целью повышения качества решения поставленной задачи, оценку полученной модели и использование методов интерпретации полученных результатов. Полученный комплекс интеллектуальных методов поддержки принятия решений в задачах прогнозирования проблемных состояний может быть использован в структуре информационной системы конкретной предметной области.

Base value 0.2632

0.46

Рис. 14. График SHAP-значений

Заключение

Благодарности

Исследование выполнено при поддержке РФФИ, проект 20-37-90029.

Литература

1. Симанков, В. С., Луценко Е.В. Адаптивное управление сложными системами на основе теории распознавания образов. - Краснодар: КубГАУ, 1999. - 318 с.

2. Львович, И. Я. Разработка подсистемы поддержки принятия решений на основе результатов анализа множества изображений // Цифровая обработка сигналов и её применение (цос-2021). - 2015. -С. 111-115.

3. Подвальный С.Л., Васильев Е.М. Информационно-управляющие системы в управлении критическими режимами сложных объектов. Актуальные проблемы прикладной математики, информатики и механики: сборник трудов Международной научно-технической конференции. - 2017. -С. 282-291.

4. Клячкин В.Н., Жуков Д. А. Прогнозирование состояния технического объекта с применением методов машинного обучения // Программные продукты и системы. - 2019. - Т. 32, № 2. - С. 244-250.

5. Podval'ny, S. L., Ledeneva T. M. Intelligent modeling systems: Design principles // Automation and Remote Control. - 2013. - Vol. 74. - No 7. - pp. 1201-1210.

6. Casari, A., Zheng A. Feature Engineering for Machine Learning. - O'Reilly Media, Inc., 2018. - 218 p.

7. Bellot A., Schaar M., Cloninger A. Boosted Trees for Risk Prognosis // Proceedings of Machine Learning Research. - 2018. - № 85. - pp. 2-16.

8. Firyulina, M. A., Kashirina I. L. Classification of cardiac arrhythmia using machine learning techniques // J. Phys.: Conf. Ser. - 2020. - № 1614. - pp. 11671175.

9. Brennan, J. J., Elam J. J. Understanding and validating results in model-

based decision support systems // Decision Support Systems. - 1986. - № 2. - pp. 49-54.

10. Фирюлина М.А., Каширина И.Л., Конобеева Е.В. Оценка комплаентности пациентов с сердечно-сосудистыми заболеваниями на основе методов интеллектуального анализа данных // Системный анализ и управление в биомедицинских системах. - 2019. - Т. 18, № 3. - С. 177-183.

References

1. Simankov, V. S., Lutsenko, E. V. Adaptivnoe upravlenie slozhnymi sistemami na osnove teorii raspoznavaniya obrazov [Adaptive control of complex systems based on the theory of pattern recognition]. Krasnodar: KubGAU, 1999. 318 p.

2. Lvovich, I. Ya. Cifrovaya obrabotka signalov i eyo primenenie (TsOS-2021). 2015. pp. 111-115.

3. Podvalny, S. L., Vasil'ev E.M. Aktual'nye problemy prikladnoj matematiki, informatiki i mekhaniki: sbornik trudov Mezhdunarodnoj nauchno-tekhnicheskoj konferencii. 2017. pp. 282-291.

4. Klyachkin, V. N., ZHukov D. A.Programmnye produkty i sistemy, 2019. T. 32, № 2. pp. 244-250.

5. Podval'ny, S. L., Ledeneva T. M. Automation and Remote Control. 2013. Vol. 74. No 7. pp. 1201-1210.

6. Casari, A., Zheng A. Feature Engineering for Machine Learning O'Reilly Media, Inc., 2018. 218 p.

7. Bellot A., Schaar M., Cloninger A. Boosted Trees for Risk Prognosis Proceedings of Machine Learning Research. 2018. № 85. pp. 2-16.

8. Firyulina, M. A., Kashirina I. L. Classification of cardiac arrhythmia using machine learning techniques J. Phys.: Conf. Ser. 2020. № 1614. pp. 1167-1175.

9. Brennan, J. J., Elam J. J. BrennanDecision Support Systems. 1986. № 2. pp. 49-54.

10. Firyulina M.A. Kashirina I.L., Konobeeva E.V. Sistemnyj analiz 1 upravlenie у biomedicinskih sistemah. 2019. T. 18, №. 3. pp. 177-183.

i Надоели баннеры? Вы всегда можете отключить рекламу.