Научная статья на тему 'АНСАМБЛИРОВАНИЕ МОДЕЛЕЙ ГРАДИЕНТНОГО БУСТИНГА В ЗАДАЧЕ ПРОГНОЗИРОВАНИЯ ВЫЖИВАЕМОСТИ ПАЦИЕНТОВ'

АНСАМБЛИРОВАНИЕ МОДЕЛЕЙ ГРАДИЕНТНОГО БУСТИНГА В ЗАДАЧЕ ПРОГНОЗИРОВАНИЯ ВЫЖИВАЕМОСТИ ПАЦИЕНТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
8
1
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
анализ данных / ансамбль методов / взвешенное голосование / градиентный бустинг / прогнозирование выживаемости / data analysis / ensemble learning / weighted voting / gradient boosting / survival prediction

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — К.А. Желтова

Рассматривается процесс прогнозирования выживаемости пациентов на основе данных первых часов интенсивной терапии. Описаны различные модели градиентного бустинга, а также применение ансамблирования для улучшения качества прогноза.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — К.А. Желтова

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ENSEMBLING OF GRADIENT BOOSTING MODELS ON THE PATIENT SURVIVAL PREDICTION

The article describes a process of the patient survival prediction based on data from the first hours of intensive cure. Gradient tree boosting models and ensemble method for improving the quality of the prediction are considered.

Текст научной работы на тему «АНСАМБЛИРОВАНИЕ МОДЕЛЕЙ ГРАДИЕНТНОГО БУСТИНГА В ЗАДАЧЕ ПРОГНОЗИРОВАНИЯ ВЫЖИВАЕМОСТИ ПАЦИЕНТОВ»

УДК 004.85

АНСАМБЛИРОВАНИЕ МОДЕЛЕЙ ГРАДИЕНТНОГО БУСТИНГА В ЗАДАЧЕ ПРОГНОЗИРОВАНИЯ ВЫЖИВАЕМОСТИ ПАЦИЕНТОВ

К. А. Желтова

АО «Красноярский машиностроительный завод» Российская Федерация, 660123, г. Красноярск, просп. им. газ. «Красноярский рабочий», 29

E-mail: masterkristall@gmail.com

Рассматривается процесс прогнозирования выживаемости пациентов на основе данных первых часов интенсивной терапии. Описаны различные модели градиентного бустинга, а также применение ансамблирования для улучшения качества прогноза.

Ключевые слова: анализ данных, ансамбль методов, взвешенное голосование, градиентный бустинг, прогнозирование выживаемости.

ENSEMBLING OF GRADIENT BOOSTING MODELS ON THE PATIENT SURVIVAL PREDICTION

K. A. Zheltova

JSC "Krasnoyarsk Machine-Building Plant" 29, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660123, Russian Federation E-mail: masterkristall@gmail.com

The article describes a process of the patient survival prediction based on data from the first hours of intensive cure. Gradient tree boosting models and ensemble method for improving the quality of the prediction are considered.

Keywords: data analysis, ensemble learning, weighted voting, gradient boosting, survival prediction.

Тяжесть заболевания традиционно связана с риском смерти. Однако взаимосвязь тяжести заболевания и смертности в разных отделениях интенсивной терапии, различается в зависимости от множества факторов, включая, помимо прочего, кадровый состав, возможности проведения специальных диагностических тестов, а также различия в культуре качества и безопасности пациентов. Обилие признаков делает задачу прогнозирования состояния пациента трудно решаемой для детерминированных алгоритмов.

Исследователи лаборатории вычислительной физиологии Массачусетского технологического института предоставили конфиденциальный набор данных для организации соревнования в области предсказательной аналитики на платформе Kaggle [1].

Задача состояла в прогнозировании выживаемости пациентов по данным первых 24-х часов интенсивной терапии. Данные содержат в себе сведения о 130000 пациентах отделений интенсивной терапии и охватывают период равный одному календарному году.

В качестве метрики в данной задаче используется ROC AUC (Area Under ROC Curve) -графическая характеристика качества бинарного классификатора, зависимость доли верных положительных классификаций при варьировании порога решающего правила. Преимуществом ROC-кривой является ее инвариантность относительно отношения цен ошибок I и II рода.

Секция «Программные средства и информационные технологии»

Данные разделены на следующие категории:

- демографические (этническая принадлежность, возраст, пол, рост, вес, место нахождения пациента до поступления в больницу и т.п.);

- APACHE (шкала оценки острых физиологических расстройств и хронических нарушений состояния);

- жизненные показатели (кровяное давление, частота сердечных сокращений, частота дыхательных движений, температура тела и т.п.);

- лабораторные показатели (альбумин, билирубин, креатинин, глюкоза, гемоглобин, эритроциты, тромбоциты и т.п.).

Разработке модели предшествовал предварительный анализ данных с целью выявления наиболее общих зависимостей, закономерностей и свойств анализируемых данных, законов распределения анализируемых величин. Предварительный анализ включал в себя:

- Изучение исходного распределения классов в наборе данных. Было выявлено, что распределение классов является несбалансированным: 91% выживших пациентов и 9% умерших.

- Сравнение распределений тренировочной и тестовой выборок и последующее исключение части признаков. Для построения корректной модели и избежания переобучения целесообразно удостовериться в одинаковом распределении тестовой и тренировочной выборок. Для этих целей можно использовать механизм Adversarial validation, который заключается в подмене задачи и построении классификатора, направленного на различение объектов из тестовой выборки от объектов из тренировочной [2].

- Удаление столбцов с сильной корреляцией, наличие которых затрудняет оценивание регрессионных параметров [3].

- Удаление признаков с низкой дисперсией для снижения размерности признакового пространства. Такие признаки чаще всего не представляют ценности для модели, так как являются в большинстве своем константными или близкими к константе на всех объектах.

- Заполнение пропусков в вещественных признаках. Часть пропущенных признаков представляется возможным вычислить на основе уже имеющихся данных (например, индекс массы тела, для вычисления которого используется рост и вес). В отношении оставшихся признаков целесообразнее применить заполнение с помощью медианы в случаях, когда распределение признака имеет скошенную форму, и среднее арифметическое в случае нормального распределения.

- Кодирование категориальных признаков. Категориальный признак - это признак, значения которого обозначают принадлежность объекта к какой-то категории. Сами значения признаков для алгоритмов анализа данных бесполезны: на практике разные категории кодируют разными целыми числами [4]. Для кодирования категориальных признаков в данной задаче использовался LabelEncoder.

В качестве основной модели был выбран LightGBM Regressor. LightGBM -высокоэффективный и масштабируемый фреймворк градиентного бустинга, поддерживающий множество различных алгоритмов. Доказано, что LightGBM работает в несколько раз быстрее, чем существующие реализации градиентного бустинга деревьев [5].

Для подбора гиперпараметров модели использовался рандомизированный поиск по сетке параметров (RandomizedSearchCV). Рандомизированный поиск и обычный поиск по сетке исследуют одно и то же пространство параметров, при этом конечный результат довольно похож, а время выполнения рандомизированного поиска значительно ниже [6].

Для валидации модели использовался алгоритм StratifiedKFold - стратифицированная кросс-валидация по 10 блокам. Кросс-валидация - это процедура перекрестной проверки, используемая для оценки работы модели на независимом наборе данных. Стратифицированная кросс-валидация подразумевает что в каждом блоке классы делятся в

той же пропорции, что и в исходных данных, подобный подход целесообразно применять в случае неравномерно распределенных классов.

При решении сложных задач классификации, регрессии, прогнозирования часто оказывается, что ни один из алгоритмов не обеспечивает желаемого качества восстановления зависимости. В таких случаях имеет смысл строить композиции алгоритмов, в которых ошибки отдельных алгоритмов взаимно компенсируются.

В качестве дополнительных моделей для последующего ансамблирования использовались:

ховооб! - популярная библиотека машинного обучения, реализующая модель градиентного бустинга, представляющего альтернативу регрессионным методам и нейронным сетям.

Са1ВооБ1 - библиотека, созданная инженерами и специалистами Яндекса в качестве преемника Матрикснета — алгоритма, применяемого для ранжирования и прогнозирования, а также лежащего в основе рекомендательных технологий.

В качестве алгоритма ансамблирования - взвешенное голосование.

ЯОС ЛИС оценки работы всех моделей на платформе К১1е приведены в таблице.

Таким образом, можно заключить, что ансамблирование позволяет добиться увеличения точности в сравнении с отдельными моделями.

ROC-AUC оценки моделей

Модель Public leaderboard Private leaderboard

LGBM 0.91084 0.90929

CatBoost 0.89611 0.89785

XGBoost 0.90988 0.90836

Ансамбль 0.91256 0.91004

Библиографические ссылки

1. WiDS Datathon 2020 [Электронный ресурс]. URL: https://www.kaggle.eom/c/widsdatathon 2020/overview (дата обращения 03.02.2020).

2. Adversarial validation, part one [Электронный ресурс]. URL: http://fastml.com/adversarial-validation-part-one/ (дата обращения 07.02.2020).

3. Катруца A.M. Анализ мультиколлинеарности при выборе признаков. М., 2014.

4. Дьяконов А.Г. Методы решения задач классификации с категориальными признаками. 2014.

5. LightGBM: A highly Efficient Gradient Boosting Decision Tree [Электронный ресурс]. URL: https://papers.nips.ee/paper/6907-lightgbm-a-highly-effieient-gradient-boosting-deeision-tree.pdf (дата обращения: 24.02.2020)

6. Comparing randomized search and grid search for hyperparameter estimation [Электронный ресурс]. URL: https://seikit-learn.org/stable/auto_examples/model_seleetion/plot_ randomized_ seareh.html (дата обращения 10.02.2020).

© Желтова К. А. 2020

i Надоели баннеры? Вы всегда можете отключить рекламу.