Научная статья на тему 'КРАТКОСРОЧНОЕ ПРОГНОЗИРОВАНИЕ ПОКАЗАТЕЛЕЙ СМЕРТНОСТИ НА ОСНОВЕ ОПЕРАТИВНЫХ ДАННЫХ МЕТОДОМ МАШИННОГО ОБУЧЕНИЯ'

КРАТКОСРОЧНОЕ ПРОГНОЗИРОВАНИЕ ПОКАЗАТЕЛЕЙ СМЕРТНОСТИ НА ОСНОВЕ ОПЕРАТИВНЫХ ДАННЫХ МЕТОДОМ МАШИННОГО ОБУЧЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY-NC-ND
87
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СМЕРТНОСТЬ НАСЕЛЕНИЯ / ПРИЧИНЫ СМЕРТИ / ИНДИВИДУАЛЬНЫЕ ДЕПЕРСОНИФИЦИРОВАННЫЕ ДАННЫЕ О СМЕРТНОСТИ / ПАНДЕМИЯ COVID-19 / ЦИФРОВОЕ ЗДРАВООХРАНЕНИЕ / ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / МАШИННОЕ ОБУЧЕНИЕ / СИСТЕМЫ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гусев А.В., Андрейченко А.Е., Котловский М.Ю., Тарасенко Т.Д., Деев И.А.

В исследовании была рассмотрена возможность создания и сравнения краткосрочных предиктивных моделей смертности населения региона в ковидный период (2020) и до него (2019) с использованием алгоритма машинного обучения (CatBoost). Использовали оперативные данных о числе умерших Федеральной службы государственной статистики и дополнительно справочники субъектов РФ (демографические и общегеографические данные, сведения о медицинских организациях, показатели системы здравоохранения, медицинские мониторинги, показатели рисков опасностей и др.). Для данных 2019 г. ошибка модели уменьшалась с увеличением периода обучения с 13 до 0,5%. В 2020 г. данного уменьшения не наблюдалось, и ошибка варьировалась между 8 и 16%. Не удалось повысить точность прогнозов при присоединении характеристик регионов. Агрегированные данные имели черты случайного процесса, и отсутствовали предикторы, имеющие значимое влияние на причины смертности или значимо ассоциированные с ними.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гусев А.В., Андрейченко А.Е., Котловский М.Ю., Тарасенко Т.Д., Деев И.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SHORT-TERM FORECASTING OF MORTALITY RATES BASED ON OPERATIONAL DATA USING MACHINE LEARNING METHODS

The study examined the possibility of creating and comparing short-term predictive mortality models of a region's population in the pre-COVID (2019) and COVID period (2020) using machine learning methods (CatBoost). We used operational data on the number of deaths from the Federal State Statistics Service, as well as additional reference materials of the constituent entities of the Russian Federation (demographic and general geographic data, information about healthcare facilities, health system indicators, medical monitoring, risk indicators, etc.). For the 2019 data, the model error decreased as the learning period increased, from 13% to 0.5%. In the 2020 data, this decrease was not observed, and the error varied between 8 and 16%. It was not possible to improve the accuracy of forecasts by adding regional characteristics. The aggregated data had the features of a random process and no predictors that had a significant impact on the causes of death or were significantly associated with them were observed.

Текст научной работы на тему «КРАТКОСРОЧНОЕ ПРОГНОЗИРОВАНИЕ ПОКАЗАТЕЛЕЙ СМЕРТНОСТИ НА ОСНОВЕ ОПЕРАТИВНЫХ ДАННЫХ МЕТОДОМ МАШИННОГО ОБУЧЕНИЯ»

Демографическое обозрение / Demographic Review 2023;10(2)132-142 DOI:https://doi.org/10.17323/demreview.v10i2.17768

Краткосрочное прогнозирование показателей смертности на основе оперативных данных методом машинного обучения

Александр Владимирович Гусев (agusev@webiomed.ai)1. Анна Евгеньевна Андрейченко (aandreychenko@webiomed.ru)2. Михаил Юрьевич Котловский (kotlovskiymu@mednet.ru)1. Тарас Денисович Тарасенко (kipesh96@gmail.com)1. Иван Анатольевич Деев (deevia@mednet.ru)1. Ольга Сергеевна Кобякова (kobyakovaos@mednet.ru)1.

1ФГБУ «Центральный научно-исследовательский институт организации и информатизации здравоохранения» Министерства здравоохранения Российской Федерации, Россия 2 ООО «К-Скай», Россия

Резюме: В исследовании была рассмотрена возможность создания и сравнения краткосрочных предиктивных моделей смертности населения региона в ковидный период (2020) и до него (2019) с использованием алгоритма машинного обучения (CatBoost). Использовали оперативные данных о числе умерших Федеральной службы государственной статистики и дополнительно справочники субъектов РФ (демографические и общегеографические данные, сведения о медицинских организациях, показатели системы здравоохранения, медицинские мониторинги, показатели рисков опасностей и др.). Для данных 2019 г. ошибка модели уменьшалась с увеличением периода обучения с 13 до 0,5%. В 2020 г. данного уменьшения не наблюдалось, и ошибка варьировалась между 8 и 16%. Не удалось повысить точность прогнозов при присоединении характеристик регионов. Агрегированные данные имели черты случайного процесса, и отсутствовали предикторы, имеющие значимое влияние на причины смертности или значимо ассоциированные с ними.

Ключевые слова: смертность населения, причины смерти, индивидуальные деперсонифицированные данные о смертности, пандемия СОУЮ-19, цифровое здравоохранение, искусственный интеллект, машинное обучение, системы поддержки принятия решений.

Благодарности: Авторы выражают благодарность сотрудникам компании «К-Скай» Г.Г. Гавриленко и Р.В. Абрамову, а также заместителю заведующего международной лаборатории исследований населения и здоровья Национального исследовательского университета «Высшая школа экономики» С.А. Тимонину за оказанную консультационную помощь при подготовке настоящей статьи.

Для цитирования: Гусев А. В., Андрейченко А. Е., Котловский М. Ю., Тарасенко Т. Д., Деев И. А., & Кобякова О. С. (2023). Краткосрочное прогнозирование показателей смертности на основе оперативных данных методом машинного обучения. Демографическое обозрение, 10(2), 132-142. https://doi.org/10.17323/demreview.v10)2.17768

Abstract: The study examined the possibility of creating and comparing short-term predictive mortality models of a region's population in the pre-COVID (2019) and COVID period (2020) using machine learning methods (CatBoost). We used operational data on the number of deaths from the Federal State Statistics Service, as well as additional

Short-term forecasting of mortality rates based on operational data using machine learning methods

Alexander Gusev (agusev@webiomed.ai)1. Anna Andreychenko (aandreychenko@webiomed.ru)2. Michael Kotlovskii (kotlovskiymu@mednet.ru)1. Taras Tarasenko (kipesh96@gmail.com)1. Ivan Deev (deevia@mednet.ru)1. Olga Kobiakova (kobyakovaos@mednet.ru)1.

1 Federal State Budgetary Institution "Central Research Institute of Health Organization and Informatization of the Ministry of Health of Russia", Russia

2 K-Skai LLC, Russia.

reference materials of the constituent entities of the Russian Federation (demographic and general geographic data, information about healthcare facilities, health system indicators, medical monitoring, risk indicators, etc.). For the 2019 data, the model error decreased as the learning period increased, from 13% to 0.5%. In the 2020 data, this decrease was not observed, and the error varied between 8 and 16%. It was not possible to improve the accuracy of forecasts by adding regional characteristics. The aggregated data had the features of a random process and no predictors that had a significant impact on the causes of death or were significantly associated with them were observed.

Keywords: population mortality, causes of death, individual depersonalized mortality data, pandemic COVID-19, digital healthcare, artificial intelligence, machine learning, decision support systems.

Acknowledgments: The authors are grateful to the employees of the K-Sky company G.G. Gavrilenko and R.V. Abramov, as well as the Deputy Head of the International Laboratory for Population and Health Research of the National Research University Higher School of Economics S.A. Timonin for advice in preparing this article.

For citation: Gusev A., Andreychenko A., Kotlovskii M., Tarasenko T., Deev I., & Kobiakova O. (2023). Short-term forecasting of mortality rates based on operational data using machine learning methods. Demographic Review, 10(2), 132-142. https://doi.org/10.17323/demreview.v10i2.17768

Введение

Исследователи, органы исполнительной власти и страховые компании во всем мире опираются на прогнозы смертности в своей деятельности. Вместе с тем прогнозирование смертности и других медико-демографических показателей, одновременно выступающих в качестве компонент изменения численности и структуры населения и характеризующих состояния популяционного здоровья, является крайне нетривиальной задачей с методологической точки зрения (Ahlburg, Lutz 1998). Процесс прогнозирования таких параметров не является чисто «математическим упражнением» - он требует тщательного анализа прошлых тенденций смертности в стране и мире, так же как и обусловливающих их детерминант.

Для среднесрочного и долгосрочного прогнозирования смертности во всех странах мира используются три основных подхода, ставших классическими в демографии (Lee, Carter 1992):

• экстраполяция (этот подход основан на анализе закономерностей, лежащих в основе изменения возрастного профиля смертности и в тенденциях изменения смертности во времени) - extrapolative approach;

• прогноз на основе изменения структуры причин смерти (эпидемиологический подход) - explanation approach;

• экспертный метод (опрос экспертов) - expectation approach.

Наиболее часто из представленных методов используется экстраполяция, предполагающая, что будущие тенденции по существу являются продолжением прошлого. Ставший классическим метод Ли-Картера (Lee, Carter 1992) раскладывает наблюдаемые возрастные профили смертности за определённый период времени на три компоненты:

• общий («усредненный») возрастной профиль смертности - ох;

• возрастные показатели изменения смертности в каждом возрасте за весь период наблюдения - bx;

• общий временной тренд - kt.

В последнее десятилетие в связи с развитием технологий, помимо классических подходов к прогнозированию смертности, основанных на методах, используемых демографами и эпидемиологами, отмечаются попытки применения алгоритмов машинного обучения как традиционных, так и нейронных сетей (Deprez, Shevchenko, Wüthrich 2017; Hainaut 2018; Richman, Wüthrich 2021).

В большинстве исследований машинное обучения используется для обогащения и улучшения классических моделей оценки смертности: модели Ли-Картера, модели Реншоу-Хабермана, а также модели Плата. Перла с соавторами (Perla et al. 2021) применили простую модель неглубокой сверточной сети для обогащения структуры модели Ли-Картера. Авторы отметили, что использование глубоких сетей не приводило к повышению прогностической эффективности в прогнозировании смертности по сравнению с неглубокими. Другие авторы (Levantesi et al. 2019) рассматривали три алгоритма: «дерево решений», «случайный лес» и «градиентный бустинг» для улучшения стандартных моделей (Levantesi, Pizzorusso 2019). Исследователи установили, что использование технологий искусственного интеллекта способствовало пониманию процессов, которые не идентифицировались стандартными моделями. Методы машинного обучения в статье

использовались как поддерживающие, а не заменяющие стандартные. В работе (Deprez, Shevchenko, Wüthrich 2017) применяли методы машинного обучения для анализа слабых сторон модели Ли-Картера и модели Реншоу-Хабермана. Кроме этого, появляются попытки прогнозирования популяционной смертности на основе только технологии искусственного интеллекта (Bravo 2021). Однако преимущества подходов, основанных только на машинном обучении, по сравнению с общепринятыми моделями прогнозирования популяционной смертности еще предстоит исследовать, в особенности в ситуациях сильного потрясения населения под воздействием неожиданного фактора (например, в результате пандемии коронавирусной инфекции), которые не отражены в классических моделях (Rizzi,Vaupel 2021; Лифшиц 2021; Wang et al. 2022).

Целью настоящего исследования стала разработка и сравнение моделей машинного обучения для краткосрочного прогнозирования смертности на основе оперативных данных о числе умерших, предоставленных Федеральной службой государственной статистики (Росстат) в условиях пандемии коронавирусной инфекции и до нее.

Материалы и методы

Источники данных

Исследование было выполнено на основе набора обезличенных индивидуальных данных о зарегистрированном числе умерших в Российской Федерации в 2019 и 2020 г., предоставленных Росстатом.

Исходный набор данных включал в следующие сведения:

1. идентификационный номер реестровой записи (числовой код);

2. дата выдачи медицинского свидетельства о смерти (дата);

3. медицинская организация, выдавшая медицинское свидетельство о смерти (текстовое название);

4. регион, в котором расположена медицинская организация, выдавшая медицинское свидетельство о смерти (текстовое название);

5. тип медицинского свидетельства о смерти (окончательное, предварительное);

6. коды причины смерти по МКБ-10 (первоначальная, промежуточная, непосредственная и другие причины смерти, указанные в оригинальном медицинском свидетельстве о смерти);

7. место смерти (в стационаре, дома, в другом месте);

8. возраст умершего (числовое значение);

9. пол (мужской, женский).

Других переменных, таких как, например, «брачный статус» в полученном наборе данных не было.

В набор данных были включены записи из медицинских свидетельств о смерти, зарегистрированных Росстате в 2019 и 2020 г., включая предварительные и окончательные свидетельства, а также свидетельства, выданные взамен предварительных и окончательных, если они были выданы до первичной регистрации факта смерти. В случае, если в свидетельстве о смерти было указано несколько диагнозов причины смерти, такое свидетельство было представлено в наборе данных несколькими записями. Общее число записей в наборе составило 8 043 581 строк, в том числе за 2019 г. -3 591 777 записей (44,65%), за 2020 г. - 4 451 804 записей (55,35%). В предоставленных

данных за 2019 г. отсутствовали сведения о половой принадлежности, а в данных за 2020 г. эти сведения были заполнены частично (только в 42% записей); формат файла набора данных - xls (Excel).

Также дополнительно экспертами ЦНИИОИЗ (Федеральное государственное бюджетное учреждение «Центральный научно- исследовательский институт организации и информатизации здравоохранения» Министерства здравоохранения Российской Федерации) был разработан справочник субъектов РФ, который содержал 55 признаков по каждому субъекту, включая демографические и общегеографические данные по регионам (площадь территории, численность населения (городского и сельского), плотность населения, численность предприятий и др.), сведения о медицинских организациях, о показателях системы здравоохранения (численность врачей, медицинских организаций), а также данные медицинских мониторингов, включая показатели рисков опасностей (численность получателей социальной поддержки, инвалидов, людей, работающих во вредных и опасных условиях труда). Были разработаны две версии справочника с данными за 2019 и 2020 г. Источниками информации для создания справочников стали базы данных, накопленные в ЦНИИОИЗ, а также сервисы Единой государственной информационной системы в сфере здравоохранения (ЕГИСЗ): Федеральный регистр медицинских работников (ФРМР), Федеральный реестр медицинских организаций (ФРМО), концентратор услуг ФЭР (Федеральная электронная регистратура), Федеральная интегрированная электронная медицинская карта (ФИЭМК), система мониторинга показателей в сфере здравоохранения РФ и ряд других.

Описание подготовки данных

Для проведения машинного обучения в наборе данных были оставлены только по одной записи (окончательные свидетельства) на каждый факт смерти, чтобы оставшееся число записей соответствовало зарегистрированным фактам смерти в отношении «одна запись в наборе - один факт смерти». В результате в итоговые наборы данных для 2019 г. было включено 1 799 517 записей, а для 2020 г. - 2 077 348 записей. Все свидетельства о смерти были объединены по дате на каждый день исследуемого года. Набор данных включал следующие поля: обезличенный ID пациента, дата записи о смерти, медицинская организация, выдавшая свидетельство о смерти, регион, тип свидетельства о смерти, диагноз причины смерти (любой из имеющихся в свидетельстве о смерти, порядок приоритетности: первоначальная, промежуточная, непосредственная), место смерти и возраст умершего. Пол не вошел в итоговой набор данных из-за низкой заполненности в предоставленных данных.

Для проверки гипотезы о повышении прогностической точности моделей за счет обогащения данных в обучение модели были включены дополнительные признаки из справочных материалов, выделенных с помощью корреляционного анализа.

Предварительный отбор признаков не проводили, все признаки использовали при построении моделей.

Описание итогового набора данных

В таблице 1 представлено статистическое описание сформированных наборов данных для всей страны.

Таблица 1. Число смертей в России по периодам, 2019 и 2020

Год Число умерших, n

всего 01.01-31.01 01.01-31.05 01.01-30.11

2019 1 790 223 169 023 772 069 1 639 728

2020 2 134 560 160 354 786 004 1 899 322

Методы

Для выполнения работы было решено создать два набора моделей прогнозирования смертности: на основе данных 2019 г. (отсутствие пандемии) и на основе данных 2020 г. (пандемия COVID-19). Выходным результатом работы всех моделей было общее прогнозируемое число смертей на 31 декабря текущего года, при этом внутри каждого года было сделано 3 прогноза:

1. прогноз числа смертей на конец года, сформированный 1 февраля соответствующего года по данным за период 01.01-31.01;

2. прогноз числа смертей на конец года, сформированный 1 июня соответствующего года по данным за период 01.01-31.05;

3. прогноз числа смертей на конец года, сформированный 1 декабря соответствующего года за период 01.01-30.11.

Для обучения моделей прогнозирования смертности был исследован алгоритм машинного обучения Catboost из одноименной открытой библиотеки, которая продемонстрировала лучшую производительность по сравнению с существующими аналогами XGBoost, LightGBM и H2O (Dorogush, Ershov, Gulin 2018). Семейство алгоритмов на основе градиентного бустинга было выбрано, так как данные алгоритмы относительно просты в обучении, не требуют заполнения пропусков в данных и обладают сниженной предвзятостью по сравнению с другими подходами.

Разработка моделей машинного обучения с помощью библиотеки Catboost происходила по традиционному алгоритму обучения и применения моделей машинного обучения. Общие сведения о разработке моделей с использованием Catboost приведены в работах (Dorogush, Ershov, Gulin 2018; Колесников, Сапегин 2019).

В качестве метрик точности моделей оценивались следующие показатели:

• MAE (Mean Absolute Error) -- средняя абсолютная еженедельная ошибка, высчитывается как среднее по всем ошибкам (отклонениям);

• MAPE (Mean Absolute Percentage Error) - средняя абсолютная еженедельная ошибка в процентах, рассчитывается как средний процент отклонения от правильных ответов;

• абсолютные и относительные ошибки прогноза годовой смертности.

Полученное прогнозное число смертей на конец года сравнивали с фактическими агрегированными данными исходного набора данных.

Создание моделей было выполнено в два этапа:

• этап 1 - обучение моделей осуществляли только на основании обезличенных первичных данных;

• этап 2 - соединение обезличенного набора первичных данных о смертности со справочниками субъектов РФ в соответствии с годами (2019 и 2020 г.).

Задачей второго этапа было изучить, может ли соединение набора первичных данных с дополнительными характеристиками системы здравоохранения субъектов РФ улучшить метрики качества моделей машинного обучения; дизайн исследования представлен на рисунке 1.

Рисунок 1. Дизайн исследования

г Исходный набор данных 2019 г. - 3 591 777 записей N

\ 2020 г. -4 451 804 записи

\

с Подготовка набора данных для обучения 2019 г.-1 799 517 записей Ч

ч 2020 г. - 2 077 348 записи

Г Этап №1. Обучение только на первичных данных •у

V. 6 моделей >

Г Этап №2. Обучение на расширенном наборе данных, содержащем справочные сведения о субъекте РФ N

6 моделей )

Источник: Разработано авторами.

Результаты

В результате выполнения первого этапа исследования были получены модели машинного обучения для предсказания годового числа умерших в РФ для 2019 и 2020 г. Абсолютные и относительные ошибки данных моделей представлены на рисунке 2.

Для данных 2019 г. (до пандемии) ошибка моделей уменьшалась с увеличением периода обучения с 13 до 0,5%, в то время как в 2020 г. (во время пандемии) данного уменьшения не наблюдалось, ошибка варьировалась между 8 и 16% без монотонного снижения с уменьшением срока прогноза. Последнее, скорее всего, связано со сложно предсказуемым развитием пандемии в 2020 г. В таблице 2 представлены усреднённые еженедельные метрики точности прогнозных моделей в зависимости от периода обучения и ошибки прогнозирования годового числа умерших.

Рисунок 2. Ошибка прогноза общего числа смертей (для всей страны) в зависимости от периода обучения, 2019 и 2020

Источник: Рассчитано авторами. Таблица 2.

Прогнозирование числа умерших с помощью моделей машинного обучения на определенные даты в зависимости от периода обучения, 2019 и 2020

Дата прогноза, используя данные предыдущих месяцев MAE MAPE, %% Годовое число умерших, n Ошибка в предсказании годового числа умерших

прогноз факт абсолютная, n относительная, %

01.02.2019 785 7,49 2 016 850 1 785 650 231 200 13

01.02.2020 3 137 244 1 939 148 2 109 446 170 298 8

01.06.2019 958 2,7 1 871 816 1 785 650 86 166 4

01.06.2020 4 243 310 1 770 725 2 109 446 338 721 16

01.12.2019 372 8 1 776 391 1 785 650 9 259 0,5

01.12.2020 1 728 32 1 835 402 2 109 446 274 044 13

В результате выполнения второго этапа исследования были получены аналогичные прогнозные модели, которые в качестве входных параметров дополнительно использовали справочные данные регионах. Метрики точности моделей в сравнении с исходными версиями моделей для 2019 г. представлены в таблице 3.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Средняя абсолютная ошибка прогноза на обогащенных данных 2019 г. демонстрирует малую изменчивость в зависимости от сроков прогнозирования, тогда как средняя ошибка в процентном исчислении возрастает по мере увеличения срока прогноза и показывает значения ниже метрики на исходных данных только при прогнозировании на 01 февраля. При этом значения абсолютной ошибки на обогащенных данных превышают значения на исходном наборе в два - пять раз. Таким образом, видно, что в моделях 2019 г. мы получили ухудшение прогностической точности после добавления справочных данных.

Таблица 3. Метрики точности моделей прогнозирования числа умерших с (обогащенный набор) и без (исходный набор) использования

справочных данных о регионах, 21 319

Метрика Дата прогноза, используя данные предыдущих месяцев Исходный набор Обогащенный набор

1 февраля 2019 г. 785 1826 MAE 1 июня 2019 г. 958 1824 _1 декабря 2019 г._372 1951

1 февраля 2019 г. 7,5 3,6 МАРЕ, %% 1 июня 2019 г. 2,7 5,4 _1 декабря 2019 г._8,0 8,7

Метрики точности моделей, которые в качестве входных параметров также использовали справочные данные по регионам РФ, в сравнении с исходными версиями моделей для 2020 г. представлены в таблице 4.

Таблица 4. Метрики точности моделей прогнозирования смертности с

(обогащенный набор) и без (исходный набор) использования справочных данных о регионах, 2020

Метрика Период для формирования прогноза Исходный набор Обогащенный набор

1 февраля 2020 г. 3137 2750

MAE 1 июня 2020 г. 4243 2452

1 декабря 2020 г. 1728 1966

1 февраля 2020 г. 244 2,04

MAPE, %% 1 июня 2020 г. 310 1341

1 декабря 2020 г. 32 854

Как видно из таблицы 4, значения абсолютной ошибки прогноза на расширенных данных при прогнозировании на 1 февраля и 1 июня заметно ниже, нежели при обучении на исходном наборе, а при прогнозе на 1 декабря эта метрика демонстрирует незначительное превышение на расширенных данных по сравнению с исходными. Напротив, метрика МАРЕ демонстрирует неприемлемые значения при прогнозировании на длительные сроки, тогда как прогноз на 1 февраля имеет ошибку многократно меньшую, чем при обучении на исходном наборе. Можно сделать предположение, что для данных 2020 г. оправдано добавление в набор данных дополнительного справочника для краткосрочных прогнозов, так как это позволило улучшить прогностическую точность.

Обсуждение

В результате сравнения точности прогнозирования числа умерших до и во время пандемии с помощью моделей машинного обучения было показано, что с увеличением периода обучения точность прогнозирования стабильно увеличивалась для данных до пандемии, в то время как во время пандемии точность не увеличивалась с периодом обучения. Последнее указывает на невозможность точного прогнозирования с помощью Catboost в условиях резких изменений, таких как пандемия. Возможно, для таких сценариев необходимо применять альтернативные методы машинного обучения с механизмами внимания для повышения точности моделей в условиях резких изменений. Нам не удалось существенно улучшить точность прогнозов при соединении первичных данных о смертности с характеристиками субъектов РФ. Причины такого результата могут заключаться в том, что, во-первых, агрегированные данные числа умерших имеют черты случайного процесса и это, предположительно, может влиять на точность работы

алгоритмов; во-вторых, вероятно, в подготовленных справочных данных отсутствовали предикторы, имеющие значимое влияние на причины смертности или значимо ассоциированные с ними.

Направление дальнейших улучшений модели

В ходе обсуждения результатов исследования авторами было предложено несколько идей для дальнейшего развития с точки зрения повышения точности прогнозов, считаем целесообразным дополнительно изучить разные методы машинного обучения и архитектуры моделей, а также провести дополнительные исследования влияния нескольких кодов диагнозов на точность работы модели.

Заключение

Проведенное исследование показало, что применение прогнозных моделей машинного обучения, работающих на основе агрегированных обезличенных первичных медицинских данных, позволяет получать довольно точные оперативные прогнозы смертности населения, в том числе в различных разрезах, что в свою очередь может стать основной для принятия управленческих решений. Применение описанных подходов позволит формировать прогнозную аналитику с актуализацией ее в любое время, что, на наш взгляд, способно повысить оперативность и качество принимаемых управленческих решений.

Литература

Колесников А.С., Сапегин С.В. (2019). Использование технологии машинного обучения Catboost для планирования сервисного обслуживания грузовой спецтехники. В Информатика: проблемы, методология, технологии: сборник материалов XIX международной научно-методической конференции (сс. 1479-1484). Воронеж: Издательство «Научно-исследовательские публикации».

Лифшиц М.Л. (2021). Смертность в России в первый год пандемии covid-19 и потенциальные демографические последствия. В Парадигмы и модели демографического развития : сборник статей XII Уральского демографического форума, Том 1 (сс. 246-253). Екатеринбург: ИЭ УрО РАН.

Ahlburg D.A., Lutz W. (1998). Introduction: The Need to Rethink Approaches to Population

Forecasts. Population and Development Review, 24, 1-14. https://doi.org/10.2307/2808048

Bravo J.M. (2021). Forecasting mortality rates with Recurrent Neural Networks: A preliminary investigation using Portuguese data. In CAPSI2021 Proceedings: 21g Conferencia da Associagao Portuguesa de Sistemas de Informando, "Sociedade 5.0: Os desafios e as Oportunidades para os Sistemas de Informando" (pp. 1-19).

Deprez P., Shevchenko P.V., Wüthrich M.V. (2017). Machine learning techniques for mortality modeling. European Actuarial Journal, 7, 337-352. https://doi.org/10.1007/s13385-017-0152-4

Dorogush A.V., Ershov V., Gulin A. (2018). CatBoost: gradient boosting with categorical features support. https://doi.org/10.48550/arXiv.1810.11363

Hainaut D. (2018). A neural-network analyzer for mortality forecast. ASTIN Bulletin: The Journal of the IAA, 48, 481-508. https://doi.org/10.1017/asb.2017.45

Lee R.D., Carter L.R. (1992). Modeling and Forecasting U. S. Mortality. Journal of the American Statistical Association, 87, 659-671. https://doi.org/10.2307/2290201

Levantesi S., Pizzorusso V. (2019). Application of Machine Learning to Mortality Modeling and Forecasting. Risks, 7(1), 26. https://doi.org/10.3390/risks7010026

Perla F., Richman R., Scognamiglio S., Wuthrich M.V. (2021). Time-series forecasting of mortality rates using deep learning. Scandinavian Actuarial Journal, 7, 572-598. https://doi.org/10.1080/03461238.2020.1867232

Richman R., Wuthrich M.V. (2021). A neural network extension of the Lee-Carter model to multiple populations. Annals of Actuarial Science, 15(2), 346-366. https://doi.org/10.1017/S1748499519000071

Rizzi S., Vaupel J.W. (2021). Short-term forecasts of expected deaths. The Proceedings of the National Academy of Sciences, 118(15), 1-7. https://doi.org/10.1073/PNAS.2025324118

Wang H., Paulson K.R., Pease S.A. et al. (2022). Estimating excess mortality due to the COVID-19 pandemic: a systematic analysis of COVID-19-related mortality, 2020-21. Lancet, 399, 1513-1536. https://doi.org/10.1016/S0140-6736(21)02796-3

i Надоели баннеры? Вы всегда можете отключить рекламу.