Научная статья на тему 'ИСПОЛЬЗОВАНИЕ ТЕХНОЛОГИЙ ИСКУСТВЕННОГО ИНТЕЛЛЕКТА (ML И НЕЙРОСЕТЕЙ) ДЛЯ ПРОГНОЗИРОВАНИЯ УРОВНЯ СМЕРТНОСТИ ПАЦИЕНТОВ, СТРАДАЮЩИХ НАРКОЛОГИЧЕСКИМИ ЗАБОЛЕВАНИЯМИ'

ИСПОЛЬЗОВАНИЕ ТЕХНОЛОГИЙ ИСКУСТВЕННОГО ИНТЕЛЛЕКТА (ML И НЕЙРОСЕТЕЙ) ДЛЯ ПРОГНОЗИРОВАНИЯ УРОВНЯ СМЕРТНОСТИ ПАЦИЕНТОВ, СТРАДАЮЩИХ НАРКОЛОГИЧЕСКИМИ ЗАБОЛЕВАНИЯМИ Текст научной статьи по специальности «Науки о здоровье»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
прогноз смертности / машинное обучение / нейросеть / наркологические заболевания / mortality forecast / machine learning / neural network / narcological diseases

Аннотация научной статьи по наукам о здоровье, автор научной работы — Царев Сергей Анатольевич, Щербань Андрей Валериевич, Бенян Армен Сисакович, Сиротко Илья Иванович, Савинцев Алексей Александрович

Статья описывает попытку построить прогноз уровня смертности пациентов, находящихся на диспансерном наблюдении у наркологов с использованием обученной нейросети на основании данных, полученных из электронных карт диспансерного наблюдения пациентов, умерших в период с 2019 по 2023 годы. Цель: прогнозирование показателя смертности пациентов, страдающих наркологическими заболеваниями с использованием обученной нейросети. Материалы и методы. Данные об умерших пациентах были использованы для обучения и дальнейшего прогноза. Для определения оптимальной модели для обучения были использованы: LightGBM (Light Gradient Boosting Machine) – библиотека градиентного бустинга; CatBoost – библиотека градиентного бустинга; Random Forest ансамбль деревьев решений; Ridge – разновидность линейной регрессии с L2-регуляризацией; Bidirectional LSTM разновидность рекуррентной нейронной сети. Далее, выбранная по итогам результатов обучения модель составила прогноз показателя смертности в группе находящихся на 01.01.2024 г. на диспансерном наблюдении пациентов, страдающих наркологическими заболеваниями. При оценке результатов обучения каждой из моделей были оценены показатели: RMSE (Root Mean Squared Error) квадратный корень из среднеквадратичной ошибки; MAE (Mean Absolute Error) среднее значение абсолютных различий между прогнозами модели и фактическими значениями; R2 (R-квадрат) доля дисперсии зависимой переменной, которая объясняется моделью. Результаты. При проведении оценки лучшей моделью оказалась Bidirectional LSTM (нейронная сеть), показавшая наилучшие результаты. В результате нейронная сеть на основании обезличенных электронных карт живых пациентов составила прогноз смертности на 2024 и 2025 годы. По результатам данного прогноза смертность в группе лиц, страдающих наркологическими заболеваниями и находящихся на диспансерном наблюдении, составит: в 2024 г: 185,0 ‰; в 2025 г: 153,0 ‰. Выводы. Нейросеть способна давать прогноз уровня смертности достаточно высокой точности (среднее расхождение абсолютных различий реальной и прогнозированной даты смерти, полученной на тестовой части данных составило 1,27 года) даже при небольшом объеме имеющихся данных в электронном виде. Увеличение исходных данных как по объему выборки, так и по качеству (большее количество заполненных полей) может существенно улучшить качество прогноза.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по наукам о здоровье , автор научной работы — Царев Сергей Анатольевич, Щербань Андрей Валериевич, Бенян Армен Сисакович, Сиротко Илья Иванович, Савинцев Алексей Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USING ARTIFICIAL INTELLIGENCE TECHNOLOGIES (ML AND NEURAL NETWORKS) TO FORECAST THE MORTALITY LEVEL OF PATIENTS SUFFERING FROM NARCOLOGICAL DISEASES

Introduction. The article describes an attempt to predict the mortality rate of patients under dispensary observation by narcologists using a trained neural network based on data obtained from electronic cards of dispensary observation of patients who died between 2019 and 2023. Purpose: predicting the mortality rate of patients suffering from narcological diseases using a trained neural network. Materials and methods. Data on deceased patients were used for training and further prognosis. To determine the optimal model for training, the following were used: LightGBM (Light Gradient Boosting Machine) gradient boosting library; CatBoost gradient boosting library; Random Forest Decision Tree Ensemble; Ridge is a type of linear regression with L2 regularization; Bidirectional LSTM is a type of recurrent neural network. Further, the model selected based on the results of the training made a forecast of the mortality rate in the group of patients suffering from narcological diseases at the dispensary follow-up in 01.01.2024. When evaluating the training results of each of the models, the indicators were evaluated: RMSE (Root Mean Squared Error) the square root of the mean square error; MAE (Mean Absolute Error) average value of absolute differences between model forecasts and actual values; R2 (R-squared) is the fraction of variance of the dependent variable that is explained by the model. Results. When evaluating, the best model was Bidirectional LSTM (neural network), which showed the best results. As a result, a neural network based on anonymized electronic records of living patients made a mortality forecast for 2024 and 2025. According to the results of this forecast, mortality in the group of people suffering from narcological diseases and under dispensary observation will be: in 2024: 1.97 ‰; in 2025: 1.16 ‰. Conclusions. The neural network is able to predict the mortality rate of a fairly high accuracy (the average discrepancy between the absolute differences in the real and predicted date of death obtained on the test part of the data was 1.27 years) even with a small amount of available data in electronic form. An increase in the initial data both in terms of sample size and quality (more filled fields) can significantly improve the quality of the forecast.

Текст научной работы на тему «ИСПОЛЬЗОВАНИЕ ТЕХНОЛОГИЙ ИСКУСТВЕННОГО ИНТЕЛЛЕКТА (ML И НЕЙРОСЕТЕЙ) ДЛЯ ПРОГНОЗИРОВАНИЯ УРОВНЯ СМЕРТНОСТИ ПАЦИЕНТОВ, СТРАДАЮЩИХ НАРКОЛОГИЧЕСКИМИ ЗАБОЛЕВАНИЯМИ»

Научно-практический рецензируемый журнал "Современные проблемы здравоохранения и медицинской статистики" 2024 г., № 3 Scientific journal "Current problems of health care and medical statistics" 2024 г., № 3

ISSN 2312-2935

УДК 614.2

DOI 10.24412/2312-2935-2024-3-286-301

ИСПОЛЬЗОВАНИЕ ТЕХНОЛОГИЙ ИСКУСТВЕННОГО ИНТЕЛЛЕКТА (ML И НЕЙРОСЕТЕЙ) ДЛЯ ПРОГНОЗИРОВАНИЯ УРОВНЯ СМЕРТНОСТИ ПАЦИЕНТОВ, СТРАДАЮЩИХ НАРКОЛОГИЧЕСКИМИ ЗАБОЛЕВАНИЯМИ

С.А. Царев,14 А.В. Щербань,1 А.С. Бенян,3И.И. Сиротко,3 А.А. Савинцев 2

1ГБУЗ «Самарский областной клинический наркологический диспансер», г. Самара 2ООО «Медиалогия», г. Москва

3Министерство здравоохранения Самарской области, г. Самара

4ФГБОУ ВО Самарский Государственный медицинский университет Министерства здравоохранения России, г. Самара

Введение. Статья описывает попытку построить прогноз уровня смертности пациентов, находящихся на диспансерном наблюдении у наркологов с использованием обученной нейросети на основании данных, полученных из электронных карт диспансерного наблюдения пациентов, умерших в период с 2019 по 2023 годы.

Цель: прогнозирование показателя смертности пациентов, страдающих наркологическими заболеваниями с использованием обученной нейросети.

Материалы и методы. Данные об умерших пациентах были использованы для обучения и дальнейшего прогноза. Для определения оптимальной модели для обучения были использованы: LightGBM (Light Gradient Boosting Machine) - библиотека градиентного бустинга; CatBoost - библиотека градиентного бустинга; Random Forest - ансамбль деревьев решений; Ridge - разновидность линейной регрессии с L2-регуляризацией; Bidirectional LSTM - разновидность рекуррентной нейронной сети. Далее, выбранная по итогам результатов обучения модель составила прогноз показателя смертности в группе находящихся на 01.01.2024 г. на диспансерном наблюдении пациентов, страдающих наркологическими заболеваниями. При оценке результатов обучения каждой из моделей были оценены показатели: RMSE (Root Mean Squared Error) - квадратный корень из среднеквадратичной ошибки; MAE (Mean Absolute Error) - среднее значение абсолютных различий между прогнозами модели и фактическими значениями; R2 (R-квадрат) - доля дисперсии зависимой переменной, которая объясняется моделью.

Результаты. При проведении оценки лучшей моделью оказалась Bidirectional LSTM (нейронная сеть), показавшая наилучшие результаты. В результате нейронная сеть на основании обезличенных электронных карт живых пациентов составила прогноз смертности на 2024 и 2025 годы. По результатам данного прогноза смертность в группе лиц, страдающих наркологическими заболеваниями и находящихся на диспансерном наблюдении, составит: в 2024 г: 185,0 %; в 2025 г: 153,0 %0.

Выводы. Нейросеть способна давать прогноз уровня смертности достаточно высокой точности (среднее расхождение абсолютных различий реальной и прогнозированной даты смерти, полученной на тестовой части данных составило 1,27 года) даже при небольшом объеме имеющихся данных в электронном виде. Увеличение исходных данных как по объему выборки, так и по качеству (большее количество заполненных полей) может существенно улучшить качество прогноза.

Научно-практический рецензируемый журнал "Современные проблемы здравоохранения и медицинской статистики" 2024 г., № 3 Scientific journal "Current problems of health care and medical statistics" 2024 г., № 3

ISSN 2312-2935

Ключевые слова: прогноз смертности, машинное обучение, нейросеть, наркологические заболевания

USING ARTIFICIAL INTELLIGENCE TECHNOLOGIES (ML AND NEURAL NETWORKS) TO FORECAST THE MORTALITY LEVEL OF PATIENTS SUFFERING FROM NARCOLOGICAL DISEASES

S.A. Tsarev, 1,4 A.V. Shcherban,1 A.S. Benyan, 3 I.I. Sirotko, 3 A.A. Savintsev 2

1 «Samara regional clinical Narcology Dispensary», Samara

2OOO «Megialogiya», Moscow

3Ministration of Health of Samara Region, Samara

4Samara State Medical University of the Ministry of Health of Russia, Samara

Introduction. The article describes an attempt to predict the mortality rate of patients under dispensary observation by narcologists using a trained neural network based on data obtained from electronic cards of dispensary observation of patients who died between 2019 and 2023. Purpose: predicting the mortality rate of patients suffering from narcological diseases using a trained neural network.

Materials and methods. Data on deceased patients were used for training and further prognosis. To determine the optimal model for training, the following were used: LightGBM (Light Gradient Boosting Machine) - gradient boosting library; CatBoost - gradient boosting library; Random Forest - Decision Tree Ensemble; Ridge is a type of linear regression with L2 regularization; Bidirectional LSTM is a type of recurrent neural network. Further, the model selected based on the results of the training made a forecast of the mortality rate in the group of patients suffering from narcological diseases at the dispensary follow-up in 01.01.2024. When evaluating the training results of each of the models, the indicators were evaluated: RMSE (Root Mean Squared Error) - the square root of the mean square error; MAE (Mean Absolute Error) - average value of absolute differences between model forecasts and actual values; R2 (R-squared) is the fraction of variance of the dependent variable that is explained by the model.

Results. When evaluating, the best model was Bidirectional LSTM (neural network), which showed the best results. As a result, a neural network based on anonymized electronic records of living patients made a mortality forecast for 2024 and 2025. According to the results of this forecast, mortality in the group of people suffering from narcological diseases and under dispensary observation will be: in 2024: 1.97 %; in 2025: 1.16 %.

Conclusions. The neural network is able to predict the mortality rate of a fairly high accuracy (the average discrepancy between the absolute differences in the real and predicted date of death obtained on the test part of the data was 1.27 years) even with a small amount of available data in electronic form. An increase in the initial data both in terms of sample size and quality (more filled fields) can significantly improve the quality of the forecast.

Keywords: mortality forecast, machine learning, neural network, narcological diseases

Введение. Показатель смертности населения является одним из основных

индикаторов эффективности деятельности системы здравоохранения. Рост средней

продолжительности жизни граждан РФ объявлен Президентом одной из приоритетных задач

Научно-практический рецензируемый журнал "Современные проблемы здравоохранения и медицинской статистики" 2024 г., № 3 Scientific journal "Current problems of health care and medical statistics" 2024 г., № 3 _ISSN 2312-2935_

на ближайшие годы. На фоне целого комплекса мероприятий, реализуемых системой здравоохранения на различных уровнях, направленных на снижение смертности, достаточно важным является составление краткосрочных и долгосрочных прогнозов в отношении показателя смертности как по отдельным классам заболеваний, так и по территориям. Важность такого прогнозирования обусловлена тем, что составление точного прогноза тренда показателя смертности способно своевременно внести корректировку в реализуемые дорожные карты снижения смертности, усиление проведения профилактической работы cреди разных групп населения [1-5].

Традиционно, для построения прогнозов в отношении динамики показателя смертности использовались методы моделирования временных рядов, логистического моделирования в различных модификациях (модель Гомперца, Гомперца - Макехама, Вейбулла, Ли - Картера) [6-8]. Преимуществом такого подхода является возможность построения прогноза на массивах данных различного объема. Недостатком является низкий уровень реагирования прогноза на меняющиеся факторы, так или иначе влияющие на уровень смертности.

Появление нейронных сетей, их широкое использование в здравоохранении, открыло новую страницу в возможностях прогнозирования различных показателей как в краткосрочной, так и в долгосрочной перспективах. О возможностях нейросетей в прогнозировании каких-либо явлений, либо событий (в первую очередь возникновение заболевания) отмечалось в целом ряде публикаций [9-11]. Успешность построения прогноза, как интеллектуального технологического решения, в данном случае обусловлен наличием массива данных (датасеты), и алгоритма (нейросети) [12]. Таким образом, накопленные обезличенные данные в виде электронных медицинских карт пациентов, могут быть использованы как входные данные для нейросети. Дальнейший процесс анализа погруженных в нейросеть данных (после проведенной предобработки), позволяет ей в дальнейшем выстраивать прогноз наступления какого-либо события, в том числе показателя смертности.

Анализ литературы свидетельствует о росте числе случаев использования нейросетей в прогнозировании уровней смертности [13-16]. Причем, использование подобного алгоритма позволяет осуществлять прогнозирование не только на уровне группы заболеваний, но и на уровне отдельно взятой больницы [17]. Причем при проведении сравнительного анализа точности осуществленного прогноза смертности с использованием

Научно-практический рецензируемый журнал "Современные проблемы здравоохранения и медицинской статистики" 2024 г., № 3 Scientific journal "Current problems of health care and medical statistics" 2024 г., № 3 _ISSN 2312-2935_

нейросети, и традиционными способами методами линейной регрессии, авторы исследований отмечают большую точность прогноза при использовании нейросети.

Таким образом, целью настоящего исследования является: прогнозирование показателя смертности пациентов, страдающих наркологическими заболеваниями с использованием нейросети.

Материалы и методы. В качестве датасета при проведении исследования использованы обезличенные карты диспансерного наблюдения пациентов, находившихся на диспансерном наблюдении в Самарской областном клиническом наркологическом диспансере и умерших от различных причин в период с 2019 по 2023 годы (n=6925). В данных содержались следующие признаки-даты (datetime): дата рождения, дата смерти, пол, основной диагноз заболевания, дата открытия карты диспансерного наблюдения, дата начала заболевания, дата последнего посещения врача-психиатра-нарколога, наличие судимости, наличие сопутствующего диагноза, другие данные. Далее проводились этапы предобработки данных: преобразование данных (из категориальных в числовые), нормализация данных, и разделение датасета на обучающую и тестовую части в объемах: 90 и 10%. В качестве признаков для обучения изначально были использованы:

• birth_open_card_years - разница между датой рождения и датой открытия карты;

• birth_last_visit_years - разница между датой рождения и датой последнего визита;

• open_card_last_visit_years - разница между датой открытия карты и датой последнего визита;

• birth_close_card_years - разница между датой рождения и датой закрытия карты;

• open_card_close_card_years - разница между датой открытия карты и датой закрытия карты;

• last_visit_close_card_years - разница между датой последнего визита и датой закрытия карты.

Поскольку датасет содержал по целому ряду признаков-дат поля с отсутствующими значениями, для обучения потребовалось создание новых признаков на основе имеющихся значений. Так, в качестве целевых переменных (для разных экспериментов) были введены:

• target_lifetime_years - разница между датой рождения и датой смерти в годах;

• target_therapy_years - разница между датой открытия карты и датой закрытия карты в годах.

Научно-практический рецензируемый журнал "Современные проблемы здравоохранения и медицинской статистики" 2024 г., № 3 Scientific journal "Current problems of health care and medical statistics" 2024 г., № 3 _ISSN 2312-2935_

Для различных экспериментов вышеуказанные признаки (числовые) были масштабированы с помощью библиотеки StandardScaler. Оставшиеся категориальные признаки были закодированы (для разных экспериментов):

• порядковым кодированием (OrdinalEncoder);

• быстрым кодированием (OneHotEncoder)

При этом в полях с категориальными признаками отсутствующие значения были заменены на новое значение («нет информации»). По завершении предобработки входных данных осуществлена компиляция и обучения модели нейронной сети.

В процессе обучения было произведено два основных направления экспериментов, для выбора из них оптимальной модели прогноза для имеющихся данных. Для данных направлений экспериментов были подготовлены разные версии обучающих датасетов. Можно назвать следующие направления экспериментов:

1. Предсказание длительности жизни пациента: На исходном датасете, с введенными изначально численными признаками; с добавлением новых признаков («разница между датой рождения и 1900 годом», «разница между датой рождения и 2000 годом», признаки «прожил 20 лет», «прожил 30 лет», «прожил 80 лет» со значениями 1/0 для каждого пациента); год рождения как категориальный признак, с добавлением в данные для обучения части данных из сета на 2024 год.

2. Предсказание длительности наблюдения за пациентом с добавлением «года рождения» как категориального признака.

В качестве моделей для обучения были выбраны:

1. LightGBM (Light Gradient Boosting Machine) - библиотека градиентного бустинга.

2. CatBoost - библиотека градиентного бустинга.

3. Random Forest - ансамбль деревьев решений, где каждое дерево обучается на случайной подвыборке обучающих данных, а затем прогнозы всех деревьев объединяются для получения окончательного прогноза модели.

4. Ridge - разновидность линейной регрессии с L2-регуляризацией.

5. Bidirectional LSTM - разновидность рекуррентной нейронной сети. Состоит из 6 слоев нейронов, содержит 184 нейрона, 123239 параметров.

Во всех случаях была поставлена задача регрессии, поэтому использовались метрики (критерии качества обучения, далее в тексте: метрики):

• RMSE (Root Mean Squared Error) - квадратный корень из среднеквадратичной ошибки.

Научно-практический рецензируемый журнал "Современные проблемы здравоохранения и медицинской статистики" 2024 г., № 3 Scientific journal "Current problems of health care and medical statistics" 2024 г., № 3 _ISSN 2312-2935_

• MAE (Mean Absolute Error) - среднее значение абсолютных различий между прогнозами модели и фактическими значениями.

• R2 (R-квадрат) - доля дисперсии зависимой переменной, которая объясняется моделью. R2 указывает, насколько хорошо модель соответствует данным.

Каждая модель обучалась на обучающем сете, гиперпараметры для ml-моделей подбирались с помощью GridSearchCV. По результатам обучения вычислялись метрики (на основе валидационного сета, который не участвовал в обучении). Результаты, обсуждение. 1. Обучение на изначальном датасете.

После обучения на исходном датасете без добавления новых признаков стало понятно:

a. Для данной задачи лучше подходит порядковое кодирование (OrdinalEncoder) категориальных признаков, обучение на данных с быстрым кодированием выдает метрики хуже.

b. В отдельных случаях масштабирование численных признаков имеет значение, но в целом метрики по данным с масштабированными и немасштабированными признаками отличаются несущественно.

По результатам обучения были получены следующие метрики (значение rmse можно расценить, как значительное):

Таблица 1

Результаты обучения начального датасета с применением 4-х моделей

Lgbm (Light Gradient Boosting Machine) Cbr (CatBoost) Forest (Random Forest) Ridge

RMSE 3.433 3.476 3.59 5.164

MAE 2.308 2.336 2.386 3.707

R2 0.937 0.935 0.931 0.857

2. Добавление новых признаков, связанных с возрастом пациента. Поскольку обучение на датасете с изначально сформированными признаками не дало удовлетворительного результата, было принято решение добавить новые признаки, а также дополнительно использовать еще одну модель обучения: тип рекуррентной нейронной сети. Логично было предположить, что возраст пациента является существенным фактором,

Научно-практический рецензируемый журнал "Современные проблемы здравоохранения и медицинской статистики" 2024 г., № 3 Scientific journal "Current problems of health care and medical statistics" 2024 г., № 3 _ISSN 2312-2935_

определяющим вероятность смерти. Было сделано несколько попыток добавить признак, отражающий возраст:

a. Разница между датой рождения и определенным годом (1900, 2000). Мы не могли использовать дату рождения в чистом виде как признак, поэтому гипотеза состояла в том, что модели надо показать значимость даты рождения, например, относительно какой-то отметки во времени.

b. Шесть признаков: «прожил 30 лет», «прожил 40 лет», «прожил 50 лет», «прожил 60 лет», «прожил 70 лет», «прожил 80 лет». По каждому признаку для каждого пациента были установлены значения 1/0 на основании даты рождения и даты смерти, для пациентов в 2024 году - текущего года.

c. Год рождения как категориальный признак. Из даты рождения был извлечен год, переведен в строковый тип данных и закодирован с помощью OrdinalEncoder, по аналогии с другими категориальными признаками.

Модели обучались на датасетах с каждым из вышеуказанных признаков по отдельности. Результаты по этим экспериментам оказались похожими.

Во всех случаях модели на обучении показали очень хорошие метрики:

Таблица 2

Результаты обучения при добавлении в датасет возраста пациентов и 5-й модели:

реккурентной нейросети (ЬЫбШ)

lgbm cbr forest ridge bi lstm

RMSE 1.402 1.423 1.377 1.372 1.467

MAE 1.177 1.204 1.16 1.170 1.226

R2 0.989 0.988 0.989 0.989 0.988

Но на данных за 2024 год модели дали предсказания, не коррелирующие с имеющимися данными по смертности.

Предсказания на 2024 год были получены следующим образом: модель на основании имеющихся признаков делала предсказание длительности жизни в годах, это значение прибавлялось к дате рождения пациента, в результате получали предполагаемую дату смерти.

Предсказания моделей на 2024 год сводились к тому, что для большей части пациентов (93-95%) прогнозировалась дата смерти до 2024 года, на 2024 год - в лучшем случае 2-3%.

Научно-практический рецензируемый журнал "Современные проблемы здравоохранения и медицинской статистики" 2024 г., № 3 Scientific journal "Current problems of health care and medical statistics" 2024 г., № 3 _ISSN 2312-2935_

На основании данной серии экспериментов с добавлением признака, отвечающего за возраст, был сделан вывод: наш набор обучающих данных содержит информацию только об умерших пациентах, поэтому модель «заучивает» тот факт, что пациенты в подавляющем большинстве умирают (в 2019-2023 годах), а добавление признака для возраста только усиливает этот эффект. Это видно по графикам важности признаков: признак, содержащий возраст, имел значение, не сопоставимое с остальными, модель ориентировалась только на него.

3. Добавление в обучающий набор обезличенных данных живых пациентов.

По результатам предыдущего этапа исследования стало понятно: возможно, качество прогноза повысит добавление в обучающий сет данных по пациентам, которые живы до сих пор. Это дало бы модели «понять», что дата смерти в принципе может быть позже 2024 года, причем для пациентов с разным возрастом.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Но чтобы добавить такие данные в обучающий сет, необходимо указать целевой признак - длительность жизни. Как получить длительность жизни пациентов, которые ещё живы?

Для этого были использованы предсказания моделей по 2024 году, были выбраны пациенты, по которым модели предсказывали дату смерти после 2025 года, с продолжительностью жизни более 50 лет (в изначальном обучающем сете 50 лет - это средняя продолжительность жизни пациента). После чего эти данные были добавлены в обучающий набор (около 800 строк).

Таким образом, были использованы предсказания моделей предыдущего этапа, чтобы сформировать данные для новых моделей. Методологически решение спорное, но могло дать определенный результат.

Также был добавлен год рождения пациента как категориальный признак, что уже было реализовано на предыдущих этапах.

На обучении и валидации модели показали следующие метрики:

Таблица 3

Результат обучения при добавлении в датасет живых пациентов

lgbm cbr forest ridge bi lstm

RMSE 1.809 1.938 1.827 2.227 2.141

MAE 1.393 1.5 1.397 1.723 1.634

R2 0.982 0.979 0.981 0.972 0.974

Научно-практический рецензируемый журнал "Современные проблемы здравоохранения и медицинской статистики" 2024 г., № 3 Scientific journal "Current problems of health care and medical statistics" 2024 г., № 3 _ISSN 2312-2935_

По метрикам видно, что ml-модели lgbm и catboost обучились лучше всего, но предсказания нейросети bi-lstm более всего коррелируют с реальной статистикой.

Прогноз нейросети по смертности на 2024-2025 годы составил:

2024г.: 1525 смертей, что соответствует показателю смертности - 197,0 %о;

2025г.: 899 смертей, что соответствует показателю смертности - 116,0 %

При этом lgbm модель показала весьма адекватный график значимости признаков, в котором возраст пациента (как категориальный признак), имеет наиболее значение, но разрыв с другими признаками не столь велик.

4. Предсказание длительности наблюдения.

Учитывая, что решение по добавлению живых пациентов с предсказанной датой смерти методологически не вполне оправдано, было принято решение обучить модели с целевым признаком - длительность наблюдения за пациентом (разница между датой открытия карты и датой закрытия карты в годах), то есть попробовать предсказать не дату смерти, а дату закрытия карты.

При этом данные по живым пациентам из набора за 2024 год в датасет не добавлялись, но был добавлен возраст пациента как категориальный признак.

Метрики моделей на обучении и валидации получились лучше, чем на предыдущем

этапе:

Таблица 4

Результат обучения при оценке длительности наблюдения

lgbm cbr forest ridge bi lstm

RMSE 1.745 1.648 1.991 2.167 1.77

MAE 1.18 1.146 1.302 1.59 1.277

R2 0.934 0.941 0.914 0.898 0.932

При этом нейросеть также показала прогноз на 2024 год лучше, чем т1-модели, более близкий к реальным данным.

Прогноз нейросети Ы-Ыт на 2024-2025 годы:

2024г.: 1436 закрытый карт, что соответствует показателю смертности - 185,0 %о; 2025г.: 1178 закрытий карт, что соответствует показателю смертности - 153,0 % График важности признаков от ^Ьт модели также оказался достаточно интересным и адекватным, кроме того, коррелирующим с графиком на предыдущем этапе.

Научно-практический рецензируемый журнал "Современные проблемы здравоохранения и медицинской статистики" 2024 г., № 3 Scientific journal "Current problems of health care and medical statistics" 2024 г., № 3

ISSN 2312-2935

Рисунок 1. Ранжирование важности признаков при построении прогноза нейросетью.

Выводы. Для прогнозирования уровня смертности пациентов, страдающих наркологическими заболеваниями, и находящихся на диспансерном наблюдении, может быть использован метод машинного обучения (как вариант использования искусственного интеллекта) а также нейросети;

При обучении наилучшие результаты получены при использовании модели LightGBM (Light Gradient Boosting Machine) - это высокопроизводительная библиотека для градиентного бустинга, а также нейросети Bidirectional LSTM - разновидности рекуррентной нейронной сети. Модели ML показывают хорошие метрики на обучении и валидации, но их предсказания на 2024, 2025 годы не всегда коррелируют с имеющейся статистикой. Нейросеть (Bi-LSTM) показывает практически аналогичные результаты обучения, но ее предсказания её на 2024, 2025 годы более реалистичны. При ее использовании среднее значение абсолютных разностей между наблюдаемым и предсказанным значениями составило 1,27 года.

Наиболее предпочтительным при построении прогноза нейросети выглядит прогнозирование длительности наблюдения у специалиста, что позволяет избежать искажения прогноза (наблюдаемое при прогнозировании даты смерти пациента).

Наиболее значимыми факторами, влияющими на точность прогноза смертности в группе лиц, находившихся на диспансерном наблюдении стали: возраст, длительность

Научно-практический рецензируемый журнал

"Современные проблемы здравоохранения и медицинской статистики" 2024 г., № 3

Scientific journal "Current problems of health care and médical statistics" 2024 г., № 3 _ISSN 2312-2935_

периодов: от рождения до открытия наркологической карты, от рождения до последнего визита к наркологу, от первичного обращения к наркологу до последнего визита к наркологу.

В результате использования обученной модели на массиве обезличенных данных (электронные карты лиц, находившихся на диспансерном наблюдении у нарколога на 01.01.2024), были получены прогнозные значения уровня смертности в данной группе: в 2024 г: 1436 пациентов, в 2025 г: 1178 пациентов.

Список литературы

1. Почитаева И.П., Люцко В.В. Возрастные мотивационные установки к употреблению психоактивных веществ и социальное окружение учащейся молодежи. Современные проблемы науки и образования. 2015; 5:113.

2. Михайлова Ю.В., Лисицына М.М., Шикина И.Б., Задоркина Т.Г. Распространённость потребления табака среди школьников России и стран Европы. Социальные аспекты здоровья населения. 2017; 5(57). DOI: 10.21045/2071-5021-2017-57-5-7

3. Почитаева И.П., Люцко В.В. Основные факторы, влияющие на потребление алкоголя/наркотиков школьниками/учащимися и студентами Костромской области. Современные проблемы науки и образования. 2015; 5: 115.

4. Попова Н.М., Люцко В.В., Бузик О.Ж. Токсикомания и потребление психоактивных веществ с вредными последствиями в различных возрастных группах населения Российской Федерации в 2013-2015 гг. Наркология. 2017; 9 (16): 38-43.

5. Задоркина Т.Г., Шикина И.Б. Социально-гигиеническое исследование информированности детского населения Калининградской области по вопросам здорового образа жизни в условиях реализации стратегии противодействия потреблению табака. В сборнике: Реформы Здравоохранения Российской Федерации. Современное состояние, перспективы развития. Сборник материалов конференции IV ежегодной конференции с международным участием, посвященной памяти д.м.н. профессора, акад. МАНЭБ, з.д.н. РФ Полякова И.В. Под редакцией И.М. Акулина, О.В. Мироненко. 2017. С. 24-26.

6. Pham H. Mortality Modeling Perspectives. Springer Series in Reliability Engineering. 2008;18:509516. doi: 10.1007/978-1-84800-113-8_25.

7. Lee R.D., Carter L.R. Modeling and forecasting U.S. mortality. Journal of the American Statistical Association. 1992;87:659-675.

Научно-практический рецензируемый журнал

"Современные проблемы здравоохранения и медицинской статистики" 2024 г., № 3

Scientific journal "Current problems of health care and medical statistics" 2024 г., № 3 _ISSN 2312-2935_

8. Rabbi AMF, Mazzuco S. Mortality and life expectancy forecast for (comparatively) high mortality countries. Genus. 2018;74(1):18. doi: 10.1186/s41118-018-0042-x.

9. Гаев Л.В., Симонов И.Н. про использование датасетов и применении нейросетей в медицине на современном киберэтапе развития общества. В сборнике: Человек и общество в современном киберпространстве. Сборник научных трудов II Международной научно-практической конференции. ФГБОУ ВО "Государственный университет управления". Москва, 2023:100-102.

10. Колесниченко О.Ю., Мартынов А.В., Пулит В.В., и др. Современный передовой уровень искусственного интеллекта для умной медицины. Ремедиум. 2019;4:36-43.

11. Залеев А.Н., Артамонова Е.В. Нейронные сети в медицине. В сборнике: Фундаментальные и прикладные аспекты развития современной науки. Сборник научных статей по материалам XII Международной научно-практической конференции. Уфа, 2023:162-164.

12. Баева О.С., Рощин С.М. предобработка медицинских данных для использования в нейронных сетях. В сборнике: Цифровой регион: опыт, компетенции, проекты. Сборник трудов V Юбилейной Международной научно-практической конференции. Брянск, 2023:9499.

13. Невзорова В. А., Бродская Т. А., Шахгельдян К. И., Гельцер Б. И., Костерин В. В., Присеко Л. Г. Методы машинного обучения в прогнозировании рисков 5-летней смертности (по данным исследования ЭССЕ-РФ в Приморском крае). Кардиоваскулярная терапия и профилактика. 2022;21(1):2908. doi: 10.15829/1728-8800-2022-2908

14. Golinelli D, Bucci A, Toscano F, Filicori F, Fantini MP. Real and predicted mortality under health spending constraints in Italy: a time trend analysis through artificial neural networks. BMC Health Serv Res. 2018;18(1):671. doi: 10.1186/s12913-018-3473-3.

15. Adeyinka DA, Muhajarine N. Time series prediction of under-five mortality rates for Nigeria: comparative analysis of artificial neural networks, Holt-Winters exponential smoothing and autoregressive integrated moving average models. BMC Med Res Methodol. 2020;20(1):292. doi: 10.1186/s12874-020-01159-9.

16. Bennett TD, Russell S, Albers DJ. Neural Networks for Mortality Prediction: Ready for Prime Time? Pediatr Crit Care Med. 2021;22(6):578-581. doi: 10.1097/PCC.0000000000002710.

Научно-практический рецензируемый журнал

"Современные проблемы здравоохранения и медицинской статистики" 2024 г., № 3

Scientific journal "Current problems of health care and medical statistics" 2024 г., № 3 _ISSN 2312-2935_

17. Aczon MD, Ledbetter DR, Laksana E, Ho LV, Wetzel RC. Continuous Prediction of Mortality in the PICU: A Recurrent Neural Network Model in a Single-Center Dataset. Pediatr Crit Care Med. 2021;22(6):519-529. doi: 10.1097/PCC.0000000000002682.

References

1. Pochitaeva I.P., Lyuczko V.V. Vozrastny'e motivacionny'e ustanovki k upotrebleniyu psixoaktivny'x veshhestv i social'noe okruzhenie uchashhejsya molodezhi[Age motivational attitudes to the use of psychoactive substances and social environment of students' youth]. Sovremenny'e problemy' nauki i obrazovaniya [Modern problems of science and education]. 2015; 5:113. (In Russian)

2. Mikhailova Yu.V., Lisitsyna MM, Shikina I.B., Zadorkina T.G. Rasprostranyonnost' potrebleniya tabaka sredi shkol'nikov Rossii i stran Evropy. [The prevalence of tobacco consumption among schoolchildren in Russia and Europe]. Social'nye aspekty zdorov'ya naseleniya [Social aspects of population health]. 2017;5(57). (In Russian) DOI: 10.21045/2071-5021-2017-575-7

3. Pochitaeva I.P., Lyuczko V.V. Osnovny'e faktory', vliyayushhie na potreblenie alkogolya/narkotikov shkol'nikami/uchashhimisya i studentami Kostromskoj oblasti [Main factors influencing alcohol/drug consumption by schoolchildren/pupils and students of the Kostroma region]. Sovremenny'e problemy' nauki i obrazovaniya [Sovremennye problemy nauki i obrazovanie]. 2015; 5: 115. (In Russian)

4. Popova N.M., Lyuczko V.V., Buzik O.Zh. Toksikomaniya i potreblenie psixoaktivny'x veshhestv s vredny'mi posledstviyami v razlichny'x vozrastny'x gruppax naseleniya Rossijskoj Federacii v 2013-2015 gg.[ Toxicomania and consumption of psychoactive substances with harmful consequences in different age groups of the population of the Russian Federation in 2013-2015] Narkologiya [Narcology]. 2017; 9 (16): 38-43. (In Russian)

5. Zadorkina T.G., Shikina I.B. Social'no-gigienicheskoe issledovanie informirovannosti detskogo naseleniya kaliningradskoj oblasti po voprosam zdorovogo obraza zhizni v usloviyah realizacii strategii protivodejstviya potrebleniyu tabaka. [Social and hygienic study of the awareness of the children of the Kaliningrad region on healthy lifestyle in the context of the implementation of a strategy to counter tobacco consumption].In the collection: Reforms of Health Care of the Russian Federation. Current state, development prospects. Collection of materials of the conference of the IV annual conference with international participation, dedicated to the memory of the Doctor of

Научно-практический рецензируемый журнал

"Современные проблемы здравоохранения и медицинской статистики" 2024 г., № 3

Scientific journal "Current problems of health care and medical statistics" 2024 г., № 3 _ISSN 2312-2935_

Medical Sciences, Academician of MANEB, d. Russian Federation I.V. Polyakova Edited by I.M. Akulin, O.V. Mironenko. 2017. S. 24-26. (In Russian)

6. Pham H. Mortality Modeling Perspectives. Springer Series in Reliability Engineering. 2008;18:509516. doi: 10.1007/978-1-84800-113-8_25.

7. Lee R.D., Carter L.R. Modeling and forecasting U.S. mortality. Journal of the American Statistical Association. 1992;87:659-675.

8. Rabbi AMF, Mazzuco S. Mortality and life expectancy forecast for (comparatively) high mortality countries. Genus. 2018;74(1):18. doi: 10.1186/s41118-018-0042-x.

9. Gaev L.V., Simonov I.N. pro ispol'zovanie datasetov i primenenii nejrosetej v medicine na sovremennom kiberjetape razvitija obshhestva [About the use of datasets and the use of neural networks in medicine at the modern cyber stage of society development]. V sbornike: Chelovek i obshhestvo v sovremennom kiberprostranstve. Sbornik nauchnyh trudov II Mezhdunarodnoj nauchno-prakticheskoj konferencii [In the collection: Man and society in modern cyberspace. Collection of scientific works of the II International Scientific and Practical Conference]. FGBOU VO "Gosudarstvennyj universitet upravlenija". Moskva, 2023:100-102. (In Russian)

10. Kolesnichenko O.Ju., Martynov A.V., Pulit V.V., et al. Sovremennyj peredovoj uroven' iskusstvennogo intellekta dlja umnoj mediciny [Modern advanced level of artificial intelligence for smart medicine]. Remedium [Remedium]. 2019;4:36-43. (In Russian)

11. Zaleev A.N., Artamonova E.V. Nejronnye seti v medicine [Neural networks in medicine]. V sbornike: Fundamental'nye i prikladnye aspekty razvitija sovremennoj nauki. Sbornik nauchnyh statej po materialam XII Mezhdunarodnoj nauchno-prakticheskoj konferencii [In the collection: Fundamental and applied aspects of the development of modern science. Collection of scientific articles based on the materials of the XII International Scientific and Practical Conference]. Ufa, 2023:162-164. (In Russian)

12. Baeva O.S., Roshhin S.M. Predobrabotka medicinskih dannyh dlja ispol'zovanija v nejronnyh setjah [Pre-processing of medical data for use in neural networks]. V sbornike: Cifrovoj region: opyt, kompetencii, proekty. Sbornik trudov V Jubilejnoj Mezhdunarodnoj nauchno-prakticheskoj konferencii [In the collection: Digital region: experience, competencies, and projects. Collection of works of the V Anniversary International Scientific and Practical Conference]. Brjansk, 2023:94-99. (In Russian)

13. Nevzorova V. A., Brodskaja T. A., Shahgel'djan K. I., Gel'cer B. I., Kosterin V. V., Priseko L. G. Metody mashinnogo obuchenija v prognozirovanii riskov 5-letnej smertnosti (po

Научно-практический рецензируемый журнал "Современные проблемы здравоохранения и медицинской статистики" 2024 г., № 3 Scientific journal "Current problems of health care and medical statistics" 2024 г., № 3 _ISSN 2312-2935_

dannym issledovanija JeSSE-RF v Primorskom krae) [Machine learning methods in predicting the risks of 5-year mortality (according to the ESSE-RF study in the Primorsky Territory)]. Kardiovaskuljarnaja terapija i profilaktika [Cardiovascular therapy and prevention]. 2022;21(1):2908. doi: 10.15829/1728-8800-2022-2908. (In Russian)

14. Golinelli D, Bucci A, Toscano F, Filicori F, Fantini MP. Real and predicted mortality under health spending constraints in Italy: a time trend analysis through artificial neural networks. BMC Health Serv Res. 2018;18(1):671. doi: 10.1186/s12913-018-3473-3.

15. Adeyinka DA, Muhajarine N. Time series prediction of under-five mortality rates for Nigeria: comparative analysis of artificial neural networks, Holt-Winters exponential smoothing and autoregressive integrated moving average models. BMC Med Res Methodol. 2020;20(1):292. doi: 10.1186/s12874-020-01159-9.

16. Bennett TD, Russell S, Albers DJ. Neural Networks for Mortality Prediction: Ready for Prime Time? Pediatr Crit Care Med. 2021;22(6):578-581. doi: 10.1097/PCC.0000000000002710.

17. Aczon MD, Ledbetter DR, Laksana E, Ho LV, Wetzel RC. Continuous Prediction of Mortality in the PICU: A Recurrent Neural Network Model in a Single-Center Dataset. Pediatr Crit Care Med. 2021;22(6):519-529. doi: 10.1097/PCC.0000000000002682.

Финансирование. Исследование не имело спонсорской поддержки. Конфликт интересов. Авторы заявляют об отсутствии конфликта интересов. Acknowledgments. The study did not have sponsorship. Conflicts of interests. The authors declare no conflicts of interests.

Информация об авторах Царев Сергей Анатольевич - кандидат медицинских наук, заместитель главного врача ГБУЗ «Самарский областной клинический наркологический диспансер», 443085, Россия, Самара, ул. Южное шоссе, 18; ассистент кафедры Организации здравоохранения? ГБОУ ВПО «Самарский государственный медицинский университет» Министерства здравоохранения России. 443079, Россия, Самара, ул. Арцыбушевская, 171. E-mail: tsasergey@yandex.ru, ORCID: 0000-0002-3679-8806. SPIN: 5457-7488.

Щербань Андрей Валериевич - кандидат медицинских наук, главный врач ГБУЗ «Самарский областной клинический онкологический диспансер». 443085, Россия, Самара, Южное шоссе, 18? E-mail: guzsond@mail.ru. ORCID: 0000-0001-8127-97784. SPIN: 9037-9302 Бенян Армен Сисакович - доктор медицинских наук, профессор кафедры хирургии Самарский государственный медицинский университет, министр здравоохранения Самарской области 443020, Россия, Самара, ул. Ленинская, 73. ORCID 0000-0003-4371-7426. Сиротко Илья Иванович - доктор медицинских наук, профессор, руководитель управления организации социально значимой и высокотехнологичной медицинской помощи

Научно-практический рецензируемый журнал "Современные проблемы здравоохранения и медицинской статистики" 2024 г., № 3 Scientific journal "Current problems of health care and medical statistics" 2024 г., № 3

ISSN 2312-2935

Министерства здравоохранения Самарской области. 443020, Россия, Самара, ул. Ленинская, 73. E-mail: sirotkoII@samregion.ru. ORCID: 0000-0002-8884-7016. SPIN: 4165-5005. Савинцев Алексей Александрович - кандидат философских наук, руководитель отдела обработки данных ООО «Медиалогия». 127015, Россия, г. Москва, Новодмитровская ул., 2, корп. 2. E-mail: agamai@yandex.ru. ORCID: 0009-0005-9674-223Х. SPIN: 3395-0260

About the authors

Tsarev Sergey A. - candidate of Medical Science, deputy chief physician of the Samara State Narcology Dispensary. South str..18, Samara, 443085, Russia; assistant of the Department of Public Health and Healthcare of the Samara State Medical University of the Ministry of Health of the Russian Federation. Artsybushevskaya str., 171, Samara, 443079, Russia. ORCID: 0000-00023679-8806. SPIN: 5457-7488.

Shcherban Andrey V. - candidate of Medical Sciences, Chief Physician of the Samara Regional Clinical Narcology Dispensary. Yuzhnoye Shosse, 18/ Samara, 443085, Russia. E-mail: guzsond@mail.ru. ORCID: 0000-0001-8127-97784. SPIN: 9037-9302.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Benian Armen S. - doctor of Medical Sciences, Professor of the Department of Surgery, Samara State Medical University, Minister of Health of the Samara region, Leninskaya str., 73. Samara, 443020, Russia. ORCHID 0000-0003-4371-7426.

Sirotko Ilya I. - doctor of Medical Sciences, Professor, Head of the department of organization ofsocially significant and high-tech medical care of the Ministry of Health of the Samara region. Leninskaya str., 73. Samara, 443020, Russia. E-mail: sirotkoII@samregion.ru. ORCID: 0000-00028884-7016. SPIN: 4165-5005.

Savintsev Alexey A. - candidate of Philosophical sciences, head of the data processing department of Medialogia LLC. 127015, Moscow, Novodmitrovskaya str., 2, bldg. 2. E-mail: agamai@yandex.ru. ORCID: 0009-0005-9674-223X. SPIN: 3395-0260

Статья получена: 20.05.2024 г. Принята к публикации: 25.09.2024 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.