Научная статья на тему 'АНАЛИЗ РИСКОВ ЗАБОЛЕВАНИЙ СЕРДЕЧНО-СОСУДИСТОЙ СИСТЕМЫ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ БОЛЬШИХ ДАННЫХ'

АНАЛИЗ РИСКОВ ЗАБОЛЕВАНИЙ СЕРДЕЧНО-СОСУДИСТОЙ СИСТЕМЫ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ БОЛЬШИХ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
Большие данные / сердечно-сосудистые заболевания / факторы риска ССЗ. / Big data / cardiovascular diseases / CVD risk factors.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Макаров К. С., Рудыко М. О.

В данной статье рассматриваются основные факторы риска развития заболеваний сердечно-сосудистой системы. С использованием технологий больших данных анализируется зависимость появления заболеваний от влияния различных факторов. В работе представлены результаты исследования, полученные на основе подхода, включающего в себя формирование матрицы корреляции, SCORE, логистической и линейной регрессий, а также даны рекомендации по применению сделанных выводов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Макаров К. С., Рудыко М. О.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RISK ANALYSIS OF DISEASES OF THE CARDIOVASCULAR SYSTEM USING BIG DATA TECHNOLOGIES

This article discusses the main risk factors for developing diseases of the cardiovascular system. Using big data technologies, the dependence of the occurrence of diseases on the influence of various factors is analyzed. The paper presents the results of the study obtained on the basis of an approach that includes the formation of a correlation matrix, SCORE, logistic and linear regression, and also provides recommendations for the application of the conclusions drawn.

Текст научной работы на тему «АНАЛИЗ РИСКОВ ЗАБОЛЕВАНИЙ СЕРДЕЧНО-СОСУДИСТОЙ СИСТЕМЫ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ БОЛЬШИХ ДАННЫХ»

УДК 004.04

АНАЛИЗ РИСКОВ ЗАБОЛЕВАНИЙ СЕРДЕЧНО-СОСУДИСТОЙ СИСТЕМЫ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ БОЛЬШИХ ДАННЫХ

© 2024 К. С. Макаров1, М. О. Рудыко2

1 кандидат технических наук, доцент кафедры программного обеспечения и администрирования информационных систем e-mail: runaway90@mail.ru 2студент 2 курса бакалавриата направления подготовки «Математическое обеспечение и администрирование информационных систем» e-mail: mariaryduko@gmail.com

12Курский государственный университет

В данной статье рассматриваются основные факторы риска развития заболеваний сердечно-сосудистой системы. С использованием технологий больших данных анализируется зависимость появления заболеваний от влияния различных факторов. В работе представлены результаты исследования, полученные на основе подхода, включающего в себя формирование матрицы корреляции, SCORE, логистической и линейной регрессий, а также даны рекомендации по применению сделанных выводов.

Ключевые слова: большие данные, сердечно-сосудистые заболевания; факторы риска ССЗ.

RISK ANALYSIS OF DISEASES OF THE CARDIOVASCULAR SYSTEM USING BIG DATA TECHNOLOGIES

© 2024 K. S. Makarov1, M. O. Rudyko2

1Candidate of Engineering Sciences, Associate Professor, Department of Software and

Administration Information Systems e-mail: runaway90 @ mail. ru 22nd year undergraduate student of the Field of Study

"Mathematical Support and Administration of Information Systems" e-mail: mariaryduko @ gmail. com

12Kursk State University

This article discusses the main risk factors for developing diseases of the cardiovascular system. Using big data technologies, the dependence of the occurrence of diseases on the influence of various factors is analyzed. The paper presents the results of the study obtained on the basis of an approach that includes the formation of a correlation matrix, SCORE, logistic and linear regression, and also provides recommendations for the application of the conclusions drawn.

Keywords: big data, cardiovascular diseases; CVD risk factors.

В настоящее время болезни сердечно-сосудистой системы (ССО занимают первое место среди количества летальных исходов во всем мире. На их долю приходится 57 % от всех причин смерти. Каждый год на 100 тысяч граждан России умирают от инфаркта миокарда более 150 женщины и вдвое больше мужчин [1].

Основными и наиболее распространенными факторами риска сердечнососудистых заболеваний (ССЗ) являются немодифицируемые (пол, возраст, генетические и этнические факторы) и модифицируемые (нарушения питания, ожирение, артериальная гипертензия, гиперлипидемия (повышенный уровень общего холестерина и липопротеинов низкой плотности, низкий уровень липопротеидов высокой плотности), курение, низкая физическая активность, злоупотребление алкоголем, сахарный диабет, расстройство функции эндотелия и др.) [2].

В 2019 г. на базе ОБУЗ «Курская областная клиническая больница» было проведено клинико-эпидемиологическое обследование 924 пациентов кардиологического профиля, из них женщин 41,5 %, мужчин 58,5 % в возрасте от 20 до 70 лет с патологиями ССС. Для исследования были выделены четыре группы пациентов разного возраста: 1 группа - от 20 до 45 лет, 2 группа - от 45 до 60 лет, 3 группа - с 60 до 75 лет, 4 группа - люди в возрасте с 75 до 90 лет. Согласно проведенному анализу, самым распространённым заболеванием среди патологий сердечно-сосудистой системы является стенокардия. Далее по частоте встречаемости следуют инсульт и инфаркт миокарда. Аритмии как самостоятельное заболевание встречаются у молодых пациентов, в то время как у пациентов с сопутствующей патологией выявлены в более чем 75% случаев [1].

По данным эпидемиологических исследований, профилактика ССЗ высоко эффективна. Снижение смертности от ИБС на 50% связано с воздействием на факторы риска и только на 40% с улучшением лечения.

Профилактика ССЗ - это координированный комплекс на общественном и индивидуальном уровне, направленный на устранение или минимизацию влияния ССЗ и связанной с ними инвалидности. Профилактические мероприятия должны проводиться всю жизнь, начиная с рождения и до глубокой старости.

Исследование рисков заболеваний ССС с использованием технологий больших данных было проведено с целью обработать и проанализировать большой объем информации с максимальной эффективностью. Технологии больших данных позволяют эффективно выявлять паттерны и зависимости в данных, что помогает предсказывать вероятность заболеваний и разрабатывать более точные методы профилактики.

Данное исследование проводилось на основе открытого набора данных (да!азе1;), включающего в себя более 70 000 строк, описывающих пациентов с использованием 13 параметров [3] (рис. 1).

+—+-----+------+------+------+-----+-----+-----------+—+-----1—+------+------+

| id| ageIgender|height|weight|aphi|aplo|cholesterol|glue|smoke|alco|active|cardio|

+—+-----+------+------+------+-----+-----+-----------+----+-----+----+------+------+

1 0 18393| 21 1681 62 0| 1101 80 | 11 1 й| 0| i| 0 |

1 1 202281 1| 1561 85 0| 1401 901 3| 1 0| 0| i| 1|

| 2 18857| 1| 1651 64 0| 1301 701 3| 1 й| 0| 0| 1|

| 3 17623| 21 1691 82 0| 1501 1001 11 1 0| 0| 11 1|

1 4 17474| 1| 1561 56 0| 100 j 601 1| 1 в| 0| 0| 0|

1 8 21914| 1| 1511 67 0| 1201 801 21 1 0| 0| 0| 0|

1 9 22113| 1| 1571 93 0| 1301 80 | 3| 1 в| 0| i| 0 |

1 12 22584| 21 1781 95 0| 1301 90 | 3| 1 0| 0| i| 1|

1 13 17668| 1| 1581 71 0| 1101 70 | 1 01 0| i| 0|

1 14 198341 1| 1641 68 0| 110 j 601 1 0| е| 01 0|

1 I5 225301 1| 1691 80 0| 1201 801 1 И| 0| 1| 0 |

1 16 18815| 21 1731 60 0] 1201 80 | I 0| 0| 1| 0 |

j 18 14791| 21 1651 60 0| 1201 801 1 »1 0| 0| 0|

1 21 19809| 1| 1581 78 0| 1101 701 I 0| 0| 11 0 |

1 23 14532| 21 1811 95 0| 1301 901 1 11 i| 1| 0 |

1 24 16782| 21 1721 112 0| 1201 801 I 0| 0| 0| 1|

1 25 212961 1| 1701 75 0| 1301 701 I 0| 0| 01 0 |

1 27 16747| 1| 1581 52 (»I 1101 70 | I 0| 0| 1| 0 J

1 28 17482| 1| 1541 68 0| 1001 701 1 0| 0| 0| 0|

1 29 21755| 2| 1621 56 0| 1201 701 1 11 0| 1| е!

Рис. 1. Структура набора данных

Датасет представляет собой .csv файл, содержащий следующие поля:

• id: идентификатор для каждого человека в наборе данных;

• age: возраст человека (в днях);

• gender: пол (1 для женщин, 2 для мужчин);

• height: рост в сантиметрах;

• weight: вес в килограммах;

• ap_hi: систолическое артериальное давление (измеряется в мм рт.ст.);

• ap_lo: диастолическое артериальное давление (измеряется в мм рт.ст.);

• cholesterol: уровень холестерина (1 - в норме, 2 - выше нормы, 3 -значительно выше нормы);

• gluc: уровень глюкозы (1 - в норме, 2 - выше нормы, 3 - значительно выше нормы);

• smoke: курит ли человек (0 - нет, 1 - да);

• alco: употребляет ли человек алкоголь (0 - нет, 1 - да);

• active: является ли человек физически активным (0 - нет, 1 - да);

• cardio: наличие сердечно-сосудистых заболеваний (0 - нет, 1 - да).

Первым этапом исследования является предобработка датасета. Она включает в себя следующие проверки и изменения:

1) проверка валидности данных;

2) преобразование поля age из представления "дни" в представление "полных лет";

3) разделение значений параметра cholesterol на три столбца, соответствующих каждому типу (cholesterol_1, cholesterol_2, cholesterol_3);

4) разделение gluc на столбцы, соответствующие каждому типу (gluc_1, gluc_2, gluc_3);

5) разделение столбца gender на столбцы, соответствующие каждому типу (female, male).

Вторым этапом исследования является анализ рисков ССЗ. В первую очередь выполняется построение матрицы корреляции (рисунок 2).

Вычисление корреляции позволяет определить степень взаимосвязи между различными переменными, что помогает выявить ключевые факторы, оказывающие влияние на развитие ССЗ. Матрица создается с использованием функции Correlation.corr() из модуля pyspark.ml.stat. Данный модуль обладает хорошей масштабируемостью и возможностью параллельной обработки данных, что позволяет эффективно работать с большими наборами данных и проводить анализ большого количества переменных, что может быть важно для полного и объективного анализа рисков развития ССЗ [4]. Функция Correlation.corr() вычисляет корреляцию между столбцами данных после объединения их в виде вектора при помощи VectorAssembler. Correlation.corr() возвращает Matrix объект, который содержит результаты вычисления корреляции. Далее результат преобразуется в матрицу (numpy array) с дальнейшей визуализацией.

По матрице можно проследить множество корреляций. Прослеживается прямая зависимость между появлением ССЗ и уровнем холестерина: чем выше данный показатель у пациента, тем с большей вероятностью встречаются сердечно-сосудистые заболевания. Такая же зависимость наблюдается и в отношении показателя глюкозы, хоть и с меньшим коэффициентом. Наблюдается зависимость высокого холестерина от высокого уровня глюкозы.

О.Е?^,—10 о .¿Р

и гм гл (Л (л 1Л (ТЗ ai i i i а> <и ш

'<и 9¿ о. о. Е — и го £ .г: _с .с _с J2 х: > го го и ги чг со^стстои и

id

height weight ap_hi ap_lo smoke aleo active

age female male gluc_l gluc_2 gluc_3 cho!esteroI_l cholesterol_2 cholesterol 3

\

V

- 0.50 0.25

-0.50 -0.75

Рис. 2. Матрицы корреляции

Избыточный вес и возраст являются одними из наиболее выраженных факторов риска (рис. 3).

Рис. 3. Зависимость появления ССЗ от возраста

Следующим этапом является создание и обучение модели машинного обучения для логистической и линейной регрессий. Используются функции из библиотеки Apache Spark ML: LogisticRegression, LinearRegression, BinaryClassificationEvaluator и RegressionEvaluator. Обучение происходит с учетом следующих признаков height, weight, ap_hi, ap_lo, smoke, alco, active, age, female, male, gluc_1, gluc_2, gluc_3, cholesterol_1, cholesterol_2, cholesterol_3. Выполняется оценка производительности моделей на основе метрик AUC (Area Under the Curve) для логистической регрессии и RMSE (Root Mean Squared Error) для линейной регрессии. В ходе исследования были получены следующие значения: AUC = 0.79, RMSE = 1.1e-06.

AUC - площадь под кривой (ROC кривой) является метрикой оценки качества бинарной классификации [5]. Значение AUC, близкое к 1, обычно указывает на хорошее качество модели, где модель хорошо разделяет классы. Значение 0.79 означает, что модель логистической регрессии достигла хорошей производительности по метрике AUC.

RMSE представляет собой квадратный корень из среднеквадратичной ошибки, которая измеряет среднее отклонение предсказанных значений от фактических значений в тестовом наборе данных [5]. Значение 1.1e-06 означает, что модель линейной регрессии имеет очень низкую среднеквадратичную ошибку, что указывает на хорошую точность предсказаний данной модели.

Высокая производительности модели, объективно подтверждаемая значениями метрик, позволяет судить о возможности использовать её в дальнейших исследованиях для определения вероятности появления ССЗ у пациента. Это может позволить снизить влияние факторов риска, предупредить развитие заболеваний, указав пациенту на вероятность его появления и рекомендуя обратиться к специалисту.

Четвертым этапом исследования стало создание оценки суммарного сердечнососудистого риска заболеваний ССС у пациента (SCORE). Она используется для оценки риска развития сердечно-сосудистых заболеваний в последние годы.

Для вычисления данного параметра использовались следующие параметры:

1) age_score, значение которого зависит от значения столбцов male, female и возраста age;

2) smoke_score от того, курит ли пациент;

3) cholesterol_score - сумма показателей холестерина с коэффициентами 1, 2, 3, соответствующими типу холлестерина;

4) blood_pressure_score - сумма систолическое и диастолического артериального давления.

Суммируя значения указанных параметров, получаем итоговое значение SCORE:

score = age_score + smoke_score + cholesterol_score + blood_pressure_score -вычисляет итоговую оценку пациента.

В результате была получена таблица, состоящая из параметров, принадлежащих начальному набору данных и из столбца SCORE (рис. 4).

I id I height Iweight|ap_hi|ap io|seoke|aleo|active|cardio|age|feaale|male|gluc 1|gluc_21gluc B|cholesterol l|cholesterol_21cholesterol 31SCORE|

е| 1681 -----J 62.0| -----(_ 110 1 801 В| —t— е| il —i— »1 501 0| 1| 1| 0| 0| 1| 01 ------+- e| ----+ Ml 1

1| 1561 85. е| 1401 901 в| в| И 1| 551 1| 0| 1| 0| 01 0| «i il 673 j

2| 165 1 64. е| 1301 701 0| в| 0| 1| 511 1| 0| 1| 0| 01 0] ej il 611 j

3| 1691 82.0| 1501 1001 01 в| И И 4SI 0| 1| 1| 0| 01 lj ej »1 683 j

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4| 1561 56.ej 1001 60] в| е| 0| »1 47| 1| 0| 1| 0| 0| lj ej e| S37|

8| 1511 67.0| 1201 801 0| в| 01 0| 681 1| »1 »I И 0| 0| lj »1 6821

9| 1571 93.ej 1301 801 0| в| 1| »1 60| lj 0| 1| 0| 0| 0] ej il 693 j

121 1781 95.0¡ 1301 901 в| е| И И 61| 0| 1| 0| 0| 11 ej ej H 772|

131 1581 71.0| 1101 701 0| е| И »1 48[ lj 0| 1| 0| 01 e| e| 5651

141 1641 68.0¡ 1101 601 01 »1 01 »1 54| 1| 0| lj В] 0| ej »1 без|

151 1691 88.0¡ 1201 801 0| в| 1| 0| 611 lj 0| lj 0| 0| ej e| 6891

161 173 1 60. е| 1201 801 0| в| 1| 0| 511 0| 1| 1| 0| 0| ej e| 660|

181 165 1 60.0| 1201 80] 0| в| 0| »1 40| 0| 1| 1| 0| 01 ej e| 561 j

21 j 1581 78.0| 1101 701 0| в| 1| 0| 54| lj 0| 1| 0| 0| e| e| 613 j

231 1811 95.ej 1301 901 1| И И 0| 391 0| lj lj 0| 01 ej e| 576j

241 1721 112.01 1201 801 01 в| 01 1| 45| 0| 1| 1| 0| 0| ej 01 6В6|

251 1701 75.ej 1301 701 0| е| 01 0| 581 1| 0| 1| 0| 01 ej »I 665 j

271 1581 52.0| 1101 701 0| ®1 1| »1 451 1| ej 0j 0| 11 ej e| 541|

281 1541 68.0| 1001 701 0| в| 0| в| 471 lj 0¡ lj 0| 01 ej e| 5471

29| —1— 1621 ---+- 56.0| ---- 1201 ---+- 701 1| —+— е| --«-- 1| ----♦— ®| 591 ---I---+- 0| 1| 1| 0| 0| ______+______ e| e| ----f- 726j ----+

Рис. 4. Результаты вычисления SCORE

Данный показатель может быть полезным для врачей и пациентов для определения необходимости дальнейших медицинских и профилактических мер. Мониторинг состояния здоровья (регулярное отслеживание значения SCORE) может помочь в оценке эффективности проводимых мероприятий по уменьшению риска заболеваний. В целом использование SCORE позволяет более точно оценить риск заболеваний и принять меры для предотвращения их развития. При этом, по утверждениям рабочей группы Европейского кардиологического общества (ESC) по спортивной кардиологии и физическим тренировкам, «таблица SCORE предназначена для людей без явных ССЗ, диабета (типа 1 и 2), хронической болезни почек, семейной гиперхолестеринемии или очень высоких уровней индивидуальных факторов риска, потому что такие люди уже находятся в группе высокого риска и нуждаются в интенсивной модификации факторов риска» [7].

В ходе исследования, проведенного с использованием технологий больших данных и системы PySpark, был выполнен комплексный анализ рисков заболеваний сердечно-сосудистой системы, выявлены основные зависимости и проведена оценка SCORE. Исследование позволило проследить зависимость появления ССЗ от различных рисков. Также результаты исследования могут использоваться для дальнейшего создания модели машинного обучения, способной предсказывать вероятность возникновения ССЗ с высокой точностью и определять основные предполагаемые причины. Подход на основе технологий больших данных может быть эффективно применен для дальнейших исследований и разработки инновационных методов профилактики сердечно-сосудистых заболеваний.

Библиографический список

1. Бородина, К. М. Статистика заболеваний сердечно-сосудистой системы у населения Курской области I К. М. Бородина II Региональный вестник. - 2019. -№ 13(28). - С. 20-21.

2. Здрок, В. С. Распространенность факторов риска у пациентов с заболеваниями сердечно-сосудистой систем I В. С. Здрок II Материалы всероссийского научного форума студентов с международным участием «Студенческая наука - 2019». - 2019. - Том 2. - С. 331-332

3. Cardiovascular Disease dataset [Электронный ресурс]. - URL: https:IIwww.kaggle.comIcodeIalaaelnakeebIcardiovascular-diseaseInotebook (дата обращения: 13.04.2024).

4. PySpark Overview [Электронный ресурс]. - URL: https://spark.apache.org/docs/latest/api/python/ modules/pyspark/ml/stat.html (дата обращения: 13.04.2024).

5. Measuring Predictive Performance of User Models: The Details Matter Radek Pelanek, Masaryk University Brno, Czech Republic

6. Antonio Pelliccia, Sanjay Sharma и др. Рекомендации ESC по спортивной кардиологии и физическим тренировкам у пациентов с сердечно-сосудистыми заболеваниями 2020 // Российский кардиологический журнал. - 2021. - № 26(5): 4488 [Электронный ресурс]. - URL: https://russjcardiol.elpub.ru (дата обращения: 13.04.2024).

i Надоели баннеры? Вы всегда можете отключить рекламу.