Научная статья на тему 'СКРИНИНГ ХРОНИЧЕСКОЙ БОЛЕЗНИ ПОЧЕК У ДЕТЕЙ С ПОМОЩЬЮ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ'

СКРИНИНГ ХРОНИЧЕСКОЙ БОЛЕЗНИ ПОЧЕК У ДЕТЕЙ С ПОМОЩЬЮ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ Текст научной статьи по специальности «Медицинские науки и общественное здравоохранение»

CC BY
1
1
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
дети / прогностическая модель / хроническая болезнь почек / методы машинного обучения / искусственный интеллект / дерево решений. / children / prognostic model / chronic kidney disease / machine learning methods / artificial intelligence / decision tree

Аннотация научной статьи по медицинским наукам и общественному здравоохранению, автор научной работы — Колсанов А. В., Седашкина О. А., Постников М. А., Маковецкая Г. А., Ромаданова Е. М.

Поздняя диагностика хронической болезни почек (ХБП) у детей является частым явлением. Среди основных причин: недостаток осведомленности среди родителей и медицинского персонала, неспецифические симптомы, а также трудности в проведении диагностических процедур у детей. Это приводит к серьезным последствиям для здоровья детей, включая прогрессирование болезни и потребность в длительной диализной терапии или трансплантации почек. Цель исследования: выявить признаки и симптомы у детей, которые нелинейно влияют на ХБП с помощью алгоритма дерева решений (DT). Материалы и методы исследования: данные были получены из одноцентрового проспективного когортного исследования (2011–2022 г. г.) с участием 128 детей с ХБП 1–4 стадии и 30 детей контрольной группы в возрасте от 0 до 18 лет. Проведен анализ анамнеза, наследственных факторов, раннего периода развития ребенка, результатов клинико-параклинического и генетического обследования. Модель построена с применением алгоритма машинного обучения (МО) методом дерева решений (ДР). Результаты. Модель дерева решений выявила три переменных, совместно влияющих на ХБП: потеря белка, эритроциты в моче, полиморфный маркер Т598Т гена IL4. Модель прогнозирует ХБП на обучающей выборке с точностью 98,9% [97,3; 100,0]%, чувствительностью 97,8% [95,1; 100,0]%, специфичностью 100,0% [100,0; 100,0]%, ROC-AUC = 100,0% [99,9; 100,0]%.; описывает 95,7% [89,1; 100,0]% дисперсии. Полученная регрессионная модель отличного качества (>90%), т. к. ROC-AUC составляет на тестовой выборке 0.98. В ходе исследования было определено значение точки отсечения (cut-off) ВПР, которое равно 0.5. Выводы. Выявлены биомаркеры, которые помогут врачу первичного звена здравоохранения выявить ХБП у детей на ранних этапах развития. Эти переменные с легкостью можно исследовать в амбулаторных условиях и в учреждениях первичного звена здравоохранения. Эта информация может способствовать повышению осведомленности о диагнозе. Медицинские работники могут формировать группы пациентов для более детального обследования, что уменьшит вероятность потери времени и улучшит раннее выявление заболеваний.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по медицинским наукам и общественному здравоохранению , автор научной работы — Колсанов А. В., Седашкина О. А., Постников М. А., Маковецкая Г. А., Ромаданова Е. М.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SCREENING OF CHRONIC KIDNEY DISEASE IN CHILDREN USING MACHINE LEARNING ALGORITHMS

Late diagnosis of chronic kidney disease (CKD) in children is common. Among the main reasons: lack of awareness among parents and medical personnel, nonspecific symptoms, and difficulties in carrying out diagnostic procedures in children. This leads to serious health consequences for children, including progression of the disease and the need for long-term dialysis therapy or kidney transplantation. P u r p o s e : to identify signs and symptoms in children that have a non-linear impact on CKD using a decision tree (DT) algorithm. M a t e r i a l s a n d m e t h o d s of the study: data were obtained from a single-center prospective cohort study (2011–2022) involving 128 children with CKD stages 1–4 and 30 children in the control group aged 0 to 18 years. An analysis of the anamnesis, hereditary factors, the early period of the child’s development, the results of clinical, paraclinical and genetic examination was carried out. The model was built using a machine learning (ML) algorithm using the decision tree (DR) method. R e s u l t s . The decision tree model identified three variables that jointly influence CKD: protein loss, red blood cells in the urine, and the T598T polymorphic marker of the IL4 gene. The model predicts CKD on the training set with an accuracy of 98.9% [97.3; 100.0]%, sensitivity 97.8% [95.1; 100.0]%, specificity 100.0% [100.0; 100.0]%, ROC-AUC = 100.0% [99.9; 100.0]%.; describes 95.7% [89.1; 100.0]% variance. The resulting regression model is of excellent quality (>90%), because ROC-AUC is 0.98 on the test sample. During the study, the value of the cut-off point (cut-off) of the VLP was determined, which is equal to 0.5. C o n c l u s i o n s . Biomarkers have been identified that will help primary care physicians identify CKD in children at early stages of development. These variables can be easily examined in outpatient and primary care settings. This information may help raise awareness of the diagnosis. Healthcare providers can form groups of patients for more detailed examination, which will reduce the likelihood of wasted time and improve early detection of diseases.

Текст научной работы на тему «СКРИНИНГ ХРОНИЧЕСКОЙ БОЛЕЗНИ ПОЧЕК У ДЕТЕЙ С ПОМОЩЬЮ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ»

ОРИГИНАЛЬНАЯ СТАТЬЯ

DOI: 10.21045/1811-0185-2024-5-75-84 УДК 616.61-036.12-053.2-07:004.8

СКРИНИНГ ХРОНИЧЕСКОЙ БОЛЕЗНИ ПОЧЕК У ДЕТЕЙ С ПОМОЩЬЮ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ

А.В. Колсанов1, О.А. Седашкина 1,2 : , М.А. Постников1, Г.А. Маковецкая 1, Е.М. Ромаданова 2, Е.В. Копосова 2, Е.И. Фролова 4, Е.В. Щепкина 3

1 ФГОУ ВО «Самарский государственный медицинский университет» МЗ РФ, г. Самара, Россия;

2 ГБУЗ «Самарская областная клиническая больница им. В.Д. Середавина», г. Самара, Россия;

3 Российская академия народного хозяйства и государственной службы при Президенте РФ (РАНХиГС), г. Москва, Россия.

4 ГБУЗ СО «Сергиевская ЦРБ» МЗ РФ, Самарская область, Россия. ORCID 0000-0002-4144-7090; ORCID 0000-0003-2864-6885;

ORCID 0000-0003-3934-8699; ORCID 0009-0001-9790-9784; ORCID 0000-0002-2079-1482.

И Автор для корреспонденции: Седашкина О.А.

ORCID 0000-0002-2232-8870; ORCID 0009-0003-0878-5244; ORCID 0009-0004-5216-5701;

АННОТАЦИЯ

Поздняя диагностика хронической болезни почек (ХБП) у детей является частым явлением. Среди основных причин: недостаток осведомленности среди родителей и медицинского персонала, неспецифические симптомы, а также трудности в проведении диагностических процедур у детей. Это приводит к серьезным последствиям для здоровья детей, включая прогресси-рование болезни и потребность в длительной диализной терапии или трансплантации почек.

Цель исследования: выявить признаки и симптомы у детей, которые нелинейно влияют на ХБП с помощью алгоритма дерева решений (DT).

Материалы и методы исследования: данные были получены из одноцентрового проспективного когортного исследования (2011-2022 г.г.) с участием 128 детей с ХБП 1-4 стадии и 30 детей контрольной группы в возрасте от 0 до 18 лет. Проведен анализ анамнеза, наследственных факторов, раннего периода развития ребенка, результатов клинико-пара-клинического и генетического обследования. Модель построена с применением алгоритма машинного обучения (МО) методом дерева решений (ДР).

Результаты. Модель дерева решений выявила три переменных, совместно влияющих на ХБП: потеря белка, эритроциты в моче, полиморфный маркер Т598Т гена IL4. Модель прогнозирует ХБП на обучающей выборке с точностью 98,9% [97,3; 100,0]%, чувствительностью 97,8% [95,1; 100,0]%, специфичностью 100,0% [100,0; 100,0]%, ROC-AUC = 100,0% [99,9; 100,0]%.; описывает 95,7% [89,1; 100,0]% дисперсии. Полученная регрессионная модель отличного качества (>90%), т.к. ROC-AUC составляет на тестовой выборке 0.98. В ходе исследования было определено значение точки отсечения (cut-off) ВПР, которое равно 0.5.

Выводы. Выявлены биомаркеры, которые помогут врачу первичного звена здравоохранения выявить ХБП у детей на ранних этапах развития.

Эти переменные с легкостью можно исследовать в амбулаторных условиях и в учреждениях первичного звена здравоохранения. Эта информация может способствовать повышению осведомленности о диагнозе. Медицинские работники могут формировать группы пациентов для более детального обследования, что уменьшит вероятность потери времени и улучшит раннее выявление заболеваний.

Ключевые слова: дети, прогностическая модель, хроническая болезнь почек, методы машинного обучения, искусственный интеллект, дерево решений.

Для цитирования: Колсанов А.В., Седашкина О.А, Постников М.А, Маковецкая Г.А., Ромаданова Е.М, Копосова Е.В., Фролова Е.И, Щепкина Е.В. Скрининг хронической болезни почек у детей с помощью алгоритмов машинного обучения. Менеджер здравоохранения. 2024; 5:75-84. DOI: 10.21045/1811-0185-2024-5-75-84.

•КС

© Колсанов А.В., Седашкина О.А, Постников М.А, Маковецкая Г.А., Ромаданова Е.М, Копосова Е.В, Фролова Е.И, Щепкина Е.В, 2024 г.

№5 Manager

2024 Zdravoochranania

/Менеджер

здравоохранения

ВВЕДЕНИЕ

Хроническая болезнь почек (ХБП) является серьезной проблемой общественного здравоохранения во всем мире. Высокие показатели заболеваемости и смертности у пациентов с ХБП и высокие затраты на лечение и заместительную почечную терапию при поздней диагностике заболевания диктуют разработку новых методов ранней диагностики, с большей чувствительностью и специфичностью, чем традиционно используемые.

Изучена литература по применению методов машинного обучения для клинической диагностики заболеваний почек. Из множества публикаций, посвященных применению алгоритмов машинного обучения, постарались найти работы, в которых использовались нелинейные методы, основанные, в частности, на дереве решений (ДР или Decision Tree - DT) при диагностике заболеваний почек, -найдено 5 работ.

Алгоритм дерева решений является широко известным алгоритмом нелинейного прогнозирования, однако построению прогнозов с их использованием уделяется сравнительно мало внимания.

Алгоритм дерева решений используется для построения одиночной и, в данном случае, нелинейной прогностической модели. Устройство данного дерева включает в себя так называемые «ветви» и «листья». На «ветвях» решающего решения записаны признаки, от которых зависит значение целевой переменной, а в «листьях», которыми заканчиваются «ветви», записаны ее значения. Чтобы сделать прогноз, необходимо опуститься по дереву вплоть до листа и получить соответствующее значение. Метод отличает простота и высокая (не уступающая линейной регрессии) скорость построения модели, а также интуитивная понятность и наличие возможности графического отображения [7].

Преимуществами алгоритма машинного обучения Decision Tree являются:

1. Интерпретируемость: DT является легко интерпретируемым и может быть представлено в виде дерева принятия решений. Это делает его особенно привлекательным для областей, где понимание логики принятия решений имеет большое значение, таких как медицинская диагностика.

2. Универсальность: DT способно обрабатывать как категориальные, так и количественные данные без необходимости предварительной обработки. Это позволяет использовать его в различных предметных областях без длительной подготовки данных.

3. Эффективность: DT может быть эффективно использовано для классификации и регрессии на больших наборах данных. При правильной настройке параметров, оно может достичь хорошей точности предсказаний.

4. Устойчивость к выбросам: DT обычно более устойчиво к выбросам в данных по сравнению с некоторыми другими алгоритмами машинного обучения, что может быть полезно в реальных условиях работы.

5. Возможность работы с нелинейными зависимостями: DT способно обрабатывать сложные нелинейные взаимосвязи между признаками в данных, что делает его эффективным инструментом для моделирования таких зависимостей.

Несмотря на свои преимущества, алгоритм машинного обучения Decision Tree также имеет некоторые недостатки:

1. Тенденция к переобучению: DT имеют тенденцию к переобучению, особенно когда данные содержат шум или излишнюю сложность. Это может привести к плохой обобщающей способности модели.

2. Сложность интерпретации при большой глубине: Если DT имеет большую глубину или содержит большое количество узлов, его интерпретация может быть затруднительной, особенно для больших деревьев.

3. Неустойчивость к входным данным: Малые изменения в входных данных могут привести к различиям в построенном дереве, что делает его менее устойчивым в сравнении с некоторыми другими алгоритмами.

4. Отсутствие учета взаимосвязей между признаками: DT не всегда учитывает сложные взаимосвязи между признаками, что может привести к недооценке реальных зависимостей в данных.

При использовании алгоритма решающего дерева важно учитывать эти недостатки и проводить настройку модели, чтобы сбалансировать их влияние на качество прогнозирования.

Применяя этот алгоритм машинного обучения, можно получить инструмент, который позволяет выявить значимые факторы риска, нелинейно воздействующие на ХБП и сформировать среди пациентов группы риска. Использование такой модели в практическом здравоохранении может дополнять ее функции с целью повышения точности диагностики и улучшения производительности [1].

Lu X., Xin Y., Zhu J. et al. (2022) выполнили исследование по определению резистентности к диуретикам у пациентов с декомпенсированной сердечной

Менеджер

здравоохранения /

Manager №5

ZdrevoochreneniB 2024

недостаточностью в одной из китайских больниц. Проведен анализ данных с помощью разных алгоритмов машинного обучения и построено шесть прогностических моделей. Модель прогнозирования построена на основе бустинга, использующего деревья решений в качестве базовых алгоритмов (gradient boosting decision tree - GBDT) выявила важные факторы риска. Модель делала очень точные прогнозы, используя простые переменные. Модель позволяла помочь врачам прогнозировать возникновение исхода - резистентности к диуретикам [2].

Koch Nogueira PC et all. (2023) выявили признаки и симптомы для классификации педиатрических пациентов с риском развития ХБП с использованием алгоритмов ДР и XGBoost. В результате исследования они выяснили, что многие симптомы, которые легко обнаружить в учреждениях первичной медико-санитарной помощи, являются индикаторами риска ХБП. Авторы в своей работе выявили и описали 12 симптомов с которыми врач сталкивается в ежедневной клинической практике. С использованием построенной модели медицинские работники смогут отбирать пациентов для более детального обследования, что уменьшит вероятность потери времени и улучшит раннее выявление заболеваний [3].

Mumtaz S.L., Shamayleh A. et all. (2023) предлагают использовать модель дерева решений при лечении гемодиализом для оптимальной коррекции электролитов и расчета оптимальной диализной дозы. Авторами построены четыре прогностические модели для прогнозирования уровней электролитов с помощью различных параметров диализа. В результате модель дерева решений показала лучшую производительность и более точные результаты, чем модели опорных векторов, линейная регрессия и модели нейронных сетей. Авторами высказано предположение о том, что прогностические модели показали, что азот мочевины крови перед диализом, предварительный вес, сухой вес, антикоагулянты и пол оказали наиболее существенное влияние на концентрацию электролитов. Модели могли бы точно настроить уровни диализной дозы для диализных пациентов, чтобы улучшить качество жизни, продолжительность жизни и благополучие каждого пациента, а также снизить затраты, усилия и затраты времени как для пациентов, так и для врачей [4].

В следующей работе авторы сравнили обучаемость разных моделей (k-ближайшего соседа (KNN), машины опорных векторов (SVM), экстремального повышения градиента (XGBoost), случайного леса (RF), логистической регрессии (LR) и дерево решений

рТ) при гистологической диагностике прогрессирующего течения почечно-клеточного рака. Эффективность модели оценивалась с использованием пятикратной перекрестной проверки и площади под кривой рабочей характеристики приемника (АиС). Классификаторы RF, DT и XGBoost обучались с более высокими значениями АиС на обучающих выборках 0,997, 1,0 и 1,0 соответственно. Кроме того, модели позволили выявить статистически значимые факторы, влияющие на исход [5].

Предполагаемая возможность получить статистически значимые и в то же время простые, используемые в ежедневной практике переменные, прогнозирующие развитие ХБП послужили основанием для проведения настоящего исследования, в котором мы сосредоточились на создании прогностической модели ХБП с помощью алгоритма дерева решений.

Цель исследования: выявить признаки и симптомы у детей, которые нелинейно влияют на ХБП с помощью алгоритма дерева решений рТ).

МАТЕРИАЛЫ И МЕТОДЫ Дизайн исследования: исходные данные были получены из одноцентрового проспективного когортного исследования (2011-2022 г.г.) детей в возрасте 0-18 лет с ХБП 1-4 стадии. Для построения прогностической модели ХБП использованы данные анамнеза, клинико-инструментального и генетического обследования. В качестве целевой переменной, используемой в качестве прогноза при применении методов машинного обучения, явилось наличие или отсутствие ХБП.

Участники исследования

Основную группу составили 128 детей с неиммунной и иммунной патологией почек, группу контроля - 30 детей с кристаллурией в возрасте от 0 до 18 лет. Пациенты были распределены по группам в зависимости от стадии хронической болезни почек, в соответствии с клиническими рекомендациями для хронической болезни почек Национального почечного фонда США (2012) и Российскими национальными рекомендациями по ХБП (2021).

Условия проведения исследования

Выборку исследования формировали из числа детей, госпитализированных в отделение детской нефрологии Самарской областной клинической

С

#мс

№ 5 Manager

2024 Zdravoochranania

/Менеджер

здравоохранения

больницы имени В.Д. Середавина (Самара), период отслеживания результатов исследования составлял 6 месяцев.

Процесс диагностики ХБП у детей выполнен с помощью методов машинного обучения, дополнивших стандартный анализ полученных результатов обследования. Прогностические модели построены на обучающей выборке, а затем протестированы на тестовой выборке, которая составила 20%. Обучающая выборка (N=127) оказалась несбалансированной, т.е. пациентов с ХБП было больше 103 (81%), чем пациентов без ХБП - 24 (19%). Для балансировки базы данных в части обучающей выборки, в целях получения более стабильной модели прогнозирования, был использован метод SMOTE (Synthetic Minority Over-sampling Technique). Получена выборка со 184 записями, в которой было 92 (50%) с ХБП и 92 (50%) - без ХБП.

Критерии включения: дети в возрасте от 0 до 18 лет: дети с неиммунными и иммунными заболеваниями мочевыделительной системы: ВПР ОМС, обструктивный ПН, гематурический вариант гломерулонефрита, тубулоинтерстициальный нефрит, в том числе после гемолитико-уремического синдрома (ГУС), нефротический синдром, вторичные ГН на фоне СКВ.

Критерии невключения: дети с полики-стозной дисплазией почек, тубулопатией и рахи-топодобными заболеваниями, капилляротоксиче-ским нефритом, болезнью Альпорта, болезнью тонких мембран, постстрептококковым гломеру-лонефритом.

Критерии исключения: дети достигшие 5-й стадии ХБП.

Методы диагностического исследования:

1. Общеклинические (осмотр, антропометрия, сбор анамнеза).

2. Социологические (анкетный опрос по разработанному нами опроснику).

3. Изучение медицинской документации: историй развития (форма № 112-У).

4. Лабораторные и специальные генетические методы.

Предикторы. При разработке модели прогнозирования ХБП участвовали универсальные

факторы риска (перенесённые критические состояния в перинатальном периоде с развитием острого повреждения почек (ОПП); пренатально установленный ВПР ОМС; наличие генетической предрасположенности к заболеваниям почек, комплекса аллергических заболеваний в семье; носитель-ство персистирующих инфекций, гемолитических штаммов стрептококка, социальная детерминанта, экологические условия) и специфические ранние факторы риска (ранние факторы риска прогрес-сирования заболевания: особенности дебюта патологии почек и биомаркеры прогрессирования), аллергические заболевания, нарушения уродина-мики при сак^-синдроме; показатели рутинного лабораторного исследования крови; показатели специального генетического анализа иммунных и неиммунных полиморфных маркеров генов ренин-ангиотензиновой системы, синтазы окиси азота-3, эндотелина-1, интерлейкина-4 и фактора некроза опухоли); результаты эхографического и допплеро-графического исследований.

Исходы/методы регистрации исходов. Результатом работы модели является прогнозирование вероятности прогрессирова-ние патологии почек. К числу факторов прогрессирования нефропатии относили: снижение скорости клубочковой фильтрации (СКФ), изменение кортикального кровотока в почечных сосудах, появление и/или усиление протеинурии [6], артериальную гипертензию, нарушение тубуляр-ных функций и нарушение выведения азотистых шлаков.

Полученная модель может применяться на всех этапах оказания медицинской помощи населению.

Индексный тест. В качестве индексного теста предлагается использовать формулу, разработанную авторами на основе алгоритма машинного обучения - дерева решений ^Т).

Обоснование выбора референсно-го теста. В качестве референсного теста выбрали определение расчетной скорости клубочко-вой фильтрации по креатинину и экскрецию белка с мочой в рамках диагностических мероприятий. Чувствительность данных тестов низкая и свидетельствует о далеко зашедшем хроническом заболевании почек. Других аналогов, которые максимально точно диагностируют ХБП в настоящее время нет.

Менеджер

здравоохранения /

Manager № 5

ZdrevoochreneniB 2024

Статистическая обработка результатов проводилась средствами языка Питон (Python 3.11.).

Общая выборка в 158 пациентов была случайным образом разделена на обучающую выборку в 127 (80%) пациентов и тестовую выборку в 31 (20%) пациента.

Модель строилась с помощью алгоритма машинного обучения: дерева решений (DT).

Для отбора наиболее статистически значимых признаков, совместно влияющих на исход, был применен метод RFE (Recursive Feature Elimination) на основе алгоритма RandomForest (Случайный лес).

Построенные модели были протестированы с использованием независимого тестового набора.

Для оценки диагностической значимости качественных признаков при прогнозировании определенного исхода использовался расчет точности, чувствительности, специфичности и ROC AUC. Оптимальное разделяющее значение (cut-off) определялось по степени риска исхода, обладающее наилучшим сочетанием чувствительности и специфичности. Для оценки клинической полезности модели был проведен анализ кривой принятия решений DCA (Decision curve analysis).

Этическая экспертиза. Протокол исследования с этическим комитетом согласован 12.04.2023 года (выписка из протокола заседания Комитета по биоэтике при СамГМУ № 263). Включение пациентов в исследование осуществляли после подписания законным представителем пациента или детьми старше 14 лет информированного добровольного согласия на проведение обследования ребенка и обработку персональных данных.

РЕЗУЛЬТАТЫ Участники исследования:

Прогностическая модель была построена на обучающей выборке, а затем протестированана на тестовой выборке, которая составила 20%. Обучающая выборка (N=127) оказалась несбалансированной, т.е. пациентов с ХБП было больше 103 (81%), чем пациентов без ХБП - 24 (19%). Для балансировки базы данных в части обучающей выборки в целях получения более стабильной модели прогнозирования, был использован метод SMOTE (Synthetic Minority Over-sampling Technique). В итоге была получена выборка с 184 записями, в которой было 92 (50%) с ХБП и 92 (50%) - без ХБП.

Результаты диагностического исследования

Модель построена всего на трех переменных. При этом каждая объясняющая переменная имела свою прогностическую важность, основной из которых обладала такая переменная, как потеря белка. Второй по значимости была переменная -эритроциты в моче, и меньшей по значимости была переменная полиморфный маркер Т598Т гена М, рис. I.

Рис. 1. Дерево решений (модель) на обучающей выборке

№ 5 Manager

2024 Zdravoochranenia

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

/Менеджер

здравоохранения

ХБП

I-----

I ш нет I ■ да

Node 0

Cateaorv % n

■ нет 13.4 В

■ да 80 .В 25

Total 100 .0 31

,-

......... ......t=f

Потеря белка Adj. P-vaiue=(3.0D0. Chi-squsre=175.041. df=1

<- 0 ООО

Node 1

Cateporv % n

п нет 60.0 е

■ да 40.0 4

Total 32.3 10

ы

Mode 2 Cateqorv % n

■ нет 0,0 0

Пда 100.0 21

Total В7.7 21

Эритроцнты_мочэ Adj P-value=n.DDa. Chi-square-5G,948, df= 1

<= 0 ООО >0, ODO

Wode3 Category % n Node 4 Cateaorv % n

□ нет 85.7 6 я нет 0,0 0

■ да 14.3 1 ■ да 100.0 3

Total 22.6 7 Total 3.7 3

I hl

L4 Т5Э6Т Adj P-value=0.000. Chi-sq(jare=13.SSB df=1

Mode 5 Category % n

н нет 85,7 6

■да 14.3 1

Total 22.8 7

Node 6

Catenary % n

0.C 0

Рис. 2. Дерево решений (модель) на тестовой выборке

Далее построенная модель была протестирована на тестовой выборке. Результаты тестирования представлены на рис. 2.

Выводы по модели дерева решений. Получена математическая модель, позволяющая прогнозировать ХБП. Данная модель прогнозирует на обучающей выборке с точностью 98,9% [97,3; 100,0]%, чувствительностью 97,8% [95,1; 100,0]%, специфичностью 100,0% [100,0; 100,0]%, ROC-AUC = 100,0% [99,9; 100,0]%.

Модель описывает 95,7% [89,1; 100,0]% дисперсии. На тестовой выборке модель работает с точностью 96,8% [90,3; 100,0]%, чувствительностью 96,0% [88,5; 100,0]%, специфичностью 100,0% [100,0; 100,0]%, ROC-AUC = 98,0% [94,2; 100,0]%.

Полученная регрессионная модель отличного качества (>90%), т.к. ROC-AUC составляет на тестовой выборке 0,98 (таблица 1, рис. 3, 4).

В ходе исследования было определено значение точки отсечения (cut-off) ВПР, которое равно 0,5:

• если ВПР < 0,5, то ХБП-,

• если ВПР > 0,5, то ХБП+ (рис. 4).

DCA-анализ {Decision Curve Analysis)

Model Treat all Treat none -

\

\

N \

\

0.4 0.6

Threshold Probability

Рис. 3. Метрики модели

Таблица 1

Метрики оценки качества прогностической переменной

Мера оценки Обучение Тестирование

ROC-AUC 100.0% [99.9; 100.0]% 98.0% [94.2; 100.0]%

Точность 98.9% [97.3; 100.0]% 96.8% [90.3; 100.0]%

Чувствительность (1) 97.8% [95.1; 100.0]% 96.0% [88.5; 100.0]%

Специфичность (0) 100.0% [100.0; 100.0]% 100.0% [100.0; 100.0]%

Менеджер

здравоохранения /

Maneger №5

ZdrevoochreneniB 2024

Рис. 4. Матрица путаницы для обучающей и тестовой выборок

ОБСУЖДЕНИЕ

Резюме основного результата исследования

Построена модель с использованием алгоритма DT, предсказывающая ХБП у детей на обучающей и тестовой выборках с высокой точностью, чувствительностью и специфичностью. Полученная модель отличного качества (>90%).

Преимуществом нашего исследования является: переменные были получены из собственного проспективного когортно-го исследования, база данных формировалась в режиме реального времени, использованы количественные и качественные переменные анамнеза, наследственных факторов, результатов полного, включая генетическое, нефрологиче-ского обследования пациентов. Прогностическая модель ХБП построена с помощью алгоритма

С

#хс

дерева решений рТ), после чего выполнена валидация модели на тестовой выборке. В современной литературе не найдены аналогичные прогностические модели ХБП у детей.

Обсуждение основного результата исследования

При описании метода построения прогностической модели отмечена ее простота, модель выбрала переменные, рутинно используемые в ежедневной практике.

Для оценки прогрессирования патологии почек необходимо получить наличие мочевого синдрома, а именно протеинурию, и на втором месте гематурию и наследственную предрасположенность к затяжному течению процесса воспаления. Среди генетических переменных, контролирующих про-воспалительные и противовоспалительные механизмы воспалительных процессов, предложенных

нами, модель DT выбрала полиморфный маркер Т598Т гена ^4, который, по нашим и литературным данным, ассоциирует с нарушением воспаления, апоптозом и формированием фиброза, с прогрессирующим течением заболевания [9, 10]. Определение полиморфных маркеров указанного гена позволяет выявить группы больных с повышенным риском развития прогрессирования патологического процесса, обеспечить превентивные мероприятия и заложить основы персонифицированной терапии болезней мочевой системы.

Выводы. Наш подход к машинному обучению позволил получить эффективную прогностическую аналитику для скрининга ХБП, которую можно использовать в качестве ресурса для улучшения скрининга ХБП для разработки усовершенствованных и своевременных планов лечения.

Интеграция МО с большими биомедицинскими данными позволяет обнаруживать биомаркеры и повышает точность выявление заболеваний, выходящих за рамки традиционных факторов риска.

Ограничения исследования: одно-центровой характер исследования.

ЗАКЛЮЧЕНИЕ

В заключение хочется отметить, что простые, недорогие и доступные в плане диагностики

симптомы, которые врач ежедневно встречает в своей практике оказались хорошими прогностическими биомаркерами риска хронической болезни почек. Эта информация может способствовать повышению осведомленности врачей о диагнозе, главным образом в учреждениях первичного звена здравоохранения.

Интеллектуальная система поддержки врачебных решений при ранней, прогностической диагностике ХБП, разработанная нами с использованием алгоритма дерева решений в клиническую практику, в том числе в первичное звено здравоохранения, является простым и продуктивным инструментом для оптимизации ранней диагностики ХБП, который значительно повысит эффективность и качество раннего выявления пациентов с ХБП с целью их отбора в группы риска для направления к нефрологу с последующим назначением раннего нефропротективного лечения.

Продолжением работы возможно создание реестра пациентов с ХБП с последующим подбором персонифициронного лечения.

Источник финансирования. Исследование не имело финансовой поддержки. Конфликт интересов. Авторы подтверждают отсутствие конфликта интересов, который необходимо обнародовать.

1. Lundberg S.M., Erion G, Chen H, et al. From Local Explanations to Global Understanding with Explainable AI for Trees. Nat Mach Intell. 2020;2(1):56-67. doi:10.1038/s42256-019-0138-9

2. Lu X., Xin Y, Zhu J, et al. Diuretic Resistance Prediction and Risk Factor Analysis of Patients with Heart Failure During Hospitalization. Glob Heart. 2022;17(1):33. doi:10.5334/gh.1113

3. Koch Nogueira P.C., Venson A.H., de Carvalho M.F.C., Konstantyner T, Sesso R. Symptoms for early diagnosis of chronic kidney disease in children - a machine learning-based score. Eur J Pediatr. 2023 Aug;182(8):3631-3637. doi: 10.1007/s00431-023-05032-x. Epub 2023 May 26. PMID: 37233777.

4. Mumtaz S.L., Shamayleh A, Alshraideh H, Guella A. Improvement of Dialysis Dosing Using Big Data Analytics. Healthc Inform Res. 2023;29(2):174-185. doi:10.4258/hir.2023.29.2.174

5. Li Z, Wang N, Bing X., et al. The value of a dual-energy CT Iodine map radiomics model for the prediction of collagen fiber content in the ccRCC tumor microenvironment. BMC Med Imaging. 2023;23(1):186. doi:10.1186/s12880-023-01127-x

6. GBD Chronic Kidney Disease Collaboration. Global, regional, and national burden of chronic kidney disease, 1990-2017: a systematic analysis for the Global Burden of Disease Study 2017. Lancet 2020; 395(10225): 709-733. doi: 10.1016/S0140-6736 (20) 30045-3

7. Машинное обучение (курс лекций, К.В. Воронцов)/2009.

8. Kousha A., Mahdavi Gorabi A, Forouzesh M. et al. Interleukin 4 gene polymorphism (-589C/T) and the risk of asthma: a meta-analysis and met-regression based on 55 studies. BMC Immunol 21, 55 (2020). https://doi.org/10.1186/s12865-020-00384-7

9. Седашкина О.А., Маковецкая Г.А., Печкуров Д.В. Роль некоторых генетических факторов в про-грессировании хронической болезни почек у детей // Ж. «Практическая медицина». - 2015. - № 7(92). С. 72-77.

Менеджер

здравоохранения /

Maneger № 5

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ZdrevoochreneniB 2024

10. Батаева Е.П, Витковский Ю.А. Влияние полиморфизма С589Т гена IL-4 на риск развития острого постстрептококкового гломерулонефрита и содержание иммуноглобулинов у детей // Ми Д. 2010. № 3. URL: https://cyberleninka.ru/article/n/vliyanie-polimorfizma-s589t-gena-il-4-na-risk-razvitiya-ostrogo-poststreptokok-kovogo-glomerulonefrita-i-soderzhanie-immunoglobulinov-u (Дата обращения: 22.04.2024).

ORIGINAL PAPER

SCREENING OF CHRONIC KIDNEY DISEASE IN CHILDREN USING MACHINE LEARNING ALGORITHMS

A.V. Kolsanov \ O.A. Sedashkina 12 : , M.A. Postnikov \ G.A. Makovetskaya \ E.M. Romadanova2, E.V. Koposova 2, E.I. Frolova 4, E.V. Shchepkina 3

1 FGOU VO "Samara State Medical University" of the Ministry of Health of the Russian Federation, Samara, Russia;

2 GBUZ "Samara Regional Clinical Hospital named after V.D. Seredavin", Samara, Russia;

3 Russian Presidential Academy of National Economy and Public Administration (RANEPA), Moscow, Russia;

4 GBUZ SO "Sergievskaya CRB"; Ministry of Health of the Russian Federation, Samara Oblast, Russia.

ORCID 0000-0002-4144-7090; ORCID 0000-0003-2864-6885; ORCID 0000-0002-2232-8870; ORCID 0000-0003-3934-8699; ORCID 0009-0003-0878-5244; ORCID 0009-0001-9790-9784; ORCID 0009-0004-5216-5701; ORCID 0000-0002-2079-1482.

H Corresponding author: Sedashkina O.A. ABSTRACT

Late diagnosis of chronic kidney disease (CKD) in children is common. Among the main reasons: lack of awareness among parents and medical personnel, nonspecific symptoms, and difficulties in carrying out diagnostic procedures in children. This leads to serious health consequences for children, including progression of the disease and the need for long-term dialysis therapy or kidney transplantation. Purpose: to identify signs and symptoms in children that have a non-linear impact on CKD using a decision tree (DT) algorithm. Materials and methods of the study: data were obtained from a single-center prospective cohort study (2011-2022) involving 128 children with CKD stages 1-4 and 30 children in the control group aged 0 to 18 years. An analysis of the anamnesis, hereditary factors, the early period of the child's development, the results of clinical, paraclinical and genetic examination was carried out. The model was built using a machine learning (ML) algorithm using the decision tree (DR) method.

Results. The decision tree model identified three variables that jointly influence CKD: protein loss, red blood cells in the urine, and the T598T polymorphic marker of the IL4 gene. The model predicts CKD on the training set with an accuracy of 98.9% [97.3; 100.0]%, sensitivity 97.8% [95.1; 100.0]%, specificity 100.0% [100.0; 100.0]%, ROC-AUC = 100.0% [99.9; 100.0]%.; describes 95.7% [89.1; 100.0]% variance. The resulting regression model is of excellent quality (>90%), because ROC-AUC is 0.98 on the test sample. During the study, the value of the cut-off point (cut-off) of the VLP was determined, which is equal to 0.5.

Conclusions. Biomarkers have been identified that will help primary care physicians identify CKD in children at early stages of development.

These variables can be easily examined in outpatient and primary care settings. This information may help raise awareness of the diagnosis. Healthcare providers can form groups of patients for more detailed examination, which will reduce the likelihood of wasted time and improve early detection of diseases.

Keywords: children, prognostic model, chronic kidney disease, machine learning methods, artificial intelligence, decision tree For citation: Kolsanov A.V., Sedashkina O.A., Postnikov M.A., Makovetskaya G.A, Romadanova E.M, Koposova E.V, Frolova E.I, Shchepkina E. V. Screening of chronic kidney disease in children using machine learning algorithms. Manager Zdravookhranenia. 2024; 5:75-84. DOI: 10.21045/1811-0185-2024-5-75-84.

REFERENCES

1. Lundberg S.M, Erion G, Chen H., et al. From Local Explanations to Global Understanding with Explainable AI for Trees. Nat Mach Intell. 2020;2(1):56-67. doi:10.1038/s42256-019-0138-9

2. Lu X., Xin Y, Zhu J., et al. Diuretic Resistance Prediction and Risk Factor Analysis of Patients with Heart Failure During Hospitalization. Glob Heart. 2022;17(1):33. doi:10.5334/gh.1113

3. Koch Nogueira P.C., Venson A.H., de Carvalho M.F.C., Konstantyner T., Sesso R. Symptoms for early diagnosis of chronic kidney disease in children - a machine learning-based score. Eur J Pediatr. 2023 Aug;182(8):3631-3637. doi: 10.1007/ s00431-023-05032-x. Epub 2023 May 26. PMID: 37233777.

4. Mumtaz S.L., Shamayleh A., Alshraideh H, Guella A. Improvement of Dialysis Dosing Using Big Data Analytics. Healthc Inform Res. 2023;29(2):174-185. doi:10.4258/hir.2023.29.2.174

5. Li Z, Wang N, Bing X, et al. The value of a dual-energy CT Iodine map radiomics model for the prediction of collagen fiber content in the ccRCC tumor microenvironment. BMC Med Imaging. 2023;23(1):186. doi:10.1186/s12880-023-01127-x

6. GBD Chronic Kidney Disease Collaboration. Global, regional, and national burden of chronic kidney disease, 19902017: a systematic analysis for the Global Burden of Disease Study 2017. Lancet 2020; 395(10225): 709-733. doi: 10.1016/ S0140-6736 (20) 30045-3

№ 5 Manager

2024 Zdravoochranania

/Менеджер

здравоохранения

7. Course on machine learning from Vorontsov K.V. 2009 URL: http://www.machinelearning.ru/wiki/index.php?ti-tle=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87 %D0%B5%D0%BD%D0%B8%D0%B5_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%8-6%D0%B8%D0%B9%2C_%D0%9A.%D0%92.%D0%92%D0%BE%D1%80%D0%BE%D0%BD%D1%86%D0%BE%D0 %B2%29/2009 (Accessed: 22.04.2024).

8. Kousha A, Gorabi M.A., Forouzesh M, Hosseini M, Markov A, D. Imani et al. Interleukin 4 gene polymorphism (-589C/T) and the risk of asthma: a meta-analysis and met-regression based on 55 studies. BMC Immunol. 2020; 21: 1-16. https://doi.org/10.1186/s12865-020-00384-7

9. Sedashkina O.A, Makovetskaya G.A., Pechkurov D.V. Role of some genetic factors in chronic kidney disease progressing in children. Practical medicine. 2015; 7(92): 72-77.

10. Batayeva E.P., Vitkovsky Yu.A. Effect of gene polymorphism S589T IL64 on the risk of acute post-streptococal glomerulonephritis and content of immunoglobulins in children. Mother and child in Kuzbass. 2010; 3: 26-29. URL: https://cyberleninka.ru/article/n/vliyanie-polimorfizma-s589t-gena-il-4-na-risk-razvitiya-ostrogo-poststreptokokkovogo-glomerulonefrita-i-soderzhanie-immunoglobulinov-u (Accessed: 22.04.2024).

m

JHO

зЯо

s

зЯо

ИНФОРМАЦИЯ ОБ АВТОРАХ / ABOUT THE AUTHORS

Колсанов Александр Владимирович - ректор ФГБОУ ВО «Самарский государственный медицинский университет» Минздрава России, д-р мед. наук, профессор, ЗДН РФ, профессор РАН, заведующий кафедрой оперативной хирургии и клинической анатомии с курсом медицинских информационных технологий, г. Самара, Россия.

Alexander V. Kolsanov - Rector, Samara State Medical University, Ministry of Health of Russia, Doctor of Medical Sciences, Professor, Professor, Professor of the Russian Academy of Sciences, Head of the Department of Operative Surgery and Clinical Anatomy with the Course of Medical Information Technologies, Samara, Russia. E-mail: a.v.kolsanov@samsmu.ru

Седашкина Ольга Александровна - канд. мед. наук, доцент кафедры факультетской педиатрии ФГБОУ ВО «Самарский государственный медицинский университет» Минздрава России, врач-нефролог Самарской областной больницы им. В.Д. Середавина, г. Самара, Россия.

Olga A. Sedashkina - Candidate of Medical Sciences, Associate Professor of the Department of Faculty Pediatrics of the Samara State Medical University, nephrologist of the Samara Regional Hospital named after. V. D. Seredavina, Samara, Russia. E-mail: o.a.sedashkina@samsmu.ru

Постников Михаил Александрович - заведующий кафедрой терапевтической стоматологии ФГБОУ ВО «Самарский государственный медицинский университет» Минздрава России, д.м.н., профессор, г. Самара, Россия.

Michael A. Postnikov - Head of the Therapeutic Dentistry Department, Samara State Medical University, Ministry of Health of Russia, Doctor of Medical Sciences, Professor, Samara, Russia. E-mail: m.a.postnikov@samsmu.ru

Маковецкая Галина Андреевна - д-р мед. наук, профессор кафедры госпитальной педиатрии ФГБОУ ВО «Самарский государственный медицинский университет» Минздрава России; засл. деятель науки РФ, лауреат Премии им. профессора М. С. Игнатовой, г. Самара, Россия.

Galina A. Makovetskaya - Doctor of Medical Sciences, Professor of the Department of Hospital Pediatrics, Samara State Medical University; Honored Scientist of the Russian Federation, winner of the Professor M.S. Ignatova Prize, Samara, Russia. E-mail: gmakovetskaya@samsmu.ru

Ромаданова Екатерина Михайловна - врач-нефролог детского нефрологического отделения Самарской областной больницы им. В.Д. Середавина, г. Самара, Россия.

Ekaterina M. Romadanova - nephrologist, pediatric nephrology department, Samara Regional Hospital named after V.D. Seredavin, Samara, Russia. V.D. Seredavin, Samara, Russia. E-mail: ekaterinaromadanova@yandex.ru

Копосова Елена Владимировна - врач-нефролог детского нефрологического отделения Самарской областной больницы им. В.Д. Середавина, г. Самара, Россия.

Elena V. Koposova - nephrologist, pediatric nephrology department, V.D. Seredavin Samara Regional Hospital, Samara, Russia. V.D. Seredavin Samara Regional Hospital, Samara, Russia. E-mail: ekaterinaromadanova@yandex.ru

Фролова Елена Ивановна - врач-педиатр, заведующая педиатрическим отделением ГБУЗ СО «Сергиевская ЦРБ» МЗ РФ, Самарская область, Россия.

Elena I. Frolova - Pediatrician, Head of Pediatric Department, State Budgetary Institution SO "Sergievskaya CRB", Samara region, Russia Ministry of Health of the Russian Federation, Samara region, Russia. E-mail: lenafroloval986f@yandex.ru

Щепкина Елена Викторовна - канд. социол. наук, заместитель начальника Отдела сводного контингента и статистики Учебно-методического управления в Российской академии народного хозяйства и государственной службы при Президенте Российской Федерации (РАНХиГС).

Elena V. Shchepkina — Candidate of Sociological Sciences, Deputy Head of the Department of Consolidated Contingent and Statistics of the Training and Methodological Department at the Russian Presidential Academy of National Economy and Public Administration (RANEPA). E-mail: elenaschepkina@gmail.com

Менеджер

здравоохранения /

Maneger № 5

ZdrevoochreneniB 2024

i Надоели баннеры? Вы всегда можете отключить рекламу.