РУКОПИСЬ ОРИГИНАЛЬНОГО ИССЛЕДОВАНИЯ
DOI: 10.21045/1811-0185-2024-9-92-102 УДК 61.616-037-053.2-056.54
РАЗРАБОТКА ИНТЕЛЛЕКТУАЛЬНОЙ СИСТЕМЫ ПОДДЕРЖКИ ПРИНЯТИЯ ВРАЧЕБНЫХ РЕШЕНИЙ ДЛЯ ПРОГНОЗИРОВАНИЯ ХРОНИЧЕСКОЙ БОЛЕЗНИ ПОЧЕК У ДЕТЕЙ
О.А. Седашкина 1 : , А.В. Колсанов 1
1 ФГОУ ВО «Самарский государственный медицинский университет» МЗ РФ,
г. Самара, Россия.
ORCID 0000-0003-2864-6885;
ORCID 0000-0002-4144-7090.
И Автор для корреспонденции: Седашкина О.А.
АННОТАЦИЯ
Диагноз хронической болезни почек часто ставится слишком поздно. В настоящее время точность диагностики составляет 44,1%, что подчеркивает острую необходимость в улучшении методов диагностики.
Цель исследования: разработать модель - систему поддержки принятия врачебных решений для прогнозирования хронической болезни почек у детей.
Материалы и методы исследования. Проведено одноцентровое ретроспективное когортное исследование (2011-2022 гг.) детей с хронической болезнью почек 1-4 стадии в возрасте от 1 до 17 лет. Для построения прогностической модели диагностики хронической болезни почек у детей использован ансамблевый метод обучения, с помощью которого объединили модели, полученные алгоритмами машинного обучения: многофакторная логистическая регрессия и дерево решений. В моделях использовано пять переменных: астеническое телосложение у ребенка, потеря белка и эритроцитов с мочой, СОЭ и натрий сыворотки крови.
Результаты. В исследовании участвовало 158 пациентов. В основную группу включены 128 детей с хронической болезнью почек 1-4 стадии в возрасте от 1 до 17 лет. Группу сравнения составили 30 детей без диагностированной патологии почек в возрасте от 1 до 17 лет. Дети двух групп статистически значимо не различались по полу и возрасту. Получена модель, позволяющая прогнозировать хроническую болезнь почек у детей на тестовой выборке с точностью 93,5% [87,1; 100,0]%, чувствительностью 92,0% [82,1; 100,0]%, специфичностью 100,0% [100,0; 100,0]%, ROC-AUC = 98,7% [95,2; 100,0]%. Полученная модель отличного качества (>90%). Модель описывает 90,3% [83,8; 96,1]% дисперсии.
Заключение. Предлагаемая модель демонстрирует превосходную прогностическую способность и может иметь важное клиническое значение для прогнозирования хронического процесса в учреждениях первичной медико-санитарной помощи, где симптомы, связанные с риском хронической болезни почек, могут быть упущены из виду. Прогнозирование и разработка ранней нефропротективной стратегии могут привести к лучшим результатам лечения и продлить жизнь.
Ключевые слова: прогностические модели, хроническая болезнь почек, многофакторная логистическая регрессия, дерево решений, прогнозирование, решение, результат.
Для цитирования: Седашкина О.А., Колсанов А.В. Разработка интеллектуальной системы поддержки принятия врачебных решений для прогнозирования хронической болезни почек у детей. Менеджер здравоохранения. 2024; 9:92—102. DOI: 10.21045/1811-0185-2024-9-92-102
Введение
Разработка и внедрение программного обеспечения на основе технологий искусственного интеллекта (ТИИ) в РФ - одна из главных задач Национальной стратегии развития искусственного интеллекта в Российской Федерации [1]. Цифровизация здравоохранения приводит к увеличению количества данных и развитию инструментов по работе с ними [2]. Использование ТИИ в медицинской диагностике позволяет повысить качество оказания медицинской
помощи, оптимизировать работу и снизить нагрузку на врача [3], своевременно назначить лечение, а в итоге уменьшить количество осложнений основного заболевания и инвалидизацию пациентов.
В современной литературе работ по применению технологий искусственного интеллекта в клинических исследованиях мало, причем в известных публикациях авторы указывают на значимые ограничения, затрудняющие правильную интерпретацию результатов исследования [3, 4].
© Седашкина О.А., Колсанов А.В., 2024 г.
Менеджер
здравоохранения /
Manager №3
ZdrevoochreneniB 2024
Хроническая болезнь почек (ХБП) имеет значительную распространенность в странах мира, с вариациями от 15 до 74,7 случаев на миллион детей [1]. На этот показатель влияют этнические особенности, социально-экономические условия, эпигенетические воздействия, возраст, пол [1, 2, 5].
В настоящее время ранняя диагностика ХБП у детей достигает 44,1%, что свидетельствует о недостаточной чувствительности и эффективности существующих методов.
Профилактика ХБП основана не только на определении этиологических и патогенетических особенностей заболевания у пациента, участвующих в развитии нефросклероза [6, 7], но и на разработке информационных инструментов, помогающих врачу первичного звена здравоохранения, наиболее тесно взаимодействующему с населением, быстро и по простым симптомам выявить или прогнозировать ХБП у ребенка и такого пациента своевременно направить к нефрологу.
Роль почечной патологии на качество и продолжительность жизни пациента недооценивается, поскольку по данным официальной статистики, смертность от ренальных причин относительно низка. Это связано с развитием методов заместительной почечной терапии (ЗПТ), а также с тем, что наиболее частой причиной гибели пациентов с нарушенной функцией почек являются сердечно-сосудистые осложнения, поэтому в официальной статистике случаи смерти пациентов с нарушенной функцией почек учитываются как обусловленные сердечнососудистыми причинами, а роль заболевания почек как основного фактора сердечно-сосудистого риска игнорируется. Вместе с тем, снижение функции почек по современным представлениям является самостоятельной и важной причиной ускоренного развития патологических изменений сердечно-сосудистой системы [8].
В то же время возможности своевременной не-фропротективной терапии, которая позволяет затормозить прогрессирование ХБП и стабилизировать функцию почек недооценены и используются неэффективно.
В настоящее время в медицину активно внедряются методы на основе технологий искусственного интеллекта, но они далеки от совершенства и требуют постоянного контроля качества и доработки. Прежде чем допустить такие методы к применению в медицинских организациях, необходимо провести тщательный анализ работы самого алгоритма, калибровку и оценку качества. Также необходим
своевременный мониторинг диагностическом точности, чувствительности и специфичности в процессе работы алгоритма, который позволяет оперативно принимать решение о необходимости его перенастройки или вывода его из практической деятельности врача [8].
В своей работе мы нацелились на разработку модели для оценки индивидуального риска развития ХБП у детей на основе алгоритмов машинного обучения для того, чтобы предложить инструмент ранней диагностики, позволяющий повысить эффективность и качество раннего выявления пациентов с ХБП с целью их отбора в группы риска для направления к нефрологу с последующим назначением раннего нефропротективного лечения. Построенная прогностическая модель является частью интеллектуальной системы поддержки принятия врачебных решений при ранней диагностике ХБП у детей в условиях кластерной системы оказания специализированной помощи населению.
На практике для построения прогностической модели чаще всего используют алгоритмы машинного обучения, которые строят «открытые» модели: многофакторная логистическая регрессия (МЛР -Multiple Logistic Regression - MLR) [9], Дерево решений (ДР - Decision Tree - DT) [10].
МЛР - это алгоритм, который использует несколько независимых переменных для прогнозирования зависимой бинарной переменной предполагая линейное соотношение между ними [11].
ДР - это контролируемый алгоритм обучения, который рекурсивно разбивает набор данных на основе функции, которая оптимально разделяет данные на два подмножества. При каждом разделении алгоритм выбирает признак, который максимизирует прирост информации, который рассчитывается с использованием энтропии. Полученную древовидную структуру можно использовать для задач классификации путем присвоения метки каждому конечному узлу на основе класса большинства в этом узле [12].
Недостатком данных моделей считается то, что модель МЛР учитывает только линейные связи предикторов и исхода, а ДР - нелинейные связи. Алгоритма машинного обучения, который строит открытую модель, учитывающую как линейные, так и нелинейные связи нет. Для повышения устойчивости и стабильности результатов работы модели можно использовать стекинг (stacking). Если для ансамблирования использовать как линейную, так и нелинейную модель, то итоговая модель будет
С
#хс
№3 Manager
2024 Zdravoochranania
/Менеджер
здравоохранения
учитывать как линейные, так и нелинейные зависимости между предикторами и исходом, что преодолеет недостаток моделей МЛР и ДР.
Алгоритм стек технологий (stacking) в машинном обучении представляет собой метод ансамблиро-вания, который объединяет прогнозы нескольких моделей машинного обучения для улучшения качества итогового прогноза. Суть стекинга заключается в том, что он обучает новую модель, которая использует прогнозы базовых моделей в качестве входных данных [13, 14, 15].
Процесс стекинга обычно включает в себя следующие шаги:
1. Разделение данных - исходные данные разделяются на обучающий набор и тестовый набор.
2. Обучение базовых моделей - несколько различных моделей машинного обучения обучаются на обучающем наборе данных.
3. Создание прогнозов - обученные модели используются для создания прогнозов на тестовом наборе данных.
4. Обучение мета-модели - прогнозы, полученные от базовых моделей, используются в качестве входных данных для обучения мета-модели, которая объединяет их в один итоговый прогноз.
5. Получение итогового прогноза - мета-модель используется для предсказания на новых данных, объединяя информацию от базовых моделей.
Основным преимуществом стекинга является возможность объединения прогнозов различных моделей, что может привести к повышению качества и устойчивости предсказаний. Также стекинг позволяет эффективно использовать информацию от нескольких моделей, что особенно полезно в случаях, когда различные модели имеют разные сильные стороны и слабости. Преимущества алгоритма стекинга в машинном обучении:
1. Улучшение предсказательной точности - сте-кинг позволяет объединять прогнозы нескольких базовых моделей, что может привести к улучшению общей предсказательной точности по сравнению с отдельными моделями.
2. Устойчивость к переобучению - метод стекинга способствует сглаживанию особенностей отдельных моделей, что может помочь снизить риск переобучения и улучшить обобщающую способность.
3. Способность к работе с разнородными моделями - стекинг позволяет объединять предсказания различных моделей, что может быть особенно полезно, когда различные модели имеют разные сильные стороны и слабости.
Недостатки алгоритма стекинга в машинном обучении:
1. Сложность настройки. Настройка параметров и выбор оптимальной структуры стекинга может быть сложной задачей, требующей подробного анализа и экспериментов с различными комбинациями моделей и мета-моделей.
2. Вычислительная сложность. Стекинг может быть вычислительно затратным методом из-за необходимости обучения нескольких моделей и мета-модели, особенно в случае больших объемов данных.
3. Риск переобучения. При неправильной настройке метод стекинга может столкнуться с риском переобучения из-за возможного недостатка данных для обучения мета-модели.
4. Интерпретируемость. Интерпретация результатов стекинга может быть сложной из-за объединения прогнозов различных моделей и использования мета-модели.
Учитывая эти преимущества и недостатки, метод стекинга следует использовать осторожно и внимательно настраивать для конкретных задач машинного обучения.
Все это послужило основанием для проведения настоящего исследования, в котором мы сосредоточились на создании прогностической модели ХБП с помощью ансамблевого метода, как модели, учитывающей линейные и нелинейные связи между признаками и исходом.
Цель: разработать интеллектуальную систему поддержки принятия врачебных решений для прогностической диагностики хронической болезни почек у детей.
Материалы и методы
Дизайн исследования: одноцентровое когорт-ное ретроспективное исследование. Статья написана в шаблоне TRIPOD (Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis) - Прозрачный отчет о многомерной модели прогнозирования для индивидуального прогноза или диагноза [16].
Критерии соответствия:
Критерии включения: Включены дети с 1 до 17 лет с неиммунными (разными формами пиелонефрита, тубулоинтерстициальным нефритом, в том числе в исходе гемолитико-уремического синдрома, с аномалиями органов мочевой системы) и с иммунноопосредованными заболеваниями почек (первичный нефротический синдром,
Менеджер
здравоохранения /
Manager № 3
ZdrevoochreneniB 2024
Ig A - нефропатия, системная красная волчанка с волчаночным нефритом) с ХБП 1-4 стадией.
Критерии невключения:
Дети с терминальная стадией ХБП.
Условия проведения и продолжительность исследования: детское нефрологическое отделение Самарской областной клинической больницы имени В.Д. Середавина с 2011-2022 г.г.
Исходы: наличие ХБП. Диагноз ХБП устанавливался на основе «золотого» правила - определения скорости клубочковой фильтрации по уровню креатинина сыворотки крови.
Предикторы: астеническое телосложение у ребенка, потеря белка и эритроцитов с мочой, СОЭ и натрий сыворотки крови.
Демографические и лабораторные данные пациентов были извлечены из системы электронных медицинских карт Самарской областной больницы. Образцы крови и мочи собирались с 7 до 9 утра натощак. Лабораторные данные включали: клинические анализы крови и мочи; биохимические показатели крови: общий белок, альбумин, электролиты, креатинин, мочевину, печеночные транс-аминазы; молекулярно-генетическое исследование полиморфных маркеров ренин-ангиотензиновой системы, эндотелиальных и иммунных факторов. Оценена наследственные патологии в 1 и 2 поколениях, антенатальные и перинатальные факторы, особенности развития ребенка в раннем возрасте, анамнез жизни и заболевания, результаты инструментальных исследований.
Этическая экспертиза. Протокол исследования с этическим комитетом согласован 12.04.2023 года (выписка из протокола заседания Комитета по биоэтике при СамГМУ № 263). Включение пациентов в исследование осуществляли после подписания законным представителем пациента или детьми старше 14 лет информированного добровольного согласия на проведение обследования ребенка и обработку персональных данных.
Статистические методы анализа
Статистическая обработка результатов проведена средствами языка Питон (Python 3.11.). После завершения формирования базы данных количественные показатели проверены на соответствие нормальному распределению (критерий Шапиро-Уилка). Поскольку распределение большинства признаков не соответствовало нормальному, для описания распределений использовалась медиана и квартили, Me [Q1; Q3]. Для проверки гипотез
о статистическом значимости различии показателей в двух несвязанных выборках использован U-критерий Манна-Уитни. Сравнение номинальных данных в группах проводилось при помощи критерия %2 Пирсона и точного критерия Фишера. В качестве количественной меры эффекта качественных признаков использовался показатель отношения шансов (ОШ) с 95% доверительным интервалом.
Построение прогностической модели выполнено по следующей схеме: на первом этапе исходная выборка была разделена на обучающую и тестовую выборки в соотношении 80:20; на втором этапе обучающая выборка была проверена на сбалансированность в зависимости от количества пациентов с исходом - 1 - есть ХБП и 0 - нет ХБП. Для балансировки базы данных в части обучающей выборки в целях получения более стабильной модели прогнозирования, был использован метод SMOTE (Synthetic Minority Over-sampling Technique) [17, 18].
На четвертом этапе для отбора наиболее значимых переменных был применен метод RFE (Recursive Feature Elimination - рекурсивное исключение признаков) [19].
Для построения модели предсказания наличия/отсутствия исхода были применены алгоритмы машинного обучения, позволяющие построить легко интерпретируемые модели: многофакторная логистическая регрессия (МЛР - MLR - Multiple Logistic Regression) и Дерево решений (ДР - DT - Decision Tree).
Далее было принято решение построить модель с помощью метода стекинга [20]. В нашем случае в качестве метамодели взято среднее от выходных данных базовых моделей МЛР и ДР.
Построенные модели были протестированы с использованием независимого тестового набора. Для оценки качества построенных моделей были использованы следующие метрики качества на обучающей и тестовой выборках: точность, чувствительность, специфичность и ROC-AUC (ROC -Receiver Operating Characteristic - рабочая характеристика приёмника; AUC - Area Under the Curve - площадь под кривой) [21]. Метрики были рассчитаны с 95% доверительными интервалами (ДИ). 95% доверительный интервал рассчитывался методом Бутстреп (Bootstrap) при выборке 1000 экземпляров. Также для максимизации чувствительности и специфичности было рассчитано пороговое значение для определения наличия/отсутствия изучаемого исхода.
Для оценки клинической полезности модели был проведен анализ кривой принятия решений
С
#хс
№ 3 Manager
2024 Zdravoochranania
/Менеджер
здравоохранения
(DCA - Decision curve analysis) путем расчета чистых преимуществ модели прогнозирования по сравнению с решением «лечить всех» и «не лечить никого» [22].
Результаты
Участники
В исследование включены 158 детей. Основную группу составили 128 детей в возрасте от 1 до 17 лет, 88 девочек (68,8%) и 40 мальчиков (31,2%) с установленным нозологическим диагнозом поражения почек на различных стадиях ХБП. Группу сравнения составили 30 детей в возрасте от 1 до 17 лет, 18 девочек (60,0%) и 12 мальчиков (40,0%) без диагностированной ХБП. Медиана возраста в основной группе составила 6 [5,0; 8,0] лет, в группе сравнения - 5 [5,0; 6,75] лет. Дети статистически значимо не различались по полу и возрасту.
Прогностическая модель была построена на обучающей выборке, а затем модель была протестирована на тестовой выборке, которая составила 20%. Общая выборка (158 пациентов) была случайным образом разделена на обучающую выборку в 127 (80%) пациентов и тестовую выборку в 31 (20%) пациента. Обучающая и тестовая выборка статистически значимо не различалась по
исходу (наличие ХБП) и исследуемым предикторам, что указывает на то, что разделение набора данных было рациональным (таблица 1).
Обучающая выборка (N=127) оказалась несбалансированной, т.е. пациентов с ХБП было больше 103 (81%), чем пациентов без ХБП - 24 (19%). Для балансировки базы данных в части обучающей выборки в целях получения более стабильной модели прогнозирования был использован метод SMOTE. В результате была получена выборка с 206 записями, в которой было 103 (50%) с ХБП и 103 (50%) - без ХБП.
Разработка прогностической модели
Модель MLR была построена на трех переменных (таблица 2): астеническое телосложение у ребенка, СОЭ, потеря эритроцитов с мочой, и имеет следующий вид:
Вероятность ХБП=1/(1+ e~(-x)), где x = + 10.649 + 5.792*(астеническое телосложение) + 0.392*(СОЭ) - 3.144*(эритроциты в моче).
На обучающей выборке из 206 записей модель MLR прогнозирует с высокой точностью 93.7% [90.8; 96.1]%, высокой чувствительностью 93.2% [88.7; 97.1]%, высокой специфичностью 94.2% [90.4; 98.0]%, ROC-AUC = 95.9% [93.2; 98.1]% и описывает 74.8% [63.1; 84.5]% дисперсии.
Таблица 1
Сравнение обучающей и тестовой выборок
Предикторы Общая выборка, (n=158) Обучающая выборка, (n=31) Тестовая выборка, (n=127) р
ХБП
0 - нет 30 (19.0%) 6 (19.0%) 24 (18.9%) p=1.000
1 - да 128 (81.0%) 25 (81.0%) 103 (81.1%)
Пол
0 - мужской 106 (67.1%) 21 (68.0%) 85 (66.9%) p=0.931
1 - женский 52 (32.9%) 10 (32.0%) 42 (33.1%)
Возраст, лет 6.0 [5.0; 8.0] 7.0 [5.0; 8.0] 6.0 [4.0; 8.0] p=0.195
Астеническое телосложение у ребенка
0 - нет 57 (36.1%) 11 (35.0%) 46 (36.2%) p=0.939
1 - да 101 (63.9%) 20 (65.0%) 81 (63.8%)
СОЭ 5.0 [3.0; 8.0] 4.0 [3.0; 6.0] 5.0 [3.0; 7.0] p=0.293
Потеря эритроцитов с мочой 4.52 [4.19; 4.75] 4.55 [4.28; 4.86] 4.52 [4.19; 4.75] p=0.237
Потеря белка 0.07 [0.0; 0.36] 0.06 [0.0; 0.22] 0.07 [0.0; 0.39] p=0.487
Натрий 139.0 [134.0; 140.75] 139.0 [137.0; 140.0] 139.0 [133.5; 141.0] p=0.865
Менеджер
здравоохранения /
Manager № 3
ZdrevoochreneniB 2024
Таблица 2
Характеристика переменных модели MLR
Предикторы coef (B) Exp (B) P
Астеническое телосложение у ребенка 5,792 327.67 [59.24, 1811.76] p<0.001*
СОЭ 0,392 1.48 [1.188, 1.84] p<0.001*
Потеря эритроцитов с мочой -3,144 0.04 [0.01, 0.23] p<0.001*
const 10,649 p=0.004*
На тестовой выборке из 31 записи модель работает с немного меньшими метриками: точностью 90.3% [80.6; 96.8]%, чувствительностью 92.0% [81.5; 100.0]%, специфичностью 83.3% [50.0; 100.0]%, ROC-AUC = 90.0% [77.2; 100.0]%. Полученная модель отличного качества (>90%), т.к. ROC-AUC составляет на тестовой выборке 0.90. Значение точки отсечения (cut-off) вероятности ХБП равно 0.25.
Модель MLR учитывает только линейное влияние предикторов на исход. Затем была построена модель на основе алгоритма DT для выявления нелинейного влияния предикторов на исход.
Модель DT была построена на двух переменных: потеря белка и натрий. Модель DT позволяет прогнозировать ХБП на обучающей выборке с высокой точностью 93.2% [90.3; 96.1]%, меньшей чувствительностью 86.4% [80.8; 91.9]%, специфичностью 100.0% [100.0; 100.0]%, ROC-AUC = 97.3% [96.1; 98.5]% и описывает 72.8% [60.9; 84.3]% дисперсии. На тестовой выборке модель работает с немного меньшими точностью 87.1% [77.4; 96.8]% и чувствительностью 84.0% [71.4; 96.0]%, но при том же
Матрица путаницы (Обучающая выборка)
Истинно отрицательный 101
Ложно-положительный 2
-80
Ложно-отрицательный 3
Истинно положительный 100
нет да
Предсказанные значения
уровне специфичности 100.0% [100.0; 100.0]%, ROC-AUC = 96.0% [91.2; 100.0]%. Полученная модель отличного качества (>90%), т.к. ROC-AUC составляет на тестовой выборке 0.96. Значение точки отсечения (cut-off) вероятности ХБП в этой модели равно 0.81.
Для повышения устойчивости работы прогностической модели за счет учета как линейного, так и нелинейного влияния предикторов на исход, была построена модель Stacking, как среднее от моделей МЛР и ДР.
После построения моделей, выполненных с помощью алгоритмов МЛР и ДР путем вычисления среднего от результатов прогнозирования обеих моделей (рис. 1).
Вероятность ХБП =
(МЛР+ДР)
Истинно - отрицательный 6 Ложно-положительный 0
Ложно- отрицательный 2 Истинно положительный 23
нет да
Предсказанные значения
С
Рис. 1. Формула модели Стекинг
Для оценки информативности построенной прогностической модели были рассчитаны матрицы путаниц отдельно на обучающей и тестовой выборках (рис. 2).
Матрица путаницы (Тестовая выборка)
#хс
Рис. 2. Матрица путаницы для обучающей и тестовой выборок
№ 3 Manager
2024 Zdravoochranania
/Менеджер
здравоохранения
Таблица 3
Метрики оценки качества прогностических моделей
МЛР ДР Стекинг
Мера оценки Обучение Тестирование Обучение Тестирование Обучение Тестирование
ROC-AUC 95.9% [93.2; 98.1]% 90.0% [77.2; 100.0]% 97.3% [96.1; 98.5]% 96.0% [91.2; 100.0]% 99.6% [99.1; 100.0]% 98.7% [95.2; 100.0]%
Точность 93.7% [90.8; 96.1]% 90.3% [80.6; 96.8]% 93.2% [90.3; 96.1]% 87.1% [77.4; 96.8]% 97.6% [96.1; 99.0]% 93.5% [87.1; 100.0]%
Чувствительность 93.2% [88.7; 97.1]% 92.0% [81.5; 100.0]% 86.4% [80.8; 91.9]% 84.0% [71.4; 96.0]% 97.1% [94.2; 99.1]% 92.0% [82.1; 100.0]%
Специфичность 94.2% [90.4; 98.0]% 83.3% [50.0; 100.0]% 100.0% [100.0; 100.0]% 100.0% [100.0; 100.0]% 98.1% [95.8; 100.0]% 100.0% [100.0; 100.0]%
R2 74.8% [63.1; 84.5]% 72.8% [60.9; 84.3]% 90.3% [83.8; 96.1]%
На основе матриц путаницы были рассчитаны метрики качества построенной модели (таблица 3).
В итоге мы видим, что модель Стекинг показывает более высокие оценки качества, чем отдельно модели МЛР и ДР. Также следует отметить, что построенная модель описывает 90.3% [83.8; 96.1]% дисперсии, что существенно выше, чем у модели МЛР (74.8% [63.1; 84.5]%) и ДР (72.8% [60.9; 84.3]%).
Модель Стекинг прогнозирует на обучающей выборке с точностью 97.6% [96.1; 99.0]%, чувствительностью 97.1% [94.2; 99.1]%, специфичностью 98.1% [95.8; 100.0]%, ROC-AUC = 99.6% [99.1; 100.0]% (рис. 3). На тестовой выборке модель работает с точностью 93.5% [87.1; 100.0]%, чувствительностью 92.0% [82.1; 100.0]%, специфичностью
100.0% [100.0; 100.0]%, ROC-AUC = 98.7% [95.2; 100.0]%. Полученная модель отличного качества (>90%), т.к. ROC-AUC составляет на тестовой выборке 0.99. В ходе исследования было определено значение точки отсечения (cut-off) ВПР, которое равно 0.46 (рис. 4).
Чтобы оценить клиническую полезность моделей, был использован анализ кривой принятия решения. Анализ проводился путем расчета чистых преимуществ модели прогнозирования риска по сравнению с порогами риска в комбинированных наборах обучения и тестирования. Анализ кривой решения определил, что диапазон пороговых вероятностей составляет от 0 до 1, в которых модель имеет большую ценность, чем «лечить всех» или «не лечить никого», рис. 5.
Рис. 3. Характеристика площади под кривой ROC-AUC для модели Стекинг
Рис. 4. Значение точки отсечения для модели Стекинг
Менеджер
здравоохранения /
Manager № 3
ZdrevoochreneniB 2024
Рис. 5. Анализ кривой принятия решений для модели Стекинг
Обсуждение
Основным вкладом нашего исследования было уточнение клинических признаков или симптомов, которые могут быть полезны для выявления детей с повышенным риском возникновения диагноза ХБП. Факторы, которые были выбраны в качестве предикторов ХБП это: астеническое телосложение у ребенка, потеря белка и эритроцитов с мочой, СОЭ и натрий сыворотки крови.
Маркеры, выявленные в нашем исследовании, не являются новыми открытиями, но они совместно могут быть показателями риска ХБП. Наша модель, основанная на этих маркерах, может помочь прогнозировать вероятность ХБП у детей, что указывает на необходимость более комплексных исследований пациента.
В исследовании проверили мочевые маркеры прогрессирования ХБП и доказали, что белок и эритроциты мочи могут улучшать прогнозирование хронического течения заболевания, что подтверждается и другими авторами [23].
Интересным фактом является связь натрия сыворотки крови с ХБП. Ранее сообщалось, что более высокая концентрация натрия в сыворотке крови является фактором риска развития ХБП, и увеличение натрия связывали с употреблением его в пищу [24]. Можно поразмышлять о том, что прогрессирование ХБП влияет на способность почек регулировать баланс соли и воды, особенно с учетом того, что при прогрессирующих стадиях ХБП сообщалось о большей распространенности гипернатриемии [25, 26].
Ускорение СОЭ связано как с инфекционным, так и с системным воспалительным процессом в почках.
Дополнительным заметным признаком, наблюдаемым в нашей модели, было замедление роста (астеническое телосложение). Авторами показано, что задержке роста у детей с ХБП способствует множество различных причин [27], но наши результаты свидетельствуют о том, что этот симптом может возникнуть рано и его следует рассматривать как тревожный признак при диагностике заболевания.
Предложенный нами способ прогнозирования ХБП учитывает линейное и нелинейное влияние предикторов на исход. Прогностическая модель, созданная в ходе текущего исследования, показала очень хорошую точность. Эти результаты позволяют предположить, что модель может быть полезным инструментом для более раннего выявления случаев в первичном педиатрическом звене здравоохранения, с целью направления ребенка в специализированное нефрологическое отделение.
Существуют разные способы определения внутренней валидации модели. Наиболее известными методами, используемыми для оценки качества модели, являются бутстрап, перекрестная проверка (cross validation) и проверка на тестовой выборке. В исследовании мы использовали бутстрап, который, как утверждают Steyerberg et al. (2019), является наиболее эффективным методом проверки качества построенной модели [28].
Построенная нами модель риска для выявления ХБП у детей, не является первой. Так Nogueira et
С
«КС
№ 3 Manager
2024 ZdrevoochrBnenie ,
'Менеджер
здравоохранения
а1. в 2019 году построили модель ранней диагностики ХБП детей из Бразилии (N=752), основанной на следующих факторах риска: рецидивирующая инфекция мочевыводящих путей, сглаживание кривой роста, полиурия, никтурия, аномальная струя мочи, гипертония в анамнезе, пенистая моча, отек и госпитализация по причине мочеполовых инфекций в неонатальном периоде. Полученная ими модель имела достаточно высокий ROC-AUC=0,927 [0,910; 0.946]. Однако этот инструмент в настоящее время не валидирован на российской популяции [29].
Значение для практики
Построенная модель, которая помогает прогнозировать ХБП на уровне первичного звена здравоохранения у детей с острой патологией почек. Ранняя прогностическая диагностика и начало нефропротективного лечения могут привести к лучшим результатам лечения и потенциально продлить жизнь [30].
Ограничением исследования является ограниченное количестве пациентов, чтобы построить прогностическую модель. В этом исследовании не учитывалась временная переменная;
таким образом, мы не смогли определить причину и следствие заболевания. Наконец, модель риска была проверена только на основе внутренних данных, а проверка на внешних данных не проводилась. Для его проверки необходимы дальнейшие многоцентровые исследования с более крупными выборками.
Заключение
В настоящем исследовании создана модель, помогающая идентифицировать детей с острой патологией почек, которые могут реализовать ХБП в будущем. Инструмент обладает отличными показателями качества, за счет чего может помочь врачам определить ранние признаки ХБП у детей. Разработка и внедрение в систему здравоохранения информационных средств поддержки принятия врачебных решений [31,32] позволит улучшить здоровье населения.
Источник финансирования. Исследование не имело финансовой поддержки.
Конфликт интересов. Авторы подтверждают отсутствие конфликта интересов, который необходимо обнародовать.
СПИСОК ИСТОЧНИКОВ / REFERENCE
1. Amanullah F, Malik A.A., Zaidi Z. Chronic kidney disease causes and outcomes in children: Perspective from a LMIC setting. PLoS One. 2022; 17(6): e0269632 DOI: 10.1371/journal.pone.0269632;
2. Webster A.C., Nagler E.V., Morton R.L., Masson P. Chronic Kidney Disease. Lancet. 2017; 389(10075): 12381252. DOI: 10.1016/S0140-6736 (16) 32064-5;
3. Schena F.P., Magistroni R, Narducci F, Abbrescia D.I., Anelli V. W, Di Noia T. Artificial intelligence in glomerular diseases. Pediatr Nephrol. 2022; 37(11): 2533-2545. DOI: 10.1007/s00467-021-05419-8.
4. Chen F, Kantagowit P., Nopsopon T, Chuklin A., Pongpirul K. Prediction and diagnosis of chronic kidney disease development and progression using machine-learning: Protocol for a systematic review and meta-analysis of reporting standards and model performance. PLoS One. 2023; 18(2): e0278729. DOI: 10.1371/journal. pone.0278729.
5. Agarwal A. Nephrology-Taking the Lead. Clin J Am Soc Nephrol. 2021; 16(7): 1113-1116. DOI:10.2215/ CJN.20061220;
6. Игнатова М.С., Длин В.В., Новиков П.В. Наследственные болезни органов мочевой системы у детей. М: Оверлей; 2014:348 с. [Ignatova M.S., Dlin V.V., Novikov P.V. Hereditary diseases of the urinary system in children. Moscow: Overley; 2014:348 (in Russ.)].
7. Игнатова М.С., Маковецкая Г.А., Мазур Л.И. Генетика и заболевания органов мочевой системы у детей. Самара: ООО «Научно-технический центр»; 2017:224 с. [Ignatova M.S., Makoveckaya G.A., Mazur L.I. Genetics and diseases of the urinary system in children. Samara: OOO «Nauchno-tekhnicheskij centr»; 2017:224 (in Russ.)].
8. Hall Y.N. Social Determinants of Health: Addressing Unmet Needs in Nephrology. Am J Kidney Dis. 2018; 72(4):582-591. DOI: 10.1053/j.ajkd.2017.12.016.
9. Lee A.M., Hu J., Xu Y, Abraham A.G., Xiao R., Coresh J. et al. CKD Biomarkers Consortium. Using Machine Learning to Identify Metabolomic Signatures of Pediatric Chronic Kidney Disease Etiology. J Am Soc Nephrol. 2022; 33(2):375-386. DOI: 10.1681/ASN.2021040538.
10. Koch Nogueira P.C., Venson A.H., de Carvalho M.F.C., Konstantyner T, Sesso R. Symptoms for early diagnosis of chronic kidney disease in children - a machine learning-based score. Eur J Pediatr. 2023; 182(8):3631-3637. DOI:10.1007/s00431-023-05032-x.
11. Scott M. Applied Logistic Regression Analysis. SAGE, 2002:111.
12. Cioci A.C, Cioci A.L., Mantero A.M.A., Parreco J.P, Yeh D.D., Rattan R. Advanced Statistics: Multiple Logistic Regression, Cox Proportional Hazards, and Propensity Scores. Surg Infect (Larchmt). 2021; 22(6):604-610. D0I:10.1089/ sur.2020.425..
13. Левитин А.В. Ограничения мощи алгоритмов: Деревья принятия решения. Алгоритмы. Введение в разработку и анализ. М.: Вильямс, 2006:576 [Levitin A.V. Limitations on the power of algorithms: Decision trees. Algorithms. Introduction to design and analysis. Moscow: Vil'yams, 2006:576 (in Russ.)].
14. Воронцов К.В. Курс по машинному обучению [Internet]. [Vorontsov K.V. Course on machine learning from [Internet] (in Russ.)]. [cited 26.05.2024]. Available from: http://www.machinelearning.ru/wiki/index.php?title=%D0%9C %D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0% BD%D0%B8%D0%B5_%28%D0%BA%D1 %83%D1 %80%D1 %81 _%D0%BB%D0%B5%D0%BA%D1 %86%D0%B8%D0% B9%2C_%D0%9A.%D0%92.%D0%92%D0%BE%D1%80%D0%BE%D0%BD%D1%86%D0%BE%D0%B2%29
15. Соколов Е. Лекции по машинному обучению [Internet]. [Sokolov E. Course on machine learning from [Internet] (in Russ.)]. [cited 26.05.2024]. Available from: https://www.youtube.com/playlist?list=PLEqoHzpnmTfChItexxg2ZfxCsm-8QPsdS
16. Щепкина, Е.В., Епифанова С.В, Кузнецов А.И. STARD и TRIPOD: рекомендации по предоставлению результатов диагностических и прогностических исследований. Педиатрия. Журнал им. Г.Н. Сперанского. 2022; 101(1): 236-249 [Shhepkina E.V., Epifanova S.V., Kuzneczov A.I. STARD i TRIPOD: recommendations for reporting the results of diagnostic and prognostic studies. Pediatriya im. G.N. Speranskogo. 2022; 101(1): 236-249. (In Russ.)]. DOI 10.24110/0031-403X-2022-101-1-236-249
17. Blagus R, Lusa L. SMOTE for high-dimensional class-imbalanced data. BMC Bioinformatics. 2013;14:106. DOI: 10.1186/1471-2105-14-106.
18. Swana E.F., Doorsamy W, Bokoro P. Tomek Link and SMOTE Approaches for Machine Fault Classification with an Imbalanced Dataset. Sensors (Basel). 2022; 22(9):3246. DOI:10.3390/s22093246.
19. Senan E.M., Al-Adhaileh M.H., Alsaade F.W., Aldhyani T.H.H, Alqarni A.A., Alsharif N, et al. Diagnosis of Chronic Kidney Disease Using Effective Classification Algorithms and Recursive Feature Elimination Techniques. J Healthc Eng. 2021; 2021:1004767. DOI:: 10.1155/2021/1004767.
20. Smyth P., Wolpert D.H. Linearly Combining Density Estimators via Stacking. Machine Learning Journal. 1999; 36.
21. Fawcett T. An Introduction to ROC Analysis. Pattern Recognition Letters. 2006; 27(8): 861-874. DOI:10.1016/j. patrec.2005.10.010.
22. Zhang L, Tang L, Chen S., Chen C, Peng B. A nomogram for predicting the 4-year risk of chronic kidney disease among Chinese elderly adults. Int Urol Nephrol. 2023; 55(6):1609-1617. DOI:10.1007/s11255-023-03470-y.
23. Bienaime F, Muorah M, Metzger M, Broeuilh M, Houiller P., Flamant M, et al. NephroTest Study Group. Combining robust urine biomarkers to assess chronic kidney disease progression. EBioMedicine. 2023; 93:104635. DOI: 10.1016/j. ebiom.2023.104635.
24. McMahon E.J., Campbell K.L., Bauer J.D., Mudge D.W. Altered dietary salt intake for people with chronic kidney disease. Cochrane Database Syst Rev. 2015; (2): CD010070. DOI: 10.1002/14651858.CD010070.pub3.
25. Kovesdy C.P., Lott E.H., Lu J.L., Malakauskas S.M., Ma J.Z., Molnar M.Z., et al. Hyponatremia, hypernatremia, and mortality in patients with chronic kidney disease with and without congestive heart failure. Circulation. 2012; 125(5): 677-84. DOI: 10.1161/CIRCULATIONAHA.111.065391.
26. Cole N.I., Suckling R.J., Desilva, V, He F.J., MacGregor G.A., Swift P.A. Serum sodium concentration and the progression of established chronic kidney disease. J Nephrol. 2019; 32: 259-264 DOI: https://doi.org/10.1007/s40620-018-0541-z
27. Rees L., Mak R.H. Nutrition and growth in children with chronic kidney disease. Nat Rev Nephrol. 2011; 7(11): 615-23. DOI: 10.1038/nrneph.2011.137
28. Steyerberg E.W., Harrell F.E., Borsboom G.J., Eijkemans M.J., Vergouwe Y, Habbema J.D. Internal validation of predictive models: efficiency of some procedures for logistic regression analysis. J Clin Epidemiol. 2001; 54(8): 774-81.
29. Nogueira P.C.K., Konstantyner T, Carvalho M.F.C., Pinto C.C.X., Paz I.P., Belangero V.M.S., et al. Development of a risk score for earlier diagnosis of chronic kidney disease in children. PLoS One. 2019; 14(4): e0215100. DOI: 10.1371/ journal.pone.0215100.
30. Колсанов А.В., Седашкина О.А., Постников М.А., Маковецкая Г.А., Ромаданова Е.М., Копосова Е.В., Фролова Е.И., Щепкина Е.В. Скрининг хронической болезни почек у детей с помощью алгоритмов машинного обучения. Менеджер здравоохранения. 2024;5:75-83 с. DOI:10.21045/1811-0185-2024-5-75-84 [Kolsanov A.V., Sedashkina O.A., Postnikov M.A., Makoveczkaya G.A., Romadanova E.M., Koposova E.V., Frolova E.I., Shhepkina E.V. Skrining xronicheskoj bolezni pochek u detej s pomoshh'yu algoritmov mashinnogo obucheniya. Menedzher zdravooxraneniya. 2024;5:75-83 s. (In Russ.)] DOI:10.21045/1811 -0185-2024-5-75-84
31. Колсанов А.В., Авдеева Е.В. Нейрокомпьютерный интерфейс: фундаментальные и клинические аспекты развития и применения технологии. Наука и инновации в медицине. 2017; 2(4):6-12 [Kolsanov A.V., Avdeeva E.V. Brain-computer interface: fundamental and clinical aspects of development and implication of the technology. Science and Innovations in Medicine. 2017; 2(4): 6-12. (In Russ.)]. DOI:10.35693/2500-1388-2017-0-4-6-12
32. Захаров А.В., Пятин В.Ф., Колсанов А.В., Повереннова И.Е, Сергеева М.С. и др. Использование виртуальной реальности в качестве средства ускорения двигательной реабилитации пациентов после перенесенного острого нарушения мозгового кровообращения. Наука и инновации в медицине. 2016; 1(3): 62-66 [Zakharov A.V., Pyatin V.F., Kolsanov A. V., Poverennova I.E., Segreeva M.S. et al. Using virtual reality as a method of accelerated rehabilitation among the patients after stroke. Science and Innovations in Medicine. 2016; 1(3): 62-66. (In Russ.)] DOI: 10.35693/250 0-1388-2016-0-3-62-66
•КС
№ 3 Manager
2024 Zdravoochranenia
/Менеджер
здравоохранения
I
змо зЯо
ORIGINAL PAPER
DEVELOPMENT OF AN INTELLECTUAL SYSTEM TO SUPPORT MEDICAL DECISION-MAKING ON FORECASTING CHRONIC KIDNEY DISEASE IN CHILDREN
O.A. Sedashkina1A.V. Kolsanov1
1 Samara State Medical University, Ministry of Health of the Russian Federation, Samara, Russia. ORCID 0000-0003-2864-6885; ORCID 0000-0002-4144-7090.
El Corresponding author: Sedashkina O.A.
ABSTRACT
Introduction. Chronic kidney disease is often diagnosed too late. Currently, the diagnostic accuracy is 44.1%, which highlights the urgent need to improve diagnostic methods.
The purpose of the study: to develop a model - a system of support of medical decisions to predict chronic kidney disease in children. Materials and methods. A one-center retrospective cohort study (2011-2022) of children with chronic kidney disease of 1-4 stages in the age from 1 to 17 years. To construct a predictive model for diagnosing chronic kidney disease in children, an ensemble learning method was used, using which the models obtained by machine learning algorithms were combined: multi-factor logistic regression and decision tree. The models use five variables: asthenic physique in a child, loss of protein and red blood cells with urine, ESR and blood serum sodium.
Results. The study involved 158 patients. The main group includes 128 children with chronic kidney disease of stage 1-4 aged 1-17. The comparison group was 30 children with no diagnosed kidney pathology aged 1 to 17. The children of the two groups did not differ statistically by sex and age. A model has been obtained to predict chronic kidney disease in children on a test sample with an accuracy of 93.5% [87.1; 100.0]%; a sensitivity of 92.0% [82.1; 100.0]; a specificity of 100.0% [100.0; 100.0.0]; ROC-AUC = 98.7%;100.0].0. Obtained model of excellent quality (>90%). The model describes 90.3% [83.8; 96.1]% variance.
Conclusion. The proposed model demonstrates excellent predictive ability and may be of important clinical importance for predicting the chronic process in primary health care, where symptoms associated with the risk of chronic kidney disease, may be overlooked. Predicting and developing early nephroprotective strategies can lead to better treatment outcomes and prolong life.
Keywords: predictive models, chronic kidney disease, multi-factor logistic regression, decision tree, forecasting, decision, result.
For citation: Sedashkina O.A, Kolsanov A. V. Development of an intellectual system to support medical decision-making on forecasting
chronic kidney disease in children. Manager Zdravoohranenia. 2024; 9:92-102. DOI: 10.21045/1811-0185-2024-9-92-102
ИНФОРМАЦИЯ ОБ АВТОРАХ / ABOUT THE AUTHORS
Седашкина Ольга Александровна - канд. мед. наук, доцент кафедры факультетской педиатрии ФГБОУ ВО «Самарский государственный медицинский университет», врач-нефролог Самарской областной больницы им. В.Д. Середавина, г. Самара, Россия. Olga A. Sedashkina - Candidate of Medical Sciences, Associate Professor of the Department of Faculty Pediatrics of the Samara State Medical University, nephrologist of the Samara Regional Hospital named after. V. D. Seredavina, Samara, Russia. E-mail: [email protected]
Колсанов Александр Владимирович - ректор ФГБОУ ВО «Самарский государственный медицинский университет» Минздрава России; д-р мед. наук, профессор, ЗДН РФ, профессор РАН, заведующий кафедрой оперативной хирургии и клинической анатомии с курсом медицинских информационных технологий, г. Самара, Россия.
Alexander V. Kolsanov - Rector, Samara State Medical University, Ministry of Health of Russia, Doctor of Medical Sciences, Professor, Professor, Professor of the Russian Academy of Sciences, Head of the Department of Operative Surgery and Clinical Anatomy with the Course of Medical Information Technologies, Samara, Russia. E-mail: [email protected]
Менеджер
здравоохранения /
Manager № 3
ZdrevoochreneniB 2024