УДК 519.216.3:616.379-008.64
Некоторые математические подходы в построении моделей прогнозирования стадий компенсации и декомпенсации сахарного диабета у детей и подростков
О.С. Кротова1, А.И. Пиянзин1,2, Л.А. Хворова1, А.В. Жариков1
1Алтайский государственный университет (Барнаул, Россия) 2Алтайский государственный медицинский университет (Барнаул, Россия)
Some Mathematical Approaches to Develop Models
for Prediction of Compensation and Decompensation Stages
of Diabetes Mellitus among Children and Adolescents
O.S. Krotova1, A.I. Piyanzin1,2, L.A. Khvorova1, A.V. Zharikov1
1Altai State University (Barnaul, Russia) 2Altai State Medical University (Barnaul, Russia)
В статье рассматривается задача прогнозирования стадий компенсации и декомпенсации сахарного диабета у детей и подростков методами машинного обучения. Для проведения исследования разработано несколько математических моделей: логистическая регрессия, деревья решений и градиентный бустинг.
Информационное обеспечение моделей представлено «обезличенными» данными медицинского обследования детей и подростков Алтайского края, страдающих сахарным диабетом.
Выходным параметром моделей является стадия компенсации сахарного диабета, который может принимать значения: 0 — компенсация сахарного диабета, 1 — декомпенсация сахарного диабета. Задача прогнозирования стадии компенсации сахарного диабета у детей и подростков есть задача бинарной классификации.
В результате проведенного исследования сделано следующее: построены модели прогнозирования стадий компенсации и декомпенсации сахарного диабета у детей и подростков на высокоуровневом языке программирования Python, подобраны оптимальные значения параметров для каждой модели, проведена оценка качества построенных моделей с помощью следующих метрик: точность, полнота, F-мера, чувствительность и специфичность.
Результаты данного исследования могут быть использованы специалистами для дополнительной диагностики детей и подростков Алтайского края, страдающих сахарным диабетом.
Ключевые слова: сахарный диабет, стадии компенсации и декомпенсации, методы классификации данных, моделирование.
DOI 10.14258/izvasu(2018)4-15
The problem of prediction of compensation and decompensation stages of diabetes mellitus among children and adolescents using methods of machine learning is considered in the paper. There are several mathematical models used in the study: logistic regression, decision trees and gradient boosting.
The "de-identified" data of medical examination of children and adolescents of the Altai region suffering from diabetes mellitus are used to train the models in this study.
The output parameter of the models is the stage of diabetes mellitus compensation encoded with the following values: 0 — compensation of diabetes mellitus, 1 — decompensation of diabetes mellitus. This way, the prediction is the problem of binary classification.
The results of the conducted research are the following: models to predict the stages of compensation and decompensation of diabetes mellitus among children and adolescents are developed using the high-level Python programming language; optimal parameters are obtained for each model; prediction quality is estimated for each model using the following metrics: accuracy, completeness, F-measure, sensitivity, and specificity.
Professionals can use the obtained results for the supplementary diagnosis of children and adolescents of the Altay region who suffer from diabetes mellitus.
Key words: diabetes mellitus, stages of compensation and
decompensation, data classification methods, modeling.
Введение. Сахарный диабет является тяжелым хроническим заболеванием и с каждым годом все чаще встречается у детей и подростков.
Рост заболеваемости и высокая степень инвалиди-зации среди детей и подростков Алтайского края делают проблему всестороннего изучения, диагностирования и прогнозирования стадий сахарного диабета актуальной и практически значимой.
Сахарный диабет — системное гетерогенное заболевание, связанное с нарушением усвоения глюкозы и развивающееся вследствие абсолютного (1 тип) или относительного (2 тип) дефицита гормона поджелудочной железы — инсулина, который вначале вызывает нарушение углеводного обмена, а затем всех видов обмена веществ, что в конечном итоге приводит к поражению всех функциональных систем организма [1].
Состояние углеводного обмена определяется стадиями компенсации сахарного диабета — компенсацией и декомпенсацией. Компенсация сахарного диабета характеризуется близкими к нормальным показателями уровня глюкозы в крови. При декомпенсации сахарного диабета наблюдается повышенный уровень глюкозы в крови, который не поддается коррекции лекарственными препаратами.
В детском возрасте достаточно быстро наступает привыкание к гипергликемии — повышенному содержанию глюкозы в крови, что не вызывает заметного ухудшения самочувствия больного. Наличие различных осложнений, задержка физического развития и полового созревания являются поздними показателями длительной декомпенсации сахарного диабета [2]. Ранее выявление и прогнозирование стадий компенсации заболевания позволяют родителям и врачам проводить целенаправленные действия, помогающие сохранить здоровье ребенка и отсрочить инвалидизацию.
Актуальность и значимость проблемы определили цель исследования — построение моделей прогнозирования стадий компенсации и декомпенсации сахарного диабета у детей и подростков методами машинного обучения [3-6].
Данные для исследования размещены в информационной системе «Медицинская карта пациента», раз-
работанной авторами [7], которая содержит «обезличенные» данные медицинского обследования детей и подростков Алтайского края, страдающих сахарным диабетом. Информационная система обеспечивает автоматическое формирование выборок данных пациентов по различным критериям.
Для построения моделей прогнозирования стадий компенсации и декомпенсации сахарного диабета была сформирована выборка данных, в которую вошли такие признаки, как рост, вес, температура, артериальное давление, частота сердечных сокращений, частота дыхания, стаж заболевания, показатели биохимического анализа крови. Результирующим параметром является стадия компенсации сахарного диабета, который на выходе модели может принимать значения: 0 — компенсация сахарного диабета, 1— декомпенсация сахарного диабета. Таким образом, задача прогнозирования стадии компенсации сахарного диабета у детей и подростков является задачей бинарной классификации.
Методы классификации данных. Для решения задач исследования было построено несколько математических моделей.
1. Логистическая регрессия. Логистическая регрессия используется для предсказания вероятности наступления некоторого события по значениям множества признаков.
Рассмотрим задачу бинарной классификации, где множество классов У = {0,1}. Пусть р — вероятность
некоторого события в бинарном случае. Отношение р
называется перевесом или преимуществом.
1 - р
Логарифм от отношения
1 - Р
определяется как ло-
гит-функция вероятности: (р) = ^
1 - Р
Если р(у = 1|х) — условная вероятность того, что отдельно взятый объект принадлежит классу 1 при наличии его признакового описания х, тогда
\ogit (р (у = 1| х)) = со0 х0 + аххх
+ ... + ( х
т т
= Уох = (О х,
^ - 1 1 '
где о = (а0,...,ат ) — вектор весов.
Функция ф(г), обратная к logit, называется логистической функцией или сигмоидой и позволяет предсказывать вероятность того, что определенный объект принадлежит отдельно взятому классу:
2 )=Т^'
где г = а0х0 + аххх +... + отхт = оТх — линейная комбинация весов и признаков объекта.
Вход сигмоидной функции интерпретируется как вероятность принадлежности отдельно взятого объекта i классу: ф(г) = Р(у = i|x, ш).
Предсказанная вероятность конвертируется в бинарный результат:
у = <
[1, еслиср{г)>0,5, 10, если (р(г)< 0,5.
Для подбора параметров ш 0,..., шп используется ме- Определим функцию правдоподобия Ь, которую не-тод максимального правдоподобия. обходимо максимизировать:
Зададим обучающую выборку, которая представляет собой набор пар х(1),у(1)),...,(х(п),у(п)), где хи)еЯ", уи)еУ.
Ь(ш) = P(y\x;m) = ПР(у0) | x(j);®) = П(Ц*(Л))"" С1 - Цz(j)))1-y" '.
Вследствие того, что значения функции правдопо- зируем не саму функцию Ь(ш), а ее логарифм, который добия Ь(ш) могут быть достаточно малыми, максими- также является функцией правдоподобия:
l(a) = log L(rn) = £ [y(j) log(p( z(j))) + (l - y(j)) log(1 - Ц z(j)))].
j=1
2. Деревья решений. Деревья решений подразумевают разбиение данных на классы путем принятия решений, основываясь на построении логических схем. Опираясь на признаки в «тренировочном» наборе данных, модель дерева решений обучается на иерархически организованной системе вопросов. При этом задаваемый вопрос на каждом последующем иерархическом уровне зависит от ответа, полученного на предыдущем уровне.
Начиная с корня дерева, данные расщепляются по признаку, который ведет к наибольшему приросту информации (information gain, IG). Процедура расщепления является итеративной и повторяется до достижения концевой вершины (листа). Объект будет относиться к определенному классу согласно метке, поставленной в соответствие данному листу.
Для того, чтобы расщепить узлы в самых информативных признаках, определим целевую функцию:
1G (Dp, f ) = I (Dp )-£ Njl (D),
где f — признак, по которому выполняется расщепление, Dp — набор данных родительского узла, Dj — набор данных дочернего узла, I — критерий расщепления, N — общее число объектов в родительском узле, Nj — число объектов в дочернем узле, j = 1, ...,m.
Тогда возникает задача оптимизации, состоящая в максимизации прироста информации при каждом расщеплении:
1G ( Dp , f ) =1 ( Dp УХ^1 (Dj Ь max-
j-1 Np
В бинарных деревьях решений обычно используются следующие критерии расщепления: 1)энтропия
c
1h (t)=-£p(i 11)log2 p(i 11),
1=1
здесь p(i \ t) — доля объектов, принадлежащих классу i для отдельно взятого узла t;
2) мера неоднородности Джини — критерий, минимизирующий вероятность ошибочной классификации:
1g (t) = ¿p(i \ t) (1 - p(i\t)) = 1 - ¿p(i\t)2;
i=1 i=1
3) ошибка классификации
1E (t) = 1 - max {p(i|t)}.
3. Градиентный бустинг. Еще одним подходом к решению задач классификации, рассмотренным авторами, является комбинирование моделей. В результате объединения нескольких классификаторов удается получить модель, обобщающая способность которой гораздо лучше, чем у каждого классификатора в отдельности.
Бустинг — это процесс последовательного построения классификаторов таким образом, что каждый последующий добавленный алгоритм, используя данные об ошибках, стремится компенсировать недостатки композиции всех предыдущих классификаторов. Модель градиентного бустинга строится в виде суммы деревьев решений:
M
f (x )=ho + vYhj (x),
j=1
где h0 — начальное приближение (константа), hx— регрессионные деревья решений, v е ( 0;1] — параметр, регулирующий скорость обучения.
В процессе реализации алгоритма градиентного бу-стинга новые деревья добавляются путем минимизации эмпирического риска, заданного функцией потерь:
L ( У, y') = L ( y, f ( x )).
Для бинарной классификации функция потерь имеет вид:
L( y, y', y') = -£( y = k )ln( ) •
Результаты моделирования. Построение моделей осуществлено на высокоуровневом языке программирования Python [8-10]. Каждый алгоритм классификации содержит несколько настраиваемых параметров оптимизации. В таблице 1 пред-
ставлены оптимальные значения параметров моделей, которые подбирались «вручную» в результате многократного запуска и сравнения результатов работы моделей.
Таблица 1
Оптимальные значения параметров
Классификатор Параметры оптимизации Оптимальные значения
Логистическая регрессия С 0.01
tol 0.00001
max_iter 1
Деревья решений max_depth [1; 100]
max_features sqrt
Градиентный бустинг n_estimators [50; 250]
max_depth [1; 100]
max_features sqrt
Сравнение и оценка качества работы построенных и специфичность. В таблице 2 представлены значе-моделей осуществлялись с помощью таких метрик, ния метрик точности, полноты и Б-меры для каждой как точность, полнота, Б-мера, чувствительность построенной модели.
Значения точности, полноты и F-меры построенных моделей
Таблица 2
Модель Метка класса Точность Полнота F-мера
0 0.50 0.33 0.40
Логистическая регрессия 1 0.71 0.83 0.77
total 0.64 0.67 0.65
0 0.67 0.22 0.33
Деревья решений 1 0.71 0.94 0.81
total 0.69 0.70 0.65
0 1.0 0.11 0.20
Градиентный бустинг 1 0.69 1.0 0.82
total 0.79 0.70 0.61
Все модели показали высокие значения метрик для декомпенсации сахарного диабета (метка класса — 1). Значения этих же метрик для компенсации сахарного диабета (метка класса — 0) значительно ниже.
В медицинской статистике для анализа данных применяются такие метрики, как чувствительность и специфичность [3]. Метод исследования считается оптимальным, если он высоко специфичен и высоко чувствителен. Однако в реальности повышение чувствительности неизбежно сопровождается потерей специфичности и наоборот, повышение специфичности сопряжено со снижением чувствительности. Чувствительность (Бе) определяется как способность диагностического метода давать
правильный результат. Чувствительность является аналогом TPR (True Positive Rate) — доли истинно положительных объектов.
Специфичность (Sp) — это способность диагностического метода не давать при отсутствии заболевания ложноположительных результатов, которые определяются как доля истинно отрицательных результатов среди здоровых лиц в группе исследуемых. Аналогом специфичности считается FPR (False Positive Rate) — доля ложноположитель-ных объектов.
Чувствительность и специфичность, как и другие используемые метрики, рассчитываются с помощью матрицы ошибок, представленной таблицей 3.
Таблица 3
Матрица ошибок
У = 1 у = 0
У = 1 True Positive (TP) False Positive (FP)
у = 0 False Negative (FN) True Negative (TN)
ТР ЕР При этом др =-, дв =-. ТР + ЕЫ ЕР + ТЫ Результаты анализа построенных моделей на чувствительность и специфичность приведены в таблице 4. Таблица 4 Оценка чувствительности и специфичности моделей
Модель Чувствительность Специфичность
Логистическая регрессия 33% 71%
Деревья решений 22% 71%
Градиентный бустинг 11% 69%
Заключение. Результаты исследования показали, что рассмотренные методы машинного обучения позволяют обнаружить «скрытые» закономерности и механизмы протекания сахарного диабета у детей и подростков и могут эффективно применяться для диагностики декомпенсации. Модели продемонстрировали высокие значения метрик для декомпенсации сахарного диабета и достаточно малые значения этих же метрик для компенсации сахарного диабета. Это может быть связано с тем, что выборка данных содержит недостаточное количество инфор-
мации о компенсированных пациентах. Решением данной проблемы может быть [11-13]: 1) пополнение базы данных пациентов; 2) подключение дополнительных клинических и лабораторных показателей состояния больных; 3) разработка новых моделей прогнозирования.
Использование полученных в результате исследования моделей позволит в кратчайшие сроки определять стадии компенсации сахарного диабета, что улучшит процесс диагностики и лечения заболевания у детей и подростков на территории Алтайского края.
Библиографический список
1. Дедов И.И., Кураева Т.Л., Петеркова В.А., Щербачё-ва А.Н. Сахарный диабет у детей и подростков. — М., 2002.
2. Дедов И.И., Кураева Т.Л., Петеркова В.А. Инсулино-терапия сахарного диабета 1 типа у детей и подростков. — М., 2003.
3. Медик В.А., Токмачев В.С., Фишман Б.Б. Теоретическая статистика // Статистика в медицине и биологии. — М., 2002.
4. Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных. — М., 2015.
5. Вьюгин В.В. Математические основы машинного обучения и прогнозирования. — М., 2013.
6. Бринк Х., Ричардс Д., Феверолф М. Машинное обучение. — СПб., 2017.
7. Пиянзин А.И., Сидун Д.Ю., Назаркина О.М., Хворо-ва Л.А., Малахова Т.И., Шарлаева Е.А., Левич К.А., Сапки-на М.Р., Назаровская О.В. Информационные технологии в оценке липидного обмена у детей и подростков с сахарным диабетом 1 типа // Медицинский алфавит. — 2017.
8. Рашка С. Python и машинное обучение. — М., 2017.
9. Коэльо Л., Ричарт В. Построение систем машинного обучения на языке Python. — М., 2016.
10. Виндер П. Python для сложных задач: наука о данных и машинное обучение. — СПб., 2018.
11. Кротова О.С., Хворова Л. А. Применение нейронных сетей для диагностики заболевания сахарным диабетом детей и подростков на территории Алтайского края // МАК: Математики — Алтайскому краю : сборник трудов всерос. конф. по математике. — Барнаул, 2017.
12. Кротова О.С., Сидун Д.Ю. Современные компьютерные технологии в изучении сахарного диабета у детей и подростков // Молодежь — Барнаулу : материалы XVIII—XIX городской научно-практической конференции молодых ученых. — Ч. XIX. — Барнаул, 2018.
13. Концепция создания единой государственной информационной системы в сфере здравоохранения : приказ Минздравсоцразвития России от 28.04.2011 № 364 [Электронный ресурс]. — URL: http://www.consultant.ru/.