Секция «Прикладная математика»
УДК 519.87
КЛАСТЕРИЗАЦИЯ ПОПУЛЯЦИИ БОЛЬНЫХ ГЕПАТИТОМ С
В Г. КРАСНОЯРСКЕ
О. В. Новоселов1, Н. М. Ганкин2, И. П. Шишков1, Е. И. Яковлев1*
1Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
2Лицей № 2
Российская Федерация, 660017, Красноярск ул. Урицкого, 121
E-mail: [email protected]
С помощью кластерного анализа данных в популяции больных гепатитом С выделяются определенные группы, характеризующие уровень заболеваемости и предполагаемые результаты лечения.
Ключевые слова: кластерный анализ, метод к-средних, метод ближайшего соседа.
CLASTERIZATION OF THE POPULATION OF PATIENTS WITH HEPATITIS C
IN KRASNOYARSK
O. V. Novoselov1, N. M. Gankin2, I. P. Shishkov1, E. I. Yakovlev1*
1Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation
2Lyceum № 2
121, Uritskogo Str., Krasnoyarsk, 660017, Russian Federation E-mail: [email protected]
With the help of cluster analysis of data in the population of patients with hepatitis C, certain groups are identified that characterize the incidence rate and the expected results of treatment.
Keywords: cluster analysis, method of k-means, nearest-neighbor method.
В настоящей заметке рассматривается группа больных гепатитом С. Среди всех гепатитов гепатит С определяется сложнее всего. Обычно больной гепатитом С не подозревает у себя наличие болезни. Но даже при своевременном лечении гепатита С, выздоровление наступает чуть больше, чем при 50 % случаев. Для других гепатитов эта цифра колеблется около 90 %. Этим объясняется одно из его названий - «ласковый убийца».
В 2006 году жителям Красноярского края начали массово делать прививки от вирусного гепатита В. Результат впечатляет: по словам медиков, заболеваемость снизилась... в 2,5 раза! По статистике, на сегодняшний день 59 000 жителей края переболело гепатитами А, В и С. Из них 28 738 человек перенесли гепатит С.
В нашем обследовании группа больных гепатитом С состояла из из 284 пациентов. Из них 111 женщин в возрасте от 18 до 48 лет и 173 мужчины в возрасте от 27до 39 лет. Техника построения различных математических моделей гепатитов имеется в [1-2]. В нашем случае в качестве метода исследования был выбран кластерный анализ и программа Statistica 12 версии фирмы StatSoft Inc [3-5].
Кластерный анализ - это метод классификационного анализа; его основное назначение -разбиение множества исследуемых объектов и признаков на однородные в некотором смысле группы, или кластеры. Большое достоинство кластерного анализа в том, что он дает возможность производить разбиение объектов не по одному признаку, а по ряду признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает
Актуальные проблемы авиации и космонавтики - 2017. Том 2
никаких ограничений на вид рассматриваемых объектов и позволяет исследовать множество исходных данных практически произвольной природы. Так как кластеры - это группы однородности, то задача кластерного анализа заключается в том, чтобы на основании признаков объектов разбить их множество на т (т - целое) кластеров так, чтобы каждый объект принадлежал только одной группе разбиения. При этом объекты, принадлежащие одному кластеру, должны быть однородными (сходными), а объекты, принадлежащие разным кластерам, - разнородными. Если объекты кластеризации представить как точки в п-мерном пространстве признаков (п - количество признаков, характеризующих объекты), то сходство между объектами определяется через понятие расстояния между точками, так как интуитивно понятно, что чем меньше расстояние между объектами, тем они более похожи.
В нашем случае в качестве метрики бралось евклидово расстояние. Использовался метод иерархического кластерного анализа и метод К-средних. В методе древовидной кластеризации использовались метод ближайшего соседа и метод полных связей. Критериями для кластерного анализа на первом этапе стали: возраст, значения РНК ВИЧ и РНК ВГС до лечения и значения РНК ВИЧ 24-после лечения.
Первоначально было произведено деление на 3 кластера (1-й - значение РНК ВИЧ 24 п/л не более 18 тысяч, 2-й - от 18 до 45 тысяч и 3-й - более 45 тысяч). После первого просеивания в кластерах нашлись критические значения, которые положили основу для трех новых кластеров (4, 5, 6). Характеристиками каждого кластера первоначально выбрали среднее значение РНК ВИЧ и РНК ВГС до лечения. На основе получившихся данных можно сделать следующие выводы:
1. Максимальные средние значения РНК ВИЧ и ВГС наблюдаются у людей с наибольшим возрастом (5 кластер), причем на большую часть из них лечение подействовало эффективно.
2. При практически одинаковых средних значения РНК ВИЧ и ВГС у 1-го и 2-го кластеров, с болезнью лучше справляются люди более старшего возраста.
3. При этом у людей того же возраста, что и в 1-м кластере, при более высоких значениях РНК ВИЧ и ВГС лечение идет намного тяжелее, что видно из 3-го кластера.
4. Также наблюдаются очень хорошие показатели лечения людей в возрасте ~29,5 лет при относительно небольших начальных значениях РНК ВИЧ и ВГС (4 кластер).
5. Весьма неоднозначные значения у больных (возраст ~31 год) при самых низких (усредненных) первоначальных значениях РНК ВИЧ и ВГС (6 кластер), т. е. либо лечение подействовало очень эффективно, либо резко противоположным образом.
Библиографические ссылки
1. Марчук Г. И. Математические модели в иммунологии: вычислительные методы и эксперименты. М. : Наука, 1991. 276 с.
2. Марчук Г. И., Романюха А. А., Бочаров Г. А. Математическая модель вирусного гепатита В. М. : ОВМ АН СССР, 1990. 44 с.
3. Боровиков В. П. Популярное введение в современный анализ данных в системе 8ТЛТ18Т1СЛ : учеб. пособие для вузов. М. : Телеком, 2013. 288 с.
4. Халафян А. А. Современные статистич. методы медицинских исследований : монография. 3-е изд. М. : Ленкид, 2014. 320 с
5. Тюрин Ю. Н., Макаров А. А. Анализ данных на компьютере / под ред. В. Э. Фигурнова. М. : Инфра-М, 2002. 528 с.
© Новоселов О. В., Ганкин Н. М., Шишков И. П., Яковлев Е. И., 2017