УДК 004.891:61 А.В. Катаева1, Ж.А. Бахтина2
1 Сибирский федеральный университет 2Красноярская краевая клиническая больница
СОКРАЩЕНИЕ ПРИЗНАКОВОГО ПРОСТРАНСТВА В ДИАГНОСТИКЕ СЕПСИСА
В диагностике и лечении сепсиса существенным является раннее определение наличия сепсиса у пациента. В условиях ограниченности медицинских ресурсов целесообразно применять системы поддержки принятия решений, позволяющие определять диагноз на основе информативных признаков. Для оценки информативности используется метод МНЧ. Ключевые слова: диагностика сепсиса, сокращение признакового пространства, метод МНЧ, ROC-анализ.
A.V. Kataeva1, Jа.A. Bakhtina2
1 Siberian Federal University Krasnoyarsk Regional clinical hospital
THE REDUCTION OF THE FEATURE SPACE IN THE DIAGNOSIS OF SEPSIS
Early determination of the presence of sepsis in the patient is essential in the diagnosis of sepsis. In conditions of limited medical resources, it is advisable to use decision support systems to determine the diagnosis on the basis of informative features. The method of accumulated frequencies is used to assess the informativeness.
Keyword: diagnosis of sepsis, reduction offeature space, the method of accumulated frequencies, ROC-analysis.
Применение современных информационных технологий в медицине способствует накоплению огромных объемов медицинских данных. Эти данные содержат в себе знания, которые можно извлекать и использовать для принятия решений. Однако при анализе медицинских данных приходится сталкиваться с проблемой размерности. Размерность хранимых данных, определяемая числом признаков, описывающих состояние здоровья пациента, весьма велика. Поэтому проблема выделения наиболее информативных признаков актуальна для медицинских систем поддержки принятия решений [2].
Сепсис и септический шок являются одной из основных проблем здравоохранения. Это нарушение функций органов, вызванное реакцией организма на инфекцию, которое является лидирующей причиной летальности у пациентов в критическом состоянии [8]. Лечение сепсиса в Красноярском крае производится в краевом гнойно-септическом центре на базе краевой клинической больницы. Поскольку клиническое течение сепсиса может быть молниеносным, врачам приемного отделения необходимо в кратчайшие сроки произвести диагностику сепсиса и принять решение о лечении пациента. В случае если у пациента сепсис, его необходимо направить в реанимационное отделение краевого гнойно-септического центра для получения дорогостоящего лечения. Ресурс профильного центра ограничен небольшим количеством койко-мест, поэтому пациентов без сепсиса целесообразно отправить в другие профильные отделения.
Использование математических методов и информационных технологий на начальном этапе позволяет повысить скорость диагностики сепсиса, благодаря применению эффективных алгоритмов классификации.
Целью исследования явилась разработка алгоритма, определяющего методику отбора наиболее информативных признаков при выявлении наличия сепсиса, а также создание программных средств, позволяющих использовать данную методику для мониторинга сепсиса по Красноярскому краю.
Признаком принято называть некоторый показатель или определенную характеристику объекта произвольной природы [5,6]. В медицинской диагностике в роли объектов выступают пациенты, а в качестве признаков - показатели их состояния здоровья. Признаковое описание пациента является, по сути, формализованной историей болезни пациента и может включать в себя значения несколько десятков признаков, многие из которых могут оказаться неинформативными с точки зрения решаемой диагностической задачи. В анализе сепсиса традиционно рассматривают 16 признаков, которые принимают количественные (числовые) значения: нарушение сознания, хлор, ЧДД ( уд. в мин), температура (в градусах Цельсия), АЛТ (Ед/л), АД систолическое (мм рт. ст.), натрий (ммоль/л), наличие очага инфекции (1 или 0), лейкоциты крови (109
/мл), билирубин (мкмоль/л), уровень тромбоцитов, (109 /л), SpO2 (%), АСТ (ед/л), креатинин (мкмоль/л), общий белок (г/л), Амилаза (ед/л).
На языке математики задача отбора признаков формулируется следующим образом. Пусть задана выборка A , характеризующая некоторую группу пациентов через множество признаков
X = {Jj, Х2,..., Хп}. Для всякого пациента a е A известно его признаковое описание
Ц (a), x2(a),..., xn (a)} - n-мерный вектор, 7-я координата которого равна значению 7-го признака. Совокупность признаковых описаний всех пациентов из A представлено матрицей размера |A| х n, где |A| - число пациентов, включенных в выборку A . Пусть - некоторая мера информативности подмножества признаков Z с X , определенная относительно A . Требуется
среди всех 2П различных подмножеств множества X выбрать подмножество Z * с X с максимальной мерой информативности:
I (Z *) = max z с x {I (X)} (1)
В теории машинного обучения данная задача называется FEATURES SELECTION (селекция признаков) [5]. Решение этой задачи можно находить путем последовательного удаления из X наименее информативных признаков. В результате такого отбора оставшееся множество признаков является представительным с точки зрения информативности и легко интерпретируется, поскольку каждый отдельный признак имеет отчетливую трактовку. Условием окончания процесса удаления признаков может служить качество классификации, оценка которого выполняется на основе заданных обучающих выборок.
Алгоритм решения задачи основан на известных в анализе данных математических методах. Исходными данными алгоритма являются: множество признаков X = {xi, X2, ..xn} и две обучающие выборки Aj и A2, соответствующие двум различным классам пациентов, разделенным по некоторому целевому признаку. В анализе сепсиса целевой признак разделяет пациентов на два класса: пациенты, у которых «нет сепсиса», и пациенты, у которых «есть сепсис». Вначале в алгоритме производится расчет информативности каждого признака из X при помощи метода МНЧ [6,7]. Далее признаки сортируются в порядке убывания значения меры информативности и записываются в список Z . Затем из отсортированного списка Z последовательно снизу вверх удаляются наименее информативные признаки (на каждом шаге по одному признаку). На основе оставшихся признаков осуществляется классификация тестового пациента a из выборки Aj ^ A2 , полученной объединением Aj и A2 . Существует большое количество методов классификации, обладающих различной сложностью и эффективностью [3]. Для медицинских данных целесообразно применение метода ближайшего соседа [1, 3]. Какой именно пациент a подлежит классификации, устанавливается методом «скользящего окна» [3,4]. После того, как протестированы все пациенты из Aj ^ A2, вычисляются показатели ROC-анализа для оценки качества выполненной классификации. Если показатели ROC-анализа демонстрируют максимально эффективное качество классификации, то пространство признаков Z сохраняется для последующей классификации пациентов. В противном случае из Z исключается следующий признак, при этом ранее удаленные признаки не возвращаются в Z
С помощью представленного алгоритма исследовались две обучающие выборки
Aj и A2,
где Aj - список пациентов, у которых не был выявлен сепсис (всего 100 человек), A2 -список пациентов, у которых был выявлен сепсис (всего 100 человек).
Выборки Aj и A2 были сформированы из пациентов, проходивших стационарное лечение в Красноярском краевом гнойно-септическом центре. Для всех признаков была вычислена мера информативности по методу МНЧ относительно обучающих выборок Aj и A2 . Затем признаки были отсортированы в порядке убывания значения меры информативности. Отсортированный список признаков с указанием их информативности по МНЧ представлен в таблице.
Таблица
Отсортированный список признаков для сепсиса
№ Признак Информативность
1 нарушение сознания 20
2 ЧДД ( уд. в мин) 18
3 температура (в градусах Цельсия) 17
4 АД систолическое ( мм рт. ст.) 14
5 наличие очага инфекции 14
6 лейкоциты крови (109 /мл) 12
7 билирубин (мкмоль/л) 11
8 уровень тромбоцитов (109 /л) 10
9 SpO2 (%) 9
10 Креатинин (мкмоль/л ) 8
11 АЛТ (ед/л) 7
12 натрий ммоль/л 5
13 АСТ (ед/л) 4
14 хлор 3
15 общий белок (г/л) 2
16 амилаза (ед/л) 0
После вычисления показателей ROC-анализа можно судить о том, что максимальное качество классификации достигается при использовании следующих признаков с номерами 1-10. Качество классификации оценивается показателями ROC-анализа, такими как чувствительность и специфичность. Для представленных 10 признаков чувствительность = 95%, специфичность = 96%. Это означает, что в 95% случаев с использованием этих признаков можно верно классифицировать отсутствие сепсиса и в 96% верно определить наличие сепсиса. Для 16 исходных значение чувствительности = 75%, специфичность = 95%.
Все приведенные выше результаты вычислений были получены с помощью разработанной программы на языке программирования С++ в среде Embarcadero RAD Studio XE8. Реализованная программа используется в профильном медицинском центре. Врач заполняет значения десяти наиболее информативных признаков соответствующими данными о пациенте через простой интерфейс. Программа производит классификацию введенного пациента и показывает врачу определенный диагноз. Следует отметить, что результат проведенной классификации несет рекомендательный характер, и окончательное решение о дальнейшем ведении пациента принимает лечащий врач. Представленные в работе алгоритмические и программные средства проходят апробацию в красноярском краевом гнойно-септическом центре Краевой клинической больнице.
Литература
1. Воронов К.В. Машинное обучение: курс лекций. 2010. URL: http://www.machinelearn-ing.ru. (дата обращения 01.12. 2017).
2. Гусев А.В., Зарубина Т.В. Поддержка принятия врачебных решений в медицинских информационных системах медицинской организации. Врач и информационные технологии. 2017; (2): 60-72.
3. Журавлев Ю.И., Рязанов В.В., Сенько О.В. Распознавание. Математические методы. Программная система. Практические применения. М.: Фазис; 2006.
4. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: ИМ СО РАН; 1999.
5. Ким Д.О., Мьюллер Ч.У., Клекка У.Р. Факторный, дискриминантный и кластерный анализ. М.: Финансы и статистика; 1989.
6. Колесникова С.И. Методы анализа информативности разнотипных признаков. Вестник Том. гос. ун-та. Управление, вычислительная техника и информатика. 2009; 1(6):69-80.
7. Кривенко М.П. Критерии значимости отбора признаков классификации. Информатика и её применение. 2016. № 10 (3). С. 32-40.
8. SingerM. et al. The Third International Consensus Definitions for Sepsis and Septic Shock (Sepsis-3) // JAMA. 2016. Т. 315. № 8. С. 801-810.
Сведения об авторах
Алина Владимировна Катаева, инженер-программист
Сибирский федеральный университет Эл. почта: alisite@mail.ru Россия, Красноярск Жанна Андреевна Бахтина врач-хирург
Красноярская краевая клиническая больница Эл. почта: ganna24kr@mail.ru Россия, Красноярск
Information about authors
Kataeva Alina Vladimirovna
software engineer
Krasnoyarsk Regional clinical hospital E-mail: alisite@mail.ru Russia, Krasnoyarsk Bakhtina Janna Andreevna
Surgeon
Krasnoyarsk Regional clinical hospital E-mail: ganna24kr@mail.ru Russia, Krasnoyarsk
УДК 004.21 Г.М. Рудакова, О.В Корчевская
Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева
РАЗРАБОТКА СИСТЕМЫ ПО ОБРАБОТКЕ НАРРАТИВНЫХ ДАННЫХ
Разработана система поддержи принятия решений по кластеризации нарративных данных на основе модифицированного метода с учетом специфики обрабатываемых данных. Ключевые слова: нарративные данные, интеллектуальный анализ, разработка системы, искусственный интеллект, кластерный анализ.
G.M. Rudakova, O.V. Korchevskaya
Reshetnev Siberian State University of Science and
Technology
DEVELOPMENT OF A SYSTEM FOR PROCESSING NARRATIVE DATA
The system of dec7s7on support on clustering of narrat7ve data based on the mod7f7ed method taking 7nto account the spec7f7cs of the processed data 7s developed.
Keywords: data narrat7ve, 7ntell7gent analys7s, develop a system of art7f7c7al 7ntell7gence, cluster anal-ys7s.
Введение
В социальных и исторических науках данные, как правило, имеют нарративную форму: тексты, дневники, литературные произведения, показания свидетелей и т.д. Под нарративом понимают любой повествовательный текст, функция которого - информирование о событиях.
Для нарративного анализа установление исторической истинности индивидуального объяснения не является главной задачей. Главное - это истолкование смысла, которым люди наделяют переживаемые события.
При этом сложность и объем организации таких данных зачастую не позволяет эффективно применять традиционные технологии извлечений знаний из неструктурированной информации
В системах интеллектуального анализа данных особое место занимает проблема кластеризации - обучение без учителя с целью выявления внутренней структуры, на основе которой эксперт сможет более детально осмыслить события, сделать заключения и выводы.
На сегодняшний день не разработано универсальных методов кластерного анализа. Следует отметить, что применение различных методов к одному и тому же набору объектов может привести к получению отличающихся результатов. Это связано с различными функциями близости, алгоритмами оптимизации, метриками, количеством выбранных кластеров и т.п., заложенными в различные методы.
В связи с этим возникает необходимость в разработке высокоэффективных методов для повышения обоснованности и адекватности принимаемых выводов и решений с учетом специфики предметной области.
Методом обработки нарративов было принято решение использовать метод кластерного анализа без учителя (k-средних) в связи с тем, что:
• кластерный анализ не требует априорных предположений о наборе данных т.е. не нужна обучающая выборка;