Научная статья на тему 'Сокращение признакового пространства в анализе множественной лекарственной устойчивости возбудителя у больных туберкулезом легких'

Сокращение признакового пространства в анализе множественной лекарственной устойчивости возбудителя у больных туберкулезом легких Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
55
11
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИАГНОСТИКА ТУБЕРКУЛЕЗА ЛЕГКИХ / DIAGNOSTICS OF PULMONARY TUBERCULOSIS / МНОЖЕСТВЕННАЯ ЛЕКАРСТВЕННАЯ УСТОЙЧИВОСТЬ МИКОБАКТЕРИЙ / MULTIPLE DRUG RESISTANCE OF MYCOBACTERIA / СОКРАЩЕНИЕ ПРИЗНАКОВОГО ПРОСТРАНСТВА / REDUCTION OF THE FEATURES SPACE / МЕТОД КУЛЬБАКА / KULBAK METHOD / ROC-АНАЛИЗ / ROC ANALYSIS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Виноградов К.А., Быкова В.В., Наркевич А.Н., Катаева А.В.

В диагностике и лечении туберкулеза легких существенным является раннее выявление наличия множественной лекарственной устойчивости микобактерий к основным противотуберкулезным препаратам. Использование математических методов и информационных технологий на начальном этапе способствует эффективному решению этой медицинской проблемы, благодаря исключению из множества рассматриваемых признаков (показателей состояния здоровья пациента) тех признаков, которые не являются информативными. Для оценки информативности признаков в анализе множественной лекарственной устойчивости используется метод Кульбака. Отбор признаков осуществляется на основе отсортированного (по информативности) списка признаков путем оценки качества классификации, выполняемой с помощью ROCанализа. Выполненные исследования показали, что отобранные предложенным алгоритмом шесть признаков (из 26 рассматриваемых) позволяют с высокой вероятностью выделить пациентов, микобактерии у которых не обладают множественной лекарственной устойчивостью, что создает необходимые условия для их адекватного лечения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Виноградов К.А., Быкова В.В., Наркевич А.Н., Катаева А.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Reduction of the features space when processing multiple drug resistance of mycobacteriain patients with pulmonary tuberculosis

Early detection of the presence of multiple drug resistance of mycobacteria to essential antituberculosis drugs is relevant in the diagnosis and treatment of pulmonary tuberculosis. Mathematical methods and information techno ogies can help solving this medical problem by excluding those not informative features from the set of features (indicators of the patient's health status). The Kulbak method is used for assessment of informative features of the multiple drug resistance. The selection of features is made by the sorted (by informativeness) list of features through evaluating the quality of classification performed by ROC analysis. The performed researches showed that 6 features selected from the suggested method (out of 26 considered) allow to select patients with high probability of not having multiple drug resistance, which creates conditions for their adequate treatment.

Текст научной работы на тему «Сокращение признакового пространства в анализе множественной лекарственной устойчивости возбудителя у больных туберкулезом легких»

и информационные

технологии

К.А. ВИНОГРАДОВ,

д.м.н., профессор, заведующий кафедрой медицинской кибернетики и информатики, Красноярский государственный медицинский университет им. проф. В.Ф. Войно-Ясенецкого,

г. Красноярск, vinogradov16@yandex.ru В.В. БЫКОВА,

д.ф.- м.н., доцент, профессор кафедры высшей и прикладной математики, Сибирский федеральный университет, г. Красноярск, bykvalen@mail.ru А.Н. НАРКЕВИЧ,

к.м.н., заведующий научно-исследовательской лабораторией медицинской кибернетики и управления в здравоохранении, Красноярский государственный медицинский университет им. проф. В.Ф. Войно-Ясенецкого, г. Красноярск, narkevichart@gmail.com А.В. КАТАЕВА,

инженер-программист отдела АСУ, Краевая клиническая больница, г. Красноярск, alisite@mail.ru

СОКРАЩЕНИЕ ПРИЗНАКОВОГО ПРОСТРАНСТВА В АНАЛИЗЕ МНОЖЕСТВЕННОЙ ЛЕКАРСТВЕННОЙ УСТОЙЧИВОСТИ ВОЗБУДИТЕЛЯ У БОЛЬНЫХ ТУБЕРКУЛЕЗОМ ЛЕГКИХ

УДК 004.891:61

Виноградов К.А., Быкова В.В., Наркевич А.Н, Катаева А.В. Сокращение признакового пространства в анализе множественной лекарственной устойчивости возбудителя у больных туберкулезом легких (Красноярский государственный медицинский университет им. проф. В.Ф. Войно-Ясенецкого, г. Красноярск; Сибирский федеральный университет, г. Красноярск; Краевая клиническая больница, г. Красноярск)

Аннотация. В диагностике и лечении туберкулеза легких существенным является раннее выявление наличия множественной лекарственной устойчивости микобактерий к основным противотуберкулезным препаратам. Использование математических методов и информационных технологий на начальном этапе способствует эффективному решению этой медицинской проблемы, благодаря исключению из множества рассматриваемых признаков (показателей состояния здоровья пациента) тех признаков, которые не являются информативными. Для оценки информативности признаков в анализе множественной лекарственной устойчивости используется метод Кульбака. Отбор признаков осуществляется на основе отсортированного (по информативности) списка признаков путем оценки качества классификации, выполняемой с помощью ROC-анализа. Выполненные исследования показали, что отобранные предложенным алгоритмом шесть признаков (из 26 рассматриваемых) позволяют с высокой вероятностью выделить пациентов, микобактерии у которых не обладают множественной лекарственной устойчивостью, что создает необходимые условия для их адекватного лечения.

Ключевые слова: диагностика туберкулеза легких, множественная лекарственная устойчивость микобактерий, сокращение признакового пространства, метод Кульбака, ROC-анализ.

UDC 004.891:61

Vinogradov K.A., Bykova V.V, Narkevich A.N., Kataeva A.V. Reduction of the features space when processing multiple drug resistance of mycobacteria in patients with pulmonary tuberculosis (Krasnoyarsk State Medical University, Krasnoyarsk, Russia; Siberian Federal University, Krasnoyarsk, Russia; Regional Clinical Hospital, Krasnoyarsk, Russia)

Abstract. Early detection of the presence of multiple drug resistance of mycobacteria to essential antituberculosis drugs is relevant in the diagnosis and treatment of pulmonary tuberculosis. Mathematical methods and information technol-

© К.А. Виноградов, В.В. Быкова, А.Н. Наркевич, А.В. Катаева, 2018 г.

2018, № 2

"f

ogies can help solving this medical problem by excluding those not informative features from the set of features (indicators of the patient's health status). The Kulbak method is used for assessment of informative features of the multiple drug resistance. The selection of features is made by the sorted (by informativeness) list of features through evaluating the quality of classification performed by ROC analysis. The performed researches showed that 6 features selected from the suggested method (out of 26 considered) allow to select patients with high probability of not having multiple drug resistance, which creates conditions for their adequate treatment.

Keywords: diagnostics of pulmonary tuberculosis, multiple drug resistance of mycobacteria, reduction of the features space, Kulbak method, ROC analysis.

ВВЕДЕНИЕ

Современные медицинские информационные системы позволяют накапливать и хранить огромное множество медицинских данных. Из этих данных возможно извлечение знаний для дальнейшего их использования в системах принятия решений при диагностике заболеваний. Такие системы должны обладать простотой сбора данных и однозначностью интерпретации результатов, помогать врачам своевременно и точно определять диагноз пациента [1]. В диагностике и лечении туберкулеза легких существенным является раннее определение наличия множественной лекарственной устойчивости микобактерий к противотуберкулезным препаратам.

Множественная лекарственная устойчивость (МЛУ) - устойчивость микобактерий, вызывающих туберкулез легких, к двум основным противотуберкулезным препаратам, таким как изониазид и рифампицин, вне зависимости от наличия устойчивости к другим противотуберкулезным препаратам [2]. В настоящее время для решения данной медицинской проблемы стандартными диагностическими средствами затрачивается от 20 до 90 дней с момента выявления заболевания, что ведет к существенному снижению эффективности лечения на начальных этапах [3, 4]. Это объясняется тем, что лечение пациенту назначается вслепую еще до получения результатов исследования наличия МЛУ возбудителя туберкулеза. Только после получения результатов данного исследования лечение корректируется и препараты, к которым ми-кобактерии туберкулеза имеют устойчивость,

заменяются препаратами, к которым у возбудителя сохранена чувствительность.

Использование математических методов и информационных технологий на начальном этапе позволяет повысить эффективность диагностики МЛУ, благодаря исключению неинформативных (с точки зрения верной диагностики) признаков [5, 6, 11].

Целью исследования явилась разработка алгоритма, определяющего методику отбора наиболее информативных признаков при выявлении наличия МЛУ микобактерий к основным противотуберкулезным препаратам, а также создание программных средств, позволяющих использовать данную методику в медицинской практике.

МЕТОДЫ

Признаком принято называть некоторый показатель или определенную характеристику объекта произвольной природы. Система признаков рассматриваемого множества объектов образует признаковое пространство, а совокупность значений признаков отдельного объекта определяет признаковое описание этого объекта [6]. Различают несколько типов признаков. Количественные (числовые) признаки - это признаки, значения которых можно измерить в некоторой числовой шкале. Качественные (порядковые, балльные) признаки измеряются в порядковых шкалах и применяются для выражения терминов и понятий, не имеющих числового выражения (например, тяжесть заболевания). Номинальные признаки - это признаки, определяемые шкалой наименований (например, группа крови, пол).

>

49 S

и информационные

технологии

При анализе таких признаков часто каждую отметку номинальной шкалы считают отдельным признаком, принимающим одно из двух значений 1 («да») или 0 («нет»). Присвоение числовых значений качественным и номинальным признакам в анализе данных принято называть шкалированием [7]. После шкалирования к качественным и номинальным признакам возможно применение различных методов численного анализа, включая статистические методы.

В медицинской диагностике в роли объектов выступают пациенты, а в качестве признаков - показатели их состояния здоровья. Признаковое описание пациента является, по сути, формализованной историей болезни пациента и может включать в себя значения несколько десятков признаков, многие из которых могут оказаться неинформативными с точки зрения решаемой диагностической задачи. Одна и та же система признаков может быть информативной для решения одной диагностической задачи и неинформативной для другой [5].

В анализе МЛУ микобактерий к основным противотуберкулезным препаратам приходится иметь дело с высокоразмерными данными. Традиционно рассматривают 26 признаков, которые перечислены во втором столбце таблицы 1 [3]. Каждый из этих признаков имеет отчетливую трактовку (интерпретацию), указанную в третьем столбце этой таблицы. Большинству признаков из таблицы 1 присущ номинальный тип. Признаковое описание всякого пациента, исследуемого на МЛУ, включает значения всех этих показателей.

На языке математики задача отбора признаков формулируется следующим образом. Пусть задана выборка А, характеризующая некоторую группу пациентов через множество признаков X = (хг х2, ..., хДля всякого пациента а е А известно его признаковое описание {хг(а), х2(а), ..., хп(а)} - п-мерный вектор, /-я координата которого равна

значению /-го признака. Совокупность признаковых описаний всех пациентов из А представлено матрицей размера \А\ х п, где \А\ — число пациентов, включенных в выборку А. Пусть 1(Х) - некоторая мера информативности подмножества признаков X с X, определенная относительно А. Требуется среди всех 2П различных подмножеств множества X выбрать подмножество X* с X с максимальной мерой информативности:

I(Z*) = maxZ ^ X {I(Z)}.

(1)

В теории машинного обучения данная задача называется FEATURES SELECTION (селекция признаков) [7]. Задача FEATURES SELECTION носит переборный характер и имеет высокую вычислительную сложность. Последнее означает, что время нахождения оптимального решения данной задачи при большом числе признаков в X может быть очень велико, поскольку процесс его нахождения включает в себя генерацию всех подмножеств Z сX, оценивание их информативности с помощью меры I(Z) и выбор наиболее информативного подмножества Z* согласно критерию (1) [7, 9]. Поэтому на практике довольствуются приближенными (близкими к оптимальным) решениями задачи FEATURES SELECTION. Такие решения могут быть найдены методами факторного анализа и экстремальной группировки признаков [8].

Наиболее известным представителем факторного анализа является метод главных компонент, суть которого состоит в рассмотрении всех возможных линейных комбинаций признаков из X и конструировании меньшего по мощности множества Z с X с информативностью, равнозначной информативности множества признаков X в целом. В методе экстремальной группировки вначале для X вычисляется корреляционная матрица, затем множество X разбивается на группы так, чтобы внутри одной группы признаки были сильно скоррелированы, а между группами наблюдалась бы относительно слабая корреляция.

Математическое моделирование www.idmz.ru .

2018, № 2 ^

■ ■■

F4H

Таблица 1

Множество признаков, анализируемых при диагностике МЛУ

№ Наименование признака Описание признака Типпризнака

1 Населенный пункт Населенный пункт - место проживания Номинальный

2 Район Район проживания пациента Номинальный

3 Должность Должность, занимаемая пациентом Номинальный

4 Место работы Место работы пациента Номинальный

5 Первое сопутствующее заболевание Наличие первого сопутствующего заболевания Номинальный

6 Первое осложнение Наличие осложнения Номинальный

7 Возраст Возраст пациента Числовой

8 Место жительства Местность проживания пациента Номинальный

9 Сроки ПФЛГО Время с момента предыдущего проверочного флюорографического обследования Качественный

10 Вторая форма Наличие дополнительно внелегочной формы туберкулезного процесса Номинальный

11 Объем поражения Объем поражения легочной ткани Качественный

12 Форма Клиническая форма туберкулеза Номинальный

13 Второе сопутствующее заболевание Наличие второго сопутствующего заболевания Номинальный

14 ДТЛ Наличие тотального поражения легких Номинальный

15 Пол Пол пациента Номинальный

16 Статус Социальный статус пациента Номинальный

17 Возрастная группа Возрастная группа пациента Качественные

18 Рассасывание Наличие туберкулезного процесса в фазе рассасывания Номинальный

19 Инфильтрация Наличие туберкулезного процесса в фазе инфильтрации Номинальный

20 Второе осложнение Наличие второго осложнения туберкулезного процесса Номинальный

21 Третье осложнение Наличие третьего осложнения туберкулезного процесса Номинальный

22 Третья форма Наличие дополнительно внелегочной формы туберкулезного процесса Номинальный

23 Распад Наличие туберкулезного процесса в фазе распада Номинальный

24 Обсеменение Наличие туберкулезного процесса в фазе обсеменения возбудителя по бронхам Номинальный

25 Уплотнение Наличие туберкулезного процесса в фазе уплотнения Номинальный

26 Путь выявления Путь, по которому у пациента был выявлен туберкулез легких Номинальный

Далее осуществляется замена каждой группы одним равнодействующим признаком. Основная особенность приведенных методов - это возникновение новых признаков, ассоциированных с определенными подмножествами исходного множества признаков X. Сложность, а порой невозможность интерпретации этих

признаков - основная трудность использования данных методов в анализе медицинских данных.

Приближенное решение задачи FEATURES SELECTION можно также находить путем последовательного удаления (elimination) из X наименее информативных признаков.

и информационные

технологии

В результате такого отбора оставшееся множество признаков является представительным с точки зрения информативности и легко интерпретируется, поскольку каждый отдельный признак имеет отчетливую трактовку. Условием окончания процесса удаления признаков может служить качество классификации, оценка которого выполняется на основе заданных обучающих выборок. Именно такой алгоритм решения задачи FEATURES SELECTION, названный нами алгоритмом ELIMINATION, использован для отбора наиболее информативных признаков при выявлении наличия МЛУ микобактерий к основным противотуберкулезным препаратам. Применение алгоритма ELIMINATION в анализе МЛУ позволяет быстро осуществлять отбор наиболее значимых признаков без потери интерпретации исход -ных признаков.

Алгоритм ELIMINATION основан на известных в анализе данных математических методах. Исходными данными алгоритма ELIMINATION являются: множество признаков X = {хр х2, ..., х} и две обучающие выборки А1 и А2, соответствующие двум различным классам пациентов, разделенным по некоторому целевому признаку. В анализе МЛУ целевой признак разделяет пациентов на два класса: пациенты, для которых «нет МЛУ», и пациенты, для которых «имеет место МЛУ».

Алгоритм ELIMINATION сводится к выполнению следующих действий (рис. 1). Вначале в алгоритме ELIMINATION производится расчет информативности каждого признака из X. Далее признаки сортируются в порядке убывания значения меры информативности и записываются в список Z. Затем из отсортированного списка Z последовательно снизу вверх удаляются наименее информативные признаки (на каждом шаге по одному признаку). На основе оставшихся признаков осуществляется бинарная классификация тестового пациента a из выборки А и А2, полученной объединением А и А2. Какой именно

Шаг 1. Расчет информативности каждого признака из X по методу Кульбака

Шаг 2. Сортировка списка X в порядке убывания значений информативности признаков. Запись списка в Ъ

Шаг 3. Исключение из Z признака с самой низкой информативностью

Шаг 4. Формирование тестовых пациентов методом «скользящего окна»

f \

Шаг 5. Определение класса

для каждого тестового пациента

методом ближайшего соседа

V /

Шаг 6. Вычисление показателей ROC - анализа для оценки качества классификации по всем тестовым пациентам

Шаг 7. Процент истинно положительных случаев:

больше или равно ^пороговому значению?.

Да

Нет

Конец алгоритма ELIMINATION

Рис. J. Схема работы алгоритма отбора информативных признаков

пациент a подлежит классификации, устанавливается методом «скользящего окна». После того как протестированы все пациенты из А и А , вычисляются показатели ROC-анализа для оценки качества выполненной классификации. Если показатели ROC-анализа демонстрируют приемлемое качество классификации, то работа алгоритма ELIMINATION завершается. В противном случае из Z исключается следующий признак, при этом ранее удаленные признаки не возвращаются в Z.

Приведем обоснование шагов алгоритма ELIMINATION.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Шаг 1. Для оценки информативности признаков могут применяться различные статистические методы: метод накопленных частот, метод Шеннона и метод Кульбака [9]. Преимущество данных методов перед другими заключается в простоте вычисления и хорошей интерпретации меры информативности признаков. В анализе медицинских данных выборки А и А2 чаще всего включают в себя разное количество пациентов, а исследуемые признаки могут содержать значения разных типов. Для таких исходных данных наиболее подходящим является метод Кульбака.

Этот метод позволяет оценить степень различия двух заданных выборок А и А2, соответствующих различным классам пациентов, на основе меры информативности I(x) признака x е X, определяемой следующей формулой [6, 9]:

1 (x) = Z(Pi 1 - Pi 2)' lo§2 p1.

i = 1

Pi2

(2)

В формуле (2) величина д - количество различных значений (градаций) признака х, а величина р.к - вероятность равенства значений х и /-ой градации. Считается, что чем выше значение меры информативности Кульбака 1(х), тем лучше по признаку х е X различаются обучающие выборки А1, А2 и более информативным считается этот признак.

2018, № 2

Шаг 2. Сортировка признаков в порядке убывания вычисленных на шаге 1 значений информативности может быть выполнена любым известным методом сортировки, работающим с числовыми значениями. В алгоритме ELIMINATION сортировка выполняется методом «плавающего пузырька».

Шаг 3. После того, как множество признаков X отсортировано в порядке убывания значений информативности отдельных признаков и оформлено в виде списка Z, последовательно (снизу вверх) из Z исключаются признаки с низкой информативностью. Считается, что если признак является малоинформативным, то он слабо влияет на качество классификации, т.е. на правильность распознавания классов принадлежности для тестовых пациентов.

Шаг 4. Выбор тестового пациента a выполняется методом «скользящего окна». Суть этого метода заключается в следующем [7]. Пациент a последовательно выбирается из множества А и А2 и исключается из него, при этом предполагается, что неизвестен класс, из которого он выбран. Далее с помощью классификационного алгоритма выполняется определение этого класса.

Шаг 5. Существует большое количество методов классификации, обладающих различной сложностью и эффективностью [10]. При выборе метода классификации обычно учитывается тип данных, для которого применяется данный алгоритм. В анализе медицинских данных приходится иметь дело с разнотипными признаками. Если какие-либо признаки из X не являются числовыми или их значения не могут быть упорядочены, то в этом случае целесообразно применение простейшего метода бинарной классификации — метода ближайшего соседа, реализация которого заключается в следующем [9, 10]. Задается некоторая переменная, которая принимает значение 1, если значение признака x е X, присущее пациенту а, совпадает со

>

и информационные

технологии

значением этого признака для другого пациента, входящего в выборку А или А2. Решение о том, к какому классу (первому или второму) отнести пациента а, принимается простым голосованием. В случае если число голосов (совпадений), полученных для первого класса, превышает числа голосов для второго класса, то пациент a относится к первому классу или наоборот. При одинаковом количестве голосов происходит отказ от классификации, который свидетельствует о невозможности однозначно определить класс принадлежности пациента а. Заметим, что распознавание класса принадлежности пациента a вначале осуществляется голосованием по каждому отдельному признаку, а затем по всем признакам X в целом.

Шаг 6. После того, как протестированы все пациенты из А и А2, выполняется оценка качества выполненной классификации. Оценка качества классификации обычно осуществляется через показатели ROC-анализа, отражающие проценты верного распознавания класса, ошибочного указания класса и отказов от классификации [12]. Исследованию подлежат:

- истинно (верно классифицированные) положительные случаи;

- истинно (верно классифицированные) отрицательные случаи;

- ложноотрицательные случаи, когда положительные случаи классифицируются как отрицательные - так называемый «ложный пропуск» или ошибка I рода;

- ложноположительные случаи, когда отрицательные случаи классифицируются как положительные - так называемое «ложное обнаружение» или ошибка II рода.

Что является положительным случаем, а что отрицательным, зависит от решаемой диагностической задачи. Так, в нашем анализе МЛУ положительный случай - это «нет МЛУ», отрицательный - «имеет место МЛУ».

Процент истинно положительных случаев (True Positives Rate) определяется формулой:

TPR = 100% х TP/ (TP + FN),

(3)

где TP (True Positives) - число истинно положительных случаев, FN (False Negatives) - число ложноотрицательных случаев.

Шаг 7. Значение TPR применяется в алгоритме ELIMINATION в качестве критерия остановки алгоритма: если значение TPR больше или равно заданному пороговому значению, то дальнейшее исключение признаков нецелесообразно, и работа алгоритма ELIMINATION завершается, в противном случае удаление признаков продолжается.

Для оценки качества классификации в алгоритме ELIMINATION используются процент отказов от классификации, чувствительность и специфичность. Процент отказов R определяется формулой:

R = 100% х r / \А1 и

(4)

где г - количество отказов от классификации; \А1 и А2\ - общее число тестовых пациентов, для которых была произведена классификация. Чувствительность совпадает с ТРЯ и отражает процент истинно положительных случаев:

БЕ = ТРЯ = 100% х ТР / (ТР + Щ. (5)

Специфичность показывает процент истинно отрицательных случаев, которые были правильно распознаны:

SP = 100% XTN / (TN + FP),

(6)

где TN (True Negative) - число истинно отрицательных случаев, FP (False Positivé) - число ложноположительных случаев. Чем выше значения чувствительности и специфичности, тем лучше качество классификации. Кроме того показатель чувствительности важен в гипердиагностике, например, в максимальном предотвращении пропуска МЛУ.

■ ■■

F4H

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

С помощью алгоритма ELIMINATION исследовались две обучающие выборки A и A , где A - список пациентов, у которых были выделены микобактерии туберкулеза без МЛУ (всего 335 человек), A - список пациентов,

2018, № 2

у которых были выделены микобактерии туберкулеза, обладающие МЛУ (всего 445 человек). Выборки А и А2 были сформированы из всех впервые выявленных больных туберкулезом легких, проходивших стационарное лечение в Красноярском краевом противотуберкулезном диспансере № 1 за период 2008-2012 гг.

Таблица 2 Отсортированный список признаков для МЛУ

Таблица 3 Значения основных показателей ROC-анализа для МЛУ

Номер Наименование Информа-

признака признака / К! D Г1 1 D признака

1 Населенный пункт 0,7863

2 Район 0,3185

3 Должность 0,2533

4 Место работы 0,2076

5 Первое сопутствующее заболевание 0,0776

6 Первое осложнение 0,062

7 Возраст 0,0588

8 Место жительства 0,0496

9 Сроки ПФЛГО 0,0366

10 Вторая форма 0,0328

11 Объем поражения 0,0327

12 Форма 0,0322

13 Второе сопутствующее заболевание 0,0274

14 ДТЛ 0,0142

15 Пол 0,0127

16 Статус 0,0124

17 Возрастные группы 0,0117

18 Рассасывание 0,0109

19 Инфильтрация 0,0084

20 Второе осложнение 0,0083

21 Третье осложнение 0,006

22 Третья форма 0,0056

23 Распад 0,0046

24 Обсеменения 0,0026

25 Уплотнения 0,0023

26 Путь выявления 0,0004

Номера R SE SP

признаков, используемых при классификации Процент отказов от классификации Чувствительность, % Специфичность, %

1 0,00 0 100

1-2 28,11 0 100

1-3 0,51 21 92

1-4 20,80 21 96

1-5 3,59 29 90

1-6 14,89 38 95

1-7 3,72 25 98

1-8 7,19 12 100

1-9 1,80 11 100

1-10 3,85 2 100

1-11 0,26 2 100

1-12 0,51 0 100

1-13 0,26 0 100

1-14 0,26 0 100

1-15 0,00 0 100

11-6 0,00 0 100

1-17 0,00 0 100

1-18 0,00 0 100

1-19 0,00 0 100

1-20 0,00 0 100

1-21 0,00 0 100

1-22 0,00 0 100

1-23 0,00 0 100

1-24 0,00 0 100

1-25 0,00 0 100

1-26 0,00 0 100

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

>

и информационные

технологии

Эти выборки включали в себя признаковые описания пациентов через множество признаков из таблицы 7. Для всех признаков из таблицы 7 была вычислена мера информативности по методу Кульбака относительно обучающих выборок А1 и А . Затем признаки были отсортированы в порядке убывания значения меры информативности. Отсортированный список признаков с указанием их информативности по Кульбаку представлен в таблице 2.

Были выполнены вычисления показателей ROC-анализа по формулам (3)-(6). Результаты этих вычислений представлены в таблице 3.

Из таблиц 2 и 3 следует, что наиболее информативными (способствующими верной классификации на «нет МЛУ» и «имеет место МЛУ») являются признаки с номерами от 1 до 6. Признаки с номерами 7-26 имеют малую информативность. Максимум значений чувствительности и специфичности достигается при использовании первых шести признаков. При этом чувствительность равна 38%, а специфичность равна 95%. Это означает, что при анализе первых шести признаков для 38% пациентов верно выявляется отсутствие МЛУ, а для 95% пациентов верно устанавливается наличие МЛУ. Если анализ МЛУ осуществлять

с учетом большего числа признаков, то значение чувствительности становится равным нулю при стопроцентной специфичности, т.е. верно классифицируются только отрицательные случаи. Такие же показатели качества классификации получаются при отборе слишком малого числа признаков. Необходимо отметить, что результаты работы алгоритма ELIMINATION носят рекомендательный характер.

Все приведенные выше результаты вычислений были получены с помощью разработанной программы, реализующей алгоритм ELIMINATION на языке программирования С++ в среде Embarcadero RAD Studio XE8. Программа имеет удобный пользовательский интерфейс, который ориентирован на медицинских работников, не имеющих профессиональной подготовки в области IT-технологий. Вид интерфейса представлен на рис. 2.

ЗАКЛЮЧЕНИЕ

Для эффективного решения проблемы анализа МЛУ в статье предложены алгоритм ELIMINATION и программа, позволяющие выполнять отбор наиболее информативных признаков. Их применение к базе данных больных туберкулезом легких, проходивших

Рис. 2. Интерфейс программы отбора признаков в анализе МЛУ

2018, № 2

стационарное лечение в Красноярском краевом противотуберкулезном диспансере № 1 за 2008-2012 годы, показало, что при выявлении наличия МЛУ микобактерий к основным противотуберкулезным препаратам можно ограничиваться лишь шестью признаками из 26 традиционно рассматриваемых. Эти признаки позволяют с высокой вероятностью выделить пациентов, не обладающих МЛУ, что создает благоприятные условия для их адекватного лечения.

Алгоритм ELIMINATION является эффективным по времени выполнения, что создает возможность его применения для оперативного прогноза наличия МЛУ для вновь

поступающих пациентов, а также корректировки отобранных ранее признаков в случае пополнения базы данных пациентов.

Предложенные алгоритмические и программные средства могут быть использованы для сокращения признакового пространства не только в анализе МЛУ, но и при решении подобных диагностических задач. Сокращение совокупности анализируемых признаков возможно без потери качества принимаемых решений с достаточно высокой вероятностью правильного прогноза. Если в качестве признаков выступают диагностические обследования, то сокращение признакового пространства может сократить затраты на диагностику.

ЛИТЕРАТУРА

1. Гусев А.В., Зарубина Т.В. Поддержка принятия врачебных решений в медицинских информационных системах медицинской организации. Врач и информационные технологии. -2017. - (2): 60-72.

2. Приказ Министерства здравоохранения Российской Федерации 21.03.2003 г. № 109 «О совершенствовании противотуберкулезных мероприятий в Российской Федерации». URL: http://docs.cntd.ru/document/901868614. (Дата обращения: 01.12. 2017).

3. Кононец А.С., Хорошилова Н.Е., Голубева Л.И. Туберкулез легких с множественной лекарственной устойчивостью возбудителя к основным и резервным препаратам. Эпидемиология и инфекционные болезни. - 2010. - (1): 24-9.

4. Самойлова А. Г., Васильева И.А., Иванов А. К., Галкин В. Б., Марьяндышев А. О., Яблонский П.К. Эффективность стандартных режимов химиотерапии туберкулеза в зависимости от лекарственной чувствительности возбудителя. Туберкулез и болезни легких. - 2012. - (8): 23-9.

5. Кривенко М.П. Критерии значимости отбора признаков классификации. Информатика и её применение. - 2016. - 10(3): 32-40.

6. Колесникова С.И. Методы анализа информативности разнотипных признаков. Вестник Том. гос. ун-та. Управление, вычислительная техника и информатика. - 2009. - 1(6): 69-80.

7. Воронов К.В. Машинное обучение: курс лекций. 2010. URL: http://www.machinelearning. ru. (Дата обращения: 01.12. 2017).

8. Ким Д.О., Мьюллер Ч.У., Клекка У.Р. Факторный, дискриминантный и кластерный анализ. М.: Финансы и статистика; 1989.

9. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: ИМ СО РАН; 1999.

10. Журавлев Ю.И., Рязанов В.В., Сенько О.В. Распознавание. Математические методы. Программная система. Практические применения. М.: Фазис; 2006.

11. Yu L., Liu H. Efficient feature selection via analysis of relevance and redundancy. J. Machine learning research. - 2004. - 5: 1205-24.

12. Fawcett T. ROC Graphs: Notes and Practical Considerations for Researcher. Kluwer Acad. Publ; 2004.

i Надоели баннеры? Вы всегда можете отключить рекламу.