Научная статья на тему 'Оценка эффективности диагностических моделей в медицине'

Оценка эффективности диагностических моделей в медицине Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
537
74
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕДИЦИНА / MEDICINE / ДИАГНОСТИЧЕСКАЯ МОДЕЛЬ / DIAGNOSTIC MODEL / ОЦЕНКА ЭФФЕКТИВНОСТИ / ESTIMATION TO EFFICIENCY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дюк Вячеслав Анатольевич, Кончаков Андрей Анатольевич

Рассматривается специфика медицинских данных, описываются современные подходы интеллектуального анализа данных (Data Mining) для построения диагностических моделей. Дается характеристика известным способам оценки эффективности диагностических моделей и предлагается новая оценка этих моделей, отражающая тезис о необходимости точных моделей в задачах медицинской диагностики.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Performance metrics for diagnostic models in medicine

T is considered specifics medical data, are described modern approaches of the intellectual analysis given (Data Mining) for building of the diagnostic models. It is given feature known way estimations to efficiency of the diagnostic models and is offered new estimation of these models, reflecting thesis about need of the exact models in problem of the medical diagnostics.

Текст научной работы на тему «Оценка эффективности диагностических моделей в медицине»

| Литература |

1. Рудницкий С. Б., Жвалевский О. В. Биометрический комплекс для инструментальной оценки психосоматического статуса человека // Тр. СПИИРАН. Вып. 8. СПб.: Наука, 2009. С. 61-77.

2. Бабич О. А. Обработка информации в навигационных системах. М.: Машиностроение, 1991. 511 с.

3. Предварительные результаты обработки разнотипных биометрических данных методами Data Mining / С. Б. Рудницкий, В. А. Дюк, О. В. Жвалевский, Д. А. Толс-тоногов // Тр. СПИИРАН. Вып. 9. СПб.: Наука, 2009. С. 197-210.

4. Вассерман Е. Л., Карташев Н. К. Поиск признаков изменения эмоционального состояния человека методом анализа фрактальной динамики его электроэнцефалограммы // XI Санкт-Петербургская междунар. конф. «Региональная

информатика — 2008» (РИ-2008). Санкт-Петербург, 22-24 окт. 2008 г.: тр. конф. СПб.: СПОИСУ, 2009. С. 272-275.

5. Вассерман Е. Л., Карташев Н. К., Полонников Р. И. Фрактальная динамика электрической активности мозга. СПб.: Наука, 2004. 208 с.

6. Wasserman E., Kartashev N. Dichotic listening: computer implementation, methodical problems, and modeling prospects // The Third International Conference «Problems of Cybernetics and Informatics» (PCI'2010). Sept. 6-9. 2010. Baku, Azerbaijan. Vol. 1. Baku: Elm. 2010. P. 106-109.

7. Вассерман Е. Л., Карташев Н. К. Разработка устройства для полиграфических исследований с регистрацией физиологических параметров и синхронным сбором информации внешними устройствами // XII Санкт-Петербургская междунар. конф. «Региональная информатика (РИ-2010)», Санкт-Петербург, 20-22 окт. 2010 г.: тр. конф. СПб.: СПОИСУ, 2011. С. 266-268.

УДК 519.6

В. А. Дюк, д-р техн. наук, А. А. Кончаков, д-р техн. наук,

Санкт-Петербургский институт информатики и автоматизации РАН

Оценка эффективности диагностических моделей в медицине

Ключевые слова: медицина, диагностическая модель, оценка эффективности. Key words: medicine, diagnostic model, estimation to efficiency.

Рассматривается специфика медицинских данных, описываются современные подходы интеллектуального анализа данных (Data Mining) для построения диагностических моделей. Дается характеристика известным способам оценки эффективности диагностических моделей и предлагается новая оценка этих моделей, отражающая тезис о необходимости точных моделей в задачах медицинской диагностики.

1. Системная сложность объектов медицины

Медицина, как и многие другие науки, опирается в своем развитии на эмпирические данные, их анализ и обобщение. Информационный прорыв в медицине начался с середины двадцатого века, когда технические средства стали предоставлять исследователям всевозрастающий поток данных об объектах исследования. В конце прошлого века в связи со стремительным совершенствованием ми-

кроэлектроники и компьютерной техники этот поток стал подобен лавине.

Рост потока информации поставил много новых и дополнительных вопросов о методах ее обработки. С позиций специалистов по прикладной статистике в задачах исследования живых систем, как в фокусе, оказались сконцентрированы практически все проблемы анализа данных. При решении задачи поиска взаимосвязи комплекса измерений с целевыми переменными (диагностическими или прогностическими) обращает на себя внимание ряд особенностей анализируемых данных [1]:

— высокая размерность данных;

— разнотипность данных;

— неопределенность исходного описания;

— нечеткость внешних критериев;

— большое количество «шумящих» и дублирующих признаков;

— неоднородность классов объектов;

— пропущенные значения;

— резко отклоняющиеся значения (выбросы);

— количество признаков может значительно превышать число объектов;

78

Биомедицинская информатика

— общая и структурная асимметрия классов объектов исследований;

— наличие русел и джокеров разной, заранее не известной структуры с неизвестной локализацией.

Особо отметим современную концепцию «русел и джокеров», которая зародилась в среде специалистов по синергетике и определяет особенности построения моделей для объектов со сложной системной организацией [2]. Применительно к задачам анализа данных русла представляют собой подпространства общего пространства описания объектов, в которых можно построить модели, с высокой точностью отражающие устойчивые взаимосвязи в данных. Джокеры — области пространства описания, где вероятны неожиданности и следует полагаться на случай. Поиск русел и джокеров связан с огромным перебором в исходном пространстве описания возможных подпространств и моделей.

Описанная специфика медицинских данных определила отнесение задачи разработки и развития методов анализа таких данных к разряду важнейшего условия решения фундаментальных проблем медицины.

Поиск, описание и структурирование закономерностей в данных о системно-сложных объектах требуют особых математических подходов, а также критериев оценки диагностических и прогностических моделей. Наиболее активно такие подходы в настоящее время развиваются в рамках направления, получившего название «Data Mining».

2. Интеллектуальный анализ данных (Data Mining)

К настоящему времени по теме Data Mining написаны десятки книг. Количество статей тоже весьма велико — в поисковике Google в период написания данной статьи на это словосочетание выдавалось примерно 28 500 000 ссылок. Кратко охарактеризуем основные аспекты этого обширного направления в анализе данных.

В связи с совершенствованием технических средств для получения, записи и хранения информации на специалистов обрушились колоссальные объемы разнородных данных. Вместе с тем традиционная математическая статистика оказалась не способной обеспечить продуктивное решение ряда актуальных задач из различных предметных областей (поиск закономерностей в многомерных данных, построение диагностических и прогностических моделей, выявление сложных непериодических паттернов в динамических рядах и др.). Одна из причин — концепция усреднения по выборке, приводящая к операциям над фиктивными величинами. Кроме того, практически отсутствуют аналитические критерии для оценки достоверности взаимосвязей и регулярностей в многомерных данных и др.

Направление Data Mining родилось как ответ на сложившуюся проблемную ситуацию. В настоящее

время термин «Data Mining» (раскопка данных) является синонимом появившегося в 1989 г. термина «обнаружение знаний в базах данных» (Knowledge Discovery in Databases — KDD). В русском языке область, очерченная вышеупомянутыми терминами, нередко обозначается словосочетанием «интеллектуальный анализ данных» (ИАД).

Исходное определение дал наш бывший соотечественник Григорий Пятецкий-Шапиро (G. Pia-tetsky Shapiro):

«Data mining — это процесс обнаружения в сырых данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности».

В настоящее время Data Mining существует в двух ипостасях. Ряд специалистов делает акцент на обработке сверхбольших объемов данных. Здесь предъявляются повышенные требования к быстродействию алгоритмов, естественно, в ущерб оптимальности результатов. Другая группа специалистов, к которой принадлежат авторы статьи, в контексте задач медицинской информатики концентрирует внимание на глубине раскопки данных и точности моделей, отражающих связи в данных. В понимании второй группы основные отличия технологии Data Mining следующие:

— Data Mining — это многомерные задачи — поиск связи между значением целевого показателя и набором значений группы других показателей базы данных;

— технология Data Mining способна обрабатывать разнородную информацию, т. е. поля могут быть представлены количественными, качественными и текстовыми переменными;

— технология Data Mining в отличие от традиционных статистических методов не претендует на поиск взаимосвязей, характерных для полного объема данных (всей выборки); ищутся правила, связывающие значения показателей, для подвы-борок данных (см. выше «русла» и «джокеры»); при этом правила всегда высокоточные, а не «размытые» по всей выборке, общие и неточные статистические тенденции;

— алгоритмы Data Mining производят поиск указанных выше подвыборок данных и точных взаимосвязей для этих подвыборок в автоматическом режиме.

Таким образом, ключевые слова Data Mining — точность, многомерность, разнотипность данных, автоматический поиск. Здесь, конечно, еще нужно добавить важное требование интерпретируемости получаемого результата, особенно актуальное для медико-биологических исследований.

Методы ИАД имеют много общего с методами решения задач классификации, прогнозирования, диагностики и распознавания образов. Но одной из главных отличительных черт этих методов, как отмечалось выше, является функция интерпретации закономерностей, кладущихся в основу правил

вхождения объектов в классы эквивалентности. Поэтому здесь большое распространение получили логические методы.

Другие методы ИАД для построения диагностических и прогностических моделей имеют менее прозрачную интерпретацию. Сюда относятся, например, байесовские классификаторы, дискриминантный анализ, нейросетевой подход, метод ближайших соседей, метод опорных векторов, генетические алгоритмы и др. Как показала практика последнего десятилетия, в ряде задач требование интерпретируемости результатов стало отступать на задний план. Акцент стал делаться на стабильности получаемых решений. На передний план начали выходить методы работы с комитетами, содержащими сотни и тысячи методов и алгоритмов. Как выяснилось, подобные комитеты (часто создаваемые с помощью процедур бустинга и бэггинга), состоящие даже из «слабых» алгоритмов, способны превосходить по точности изолированные «сильные» алгоритмы, нацеленные на поиск глубоких закономерностей в массивах данных. Эта тенденция современного ИАД нуждается в самостоятельном рассмотрении. Здесь наблюдается явное отступление от изначальных идеалов ИАД, связанных с попытками извлечения знаний из данных, а с не построением моделей в виде «черных ящиков».

В целом, как было отмечено выше, в области интеллектуального анализа данных за последнее десятилетие произошли существенные изменения. Слово «интеллектуальный» теперь, скорее, нужно воспринимать в контексте автоматического построения классифицирующих и прогнозирующих моделей. Поиск индивидуально сильных методов и алгоритмов для основной массы специалистов ИАД стал не столь привлекательным — их интересы сместились в сторону умений работать с большими коллективами «слабых» методов и алгоритмов.

Вместе с тем проблема построения «сильных» моделей, на наш взгляд, не потеряла своей актуальности. Очевидно, сильные модели более пригодны для интерпретации и объединяются в менее громоздкие коллективы для достижения эффективных результатов в задачах классификации и прогнозирования.

Обилие различных подходов, методов и алгоритмов апеллирует к вопросу о способах оценки их эффективности, которые, по-видимому, должны учитывать специфику конкретных предметных областей. Ниже мы рассмотрим различные оценки с позиций их адекватности задачам и системной сложности объектов медицинской диагностики.

3. Базовые оценки эффективности диагностических моделей

Задача диагностики заключается в разбиении множества объектов на классы. Мы будем рассма-

тривать случаи, когда количество классов равняется двум. Для удобства, так как рассматривается задача медицинскоИ диагностики, назовем эти классы «больные» и «здоровые».

Диагностическая модель, которая создается с применением различных математических методов, осуществляет отображение ф: X — Y , где X — множество описании объектов; Y — конечное множество номеров (имен, меток) классов. Диагностическая модель строится на обучающем (тренировочном) множестве объектов, и ее обобщающая способность оценивается на тестовом (контрольном) множестве с помощью известных процедур стратификации и различных вариантов перекрестной проверки [3, 4].

Часто исходная информация для оценки качества диагностическои модели представляется в виде четырехпольнои таблицы сопряженности (табл. 1). В этоИ таблице используются следующие обозначения:

— TP (True Positives) — верно классифицированные положительные примеры;

— TN (True Negatives) — верно классифицированные отрицательные примеры;

— FN (False Negatives) — положительные примеры, классифицированные как отрицательные (ошибка первого рода);

— FP (False Positives) — отрицательные примеры, классифицированные как положительные (ошибка второго рода).

Ошибки первого и второго рода являются взаимно симметричными. Если поменять местами классы, то ошибки первого рода превратятся в ошибки второго рода и наоборот. Тем не менее в контексте диагностики какого-либо заболевания наиболее часто используется вышеприведенная форма таблицы.

Для оценки эффективности диагностическои модели используются следующие показатели:

ошибка классификации

P =

FP + FN ; TP + TN + FP + FN ;

доля истинно положительных примеров в процентах (True Positives Rate)

TPR =

TP

TP + FN

100;

Таблица 1 Оценка проверки качества диагностической модели

Модель Фактически

Болен Здоров

Болен ТР (верно отнесен к классу «болен») FP (ошибка второго рода)

Здоров ЕЫ (ошибка первого рода) TN (верно отвергнута болезнь)

доля ложноположительных примеров в процентах (False Positives Rate)

FPR =

FP

TN + FP

100.

В медицине распространено применение оценок «чувствительности» и «специфичности»:

— чувствительность модели Se совпадает с TPR;

— специфичность модели Sp определяется как (100 - FPR).

Модель с высокой чувствительностью часто дает истинный результат при наличии заболевания. Наоборот, модель с высокой специфичностью чаще дает истинный результат при отсутствии заболевания. Таким образом, в медицине рассматриваемые показатели имеют следующую интерпретацию:

— чувствительный диагностический тест проявляется в гипердиагностике — максимальном предотвращении пропуска больных;

— специфичный диагностический тест диагностирует только доподлинно больных. Это важно в случае, когда, например, лечение больного связано с серьезными побочными эффектами и гипердиагностика пациентов нежелательна.

Более релевантной оценкой, учитывающей, в частности, встречающуюся асимметрию классов, является, например, значение среднего риска, при расчете которого учитываются стоимости ошибок FP и FN. Вместе с тем наибольшее распространение в настоящее время получили инвариантные к стоимости ошибок оценки, связанные с построением кривой ошибок.

Кривая ошибок или ROC-кривая (Receiver Operating Characteristic, ROC) — графическая характеристика качества бинарного классификатора, зависимость доли верных положительных классификаций от доли ложных положительных классификаций при варьировании порога решающего правила (рис.).

50

О &

*

а &

Н

А

S

А

100 -

80 -

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

60 -

40 -

20 -

Рис.

0 20 40 60 80 100 Доля ложноположительных примеров

Кривая ошибок

Представление о кривой ошибок предполагает, что диагностическая модель может быть представлена в виде суммы дискриминантной функции f(x, w) и порога W0, где w — вектор параметров, определяемый по обучающей выборке. При таком представлении изменение значения порога монотонно связано с изменением значений специфичности и чувствительности.

Чем круче кривая изгибается к верхнему левому углу, тем выше качество модели. Наоборот, чем ближе кривая к диагональной прямой, тем модель менее эффективна. Для идеального классификатора график ROC-кривой проходит через верхний левый угол, где доля истинно положительных случаев составляет 100 %, а доля ложноположительных примеров равна нулю. Диагональная линия соответствует полностью случайной классификации.

Распространенная количественная оценка ROC-кривой заключается в расчете площади под кривой AUC (Area Under Curve). Значение этой оценки может меняться от 0 до 1, но обычно говорят об изменениях от 0,5 («бесполезный» классификатор) до 1 («идеальная» модель).

С помощью кривой ошибок нередко решается задача нахождения оптимального порога отсечения (optimal cut-off value), значение которого влияет на соотношение чувствительности Se и специфичности Sp. Критерии для выбора порога отражают предпочтения такого соотношения.

4. Новые оценки качества диагностических моделей в медицине

Базовые оценки широко обсуждались и продолжают обсуждаться в научной литературе. Была предложена следующая экспертная шкала для значений АиС [5, 6] (табл. 2).

Первая верхняя строчка в табл. 2, по-видимому, интуитивно приемлема с позиций точности для многих задач медицинской диагностики. Вторая строчка в зависимости от формы кривой ошибок, возможно, тоже приемлема. Вместе с тем с положительными оценками качества модели в последующих строчках (кроме последней) вряд ли, на наш взгляд, можно согласиться.

Вероятностный подход полезен для описания массовых явлений, где каждый объект рассматривается как реализация некоторой случайной вели-

Таблица 2 1 Экспертная шкала для значений AUC

Интервал AUC Качество модели

0,9-1,0 Отличное

0,8-0,9 Очень хорошее

0,7-0,8 Хорошее

0,6-0,7 Среднее

0,5-0,6 Неудовлетворительное

0

чины и когда требуется отразить в модели общие статистические тенденции того или иного процесса, например эпидемиологического. Но, если объектом нашего внимания является конкретныИ человек со своеи индивидуальностью, то диагностика у него какого-либо заболевания с вероятностью, скажем, 0,7 — это, мягко говоря, очень «слабыИ» результат.

«Медицине нужны точные диагностические модели» — данныИ тезис является основанием для разработки и использования новых критериев оценки таких моделеИ.

Один из таких новых критериев основан на построении «концентрированноИ кривоИ ошибок» (concentrated ROC — CROC). CROC получают монотонным преобразованием, усиливающим начальныИ участок ROC-кривоИ, где у моделеИ относительно невысокиИ уровень ошибок. Например, в работе [7] предлагаются преобразования следующего вида:

f (x) =

1 - в-1 - в-

; f(x) = x1/(a+1); f(x) =

log(1 + ax) log(1 + a)

где a — параметр усиления.

Авторы [7] приводят обширныИ обзор работ, связанных с трансформациеИ ROC-кривоИ, и дают ряд выразительных примеров, демонстрирующих полезность CROC для сравнительноИ визуальноИ и количественноИ AUC [CROC] оценки эффективности различных диагностических моделеИ.

Подходы, основанные на использовании CROC, естественным образом приводят к тому, что решения о принадлежности к диагностируемому классу должны приниматься только для части объектов, попадающих в заданныИ интервал малых значениИ FPR. Другая часть объектов диагностируемого класса относится к зоне неопределенности, в кото-роИ происходит отказ от принятия решениИ.

Отказ от принятия решениИ присущ также ряду случаев, когда невозможно построить кривую ошибок. В этих случаях (например, из-за малых объемов выборок или из-за дискретности откликов модели) объекты не ранжируются по степени принадлежности к диагностируемому классу и на вопрос о такоИ принадлежности даются ответы «да» и «не знаю».

Категория «отказ от принятия решениИ», на наш взгляд, является принципиальноИ в задачах

Таблица 3 Оценка результатов трехальтерна-тивной диагностики

Модель Фактически

Болен Здоров

Болен TP FP

Здоров FN TN

«Отказ от принятия решения» RP RN

медицинскоИ диагностики. Она отражает системную сложность объектов медицины, наличие русел и джокеров в описаниях объектов, о которых говорилось в первоИ части статьи. Посредством этоИ категории реализуется принцип: «либо точные решения, либо отказ от принятия решениИ», удовлетворяющиИ тезису о необходимости точноИ диагностики в медицине.

Введение данноИ категории в диагностическую модель для двух классов (трехальтернативная модель) приводит к построению таблицы сопряженности для представления исходноИ информации об эффективности диагностики (табл. 3).

Распространенная оценка результатов подоб-ноИ таблицы в статистическоИ теории принятия решениИ связана с введением величин потерь для ошибок и отказов и вычислением функции средних потерь [4]. Вместе с тем, на наш взгляд, более продуктивноИ для сравнения и наглядноИ для интерпретации является оценка, основанная на вычислении точности и полноты диагностическоИ модели:

TP

P =-——.

m TP + FP

Точность Pm совпадает с чувствительностью Se и показывает, в какоИ мере можно доверять диагнозу, сделанному на основе модели. Полнота равна доле больных, котороИ врач может правильно поставить диагноз, пользуясь данноИ диагности-ческоИ моделью. Очевидно, точность и полнота имеют понятную интерпретацию, отражающую клиническую практику.

АдекватноИ оценкоИ эффективности диагно-стическоИ модели, удовлетворяющеИ тезису о необходимости точноИ диагностики в медицине, по нашему мнению, может служить значение полноты Pm, при котороИ точность не ниже заданного граничного значения ^гр. При сравнении различных моделеИ или при подборе параметров какоИ-либо модели предпочтение отдается варианту с мак-симальноИ полнотоИ Pm и > ^гр.

Предлагаемая оценка эффективности диагно-стическоИ модели на основе полноты и точности близка по смыслу к оценкам на основе концен-трированноИ кривоИ ошибок CROC, но имеет более широкую область применения, так как включает ситуации, когда кривую ошибок по тем или иным причинам невозможно построить.

Выводы

Основной тезис данной работы, служащий основанием для разработки новых оценок эффективности диагностических моделей, — «медицине нужны точные диагностические модели». В задачах медицинской диагностики нередко бывает правильнее отказаться от принятия решения для определенной

доли объектов, чем ставить сомнительные диагнозы. Поэтому оценка эффективности диагностической модели должна учитывать категорию «отказ» от принятия решения.

В качестве оценки эффективности диагностической модели, удовлетворяющей тезису о необходимости точной диагностики в медицине, предлагается использовать значение полноты модели, при которой ее точность не ниже заданного граничного значения.

| Литература |

1. Дюк В. А., Эмануэль В. Л. Информационные технологии в медико-биологических исследованиях. СПб.: Питер, 2003. 525 с.

2. Малинецкий Г. Хаос. Тупики, парадоксы, надежды // Компьютерра. 1998. № 47.

3. Эфрон Б. Нетрадиционные методы многомерного статистического анализа. М.: Финансы и статистика, 1988. 263 с.

4. Прикладная статистика. Классификация и снижение размерностей / С. А. Айвазян, В. М. Буштабер, И. С. Еню-ков, Л. Д. Мешалкин. М.: Финансы и статистика, 1989. 607 с.

5. Hanley J. A., McNeil B. J. The meaning and use of the area under a receiver operating characteristic (ROC) curve // Radiology. 1982. Vol. 143. N 1. Р. 29-36.

6. Zweig M. H., Campbell G. Receiver-operating characteristic (ROC) plots: A fundamental evaluation tool in clinical medicine // Clinical Chemistry. 1993. Vol. 39. N 4. P. 561-577.

7. A CROC stronger than ROC: measuring, visualizing and optimizing early retrieval / S. J. Swamidass, C. Azencott, K. Daily, P. Baldi // Bioinformatics. 2010. N 26 (10). P. 13481356.

ОАО «Издательство "ПОЛИТЕХНИКА" » предлагает серию научно-технических журналов

«Металлообработка» (подписной индекс в агентстве «Роспечать» N9 14250) Для технологов предприятий, ученых НИИ и преподавателей вузов машиностроительной отрасли.

Тематика: новые технологии обработки металлов резанием, давлением, электрофизическими и электрохимическими методами; свойства материалов; заводской опыт. Основан в 2001 г. Входит в перечень ВАК. E-mail: [email protected].

«Теплоэнергоэффективные технологии» (подписной индекс в агентстве «Роспечать» N9 18341) Для специалистов энергетической и строительной отраслей. Тематика: производство, транспортировка, учет, распределение и потребление тепловой энергии; инженерная инфраструктура и аудит — статьи и нормативные документы. Основан в 1995 г.

E-mail: [email protected].

«Биотехносфера» (подписной индекс в агентстве «Роспечать» N9 45886) Для специалистов медико-технического профиля. Тематика: создание наукоемкой биомедицинской техники; исследования и разработки в области биоинженерии, биомедицинской информатики, бионанотехнологий, медико-технического менеджмента и образования. Основан в 2009 г. Входит в перечень ВАК. E-mail: [email protected].

Издательство приглашает авторов и рекламодателей для размещения

статей и рекламы по тематике журналов. Все выпуски журналов можно приобрести в бумажном и электронном виде формата pdf на сайте издательства www.polytechnics.ru.

i Надоели баннеры? Вы всегда можете отключить рекламу.