Научная статья на тему 'Построение настраиваемого медиком классификатора онкологических заболеваний молочных желез методом комбинированной термометрии'

Построение настраиваемого медиком классификатора онкологических заболеваний молочных желез методом комбинированной термометрии Текст научной статьи по специальности «Математика»

CC BY
60
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
КОМБИНИРОВАННАЯ ТЕРМОМЕТРИЯ / АЛГОРИТМЫ ДИАГНОСТИКИ / АНАЛИЗ ДАННЫХ / ЧУВСТВИТЕЛЬНОСТЬ АЛГОРИТМА / СПЕЦИФИЧНОСТЬ АЛГОРИТМА / ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ / НАСТРАИВАЕМЫЙ КЛАССИФИКАТОР / СКРИНИНГ МОЛОЧНОЙ ЖЕЛЕЗЫ / МАММОЛОГИЯ / COMBINED THERMOMETRY / DIAGNOSTIC ALGORITHMS / DATA ANALYSIS / ALGORITHM SENSITIVITY / ALGORITHM SPECIFICITY / LOGISTIC REGRESSION / CUSTOM CLASSIFIER / BREAST SCREENING / MAMMOLOGY

Аннотация научной статьи по математике, автор научной работы — Зенович А.В., Петренко А.Ю.

Рассматривается задача диагностики онкологических заболеваний молочных желез методом комбинированной термометрии. Предложен алгоритм формирования наборов двумерных обобщенных признаков диагностики, на базе которых строятся классификаторы методом логистической регрессии. Каждый двумерный признак формируется на основе двух одномерных методом сужающихся эллипсов (см [1]). При этом путем вариации полуосей эллипсов можно управлять чувствительностью и специфичностью, фиксируя один из этих параметров и добиваясь максимального значения второго. Вычислительные эксперименты показали, что, варьируя полуоси эллипсов, можно добиться чувствительность и специфичности около 80%. Построенные наборы позволяют создать настраиваемый медиком классификатор, позволяющий врачу задавать границу, ниже которой не должна опускаться специфичность классификатора, и добиваться при этом максимальной чувствительности.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Зенович А.В., Петренко А.Ю.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Building a physician-customized breast cancer classifier using combined thermometry

We consider the problem of diagnosing breast cancer on the basis of combined thermometry. Diagnosis is carried out using two-dimensional generalized signs. Each such sign is formed on the basis of two one-dimensional. We propose an algorithm for the formation of sets of such features using tapering ellipses. On the basis of a set of such signs a classifier is built. By varying the semi-axes of the ellipses, the physician can control the sensitivity and specificity of the classifier. The doctor can fix the threshold value of specificity and achieve the maximum value of sensitivity. As a result of computational experiments, we built a family of 300 sets of two-dimensional signs and implemented a classifier customized by the doctor.

Текст научной работы на тему «Построение настраиваемого медиком классификатора онкологических заболеваний молочных желез методом комбинированной термометрии»

Построение настраиваемого медиком классификатора онкологических заболеваний молочных желез методом комбинированной термометрии

А.В. Зенович, А.Ю. Петренко Волгоградский государственный университет, Волгоград

Аннотация: Рассматривается задача диагностики онкологических заболеваний молочных желез методом комбинированной термометрии. Предложен алгоритм формирования наборов двумерных обобщенных признаков диагностики, на базе которых строятся классификаторы методом логистической регрессии. Каждый двумерный признак формируется на основе двух одномерных методом сужающихся эллипсов. При этом путем вариации полуосей эллипсов можно управлять чувствительностью и специфичностью, фиксируя один из этих параметров и добиваясь максимального значения второго. Вычислительные эксперименты показали, что, варьируя полуоси эллипсов, можно добиться чувствительность и специфичности около 80%. Построенные наборы позволяют создать настраиваемый медиком классификатор, позволяющий врачу задавать границу, ниже которой не должна опускаться специфичность классификатора, и добиваться при этом максимальной чувствительности.

Ключевые слова: комбинированная термометрия, алгоритмы диагностики, анализ данных, чувствительность алгоритма, специфичность алгоритма, логистическая регрессия, настраиваемый классификатор, скрининг молочной железы, маммология.

Введение

В настоящее время активно создаются медицинские приборы нового поколения, предназначенные для постановки диагноза методом построения карт теплового излучения человеческого организма. При многих заболеваниях в организме возникают локальные температурные аномалии. Выявление данных аномалий несомненно поможет медику поставить правильный диагноз. Одним из бурно развивающихся методов выявления аномалий является микроволновая радиотермометрия, заключающаяся в измерении внутренних и поверхностных температур тканей по интенсивности их теплового излучения, соответственно, в микроволновом и инфракрасном диапазоне [1-4].

За последние десятилетия метод микроволновой радиотермометрии получил достаточно широкое применение в маммологии (см. [3-6]), флебологии, хирургии, гинекологии и многих других областях медицины. В

России прогресс в данной области диагностики связан с созданием приборов, позволяющих комбинировать измерение внутренних (глубинных) температур тканей по их естественному тепловому излучению в микроволновом диапазоне и измерение температуры кожных покровов по инфракрасному тепловому излучению. Одним из таких приборов является радиотермометр РТМ-01-РЭС (см. Рис. 1),

Рис 1. - Радиотермометр РТМ-01-РЭС

Диагностический комплекс, построенный на базе данного прибора, позволяет строить карты температурных полей человека и выявлять температурные аномалии, позволяющие квалифицированному врачу поставить диагноз. Ранее проводились серии вычислительных экспериментов по изучению распространения радиационных и тепловых полей в биотканях [7-8].

Существующая методика диагностики рака молочной железы по данным микроволновой радиотермометрии (см. [3]) подразумевает измерение 44

поверхностных и глубинных температур в соответствии со схемой на Рис. 2. Измерения проводятся в 10 точках на каждой железе (см. рис. 2), в аксиллярной области и в двух контрольных точках Т1 и Т2.

Рис 2. - Схема обследования молочной железы.

Достоинствами данного метода является его неинвазивный характер и абсолютная безвредность для организма. Хотелось бы применять данный метод при ежегодных профилактических медицинских осмотрах с целью выявления опухолей на ранней стадии. Сдерживающим фактором является то, что для постановки диагноза необходим врач - маммолог высокой квалификации, активно применяющий данный метод, а таких врачей считанные единицы. Выход из данной ситуации видится в создании консультативной информационной системы с элементами искусственного интеллекта, которая наряду с постановкой предварительного диагноза содержит механизм обоснования предлагаемого решения на языке, понятном медику. Работа над созданием данной системы активно ведется в ВолГУ (см. [5], [6], [9]). Подход к созданию такой системы основан на формализации знаний врачей и нахождении соответствующих высокоинформативных диагностических признаков (см. [6], [9]).

Качественные медицинские признаки и их одномерные математические модели.

Как уже отмечалось, каждому пациенту ставится в соответствие вектор из 44 температур (1;0, .143). Физический смысл каждой компоненты данного

вектора показан в Таблице 1.

Таблица № 1. Физический смысл компонентов вектора температур.

Обзначение Точка, в которой измеряется температура РТМ или ИК температура

1о Левый сосок РТМ

120 Правый сосок РТМ

Левый сосок ИК

130 Правый сосок ИК

1!, где 1=1,..., 9. Область с номером 1 на Рис. 2 для левой железы РТМ

11+20, где 1=1,., 9. Область с номером 1 на Рис. 2 для правой железы РТМ

11+10, где 1=1,., 9 Область с номером 1 на Рис. 2 для левой железы ИК

1+30, где 1=1,., 9 Область с номером 1 на Рис. 2 для правой железы ИК

140,141 Точки Т1 и Т2 РТМ

142,143 Точки Т1 и Т2 ИК

Можно проводить диагностику непосредственно по температурам, но это приводит к не очень хорошим результатам [9]. Гораздо продуктивней оказывается подход, связанный с использованием информации, выявленной специалистами - маммологами. В процессе проведения обследования

врачами [3] были выявлены качественные признаки рака молочной железы. К таким признакам относится термоассиметрия, повышенная температура соска по сравнению с остальными точками, повышенная разница кожной и глубинной температуры (внутренний градиент) и некоторые другие. Для каждого из них предложены одномерные математические признаки [6], [9], состоящие из моделирующей функции и промежутка, на котором изменяются значения данной функции. Если значение функции для конкретного пациента попадает в промежуток, признак считается выполненным. Как показано в [9], признаки можно делить на характеристические и высокоинформативные. Если для конкретного пациента выполнен характеристический признак, система считает его больным. Если выполняется высокоинформативный признак, то пациент не считается автоматически больным, но выполнение каждого такого признака повышает вероятность того, что пациент болен. Важнейшим признаком высокоинформативного признака является его информативность, показывающая, насколько хорошо признак отделяет больных пациентов от здоровых. Различают ([9]) статистическую, эвристическую, энтропийную и некоторые другие виды информативности.

Промежуток для каждого признака подбирается с помощью вычислительных экспериментов на обучающей выборке с целью увеличения информативности признака [9]. Очевидно, что для каждого качественного признака можно построить достаточно большой набор моделирующих функций. Например, при анализе повышенной термоассиметрии можно брать разность температур между одноименными точками, средние арифметические разностей температур между различными областями, разницу температур сосков, дисперсию разностей температур между одноименными точками молочной железы и т.п. В данный момент участниками проекта используется более тысячи одномерных признаков, разработана технология построения

минимизирующих наборов таких признаков, на их основе построены и проанализированы различные алгоритмы классификации [9]. В данной работе используются 6 моделирующих функций (см. Таблицу 2) соответствующих одномерных признаков.

Таблица № 2

Обобщенные одномерные признаки, используемые при построении

двумерных

Название Моделирующая функция Признак

ТЬегтоавв1те1ху Я ТМ Термоасси метрия

ТЬегтоаББте^у I Я Л-"-

1псгеаБеё_Тетрега1 иге_Ю_ЯТМ ^ и - 0,10,20, } = к= )-Ы._.Г)-Нв Повышен ная разность температу р соска и отдельных точек железы

1псгеаБеё_Тетрега1 иге_Ю_1Я } = 10,30; к = } + 1г+ в

1ппег Ога&еП; } = 0,20; к = Ц, ..,6 Внутренн ий градиент

8есопё_Бег1уа1;1уе Признаки, базирующ иеся на физико-математич

№ 3

Двумерные признаки. Алгоритм создания двумерных признаков методом сужающихся эллипсов.

Двумерный признак [5] характеризует взаимное влияние двух качественных медицинских признаков друг на друга. Обозначим х] = /^,

у;. = /^ значения моделирующих функций двух одномерных признаков на _/-

м векторе обучающей выборки. Рассмотрим множество точек Р = {(х1; у1), ..., (хк, ук)}, характеризующее здоровых пациентов и множество 0 = {(хк+1, Ук+1), . ••, (хи, уи)}, отвечающее за больных. Выберем область X координатной плоскости, которая содержит все точки из Р. При этом желательно, чтобы как можно больше точек множества 0 находилось вне области X. Пациента из тестирующей выборки будем считать больным, если ему соответствует точка, находящаяся вне области X. Таким образом мы построили двумерный характеристический признак. В качестве областей ранее [5] предлагались выпуклые многоугольники и различные виды эллипсов. В данной работе в качестве Х строился с помощью известного алгоритма Хачияна [10] эллипс минимальной площади, содержащий все точки из Р.

Комбинируя шесть функций из таблицы 2, получаем 15 двумерных характеристических признаков. Чтобы получить высокоинформативные признаки, будем варьировать (уменьшать и увеличивать) полуоси эллипса Хачияна. В качестве показателей, характеризующих качество признака,

будем рассматривать его чувствительность Sens (долю верно диагностированных больных) и специфичность Spec (долю верно диагностированных здоровых). Под эффективностью G будем понимать среднее геометрическое указанных величин.

Проводились вычислительные эксперименты с целью построения двумерных вычислительных признаков с максимальной эффективностью. Алгоритм построения наилучшего эллипса состоит в следующем:

1) Алгоритмом Хачияна строим эллипс минимальной площади, содержащий все точки из Р.

2) Для каждой точки находим сумму расстояние от неё до всех остальных, исключаем точку с наибольшей суммой.

3) Перестраиваем эллипс по оставшимся точкам.

4) Методом равномерного поиска, изменяя коэффициенты сжатия полуосей от 1 до 0.8, ищем эллипс с наибольшей эффективностью и сохраняем его. Если эффективность сжатой области выше, чем у не сжатой, построенной в пункте 3, сохраняем его, в противном случае сохраняем не сжатый эллипс.

5) Если не достигнуто минимальное число точек, по которому можно построить эллипс, из оставшихся точек исключаем точку с наибольшей суммой расстояний и переходим к пункту 4.

6) Из сохранённых в пункте 5 эллипсов выбираем эллипс с наибольшей эффективностью.

Данным алгоритмом построены 15 двумерных высокоинформативных признаков. В таблице №3 приводятся результаты вычислительных экспериментов, позволяющих найти чувствительность, специфичность и эффективность данных признаков на тестовой выборке.

Таблица № 3

Двумерные признаки, построенные методом сужающихся эллипсов

Названия пары одномерных признаков Sens Spec G

Thermoassimetry RTM Thermoassimetry IR 0,74 0,89 0,81

Thermoassimetry RTM Increased Temperature t0 RTM 0,93 0,64 0,77

Thermoassimetry RTM Increased Temperature t0 IR 0,63 0,92 0,75

Thermoassimetry RTM Inner Gradient 0,74 0,83 0,79

Thermoassimetry RTM Second Derivative 0,89 0,83 0,86

Thermoassimetry IR Increased Temperature t0 RTM 0,89 0,69 0,79

Thermoassimetry IR Increased Temperature t0 IR 0,56 0,89 0,70

Thermoassimetry IR Inner Gradient 0,59 0,92 0,74

Thermoassimetry_IR Second_Derivative 0,78 0,89 0,83

Increased_Temperature_t0_RTM Increased Temperature t0 IR 0,70 0,97 0,83

Increased Temperature t0 RTM Inner Gradient 0,93 0,56 0,72

Increased_Temperature_t0_RTM Second_Derivative 0,89 0,94 0,92

Increased_Temperature_t0_IR Inner_Gradient 0,48 0,86 0,64

Increased_Temperature_t0_IR Second_Derivative 0,78 0,78 0,78

Inner_Gradient Second_Derivative 0,81 0,86 0,84

Видно, что лучшие признаки обеспечивают эффективность порядка 80%.

Эллипсы рассеивания.

Рассмотрим статистический подход, позволяющий построить другое семейство двумерных высокоинформативных признаков на основе эллипсов рассеивания [11]. Будем считать х1, ..., хк, и у1, ..., ук значениями двух нормально распределенных случайных величин Х и У. Обозначим тх, ту математические ожидания случайных величин X и У, - их

среднеквадратичные отклонения, г - коэффициент корреляции X и У. Построим однопараметрическое семейство эллипсов рассеивания, задаваемых уравнением (см [11])

J

Варьируя параметр с, найдем эллипс, обеспечивающий максимальную эффективность.

В таблице 4 приведены результаты вычислительных экспериментов, позволяющие оценить чувствительность, специфичность и эффективность двумерных признаков данного семейства на тестовой выборке.

Таблица № 4

Двумерные признаки, построенные методом эллипсов рассеяния.

Названия пары одномерных признаков Sens Spec G

Thermoassimetry RTM Thermoassimetry IR 0,77 0,75 0,76

Thermoassimetry RTM Increased Temperature t0 RTM 0,79 0,73 0,76

Thermoassimetry RTM Increased Temperature t0 IR 0,80 0,69 0,75

Thermoassimetry RTM Inner Gradient 0,73 0,80 0,76

Thermoassimetry RTM Second Derivative 0,82 0,80 0,81

Thermoassimetry IR Increased Temperature t0 RTM 0,74 0,72 0,73

Thermoassimetry IR Increased Temperature t0 IR 0,74 0,64 0,69

Thermoassimetry IR Inner Gradient 0,71 0,81 0,76

Thermoassimetry_IR Second_Derivative 0,77 0,87 0,82

Increased_Temperature_t0_RTM Increased Temperature t0 IR 0,81 0,70 0,76

Increased Temperature t0 RTM Inner Gradient 0,72 0,74 0,73

Increased_Temperature_t0_RTM Second_Derivative 0,69 0,88 0,78

Increased_Temperature_t0_IR Inner_Gradient 0,65 0,75 0,70

Increased_Temperature_t0_IR Second_Derivative 0,80 0,75 0,77

Inner_Gradient Second_Derivative 0,67 0,84 0,75

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Анализируя таблицы 3 и 4, нетрудно заметить, что по сравнению с эллипсами рассеяния метод сужающихся эллипсов дает почти для всех пар одномерных признаков выигрыш в эффективности в 3-5%.

Вычислительные эксперименты с целью построения настраиваемого классификатора.

Эффективность классификатора зависит от двух параметров -чувствительности и специфичности, при этом увеличение одного из них зачастую приводит к уменьшению другого. Во многих ситуациях система должна дать медику возможность задавать пороговое значение одного из этих параметров (например, специфичности) и подобрать набор признаков, обеспечивающий максимальную эффективность другого. С этой целью была проведена серия вычислительных экспериментов, продемонстрировавших возможность создания такого настраиваемого медиком классификатора. Для этой цели данные 15 признаков, полученных методом сужающихся эллипсов, использовались для построения классификатора стандартным методом линейной регрессии. При этом варьировались полуоси полученных эллипсов, в результате было построено однопараметрическое семейство из трехсот классификаторов. Чтобы построить классификатор, отвечающий значению параметра к, полуоси эллипсов Хачияна в каждом из наших 15 признаков умножаем на к, после чего методом линейной регрессии строим классификатор и оцениваем его параметры на тестовой выборке. При оценивании использовалась кросс - валидация (данные делились на п частей, на п-1-й части проводилось обучение, оставшаяся часть использовалась в качестве тестовой). Значение параметра к варьировалось от 0.01 до 3 с шагом 0.01. На рис. 3 изображен график зависимости чувствительности от специфичности для такого набора классификаторов.

1

О, Б

0,5

О О О 0~ ° О о" «Э Ö" о" о' о' о' ° ° о' О о' о" о" О о" «Э О4 О о' о" о' о' О" о" о' о' о" О* о" о" о" О" о" О4 о" ©" о" С5

5пес

Рис 3. - Зависимость чувствительности от специфичности у настраиваемого классификатора.

Легко видеть, что на графике есть достаточно большая область, в которой специфичность и чувствительность меняются в пределах 70-90%. Это позволяет медику задавать пороговое значение специфичности, а система, подбирая один из 300 полученных классификаторов, обеспечит максимальную чувствительность.

Исследование выполнено при финансовой поддержке РФФИ и Администрации Волгоградской области, проект «Управление качеством классификации в диагностике рака молочной железы по многомерным данным микроволновой радиотермометрии» № 18-47-340004 р_а.

Литература

1. Barett A.H., Myers P.C., Sadowsky N.L. Microwave Thermography in the Detection of Breast Cancer // American Journal of Roentgenology, 1980. Vol. 34 (2). pp.365-368.

2. Gonzalez F.J. Thermal simulation of breast tumors // Revista Mexicana de fisica, 2007. Vol. 53. pp.323-326.

3. Веснин С.Г., Каплан М.А., Авакян Р.С. Современная микроволновая радиотермометрия молочных желез // Опухоли женской репродуктивной системы. 2008. № 3. С. 28-35.

4. Кобринский Б.А. Консультативные интеллектуальные медицинские системы: классификация, принципы построения, эффективность // Врач и информационные технологии. 2008. № 2. С. 38-47.

5. Зенович А.В., Батурин Н.А., Медведев Д.А., Петренко А.Ю. Алгоритмы формирования двумерных признаков диагностики заболеваний молочных желез методами комбинированной радиотермометрии // Математическая физика и компьютерное моделирование. 2018. Т. 21. № 4. С. 44-56.

6. Глазунов В. А., Зенович А.В., Опарин А. С., Примаченко Ф.Г. Алгоритмы принятия решений в консультативной интеллектуальной системе диагностики молочных желез // Вестник Волгоградского ун-та. Сер. 1. Мат. Физ. 2016. № б (37). С. 141-154.

7. Поляков М.В., Хоперсков А.В. Вычислительные эксперименты для исследования радиационных и тепловых полей в биотканях. // Инженерный вестник Дона, 2017, № 2. URL: ivdon.ru/ru/magazine/archive/n2y2017/4239

8. Малышев И.В. Методы микроволновой регистрации и локации биологических дисперсных сред. // Инженерный вестник Дона, 2015, №4. URL: ivdon.ry/ru/magazine/archive/n4y2015/3485

9. Лосев А.Г., Зенович А.В., Бочкарев О. А., Левшинский В.В. Интеллектуальный анализ многомерных термометрических данных в медицинской диагностике // Вестник Волгоградского ун-та. Сер. 1. Мат. Физ. 2016. № 5 (36). С. 150-161.

10. Khachiyan, L. G. Rounding of Polytopes in the Real Number Model of Computation // Mathematics of Operations Research, 1996, vol. 21(2), pp. 307-320.

11.Вентцель Е.С. Теория вероятностей: Учеб. для вузов. 6-е изд. стер. Москва: Высшая школа, 1999. 576 c.

References

1. Barett A.H., Myers P.C., Sadowsky N.L. American Journal of Roentgenology, 1980. Vol. 34 (2). pp.365-368.

2. Gonzalez F.J. Revista Mexicana de fisica, 2007. Vol. 53. pp.323-326.

3. Vesnin S.G., Kaplan M.A., Avakyan R.S. Opukholi zhenskoy reproduktivnoy sistemy. 2008. No3. pp. 28-35.

4. Kobrinskiy B.A. Vrach i informatsionnye tekhnologii. 2008. No2. pp. 38-47.

5. Zenovich A.V., Baturin N.A., Medvedev D.A., Petrenko A.Yu. Matematicheskaya fizika i komp'yuternoe modelirovanie. 2018. V. 21. №4. pp. 44-56.

6. Glazunov V.A., Zenovich A.V., Oparin A.S., Primachenko F.G. Vestnik Volgogradskogo gosudarstvennogo universiteta. Serija 1: Matematika. Fizika. 2016. № 6 (37). pp. 141-154.

7. Polyakov M.V., Khoperskov A.V. Inzenernyj vestnik Dona (Rus), 2017, №2. URL: ivdon.ru/ru/magazine/archive/n2y2017/4239

8. Malyshev I.V. Inzenernyj vestnik Dona (Rus), 2015, №4. URL: ivdon.ry/ru/magazine/archive/n4y2015/3485

9. Losev A.G., Zenovich A.V. Bochkarev O.A. Vestnik Volgogradskogo gosudarstvennogo universiteta. Serija 1: Matematika. Fizika. 2016. No 5 (36). pp. 150-161.

10.Khachiyan, L. G. Mathematics of Operations Research, 1996, vol. 21(2), pp. 307-320.

11.Venttsel' E.S. Teoriya veroyatnostey: Ucheb. dlya vuzov. [Probability Theory: Textbook for universities] 6-e izd. ster. Moskva: Vysshaya shkola, 1999. 576 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.