Сер. 10. 2011. Вып. 3
ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА
ПРИКЛАДНАЯ МАТЕМАТИКА
УДК 519.3+519.7
К. И. Ананьев, В. В. Демьянова, В. Ф. Демьянов, А. В. Кокорина, С. Я. Свистун, И. С. Стегалин
ОПТИМИЗАЦИОННЫЕ МЕТОДЫ В ЗАДАЧАХ ДИАГНОСТИКИ*)
Введение. Наиболее распространенными для решения задач диагностики и прогнозирования являются вероятностно-статистические методы, методы дискретного анализа и теории обучения (см., например, [1-3]). Они особенно эффективны при наличии большого статистического материала.
Другой подход основан на сведении подобных задач к задачам оптимизации. Он привлекателен и, как оказалось, эффективен при отсутствии большой статистической базы данных. В рамках этого подхода вначале был разработан линейный дискриминантный анализ (ЛДА), использующий методы линейного и квадратичного программи-рования(см. [4-9]). Данный подход не заменяет статистический, а дополняет его и позволяет провести более полное изучение задач идентификации и распознавания.
В настоящей работе обсуждаются результаты исследований, полученные на основе применения негладкого дискриминантного анализа (НДА), разрабатываемого на факультете прикладной математики-процессов управления СПбГУ в последние годы (см. [10]). Этот подход находится в русле оптимизационного направления. Построенные на основе НДА алгоритмы оказались вполне конкурентоспособными и эффективными.
Ананьев Константин Иванович — аспирант кафедры математической теории моделирования систем управления факультета прикладной математики-процессов управления Санкт-Петербургского государственного университета. E-mail: [email protected].
Демьянова Вероника Владимировна — кандидат физико-математических наук, главный специалист вычислительного центра филиала ОАО «Метрострой», Санкт-Петербург. E-mail: [email protected].
Демьянов Владимир Федорович — доктор физико-математических наук, профессор, заведующий кафедрой математической теории моделирования систем управления факультета прикладной математики—процессов управления Санкт-Петербургского государственного университета. E-mail: [email protected].
Кокорина Анастасия Владимировна — кандидат физико-математических наук, научный сотрудник факультета прикладной математики—процессов управления Санкт-Петербургского государственного университета. E-mail: [email protected].
Свистун Сергей Яковлевич — заслуженный врач РФ, главный врач психиатрической больницы св. Николая Чудотворца, Санкт-Петербург. E-mail: [email protected].
Стегалин Иван Сергеевич — аспирант кафедры математической теории моделирования систем управления факультета прикладной математики—процессов управления Санкт-Петербургского государственного университета. E-mail: [email protected].
+ ) Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (грант № 09-01-00360).
© К. И. Ананьев, В. В. Демьянова, В. Ф. Демьянов, А. В. Кокорина, С. Я. Свистун, И. С. Стегалин, 2011
НДА позволяет строить и изучать более точные математические модели, и в ряде случаев существенно улучшить качество идентификации и распознавания по сравнению с ЛДА. В НДА применяются в том числе и методы негладкого анализа и недифференцируемой оптимизации. В частности, построены математические оптимизационные модели для конкретных классов задач диагностики и идентификации, выявлены естественные критериальные функционалы для этих моделей, а также аппроксимации естественных функционалов (суррогатные функционалы), проведено исследование и сравнение различных видов классификаторов (линейных, гладких, негладких) в задачах идентификации, изучены их свойства. Ранее использовались методы ранжирования параметров (выделение наиболее существенных признаков) с помощью вероятностных соображений (в предположении, что параметры подчиняются тому или иному вероятностному закону). В НДА ранжирование и групповое ранжирование параметров тоже проводится с помощью оптимизационных подходов. Разработан метод «главного эксперта», позволивший существенно улучшить качество идентификации.
Сфера применения НДА распространена на задачи прогнозирования (например, прогнозирование эффективности разных методов лечения в медицине) (см. [11, 12]).
С помощью изложенного подхода в работе анализируется база данных пациентов психиатрического стационара, находившихся на лечении по поводу шизофрении. Эта база предоставлена психиатрической больницей св. Николая Чудотворца (С.-Петербург). Группа представлена пациентами обоих полов в возрасте 18-65 лет, неоднократно госпитализировавшихся в связи с рецидивом (обострением) заболевания. Используемый в работе метод идентификации позволяет оценить прогностическое значение как лечебных мероприятий (медикаменты различных групп, методика их применения, моно-и полипрагмазия и пр.), биологических предпосылок (наследственная отягощенность, сопутствующие заболевания и вредности, возраст, пол), так и социальных факторов -изолированно и во взаимосвязи.
1. Задача идентификации. Идентификаторы. Рассмотрим два конечных множества точек А и В:
А = {аг е М” | г е I}, В = [Ъ^ е М” | о е 1}, I =1: М1, 1 =1: М2.
Задача идентификации заключается в том, чтобы как можно лучше разделить эти
множества согласно определенному правилу, по которому выбранная точка относится к тому или иному множеству.
Идентификация точек множеств А и В проводится с помощью классификатора (или идентификатора) / еТ (см. [10]), где Т - некоторое семейство функций, следующим образом. Пусть точка с е А и В. Будем считать, что
с е А, если /(с) > 0,
с е В, если /(с) < 0.
Точка с е А и В считается неверно идентифицированной, если
с е А, но /(с) < 0,
или
с е В, но /(с) > 0.
Функция / также называется дискриминантной функцией. Необходимо найти такое /* е Т, чтобы количество неправильно идентифицированных точек было наименьшим. Для решения этой задачи следует выбрать некоторый функционал, подлежащий минимизации.
В задачах идентификации обычно мы имеем дело с точками многомерного пространства. Из-за большого количества параметров (в рассматриваемом ниже случае их более 60) вычисления усложняются, а иногда и вовсе не представляются возможными. Однако, как показывает опыт, для успешного решения задачи идентификации в ряде случаев не требуется использование всех параметров. Для этого достаточно выявить несколько наиболее существенных параметров и решать задачу относительно них, не рассматривая все остальные. Определение важнейших параметров (их информативность) называется ранжированием. Ранжировать можно не только отдельные параметры, но и их группы (наборы по 2, 3 или более параметров). Существуют разные методы ранжирования. Некоторые из них описаны в [13, 14], а групповое ранжирование применялось в [15, 16].
Из наиболее информативных параметров можно выбрать несколько наборов параметров и решить задачу идентификации, рассматривая только эти наборы. Конкретный набор параметров можно считать виртуальным экспертом. Проведя идентификацию с помощью каждого эксперта, можно затем построить новый классификатор (который называется главным экспертом). Метод главного эксперта (МГЭ) описан в п. 3 (см. также [17, 18]). Благодаря ему, качество идентификации обычно удается повысить.
2. Семейства классификаторов. Далее рассмотрим два семейства классификаторов Т. В качестве первого выберем множество
Т1 = {/(х,х) | г е 2}, х е М”, 2 = {х = [у,ё\е М”+1 | ||у|| = 1},
где /х (х) = /(х, х) имеет вид /(х, х) = (х,у) + с1, т. е. идентификация проводится с помощью гиперплоскости Ь(х) = [х е М”|/(х,х) = 0}. Так как ||у|| = 1, то /(х, х) есть расстояние (в евклидовой метрике) от точки х до гиперплоскости Ь(х). Классификатор / идентифицирует точку с е С = А У В как точку множества А, если она находится по ту сторону от гиперплоскости Ь(х), которую определяет вектор у, и как точку множества В, если с находится по ту сторону от гиперплоскости Ь(х), которую определяет вектор -у.
В качестве другого семейства классификаторов рассмотрим множество Т2 = {/(х,х) | х е 2}, х е М”, 2 = [х = (у1,у2,уз,у4) е М4” | у1 е М”,г е 1:4},
в котором
/ (х,х) = /1(х,у1,у2) + /2(x,У3,У4), (1)
/1(х,у1,у2) = - гпт{т,т} = тах{-П1, -П2}, Ь(х,уз,у4) = шт{пз,П4}, (2)
П1 = IIх - уЛЬ П2 = IIх - у21|, Пз = IIх - уз1, П4 = IIх - у4У. (3)
Точки («кластеры») у1 и у2 «обслуживают» множество А, а точки уз и у4 - множество В. Классификатор / идентифицирует точку с е С = А В как точку множества
A, если она находится ближе всего к одной из точек у1 и у2, и как точку множества
B, если с находится ближе всего к одной из точек уз и у4.
2.1. Функционалы. Через Ф(х) обозначим относительное суммарное количество неверно идентифицированных точек:
ад = ^ + = ке к” I /(«- *) < °}> в~ = {ъзе к” I /&•> *) > °>-
Здесь |А| - количество точек в множестве А. Функционал Ф(х) называется натуральным. К сожалению, он является разрывным, поэтому для работы с ним введем еще так называемые суррогатные функционалы (см. [10])
= ^^тах{0, -/(а*, г)} + ^тах{0, ./%, г)},
1 ге! 2 3е3
1 геI 2 3е3
Если / е Т1, то функционал Р1(х) представляет собой сумму расстояний неверно идентифицированных точек множества А до плоскости Ь(х) (деленную на N1 -количество точек в множестве А), сложенную с суммой расстояний неверно идентифицированных точек множества В до плоскости Ь(х) (деленную на N2 - количество точек в множестве В). Функционал Р2(х) представляет собой сумму квадратов расстояний неверно идентифицированных точек множества А до плоскости Ь(х) (деленную на N1 - количество точек в множестве А), сложенную с суммой квадратов расстояний неверно идентифицированных точек множества В до плоскости Ь(х) (деленную на N2 - количество точек в множестве В). Для семейства Т1 введенный в рассмотрение суррогатный функционал является субдифференцируемым, а ^2 - непрерывнодифференцируемым (см. [10]). Для семейства идентификаторов Т1 функционалы Г1 (х) и Р2(х) подробно изучались, например, в работах [19, 20].
Если / е Т2, то функционал Р1(х) представляет собой сумму расстояний неверно идентифицированных точек множества А до ближайшего из «своих» кластеров (у1 или у2) (деленную на N1 - количество точек в множестве А), сложенную с суммой расстояний неверно идентифицированных точек множества В до ближайшего из «своих» кластеров (уз или у4) (деленную на N2 - количество точек в множестве В). Функционал ^2 (х) представляет собой сумму квадратов расстояний неверно идентифицированных точек множества А до ближайшего из «своих» кластеров (у1 или у2) (деленную на N1 - количество точек в множестве А), сложенную с суммой квадратов расстояний неверно идентифицированных точек множества В до ближайшего из «своих» кластеров (уз или у4) (деленную на N2 - количество точек в множестве В). Суррогатные функционалы и ^2 - субдифференцируемы (в этом случае ^2 уже не является непрерывнодифференцируемым).
Если все точки множеств А и В идентифицированы верно, то функционалы ^ и ^2 (для обоих семейств Т1 и Т2) равны нулю, что оправдывает введение суррогатных функционалов.
2.2. Методы решения задачи идентификации. Были исследованы следующие описанные ниже методы для решения задачи идентификации:
метод 1 (М1) состоит в том, что для минимизации натурального функционала Ф(х) используется субдифференциал суррогатного функционала ^1 для семейства функционалов Т-\_;
метод 2 (М2) - в том, что для минимизации натурального функционала Ф(х) используется градиент суррогатного функционала ^2 для семейства функционалов Т1;
метод 3 (М3) - в том, что для минимизации натурального функционала Ф(х) поочередно используются субдифференциал суррогатного функционала ^1 и градиент суррогатного функционала ^2 для семейства функционалов Т1;
метод 4 (М4) - в том, что для минимизации натурального функционала Ф(х) используется квазидифференциал функционала ^1 для семейства функционалов Т2;
метод 5 (М5) - в том, что для минимизации натурального функционала Ф(з) используется квазидифференциал функционала Р2 для семейства функционалов Т2.
Суть этих методов в том, что суррогатные функционалы применяются для получения информации о направлении спуска, а минимизируется при этом натуральный функционал.
Методы М1-М3 описаны в [15], а методы М4, М5 - в работе [16].
3. Метод главного эксперта. Пусть А = {а € Мп \ % € I}, В = {Ъ^ € Кп \ ] € J}, где I = 1 : N1, J = 1 : N2. Положим
Предположим, что А и В не имеют общих точек. Пусть /і,..., /т - заданные идентификаторы. Каждый идентификатор /8, в Є 1 : т, делит пространство К" (предположительно с помощью сравнительно простого правила, например по знаку некоторой функции /я) на две части ^ и Q‘2S, такие, что
В результате идентификатор / дает множества С\ С С и С2 С С такие, что С1 =
т. е. идентификатор / «приписывает» каждую точку с Є С к одному из множеств С1 или С“1, неопределенность исключена.
Идентификатор /3 называется виртуальным экспертом.
С помощью идентификаторов /8,в Є 1 : т, построим новый идентификатор по такому правилу: для каждой точки х Є К" положим е(х) = (еі(х), в2(х),..., ет(х)), где
Вектор е(х) может принимать 2т значений (т-мерные векторы, координаты которых равны 1 или 2). Через £ обозначим множество всех возможных значений е(х).
Пространство М" будет разбито на 2т подмножеств МЕ, Е Є £: МЕ = {х Є М" | е(х) = Е}. Некоторые из подмножеств Се могут быть пустыми. Заметим, что
С = А и В = {ск є М" | к Є К},
где К = 1 : М, N = N1 + М2,
ак, к Є 1 : N1,
Ьк-Ыг, к Є (М1 + 1) : М.
яі п я2 = Ф, Я1 и я2 = м", Qі = {х є м" | ш > о},
я2 = {х є М" | /в(х) < о}.
{ск єС | к Є K, ск Є Q1},
с2 = {ск єс ^ є к, ск є я2}, Сі п с2 = Ф, Сі и с2 = с,
МЕг п М"е2 = Ф УЕі = Е2,
У {ее | Е є£) = М".
Введем следующий идентификатор /:
1, х Є ее, Ае| > Ве|, -1, х Є МЕ, ^е| < Ве|,
где | А| - количество точек множества А.
Будем использовать правило идентификации для с ^Се ■ если /(с) = 1, то с приписывается множеству А; если /(с) = —1, то с приписывается множеству В.
Итак, новый идентификатор / разделяет пространство И" на несколько (не более чем 2т) подмножеств, причем в каждом из них действует свое правило идентификации. Идентификатор / будем называть главным экспеpтом. Он обладает полной информацией о множествах А и В, в то время как остальные «эксперты» могут и не иметь доступа ко всей информации об этих множествах (например, им известны только некоторые - каждому свои - координаты точек изучаемых множеств).
Описанную процедуру назовем методом главного экспеpта (МГЭ).
4. Результаты обработки базы данных пациентов психиатрического стационара (шизофрения). Чтобы проиллюстрировать изложенную выше теорию, приведем результаты обработки базы данных пациентов мужского пола в возрасте 18-65 лет, проходивших лечение с диагнозом «шизофрения» в психиатрическом стационаре св. Николая Чудотворца (С.-Петербург). Эти пациенты неоднократно госпитализировались в связи с рецидивом (обострением) заболевания. В базе данных содержатся сведения о 201 пациенте, из них 103 входят в группу А (для них рецидив произошел менее чем через 5 месяцев), а 98 - в группу В (для них рецидив произошел более чем через 5 месяцев). Требуется найти критерий, с помощью которого можно идентифицировать пациентов из групп А и В. Каждый пациент характеризуется точкой в 65-мерном пространстве (это набор его параметров: вес, возраст, данные обследований и анализов). Рассматриваемая база обрабатывалась описанными выше методами, причем выбирались наборы из трех параметров (предположительно, наиболее информативных).
Таблица 1. Результаты исследования пациентов мужчин методами М1—М4
Метод Всего точек (а/Ь) Верно идентифицируемые точки Параметры
Количество %
М1 201 (103/98) 146 (71/75) 72.731 60, 61, 64
М2 201 (103/98) 148 (75/73) 73.653 5, 59, 60
М3 201 (103/98) 152 (78/74) 75.619 3, 41, 60
М4 201 (103/98) 146 (56/90) 73.102 47, 55, 62
М5 201 (103/98) 146 (56/90) 73.102 47, 55, 62
В табл. 1 приведены результаты исследований пятью методами. В М1 использовались (см. пятый столбец) параметры 60, 61, 64; в М2 - параметры 5, 59, 60; в М3 -параметры 3, 41, 60; в методах М4 и М5 - один и тот же набор параметров 47, 55, 62, но разные функционалы. Поскольку результаты по разным функционалам для методов М4 и М5 совпали, мы различия между ними делать не будем. В методах М1, М2 и М3 разделение множеств А и В проводилось с помощью гиперплоскостей: классификаторами служили соответственно функции (табл. 2) /ь/2,/3, где, например, в функции /1 х,у, г - это значения параметров 60, 61, 64, а в функции /3 - параметров 3, 41, 60.
Таблица 2. Классификаторы для М1—М3 и кластеры для М4 и М5 (пациенты мужчины)
Метод 1. Разделяющая гиперплоскость Ь(х,у,г) = 0.995181 * х - 0.0915534 * у + 0.0351126 * г - 16.7718.
Метод 2. Разделяющая гиперплоскость Ь(х,у,г) = -0.0161822 * х + 0.728293 * у + 0.685074 * г + 8.96284.
Метод 3. Разделяющая гиперплоскость !з(х,у,г) = -0.00901339 * х + 0.999808 * у + 0.0174175 * г - 1.17812.
Метод 4. Кластеры У1 = (0.68932; 0.61165; 1.36408), у2 = (6.92724; -0.36916; 0.903767), уз = (3.80102; 0.969388; 1.21939), у4 = (1.30102; 0.969388; 1.21939).
Метод 5. Кластеры у1 = (0.68932; 0.61165; 1.36408), у2 = (6.92724; -0.36916; 0.903767), уз = (3.80102; 0.969388; 1.21939), у4 = (1.30102; 0.969388; 1.21939).
В М4 (М5) разделение множеств А и В проводилось с помощью кластеров. Для множества А центрами кластеров служили точки у\ и у2 € К3 (см. табл. 2), а для множества В - уз и у4 € К3. В качестве классификатора использовалась (см. (1)) функция /4(ж, г) = Д(х, у1,у2) + Ь(х, уз, У4), где / и /2 заданы формулами (2) и (3), а х = (х1, х2, жз), где Х1, Х2, хз - значения параметров 47, 55, 62.
В третьем столбце табл. 1 приведено количество правильно идентифицированных точек (общее и по множествам А и В). Так, методом М1 правильно идентифицировано 146 точек: 71 точка из множества А и 75 - из множества В. В столбце 4 указывается процент таких точек. В М1 он равен (у^ + |§) х = 72.731%.
В табл. 2 даются разделяющие гиперплоскости для методов 1-3 и кластеры для методов 4 и 5 (которые совпали).
Таблица 3. Результаты исследования пациентов мужчин разными методами
Подгруппа Всего, человек Из А Из В Всего, % Идентифицируется как
человек | % человек | %
Метод М1
+ 94 71 68.932 23 23.4694 74.601 А
- 107 32 31.068 75 76.531 71.126 В
Итог 201 103 68.932 98 76.531 72.731
Метод М2
+ 100 75 72.816 25 25.510 74.055 А
- 101 28 27.184 73 74.490 73.263 В
Итог 201 103 72.816 98 74.490 73.653
Метод М3
+ 102 78 75.728 24 24.490 75.563 А
- 99 25 24.272 74 75.510 75.675 В
Итог 201 103 75.728 98 75.510 75.619
Методы М4 и М5
+ 64 56 54.369 8 8.163 86.946 А
- 137 47 45.631 90 91.837 66.806 В
Итог 201 103 54.369 98 91.837 73.102
В табл. 3 приведены результаты по каждому из методов 1-4. Так, для М1 и параметров 60, 61, 64 классификатор /1(х,у,г) оказался положительным (подгруппа +) для 94 точек, т. е. по методу к множеству А отнесены 94 точки (из них 71 действительно принадлежат множеству А, что составляет 68.932% точек множества А), а 23 -множеству В (23.469% точек множества В). Из 71 точек, попавших в подгруппу +, 74.6% принадлежат множеству А. Таким образом, если пациент оказался в подгруппе +, то вероятность того, что он из множества А, равна 74.6% (= 68 932+23 469 х Ю0).
Аналогично, классификатор /1 отнес к подгруппе - (значения /1 отрицательны) 107 пациентов, из них 32 из множества А (31.068%) и 75 - из множества В (76.531%). Таким образом, если пациент оказался в подгруппе -, то вероятность того, что он из множества В, равна 71.126% (= 76 5306+31606796 х Ю0)-
В табл. 4 приведены результаты применения МГЭ для рассматриваемой группы. Изучались попарно методы М1, М2, М3, М4 (как уже отмечалось, результаты для методов М4 и М5 совпали). Обсудим, например, результаты для методов М3-М4. Все пациенты оказались разбиты на четыре подгруппы: ++ (точки, для которых значения обоих классификаторов /з и /4 положительны), +— (классификатор /з положителен, а классификатор /4 отрицателен), —+ (классификатор /з отрицателен, а классификатор /4 положителен), — ( классификаторы /з и /4 отрицательны).
Таблица 4. Результаты применения МГЭ при исследовании пациентов мужчин
Подгруппа Всего, человек Из А Из В Всего, % Идентифицируется как
человек | % человек | %
Методы 1-2
++ 94 71 68.932 23 23.469 74.601 А
+ - 0 0 0 0 0 0
- + 6 4 3.883 2 2.041 65.552 А
- - 101 28 27.184 73 74.490 73.263 В
Итог 201 103 72.816 98 74.490 73.653
Методы 1-3
++ 92 69 66.990 23 23.469 74.055 А
+ - 2 2 1.942 0 0 100 А
- + 11 9 8.738 2 2.0408 81.066 А
- - 96 23 22.330 73 74.490 76.936 В
Итог 201 103 77.670 98 74.490 76.080
Методы 1-4 и 1-5
++ 46 44 42.718 2 2.041 95.440 А
+ - 48 27 26.214 21 21.429 55.022 А
- + 18 12 11.650 6 6.122 65.552 А
- - 89 20 19.417 69 70.408 78.383 В
Итог 201 103 80.583 98 70.408 75.495
Методы 2-3
++ 95 72 69.903 23 23.470 74.865 А
+ - 5 3 2.913 2 2.041 58.8 А
- + 8 6 5.825 2 2.041 74.055 А
- - 93 22 21.359 71 72.449 77.231 В
Итог 201 103 78.641 98 72.449 75.545
Методы 2-4 и 2-5
++ 47 45 43.689 2 2.041 95.537 А
+ - 53 30 29.126 23 23.469 55.378 А
- + 17 11 10.680 6 6.122 63.561 А
- - 84 17 16.505 67 68.367 80.553 В
Итог 201 103 83.495 98 68.367 75.931
Методы 3-4 и 3-5
++ 49 47 45.631 2 2.041 95.719 А
+- 54 31 30.097 23 23.469 56.186 А
-+ 15 9 8.738 6 6.122 58.8 А
- - 83 16 15.534 67 68.367 81.485 В
Итог 201 103 84.466 98 68.367 76.417
В подгруппе ++ оказалось 49 точек, из них 47 из множества А и 2 - из множества В, т. е. в эту подгруппу попало 45.631% точек из А и 2.04% точек из В, в ней 95.719% (45 дз']6^ 04 х точек из множества А, т. е. если пациент оказался в подгруппе ++, то с вероятностью 95.719% он принадлежит множеству А.
В подгруппе +— оказалось 54 точки, из них 31 - из множества А и 23 - из множества В, т. е. в данную подгруппу попало 30.097% точек из А и 23.469% точек из В,
в ней 56.186% (30 oq°^23 469 х Ю0) точек из множества А, т. е. если пациент оказался в подгруппе +—, то с вероятностью 56.186% он принадлежит множеству A.
В подгруппу —+ попали 15 пациентов, из них 9 из множества A и 6 - из множества B, т. е. в такую подгруппу попало 8.738% точек из A и 6.122% точек из B, в этой подгруппе 58.8% (g 738+б81224 х ЮО) точек из множества А, т. е. если пациент оказался в подгруппе —+, то с вероятностью 58.8% он принадлежит множеству A.
Наконец, подгруппа — содержит 83 точки, из них 16 из множества A и 67 - из множества B, т. е. в эту подгруппу попало 15.5339% точек из A и 68.367% точек из B, в ней 81.485% (68 367+15 533 х ЮО) точек из множества В, т. е. если пациент оказался в подгруппе —, то с вероятностью 81.485% он принадлежит множеству B.
Поскольку в подгруппах +—+, +—, —+ превалируют точки множества A, то естественно построить новый классификатор следующим образом: если точка с G A U B оказалась в одной из подгрупп ++, +—, —+, то точка с считается принадлежащей множеству A, если же точка с оказалась в подгруппе —, - то множеству B. В последнем столбце табл. 4 и указывается, к какому из множеств следует отнести соответствующие точки. В итоге правильно идентифицированными будут 84.466% точек из множества A и 68.367% точек из множества B. В среднем точность идентификации равна 76.417%, что не намного выше, чем точность идентификации исходных методов (у М3 точность была 75.619%, а у М4 - 73.102%). Однако для пациентов из подгрупп ++ и — эта точность существенно выше (95.719 и 81.485% соответственно). Это касается 45.63% пациентов из множества A и 68.367% - из множества B.
5. Заключение.
1. МГЭ позволяет провести более детальную диагностику (в зависимости от группы (++, +—, —+, —), в которой окажется пациент).
2. Привлечение разных групп «экспертов» (наборов параметров) для конкретного пациента позволяет повысить надежность диагностики заболевания пациента (а в дальнейшем - и прогноз эффективности его лечения разными препаратами или схемами лечения).
3. Для конкретного пациента, попавшего в группу с плохим качеством идентификации (в группы +— или —+), следует провести дальнейшее исследование, используя другие наборы параметров (других «экспертов»).
4. Для выявления закономерности, как обычно, проводится многократная перекрестная проверка. Естественно, что исследуемая база данных должна быть репрезентативной и достаточно большой.
Литература
1. Амосов Н. М., Зайцев Н. Г., Мельников А. А. и др. Медицинская информационная система. Киев: Наукова думка, 1971. 307 с.
2. Генкин А. А. Новая информационная технология анализа медицинских данных: Программный комплекс ОМИС. СПб.: Политехника, 1999. 191 с.
3. Журавлев Ю. И., Дмитриев А. Н., Кренделев Ф. Н. О математических принципах классификации предметов и явлений // Дискретный анализ: сб. трудов Ин-та математики Сиб. отд. АН СССР (Новосибирск). 1966. № 7. С. 3-15.
4. Вапник В. Н., Червоненкис А. Я. Теория распознавания образов (статистические проблемы обучения). М.: Наука, 1974. 415 с.
5. Головкин Б. А. Машинное распознавание и линейное программирование. М.: Советское радио, 1973. 99 с. (Библиотека техн. кибернетики).
6. Mangasarian O. L. Misclassification minimization // J. of Global Optimization. 1994. Vol. 5. P. 309323.
7. Mangasarian O. L. Mathematical programming in data mining // Data Mining and Knowledge Discovery 1. 1997. Vol. 1. P. 183-201.
8. Lee Y.-J., Mangasarian O. L. SSVM: A Smooth Support Vector Machine for Classification // Computational Optimization and Applications. 2001. Vol. 20, N 1. P. 5-22.
9. Bagirov A. M., Rubinov A. M., Soukhoroukova N. V., Yerwood J. Unsupervised and Supervised Data Classification Via Nonsmooth and Global Optimization // TOP. 2003. Vol. 11, N 1. P. 1-93.
10. Demyanov V. F. Mathematical diagnostics via nonsmooth analysis // Optimization Methods and Software. 2005. Vol. 20, N 2-3. P. 197-218.
11. Демьянова В. В. Прогнозирование эффективности различных способов лечения // Вестн. С.-Петеpб. ун-та. Сеp. 10: Прикладная математика, информатика, процессы управления. 2007. Вып. 4. С. 3-16.
12. Демьянов В. Ф., Демьянова В. В., Кокорина А. В., Моисеенко В. М. Прогнозирование эффективности химиотерапии при лечении онкологических заболеваний // Вестн. С.-Петеpб. ун-та. Сеp. 10: Прикладная математика, информатика, процессы управления. 2006. Вып. 4. С. 30-36.
13. Демьянова В. В. Одномерная идентификация методом разделения // Вестн. С.-Петеpб. ун-та. Сеp. 10: Прикладная математика, информатика, процессы управления. 2006. Вып. 3. С. 28-31.
14. Kokorina A. V. Ranking the Parameters in Classification Databases // Longevity, Aging and Degradation Models. Vol. 2 (Матеpиалы Междунаp. конфеpенции LAD’2004). СПб.: Изд-во С.-Петеpб. гос. политех. ун-та. 2004. C. 191-193.
15. Ананьев К. И. Оптимизационные методы в задачах идентификации и ранжирования // Процессы управления и устойчивость: Труды 41-й Междунар. науч. конференции аспирантов и студентов / под ред. Н. В. Смирнова и Г. Ш. Тамасяна. СПб.: Издат. Дом С.-Петерб. гос. ун-та, 2010. С. 257-260.
16. Стегалин И. С. Кластерные методы оптимизации в задачах идентификации и ранжирования // Процессы управления и устойчивость: Труды 41-й Междунар. науч. конференции аспирантов и студентов / под ред. Н. В. Смирнова и Г. Ш. Тамасяна. СПб.: Издат. Дом С.-Петерб. гос. ун-та, 2010. С. 298-301.
17. Demyanova V. V. The Principal Expert Method in Data Mining // Applied Comput. Math. 2005. Vol. 4, N 1. С. 70-74.
18. Демьянова В. В. Метод главного эксперта в задачах идентификации // Труды Междунар. конференции «Устойчивость и процессы управления» (С.-Петербург, 29.06.2005-01.07.2005) / ред. Д. А. Овсянников, Л. А. Петросян. СПб.: Изд-во С.-Петерб. ун-та, 2005. Т. 2. С. 815-822.
19. Григорьева К. В. Аппроксимация критериального функционала в задачах математической диагностики: дис. на соискание учен. степени канд. физ.-мат. наук. СПб.: С.-Петерб. гос. ун-т, 2006. 191 c.
20. Зубова О. А. Методы негладкого анализа в задачах идентификации и диагностики: дис. на соискание учен. степени канд. физ.-мат. наук. СПб.: С.-Петерб. гос. ун-т, 2008. 95 c.
Статья принята к печати 10 марта 2011 г.