2007 ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. Сер. 10. Вып. 4
ПРИКЛАДНАЯ МАТЕМАТИКА
УДК 519.3+519.7 В. В. Демьянова
ПРОГНОЗИРОВАНИЕ ЭФФЕКТИВНОСТИ РАЗЛИЧНЫХ СПОСОБОВ ЛЕЧЕНИЯ
1. Введение. В статьях [1-3] была описана методика прогнозирования эффективности применения различных способов обучения или лечения. В настоящей работе эта методика применяется для прогнозирования эффективности применения химио- и/или гормональной терапии при лечении онкологических заболеваний. В качестве примера взята база данных СНЕМО-253 (см. [4]), хранящаяся в репозитории Висконсинского университета и широко используемая исследователями (см. [5]).
Эта база содержит сведения о 253 пациентах, больных раком молочной железьг, которым была сделана хирургическая операция по удалению опухоли. Каждый из пациентов описан точкой в 39-мерпом пространстве, представляющей информацию о результатах анализов (30 параметров), о том, какой курс лечения был проведен после операции (был ли пациент подвергнут химио- или гормональной терапии или нет), а также сведения о продолжительности его жизни после операции в месяцах (наблюдения велись в течение 13 лет), размере опухоли, наличии и количестве метастаз.
Для каждого пациента известны результаты применения (или неприменения) химио- и гормотерапии. В результате были получены четыре базы данных о пациентах, подвергшихся хирургической операции: о тех, кому не была сделана ни химио-, ни гормональная терапия; о прошедших курс только химиотерапии; о прошедших курс только гормональной терапии; о прошедших курс и химио-, и гормональной терапии. Предполагается, что эти базы представляют собой репрезентативные выборки из множества пациентов, подвергшихся хирургической операции.
Для каждой из баз (являющейся обучающей выборкой) строится критерий (называемый идентификатором, или решающим правилом - РП), позволяющий предсказать результат лечения. При этом получаются и вероятности этих предсказаний. Данный критерий затем применяется к другим базам (служащим контрольными выборками). В результате все пациенты делятся на 16 прогностических групп. Для каждой группы даются вероятности благоприятного исхода в случае и применения химио- и/или гормотерапии, и неприменения.
Для построения РП выбирается несколько наиболее информативных признаков, и в пространстве этих признаков проводится разделение множеств пациентов с благоприятным и неблагоприятным исходами.
В работе [3] обсуждался случай, когда химио- и гормональная терапии рассматривались как один тип терапии (именно так эта задача обычно и изучается - см. [4, 5]). Ниже показывается, что раздельное исследование каждой из возможных терапий
© В. В. Демьянова, 2007
позволяет получить более точный, чем в [3], прогноз и увеличить количество пациентов с благоприятным исходом.
2. Постановка задачи. Приведем результаты анализа базы данных СНЕМО-253 (см. [4]).
К пациенту, которому сделана хирургическая операция по удалению опухоли, может быть либо применена, либо нет химио- и/или гормональная терапия; или не применена ни химио-, ни гормональная терапия. Как уже отмечалось, имеются четыре базы данных о пациентах, подвергшихся хирургической операции. Обозначим базу данных о пациентах, которым не была сделана ни химио-, ни гормональная терапия, WCT-113 (или база I), базу данных о пациентах, прошедших курс только химиотерапии, - СТ-33 (или база II), базу данных о пациентах, которым назначен курс только гормональной терапии, - НТ-49 (или база III), базу данных о пациентах, получивших курс и химиотерапии, и гормональной терапии, - СНТ-58 (или база IV).
Будем считать, что операция (с гормо- и/или химиотерапией или без нее) прошла успешно, если срок жизни пациента после операции не менее 5 лет (60 месяцев), и неудачно - если он был меньше.
База I (WCT-113) содержит сведения о 113 пациентах, из них 54 жили не менее 5 лет (множество этих пациентов обозначим Ai), а 59 - менее 5 лет (их множество -В,).
База II (СТ-33) включает сведения о 33 пациентах, из них 6 жили не менее 5 лет (множество этих пациентов обозначим Лг), а 27 - менее 5 лет (их множество - Вг).
База III (НТ-49) содержит сведения о 49 пациентах, из них 23 жили не менее 5 лет (множество этих пациентов обозначим Лз), а 26 - менее 5 лет (их множество - Вз).
База IV (СНТ-58) включает сведения о 58 пациентах, из них 32 жили не менее 5 лет (множество этих пациентов обозначим Ац), а 26 - менее 5 лет (их множество - В4).
Информация о базах I—IV сведена в табл. 1. Применение или неприменение химио-и гормональной терапии указано соответственно числами 1 или 0 в соответствующей графе. Предполагается, что эти базы представляют собой репрезентативные выборки из множества пациентов, подвергшихся хирургической операции. К сожалению, находящаяся в нашем распоряжении база СНЕМО-253 не может считаться достаточно репрезентативной (особенно база СТ-33), поэтому выводы, которые будут сделаны ниже, имеют только иллюстративный характер. Для практического использования рекомендаций необходимо взять более обширную базу данных. Однако мы выбрали именно базу СНЕМО-253, поскольку она общедоступна и используется многими исследователями для сравнения эффективности методов идентификации.
В работе рассматривается следующая задача: найти критерий, с помощью которого для каждого конкретного пациента можно определить, следует ли ему рекомендовать химио- и/или гормотерапию, либо эти процедуры ему противопоказаны (т.е. дать прогноз о продолжительности жизни в случаях, если химио(гормо)терапия будет назначена и когда не назначена).
3. Разделение баз I—IV с помощью параметров 30 и 35. Как и в [5], в проводимом нами исследовании было выделено несколько наиболее информативных параметров. В настоящем разделе приводятся данные, полученные с помощью двух параметров: наибольшая гладкость (worst smoothness) и наибольшая фрактальность (worst fractal dimension). Эти параметры были найдены по методике, описанной в [6, 7], они отличались от тех, которые использовались в [5]. Выбранные параметры в базе [4] имеют соответственно номера 30 и 35. В силу сказанного выше, WCT-113 = А\ Ui?i, СТ-33 = А2 U В2, НТ-49 = Л3 U В3, СНТ-58 = Л4 U В4.
Таблица 1. Разбиение базы СНЕМО-253 на подбазы I—IV
База сЬето 1югто ^ 60 < 60 £
\VCT-113 (I) 0 0 54 59 113
СТ-33 (II) 1 0 6 27 33
НТ-49 (III) 0 1 23 26 49
СНТ-58 (IV) 1 1 32 26 58
Для каждой из баз была найдена гиперплоскость (в данном случае прямая в двумерном пространстве), наилучшим способом (в смысле общего количества неверно идентифицированных точек - см. [8]) разделяющая множества А{ и Я;.
Для базы \VCT-113 была построена прямая Ь\ = {ж £ Я2 \ Н\{х) = 0}, где 11\{х) -линейная функция:
(х) = (х, ?/1) + ¿1, х £ Я2, 1/1 е я2, ¿х £ й,
2/1 = (-0,744728, -0,667374), с/, = 0,163306.
С помощью этой прямой проводилась идентификация точек множества \VCT-113 следующим образом:
если /и (с) ^ 0, то считаем, что с £ А\, если /11 (с) > 0, то считаем, что с £ В\.
Аналогично для базы СТ-33 была построена прямая ¿2 = {х £ В2 | /12(2:) = 0}, где /12(ж) = (1,2/2) +<¿2, х £ В2, 2/2 €Д2, (1? £ Я,
2/2 = (-0,220719, -0,97534), = 0,1111885.
С ее помощью проводилась идентификация точек множества СТ-33: если /¿2(с) ^ 0, то считаем, что с £ Ао, если /12(с) > 0, то считаем, что с £ Я2.
Для базы НТ-49 была построена прямая Ьз = {х £ В2 \ /гз(ж) = 0}, где /13(ж) = (х,у3) + х £ В2, 2/3 е Я2, е/3 € Я,
2/з = (-0,730601, -0,68280), с/3 = 0,151446,
с помощью которой проводилась идентификация точек множества НТ-49: если /13(с) ^ 0, то считаем, что с £ А3, если /гз(с) > 0, то считаем, что с £ В3.
Для базы СНТ-58 была построена прямая Ьц = {х £ В2 | /¿4(ж) = 0}, где 1гЛ(х) = (2,2/4) + ¿4, х £ В2, 1/4 € Я2, ¿4 € Я,
2/4 =(-0,321903, -0,946772), с4 = 0,131791.
С ее помощью проводилась идентификация точек множества СНТ-58: если /14(с) ^ 0, то считаем, что с £ А4, если /14(с) > 0, то считаем, что с € Я4.
Прямые Ьг{г £1:4) разделяли соответствующие множества неточно (см. табл. 2-9 ниже). Заметим, что угол между прямыми Ь\ и Ьг оказался равным 35,38°, между
прямыми Ь\ и Ьз - 1,19648°, между прямыми Ь\ и 1ч - 29,357°, между прямыми Ь2 и Ь3 - 34,186°, между прямыми Ь2 и Ь4 - 6,029°, между прямыми Ь3 и 1/4 - 28,159°.
3.1. Разделение базы \VCT-113. В табл. 2 приведены результаты разделения базы \VCT-113 с помощью прямой Ь\ и указанного выше идентификационного правила. Установлено, что
из 54 точек множества А\ значения функции /¡,1 оказались положительными для 20 и отрицательными - для 34 (т. е. правильно были идентифицированы 34 точки, или 63%, а неправильно - 20, или 37%);
из 59 точек множества В\ значения функции /«1 оказались положительными для 37 и отрицательными - для 22 (т.е. правильно были идентифицированы 37 точек, или 62,7%, а неправильно - 22, или 37,3%).
Таблица 3. Данные идентификации (в %) в группах /11+ и /11 — базы \VCT-113 с помощью Таблица 2. Результаты разделения базы прямой Ь\ как точек множеств \VCT-113 с помощью прямой Ь\ А1 и В\
Множество /11 + /и - Е Количество, % Множество /ц + /11 -
А1 20 34 54 63 А1 35,1 60,7
Вх 37 22 59 62,7 В] 64,9 39,3
Е 57 56 ИЗ Е 100 100
Количество правильно идентифицированных точек как точек множеств А\ и В\ в группах /11+ и К \ — для базы \VCT-113 с помощью прямой Ь\ приведено в табл. 3.
3.2. Разделение базы СТ-33. В табл. 4 указаны результаты разделения базы СТ-33 с помощью прямой Ь2 и указанного выше идентификационного правила:
из 6 точек множества А2 значения функции /ь оказались положительными для 1 и отрицательными - для 5 (т. е. правильно были идентифицированы 5 точек, или 83,3%, а неправильно - 1, или 16,7%);
из 27 точек множества В2 значения функции 1г2 оказались положительными для 22 и отрицательными - для 5 (т. е. правильно были идентифицированы 22 точки, или 81,5%, а неправильно - 5, или 18,5%).
Таблица 5. Данные идентификации (в %) в группах /г-2 + и Ь,2 — базы СТ-33 с помощью Таблица 4- Результаты разделения базы прямой ¿2 как точек множеств
СТ-33 с помощью прямой Ь2 А2 и В2
Множество /г г + Ла - Е Количество, % Множество н-2 + /г 2 -
1 5 6 83,3 а2 4,3 50
в2 22 5 27 81,5 в2 95,7 50
Е 23 10 33 Е 100 100
Количество правильно идентифицированных точек как точек множеств А2 и В2 в группах /г2+ и Н2— для базы СТ-33 с помощью прямой Ь2 приведено в табл. 5.
3.3. Разделение базы НТ-49. В табл. 6 указаны результаты разделения базы НТ-49 с помощью прямой и указанного выше идентификационного правила. Было установлено, что
Таблица 7. Данные идентификации (в %) в группах /13 + и /13 — базы НТ-49 с по-Таблица 6. Результаты разделения базы мощью прямой Ьз как точек НТ-49 с помощью прямой Ьз множеств Аз и Вз
Множество /13 + /13 - Е Количество, % Множество Ьз + /13 -
Лз 10 13 23 56,5 Аз 40,0 54,2
Вз 15 11 26 57,7 Вз 60,0 45,8
Е 25 24 49 Е 100 100
из 23 точек множества А3 значения функции /13 оказались положительными для 10 и отрицательными - для 13 (т. е. правильно были идентифицированы 13 точек, или 56,5%, а неправильно - 10, или 43,5%);
из 26 точек множества Вз значения функции /13 оказались положительными для 15 и отрицательными - для 11 (т. е. правильно были идентифицированы 15 точек, или 57,7%, а неправильно - 11, или 42,3%).
Количество правильно идентифицированных точек как точек множеств А3 и Вз в группах /13+ и /13— для базы НТ-49 с помощью прямой Ь3 приведено в табл. 7.
3-4- Разделение базы СНТ-58. В табл. 8 указаны результаты разделения базы СНТ-58 с помощью прямой Ьц и указанного выше идентификационного правила. Установлено, что
из 32 точек множества А4 значения функции /14 оказались положительными для 12 и отрицательными - для 20 (т. е. правильно были идентифицированы 20 точек, или 62,5%, а неправильно - 12, или 37,5%);
из 26 точек множества В4 значения функции /14 оказались положительными для 17 и отрицательными - для 9 (т. е. правильно были идентифицированы 17 точек, или 65,4%, а неправильно - 9, или 34,6%).
Таблица 9. Данные идентификации (в %) в группах /14+ и /14— базы СНТ-58 с по-Таблица 8. Результаты разделения базы мощью прямой 1/4 как точек СНТ-58 с помощью прямой ¿4 множеств .44 и В4
Множество /14 + /14 — Е Количество, % Множество /14 + На —
А4 12 20 32 62,5 Л4 41,4 69,0
Ва 17 9 26 65,4 Ва 58,6 31,0
Е 29 29 58 Е 100 100
Количество правильно идентифицированных точек как точек множеств А4 и В4 в группах /¿4+ и /14— для базы СНТ-58 с помощью прямой Ь4 приведено в табл. 9.
3.5. Перекрестное исследование баз 1-1У с помощью прямых Ь\ — ¿4. Каждую из баз 1-1У исследуем теперь с помощью других прямых, т.е. выясним, каков прогноз эффективности применения других способов лечения. В результате все 253 пациента будут разделены на 16 прогностических групп:
группа 0000 - пациенты, для которых все четыре прогноза неблагоприятны; группа 0001 - пациенты, для которых прогноз благоприятен только в случае одновременного применения и гормо-, и химиотерапии;
Таблица 10. Результаты разделения баз 1-1У с помощью прямых Ь\ — Ь4
Группа а1 в\ а2 в2 Аз в3 ¿4 Й4 Е р Т е А д
0000 8 23 1 16 10 15 6 7 86 0,414 IV 35,6 25 10,6
0001 0 0 0 0 0 0 0 0 0 0,690 IV 0 0
0010 6 11 0 4 2 1 2 4 30 0,542 III 16,25 10 6
0011 0 0 0 0 0 0 0 0 0 0,690 IV 0 0
0100 1 0 0 0 0 0 1 0 2 0,500 II 1 2 -1
0101 0 0 0 0 0 0 0 0 0 0,690 IV 0 0
ОНО 4 2 2 1 2 3 0 1 15 0,542 III 8,13 8 0
0111 1 1 0 0 0 0 0 1 3 0,690 IV 2,07 1 1
1000 0 0 0 0 0 0 0 0 0 0,607 • I 0 0
1001 0 0 0 0 0 0 0 0 0 0,690 IV 0 0
1010 1 1 0 2 1 0 1 2 8 0,607 I 4,86 3 2
1011 0 0 0 0 0 0 0 0 0 0,690 IV 0 0
1100 0 0 0 0 0 0 0 0 0 0,607 I 0 0
1101 0 0 0 0 0 0 0 0 0 0,690 IV 0 0
1110 3 5 0 1 1 2 2 3 17 0,607 I 10,32 6 4
1111 30 16 3 3 7 5 20 8 92 0,690 IV 63,45 60 3
Е 54 59 6 27 23 26 32 26 253 141,6 115 26,6
Р; 0,61 0,35 0,5 0,04 0,54 0,4 0,69 0,41
группа 0010 - пациенты, для которых прогноз благоприятен только при применении гормональной терапии;
группа 0011 - пациенты, для которых прогноз благоприятен в случаях применения гормональной терапии, одновременного применения гормо- и химиотерапии, и неблагоприятен в случае отсутствия терапии или применения химиотерапии;
группа 0100 - пациенты, для которых прогноз благоприятен только при применении химиотерапии;
группа 0101 - пациенты, для которых прогноз благоприятен в случаях применения химиотерапии, одновременного применения гормо- и химиотерапии, в случае же отсутствия терапии или применения гормональной терапии он неблагоприятный;
группа 0110 - пациенты, для которых прогноз благоприятен в случаях применения и химио-, и гормональной терапии, когда же отсутствует терапия или применяется одновременно и гормональная, и химиотерапия, прогноз неблагоприятный;
группа 011.1 - пациенты, для которых прогноз благоприятен при применении и химио-, и гормональной терапии, и одновременного применения гормо- и химиотерапии, когда же терапия не назначена, прогноз неблагоприятный;
группа 1000 - пациенты, для которых прогноз благоприятен только в случае, когда не применяется ни гормональная, ни химиотерапия;
группа 1001 - пациенты, для которых прогноз благоприятен в случаях и отсутствия, и одновременного применения гормо- и химиотерапии;
группа 1010 - пациенты, для которых прогноз благоприятен в случае неприменения терапии и применения гормональной терапии;
группа 1011 - пациенты, для которых прогноз благоприятен в случаях отсутствия терапии, применения гормональной терапии, одновременного применения гормо- и химиотерапии, и неблагоприятен при применении химиотерапии;
группа 1100 - пациенты, для которых прогноз благоприятен при отсутствии терапии и в случае применения химиотерапии, когда же применяется гормональная терапия или одновременно гормо- и химиотерапия - прогноз неблагоприятный;
группа 1101 - пациенты, для которых прогноз благоприятен в случаях отсутствия терапии, применения химиотерапии, одновременного применения гормо- и химиотерапии, в случае же применения гормональной терапии прогноз неблагоприятный;
группа 1110 - пациенты, для которых прогноз благоприятен и при отсутствии терапии, и в случаях применения химио- или гормональной терапии, когда же применяется одновременно гормо- и химиотерапия, то прогноз неблагоприятный;
группа 1111 - пациенты, для которых прогноз благоприятен во всех случаях. Результаты разделения баз I—IV плоскостями Ь\ — сведены в табл. 10. В последней строке этой таблицы указаны вероятности благоприятного исхода в случае попадания в соответствующее подмножество (А» или В¿) (см. табл. 3, 5, 7 и 9). Жирным шрифтом дается вероятность благоприятного исхода, если пациент оказался в соответствующем подмножестве с благоприятным исходом (т. е. в подмножестве А{) при применении данной терапии (г-й). Так, если пациент имеет благоприятный прогноз при применении только гормональной терапии (т. е. в четырехзначном номере его группы на третьем месте стоит 1), то вероятность благоприятного исхода равна 0,542 (см. табл. 7); если же он неблагоприятный (т. е. в номере его группы на третьем месте стоит 0), то вероятность благоприятного исхода равна 0,4.
Для каждой группы (0000, 0001, 0010 и т. д.) в соответствующей ей строке указано количество пациентов из каждого подмножества (А» и В{) базы г, г £ {I, II, III, IV}, идентифицированных как пациенты этой группы.
Так, в группе 0000 (т. е. в группе пациентов, для которых любой способ лечения имеет неблагоприятный прогноз) из подмножества А\ базы I оказалось 8 пациентов, из подмножества В\ базы I - 23; из подмножества А2 базы II - 1 пациент, из подмножества В'2 базы II 16; из подмножества Аз базы III - 10 пациентов, из подмножества Вл базы III - 15; из подмножества А\ базы IV - 6 пациентов, из подмножества В\ базы IV - 7. Общее количество пациентов, попавших в группу 0000, - 86. Поскольку любой способ лечения для них имеет неблагоприятный прогноз, следует выбрать способ лечения, имеющий наибольшую вероятность успеха. В данном случае вероятность благоприятного исхода первого способа лечения (никакой терапии) 0,351, второго способа лечения (только химиотерапия) - 0,043, третьего способа (только гормональная терапия) - 0,4, четвертого способа (и гормо-, и химиотерапия) - 0,414. Максимальную вероятность успеха имеет четвертый способ лечения (0,414). Она и приведена в столбце р. В столбце Т указан рекомендуемый способ лечения (IV). В столбце Е дается математическое ожидание количества пациентов с благоприятным исходом (86 х 0,414 = 35,6); в столбце А количество пациентов с благоприятным исходом при применении тех методов лечения, которым они были реально подвергнуты (8 + 1 + 10 + 6 = 25). Наконец, в столбце А приводится математическое ожидание прироста количества пациентов с благоприятным исходом в случае применения рекомендуемого (IV) способа лечения (в данном случае прирост равен 10,59).
Рассмотрим еще группу 0110 (т. е. пациентов, для которых благоприятный исход прогнозируется в случае применения только либо химиотерапии, либо гормональной терапии; в случае отсутствия терапии или одновременного применения и химио-, и гормональной терапии прогноз неблагоприятный). В этой группе из подмножества Ах базы I оказалось 4 пациента, из подмножества В\ базы 1-2 пациента; из подмножества Л о базы II 2 пациента, из подмножества В2 базы II - 1; из подмножества Аз базы III - 2 пациента, из подмножества В3 базы III - 3; из подмножества А4 базы IV -нет пациентов, из подмножества В.1 базы IV оказался 1 пациент. Общее количество пациентов, попавших в группу 0110, - 15. Следует выбрать способ лечения, имеющий наибольшую вероятность успеха. В данном случае вероятность благоприятного исхода первого способа лечения (без терапии) составляет 0,351 (поскольку у пациента неблагоприятный прогноз при применении первого способа лечения), второго способа лечения (только химиотерапия) - 0,5 (у пациента благоприятный прогноз при применении второго способа лечения), третьего способа (только гормональная терапия) -0,542 (у пациента благоприятный прогноз при применении третьего способа лечения), четвертого способа (и гормо-, и химиотерапия) - 0,414 (так как у пациента неблагоприятный прогноз при применении четвертого способа лечения). Максимальную вероятность успеха имеет третий способ лечения (0,542). Она приведена в столбце р. В столбце Т указан рекомендуемый способ лечения (III). В столбце Е дается математическое ожидание количества пациентов с благоприятным исходом (15 х 0,542 = 8,13); в столбце А - количество пациентов с благоприятным исходом при применении тех методов лечения, которым они были реально подвергнуты (4 + 2 + 2 + 0= 8). Наконец, в столбце Д приводится математическое ожидание прироста количества пациентов с благоприятным исходом в случае применения рекомендуемого (III) способа лечения (в данном случае прирост практически равен нулю).
Из табл. 10 (см. строку Е, в которой приводится сумма чисел по каждому столбцу) следует, что при применении рекомендуемых способов лечения к каждой из 16 групп (с учетом вероятностей благоприятного исхода) количество пациентов с благоприятным прогнозом составит 141,6 человек (вместо 115 в действительности), т. е. на 26,6 человек
больше. Ниже будет показано, что увеличение точности разделения множеств А* и Вг может привести к увеличению количества пациентов с благоприятным прогнозом (при применении рекомендуемого способа лечения).
4. Разделение баз I—IV с помощью параметров 30, 33 и 35. Теперь исследуем базы I—IV, используя три параметра: наибольшая гладкость (worst smoothness), точка наибольшего изгиба (worst concave point) и наибольшая фрактальность (worst fractal dimension). Выбранные параметры в базе [4] имеют соответственно номера 30, 33 и 35. Эти же параметры изучались в [9].
Для каждой из баз I-IV была найдена гиперплоскость (в данном случае плоскость в трехмерном пространстве), разделяющая (некоторым образом) множества А,; и Bi.
Для базы WCT-113 была построена плоскость Li = {х Е R3 \ hx(x) = 0}, где h\(x) -линейная функция:
1ц{х) = (x,yi) + dx, х £ R3, yi Е R\ di Е R,
У1 = (-0,8458, 0,2700, 0,4602), dx = 0,0325.
С помощью этой плоскости проводилась идентификация точек множества WCT-113 следующим образом:
если h\ (с) ^ 0, то считаем, что с Е Ах, если hx(c) > 0, то считаем, что с 6 Вх.
Аналогично для базы СТ-33 была построена плоскость L2 = {х Е R3 | h2(x) = 0},
где
/г2 (ж) = (х,у2) + do, X Е R3, 2/2 е R.3, (¿2 е R,
У2 = (-0,8907, -0,4300, -0,1473), d2 = 0,1799,
с помощью которой проводилась идентификация точек множества СТ-33: если h2(c) ^ 0, то принимаем, что с € А2, если h2(c) > 0, то принимаем, что с € В2.
Для базы НТ-49 была построена плоскость L3 = {х Е R3 | /13 (ж) = 0}, где h3(x) = (х,у3) + d3, х 6 R3, 2/3 G Л3, d3 € R,
у3 = (-0,7827, -0,4550, 0,4247), d3 = 0,1465.
С ее помощью проводилась идентификация точек множества НТ-49: если /13(c) ^ 0, то считаем, что с G A3, если /13(c) > 0, то считаем, что с Е В3.
Для базы СНТ-58 была построена плоскость L4 = {х Е R3 \ /14 (х) = 0}, где h4(x) - (х, у4) +d4, х Е R3, у4 Е R3, d4 Е R,
у4 = (-0,1442, 0,9892, 0,0269), dA = 0,1974.
С помощью этой плоскости проводилась идентификация точек множества СНТ-58 следующим образом:
если /14(c) ^ 0, то принимаем, что с Е Л4; если /14(c) > 0, то принимаем, что с Е В4.
4-1■ Разделение базы WCT-113. В табл. 11 указаны результаты разделения базы WCT-113 с помощью плоскости Lx и указанного выше идентификационного правила. В результате
из 54 точек множества А\ значения функции оказались положительными для 9 и отрицательными - для 45 (т. е. правильно были идентифицированы 45 точек, или 83,3%, а неправильно - 9, или 16,7%);
из 59 точек множества В\ значения функции Их оказались положительными для 35 и отрицательными - для 24 (т. е. правильно были идентифицированы 35 точек, или 59,3%, а неправильно - 24, или 40,7%).
Таблица 11. Результаты разделения базы \VCT-113 с помощью плоскости Ьх
Множество Их + Их - Е Количество, %
Ах 9 45 54 83,3 .
В\ 35 24 59 59,3
Е 44 69 113
Таблица 12. Данные идентификации (в %) в группах /ц+ и /ц- базы 'УУСТ-113 с помощью плоскости Ь\ как точек множеств Ах и Вх
Множество Нх + Нх -
Ах 20,5 65,2
Вх 79,5 34,8
Е 100 100
Количество правильно идентифицированных точек как точек множеств Л] и В; в группах /¿1+ и /ц — для базы \VCT-113 с помощью плоскости Ьх приведено в табл. 12.
4-2. Разделение базы СТ-33. В табл. 13 указаны результаты разделения базы СТ-33 с помощью плоскости ¿2 и указанного выше идентификационного правила. Установлено, что
из 6 точек множества А2 значения функции /12 оказались положительными для 2 и отрицательными - для 4 (т. е. правильно были идентифицированы 4 точки, или 66,7%, а неправильно - 2, или 33,3%);
из 27 точек множества В2 значения функции /12 оказались положительными для 23 и отрицательными - для 4 (т.е. правильно были идентифицированы 23 точки, или 85,2%, а неправильно - 4, или 14,8%).
Таблица 13. Результаты разделения базы СТ-33 с помощью плоскости 1,2
Множество /«2 + /12 - Е Количество, %
2 4 6 66,7
в2 23 4 27 85,2
2 25 8 33
Таблица Ц. Данные идентификации (в %) в группах /12 + и 1г2— базы СТ-33 с помощью плоскости Ьъ как точек множеств А-1 и В2
Множество /12 + /12 ~
А2 8 50
В2 92 50
Е 100 100
Количество правильно идентифицированных точек как точек множеств А> и В2 в группах /¿2+ и /г2 — для базы СТ-33 с помощью плоскости В2 приведено в табл. 14.
4-3. Разделение базы НТ-49. В табл. 15 указаны результаты разделения базы НТ-49 с помощью плоскости Ьз и указанного выше идентификационного правила:
из 23 точек множества Л3 значения функции /13 оказались положительными для 9 и отрицательными - для 14 (т. е. правильно были идентифицированы 14 точек, или 60,9%, а неправильно - 9, или 39,1%);
из 26 точек множества В3 значения функции /13 оказались положительными для 17 и отрицательными - для 9 (т. е. правильно были идентифицированы 17 точек, или 65,4%, а неправильно - 9, или 34,6%).
Таблица 16. Данные идентификации (в %) в группах /13 + и /13— базы НТ-49 с по-Таблица 15. Результаты разделения базы мощью плоскости Ьз как то-НТ-49 с помощью плоскости Ьз чек множеств Аз и Вз
Множество h3 + h3 - Е Количество, % Множество h3 + Лз -
Аз 9 14 23 60,9 Аз 34,6 60,9
Вз 17 9 26 65,4 Вз 65,4 39,1
Е 26 23 49 Е 100 100
Количество правильно идентифицированных точек как точек множеств Аз и В3 в группах /?з+ и /13— для базы НТ-49 с помощью плоскости приведено в табл. 16.
4-4- Разделение базы СНТ-58. В табл. 17 указаны результаты разделения базы СНТ-58 с помощью плоскости Ь4 и указанного выше идентификационного правила. В результате
из 32 точек множества А4 значения функции /г4 оказались положительными для 9 и отрицательными - для 23 (т. е. правильно были идентифицированы 23 точки, или 71,9%, а неправильно - 9, или 28,1%);
из 26 точек множества В4 значения функции /г4 оказались положительными для 17 и отрицательными - для 9 (т. е. правильно были идентифицированы 17 точек, или 65,4%, а неправильно - 9, или 34,6%).
Таблица 18. Данные идентификации (в %) в группах /14+ и /г4— базы СНТ-58 с по-Таблица 17. Результаты разделения базы мощью плоскости Ь4 как то-СНТ-58 с помощью плоскости Ь4 чек множеств А4 и В4
Множество /14 + h4 — Е Количество, % Множество /(4 + /г 4 —
¿4 9 23 32 71,9 а4 34,6 71,9
В4 17 9 26 65,4 В4 65,4 28,1
Е 26 32 58 Е 100 100
Количество правильно идентифицированных точек как точек множеств А4 и В4 в группах /¿4+ и /ц — для базы СНТ-58 с помощью плоскости Ь4 приведено в табл. 18.
4-5. Перекрестное исследование баз I-IV с помощью плоскостей L\— Ь4.
Каждую из баз I-IV исследуем теперь с помощью других плоскостей, т. е. выясним, каков прогноз эффективности применения иных способов лечения. В результате все 253 пациента будут разделены на 16 прогностических групп. Описание этих групп (0000, 0001, 0010, 0011,...,1111) см. в п. 3.5.
Результаты разделения баз I IV плоскостями Ь\ — Ь4 сведены в табл. 19. В последней строке этой таблицы указаны вероятности благоприятного исхода в случае попадания в соответствующее подмножество (А; или Bi) (см. табл. 12, 14, 16 и 18). Жирным шрифтом дается вероятность благоприятного исхода, если пациент оказался в соответствующем подмножестве с благоприятным исходом (т. е. в подмножестве Aj) при применении данной терапии (г-й).
Для каждой группы (0000, 0001, 0010 и т. д.) в соответствующей ей строке указано количество пациентов из каждого подмножества (А; и В,) базы г, г 6 {I, II, III, IV}.
Таблица 19. Результаты разделения баз I-IV с помощью плоскостей Li — L4
Группа AL В ! А2 в2 Аз В3 A4 В4 Е Р Т E A Д
0000 5 18 1 8 6 10 6 5 59 0,346 IV 20,42 18 2
0001 0 0 0 0 0 0 0 0 0 0,719 IV 0 0
0010 0 4 0 0 0 0 0 1 5 0,609 III 3,04 0 3
ООН 0 0 0 0 0 0 0 0 0 0,719 IV 0 0
0100 0 0 0 0 0 0 0 0 0 0,500 II 0 0 0
0101 0 0 0 0 0 0 0 0 0 0,719 IV 0 0
0110 0 0 0 0 0 0 0 0 0 0,609 III 0 0 0
0111 4 13 1 3 5 4 2 2 34 0,719 IV 24,44 12 12
1000 8 7 1 14 3 7 2 6 48 0,652 ' I 31,3 14 17
1001 0 0 0 0 0 0 0 0 0 0,719 IV 0 0
1010 5 2 0 1 1 1 1 5 16 0,652 I 10,43 7 3
1011 0 0 0 0 0 0 0 0 0 0,719 IV 0 0
1100 0 0 0 0 0 0 0 0 0 0,652 I 0 0
1101 0 0 0 0 0 0 0 0 0 0,719 IV 0 0
1110 0 0 0 0 0 0 0 0 0 0,652 I 0 0 0
1111 32 15 3 1 8 4 21 7 91 0,719 IV 65,41 64 1
£ 54 59 6 27 23 26 32 26 253 155,04 115 40
Pi 0,65 0,21 0,5 0,08 0,61 0,35 0,72 0,35
идентифицированных как пациенты этой группы. Комментарий к табл. 19 такой же, как и к табл. 10 (см. п. 3.5).
Из табл. 16 следует, что при применении рекомендуемых способов лечения к каждой из 16 групп (с учетом вероятностей благоприятного исхода) количество пациентов с благоприятным прогнозом составит 155 человек (вместо 115 в действительности), т. е. на 40 человек больше. Это лучше, чем результат, полученный в п. 3.5 (см. табл. 10: там количество пациентов с благоприятным прогнозом увеличилось на 26 человек), что связано с использованием более эффективного разделения множеств А; и
Заключение. Представленные результаты являются только иллюстративными. Для реального применения предлагаемой методики необходимо, чтобы используемая база была более репрезентативной и обширнее. Большая точность разделения множеств может привести к улучшению прогнозирования и увеличению числа пациентов с благоприятным прогнозом. Выше множества разделялись с помощью плоскостей в соответствующих пространствах. Разделение можно проводить и более тонкими методами (некоторые из них описаны в [8, 10-13]).
В [3] химио- и гормональная терапии рассматривались как один тип, при этом количество пациентов с благоприятным исходом составило 141 человек. Проведенное нами раздельное исследование химио- и гормональной терапий позволило выяснить, что при рекомендуемом настоящей методикой способе лечения количество пациентов с благоприятным исходом увеличивается до 155 (вместо 115 в действительности).
Описанная выше задача была поставлена В. М. Моисеенко, которому автор выражает свою признательность.
Summary
Demyanova V. V. On prognosing the efficiency of different types of medical treatment.
A methodology of prognosing the efficiency of different ways in the treatment of patients is described. The methodology is illustrated by the database of oncological patients. The following problem is studied: to find a criterion allowing for any patient to give a prognosis for the time of his/her survival in the case chemotherapy or/and hormonal therapy is applied to treat him/her and in the case no therapy is used.
Литература
1. Demyanova V. V. The principal expert method in data mining // Applied Coinput. Math. 2005. Vol. 4, N 1. P 70-74.
2. Демьянова В. В. Метод главного эксперта в задачах идентификации // Труды Меж-дунар. конференции «Устойчивость и процессы управления» (С.-Петербург, 29.06.2005-01.07.2005) / Ред. Д. А. Овсянников, Л. А. Петросян. СПб.: Изд-во С.-Петерб. ун-та, 2005. Т. 2. С. 815-822.
3. Демьянов В. Ф., Демьянова В. В., Кокорина А. В., Моисеенко В. М. Прогнозирование эффективности химиотерапии при лечении онкологических заболеваний // Вести. С.-Петерб. ун-та. Сер. 10: Прикладная математика, информатика, процессы управления. 2006. Вып. 4. С. 30-36.
4. Wolberg W. Н., Lee. Y.-J., Mangasarian О. L. WPBCC: Wisconsin Prognostic Breast Cancer Chemotherapy Database. Computer Science Dept., University of Wisconsin, Madison. ftp://ftp.cs.wisc.edu/math-prog/epo- dataset/machine-learn/cancer/WPBCC/, 1999.
5. Lee Y.-J., Mangasarian O. L., Wolberg W. H. Survival-time classification of breast cancer patients // Computational Optimization and Applications. 2003. Vol. 25. P. 151-166.
6. Kokorina A. V. Unsupervised and supervised data classification via nonsmooth and global optimization // TOP (Theory of Optimization). Madrid, Spain, 2003. Vol. 11, N 1. P. 86-89.
7. Kokorina A. V. Ranking the parameters in classification databases // Longevity, Aging and Degradation Models. Vol. 2 (Материалы Междунар. конференции LAD'2004). СПб.: Изд-во С.-Петерб. гос. политехи, ун-та. 2004. С. 191-193.
8. Demyanov V. F. Mathematical diagnostics via nonsmooth analysis // Optimization Methods and Software. 2005. Vol. 20, N 2-3. P. 191-212.
9. Григорьева К. В. Аппроксимация критериального функционала в задачах математической диагностики: Канд. дис. СПб.: С.-Петерб. ун-т, 2006. 191 с.
10. Lee Y.-J., Mangasarian О. L. SSVM: A Smooth Support Vector Machine for Classification // Computational Optimization and Applications. 2001. Vol. 20, N 1. P. 5-22.
11. Advances in kernel methods. Support vector learning / Eds. B. Schoelkopf, C. J. C. Burges, A. .1. Smola. Cambridge, Mass.; London, England: The MIT Press. 1999. 392 p.
12. Bennett K. P., Mangasarian O. L. Robust linear programming discrimination of two linearly inseparable sets // Optimization Methods and Software. 1992. Vol. 1, N 1. P. 22-34.
13. Bagirov A.M., Rubinov A. M., Soukhoroukova N. V., Yerwood J. Unsupervised and supervised data classification via nonsmooth and global optimization // TOP (Theory of Optimization). Madrid, Spain. 2003. Vol. 11, N 1. P. 1-93.
Статья рекомендована к печати членом редколлегии проф. С. В. Чистяковым.
Статья принята к печати 24 мая 2007 г.