Научная статья на тему 'Прогнозирование эффективности различных способов лечения'

Прогнозирование эффективности различных способов лечения Текст научной статьи по специальности «Клиническая медицина»

CC BY
118
42
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по клинической медицине, автор научной работы — Демьянова В. В.

Описывается методика прогнозирования эффективности различных способов лечения пациентов. Эта методика иллюстрируется на базе данных онкологических пациентов. Изучается следующая задача: найти критерий, позволяющий для любого пациента дать прогноз о продолжительности его жизни в случае, когда будет проведена химио и/или гормональная терапия, и в случае, когда никакой терапии назначено не будет.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по клинической медицине , автор научной работы — Демьянова В. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On prognosing the efficiency of different types of medical treatment

A methodology of prognosing the efficiency of different ways in the treatment of patients is described. The methodology is illustrated by the database of oncological patients. The following problem is studied: to find a criterion allowing for any patient to give a prognosis for the time of his/her survival in the case chemotherapy or/and hormonal therapy is applied to treat him/her and in the case no therapy is used.

Текст научной работы на тему «Прогнозирование эффективности различных способов лечения»

2007 ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА. Сер. 10. Вып. 4

ПРИКЛАДНАЯ МАТЕМАТИКА

УДК 519.3+519.7 В. В. Демьянова

ПРОГНОЗИРОВАНИЕ ЭФФЕКТИВНОСТИ РАЗЛИЧНЫХ СПОСОБОВ ЛЕЧЕНИЯ

1. Введение. В статьях [1-3] была описана методика прогнозирования эффективности применения различных способов обучения или лечения. В настоящей работе эта методика применяется для прогнозирования эффективности применения химио- и/или гормональной терапии при лечении онкологических заболеваний. В качестве примера взята база данных СНЕМО-253 (см. [4]), хранящаяся в репозитории Висконсинского университета и широко используемая исследователями (см. [5]).

Эта база содержит сведения о 253 пациентах, больных раком молочной железьг, которым была сделана хирургическая операция по удалению опухоли. Каждый из пациентов описан точкой в 39-мерпом пространстве, представляющей информацию о результатах анализов (30 параметров), о том, какой курс лечения был проведен после операции (был ли пациент подвергнут химио- или гормональной терапии или нет), а также сведения о продолжительности его жизни после операции в месяцах (наблюдения велись в течение 13 лет), размере опухоли, наличии и количестве метастаз.

Для каждого пациента известны результаты применения (или неприменения) химио- и гормотерапии. В результате были получены четыре базы данных о пациентах, подвергшихся хирургической операции: о тех, кому не была сделана ни химио-, ни гормональная терапия; о прошедших курс только химиотерапии; о прошедших курс только гормональной терапии; о прошедших курс и химио-, и гормональной терапии. Предполагается, что эти базы представляют собой репрезентативные выборки из множества пациентов, подвергшихся хирургической операции.

Для каждой из баз (являющейся обучающей выборкой) строится критерий (называемый идентификатором, или решающим правилом - РП), позволяющий предсказать результат лечения. При этом получаются и вероятности этих предсказаний. Данный критерий затем применяется к другим базам (служащим контрольными выборками). В результате все пациенты делятся на 16 прогностических групп. Для каждой группы даются вероятности благоприятного исхода в случае и применения химио- и/или гормотерапии, и неприменения.

Для построения РП выбирается несколько наиболее информативных признаков, и в пространстве этих признаков проводится разделение множеств пациентов с благоприятным и неблагоприятным исходами.

В работе [3] обсуждался случай, когда химио- и гормональная терапии рассматривались как один тип терапии (именно так эта задача обычно и изучается - см. [4, 5]). Ниже показывается, что раздельное исследование каждой из возможных терапий

© В. В. Демьянова, 2007

позволяет получить более точный, чем в [3], прогноз и увеличить количество пациентов с благоприятным исходом.

2. Постановка задачи. Приведем результаты анализа базы данных СНЕМО-253 (см. [4]).

К пациенту, которому сделана хирургическая операция по удалению опухоли, может быть либо применена, либо нет химио- и/или гормональная терапия; или не применена ни химио-, ни гормональная терапия. Как уже отмечалось, имеются четыре базы данных о пациентах, подвергшихся хирургической операции. Обозначим базу данных о пациентах, которым не была сделана ни химио-, ни гормональная терапия, WCT-113 (или база I), базу данных о пациентах, прошедших курс только химиотерапии, - СТ-33 (или база II), базу данных о пациентах, которым назначен курс только гормональной терапии, - НТ-49 (или база III), базу данных о пациентах, получивших курс и химиотерапии, и гормональной терапии, - СНТ-58 (или база IV).

Будем считать, что операция (с гормо- и/или химиотерапией или без нее) прошла успешно, если срок жизни пациента после операции не менее 5 лет (60 месяцев), и неудачно - если он был меньше.

База I (WCT-113) содержит сведения о 113 пациентах, из них 54 жили не менее 5 лет (множество этих пациентов обозначим Ai), а 59 - менее 5 лет (их множество -В,).

База II (СТ-33) включает сведения о 33 пациентах, из них 6 жили не менее 5 лет (множество этих пациентов обозначим Лг), а 27 - менее 5 лет (их множество - Вг).

База III (НТ-49) содержит сведения о 49 пациентах, из них 23 жили не менее 5 лет (множество этих пациентов обозначим Лз), а 26 - менее 5 лет (их множество - Вз).

База IV (СНТ-58) включает сведения о 58 пациентах, из них 32 жили не менее 5 лет (множество этих пациентов обозначим Ац), а 26 - менее 5 лет (их множество - В4).

Информация о базах I—IV сведена в табл. 1. Применение или неприменение химио-и гормональной терапии указано соответственно числами 1 или 0 в соответствующей графе. Предполагается, что эти базы представляют собой репрезентативные выборки из множества пациентов, подвергшихся хирургической операции. К сожалению, находящаяся в нашем распоряжении база СНЕМО-253 не может считаться достаточно репрезентативной (особенно база СТ-33), поэтому выводы, которые будут сделаны ниже, имеют только иллюстративный характер. Для практического использования рекомендаций необходимо взять более обширную базу данных. Однако мы выбрали именно базу СНЕМО-253, поскольку она общедоступна и используется многими исследователями для сравнения эффективности методов идентификации.

В работе рассматривается следующая задача: найти критерий, с помощью которого для каждого конкретного пациента можно определить, следует ли ему рекомендовать химио- и/или гормотерапию, либо эти процедуры ему противопоказаны (т.е. дать прогноз о продолжительности жизни в случаях, если химио(гормо)терапия будет назначена и когда не назначена).

3. Разделение баз I—IV с помощью параметров 30 и 35. Как и в [5], в проводимом нами исследовании было выделено несколько наиболее информативных параметров. В настоящем разделе приводятся данные, полученные с помощью двух параметров: наибольшая гладкость (worst smoothness) и наибольшая фрактальность (worst fractal dimension). Эти параметры были найдены по методике, описанной в [6, 7], они отличались от тех, которые использовались в [5]. Выбранные параметры в базе [4] имеют соответственно номера 30 и 35. В силу сказанного выше, WCT-113 = А\ Ui?i, СТ-33 = А2 U В2, НТ-49 = Л3 U В3, СНТ-58 = Л4 U В4.

Таблица 1. Разбиение базы СНЕМО-253 на подбазы I—IV

База сЬето 1югто ^ 60 < 60 £

\VCT-113 (I) 0 0 54 59 113

СТ-33 (II) 1 0 6 27 33

НТ-49 (III) 0 1 23 26 49

СНТ-58 (IV) 1 1 32 26 58

Для каждой из баз была найдена гиперплоскость (в данном случае прямая в двумерном пространстве), наилучшим способом (в смысле общего количества неверно идентифицированных точек - см. [8]) разделяющая множества А{ и Я;.

Для базы \VCT-113 была построена прямая Ь\ = {ж £ Я2 \ Н\{х) = 0}, где 11\{х) -линейная функция:

(х) = (х, ?/1) + ¿1, х £ Я2, 1/1 е я2, ¿х £ й,

2/1 = (-0,744728, -0,667374), с/, = 0,163306.

С помощью этой прямой проводилась идентификация точек множества \VCT-113 следующим образом:

если /и (с) ^ 0, то считаем, что с £ А\, если /11 (с) > 0, то считаем, что с £ В\.

Аналогично для базы СТ-33 была построена прямая ¿2 = {х £ В2 | /12(2:) = 0}, где /12(ж) = (1,2/2) +<¿2, х £ В2, 2/2 €Д2, (1? £ Я,

2/2 = (-0,220719, -0,97534), = 0,1111885.

С ее помощью проводилась идентификация точек множества СТ-33: если /¿2(с) ^ 0, то считаем, что с £ Ао, если /12(с) > 0, то считаем, что с £ Я2.

Для базы НТ-49 была построена прямая Ьз = {х £ В2 \ /гз(ж) = 0}, где /13(ж) = (х,у3) + х £ В2, 2/3 е Я2, е/3 € Я,

2/з = (-0,730601, -0,68280), с/3 = 0,151446,

с помощью которой проводилась идентификация точек множества НТ-49: если /13(с) ^ 0, то считаем, что с £ А3, если /гз(с) > 0, то считаем, что с £ В3.

Для базы СНТ-58 была построена прямая Ьц = {х £ В2 | /¿4(ж) = 0}, где 1гЛ(х) = (2,2/4) + ¿4, х £ В2, 1/4 € Я2, ¿4 € Я,

2/4 =(-0,321903, -0,946772), с4 = 0,131791.

С ее помощью проводилась идентификация точек множества СНТ-58: если /14(с) ^ 0, то считаем, что с £ А4, если /14(с) > 0, то считаем, что с € Я4.

Прямые Ьг{г £1:4) разделяли соответствующие множества неточно (см. табл. 2-9 ниже). Заметим, что угол между прямыми Ь\ и Ьг оказался равным 35,38°, между

прямыми Ь\ и Ьз - 1,19648°, между прямыми Ь\ и 1ч - 29,357°, между прямыми Ь2 и Ь3 - 34,186°, между прямыми Ь2 и Ь4 - 6,029°, между прямыми Ь3 и 1/4 - 28,159°.

3.1. Разделение базы \VCT-113. В табл. 2 приведены результаты разделения базы \VCT-113 с помощью прямой Ь\ и указанного выше идентификационного правила. Установлено, что

из 54 точек множества А\ значения функции /¡,1 оказались положительными для 20 и отрицательными - для 34 (т. е. правильно были идентифицированы 34 точки, или 63%, а неправильно - 20, или 37%);

из 59 точек множества В\ значения функции /«1 оказались положительными для 37 и отрицательными - для 22 (т.е. правильно были идентифицированы 37 точек, или 62,7%, а неправильно - 22, или 37,3%).

Таблица 3. Данные идентификации (в %) в группах /11+ и /11 — базы \VCT-113 с помощью Таблица 2. Результаты разделения базы прямой Ь\ как точек множеств \VCT-113 с помощью прямой Ь\ А1 и В\

Множество /11 + /и - Е Количество, % Множество /ц + /11 -

А1 20 34 54 63 А1 35,1 60,7

Вх 37 22 59 62,7 В] 64,9 39,3

Е 57 56 ИЗ Е 100 100

Количество правильно идентифицированных точек как точек множеств А\ и В\ в группах /11+ и К \ — для базы \VCT-113 с помощью прямой Ь\ приведено в табл. 3.

3.2. Разделение базы СТ-33. В табл. 4 указаны результаты разделения базы СТ-33 с помощью прямой Ь2 и указанного выше идентификационного правила:

из 6 точек множества А2 значения функции /ь оказались положительными для 1 и отрицательными - для 5 (т. е. правильно были идентифицированы 5 точек, или 83,3%, а неправильно - 1, или 16,7%);

из 27 точек множества В2 значения функции 1г2 оказались положительными для 22 и отрицательными - для 5 (т. е. правильно были идентифицированы 22 точки, или 81,5%, а неправильно - 5, или 18,5%).

Таблица 5. Данные идентификации (в %) в группах /г-2 + и Ь,2 — базы СТ-33 с помощью Таблица 4- Результаты разделения базы прямой ¿2 как точек множеств

СТ-33 с помощью прямой Ь2 А2 и В2

Множество /г г + Ла - Е Количество, % Множество н-2 + /г 2 -

1 5 6 83,3 а2 4,3 50

в2 22 5 27 81,5 в2 95,7 50

Е 23 10 33 Е 100 100

Количество правильно идентифицированных точек как точек множеств А2 и В2 в группах /г2+ и Н2— для базы СТ-33 с помощью прямой Ь2 приведено в табл. 5.

3.3. Разделение базы НТ-49. В табл. 6 указаны результаты разделения базы НТ-49 с помощью прямой и указанного выше идентификационного правила. Было установлено, что

Таблица 7. Данные идентификации (в %) в группах /13 + и /13 — базы НТ-49 с по-Таблица 6. Результаты разделения базы мощью прямой Ьз как точек НТ-49 с помощью прямой Ьз множеств Аз и Вз

Множество /13 + /13 - Е Количество, % Множество Ьз + /13 -

Лз 10 13 23 56,5 Аз 40,0 54,2

Вз 15 11 26 57,7 Вз 60,0 45,8

Е 25 24 49 Е 100 100

из 23 точек множества А3 значения функции /13 оказались положительными для 10 и отрицательными - для 13 (т. е. правильно были идентифицированы 13 точек, или 56,5%, а неправильно - 10, или 43,5%);

из 26 точек множества Вз значения функции /13 оказались положительными для 15 и отрицательными - для 11 (т. е. правильно были идентифицированы 15 точек, или 57,7%, а неправильно - 11, или 42,3%).

Количество правильно идентифицированных точек как точек множеств А3 и Вз в группах /13+ и /13— для базы НТ-49 с помощью прямой Ь3 приведено в табл. 7.

3-4- Разделение базы СНТ-58. В табл. 8 указаны результаты разделения базы СНТ-58 с помощью прямой Ьц и указанного выше идентификационного правила. Установлено, что

из 32 точек множества А4 значения функции /14 оказались положительными для 12 и отрицательными - для 20 (т. е. правильно были идентифицированы 20 точек, или 62,5%, а неправильно - 12, или 37,5%);

из 26 точек множества В4 значения функции /14 оказались положительными для 17 и отрицательными - для 9 (т. е. правильно были идентифицированы 17 точек, или 65,4%, а неправильно - 9, или 34,6%).

Таблица 9. Данные идентификации (в %) в группах /14+ и /14— базы СНТ-58 с по-Таблица 8. Результаты разделения базы мощью прямой 1/4 как точек СНТ-58 с помощью прямой ¿4 множеств .44 и В4

Множество /14 + /14 — Е Количество, % Множество /14 + На —

А4 12 20 32 62,5 Л4 41,4 69,0

Ва 17 9 26 65,4 Ва 58,6 31,0

Е 29 29 58 Е 100 100

Количество правильно идентифицированных точек как точек множеств А4 и В4 в группах /¿4+ и /14— для базы СНТ-58 с помощью прямой Ь4 приведено в табл. 9.

3.5. Перекрестное исследование баз 1-1У с помощью прямых Ь\ — ¿4. Каждую из баз 1-1У исследуем теперь с помощью других прямых, т.е. выясним, каков прогноз эффективности применения других способов лечения. В результате все 253 пациента будут разделены на 16 прогностических групп:

группа 0000 - пациенты, для которых все четыре прогноза неблагоприятны; группа 0001 - пациенты, для которых прогноз благоприятен только в случае одновременного применения и гормо-, и химиотерапии;

Таблица 10. Результаты разделения баз 1-1У с помощью прямых Ь\ — Ь4

Группа а1 в\ а2 в2 Аз в3 ¿4 Й4 Е р Т е А д

0000 8 23 1 16 10 15 6 7 86 0,414 IV 35,6 25 10,6

0001 0 0 0 0 0 0 0 0 0 0,690 IV 0 0

0010 6 11 0 4 2 1 2 4 30 0,542 III 16,25 10 6

0011 0 0 0 0 0 0 0 0 0 0,690 IV 0 0

0100 1 0 0 0 0 0 1 0 2 0,500 II 1 2 -1

0101 0 0 0 0 0 0 0 0 0 0,690 IV 0 0

ОНО 4 2 2 1 2 3 0 1 15 0,542 III 8,13 8 0

0111 1 1 0 0 0 0 0 1 3 0,690 IV 2,07 1 1

1000 0 0 0 0 0 0 0 0 0 0,607 • I 0 0

1001 0 0 0 0 0 0 0 0 0 0,690 IV 0 0

1010 1 1 0 2 1 0 1 2 8 0,607 I 4,86 3 2

1011 0 0 0 0 0 0 0 0 0 0,690 IV 0 0

1100 0 0 0 0 0 0 0 0 0 0,607 I 0 0

1101 0 0 0 0 0 0 0 0 0 0,690 IV 0 0

1110 3 5 0 1 1 2 2 3 17 0,607 I 10,32 6 4

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1111 30 16 3 3 7 5 20 8 92 0,690 IV 63,45 60 3

Е 54 59 6 27 23 26 32 26 253 141,6 115 26,6

Р; 0,61 0,35 0,5 0,04 0,54 0,4 0,69 0,41

группа 0010 - пациенты, для которых прогноз благоприятен только при применении гормональной терапии;

группа 0011 - пациенты, для которых прогноз благоприятен в случаях применения гормональной терапии, одновременного применения гормо- и химиотерапии, и неблагоприятен в случае отсутствия терапии или применения химиотерапии;

группа 0100 - пациенты, для которых прогноз благоприятен только при применении химиотерапии;

группа 0101 - пациенты, для которых прогноз благоприятен в случаях применения химиотерапии, одновременного применения гормо- и химиотерапии, в случае же отсутствия терапии или применения гормональной терапии он неблагоприятный;

группа 0110 - пациенты, для которых прогноз благоприятен в случаях применения и химио-, и гормональной терапии, когда же отсутствует терапия или применяется одновременно и гормональная, и химиотерапия, прогноз неблагоприятный;

группа 011.1 - пациенты, для которых прогноз благоприятен при применении и химио-, и гормональной терапии, и одновременного применения гормо- и химиотерапии, когда же терапия не назначена, прогноз неблагоприятный;

группа 1000 - пациенты, для которых прогноз благоприятен только в случае, когда не применяется ни гормональная, ни химиотерапия;

группа 1001 - пациенты, для которых прогноз благоприятен в случаях и отсутствия, и одновременного применения гормо- и химиотерапии;

группа 1010 - пациенты, для которых прогноз благоприятен в случае неприменения терапии и применения гормональной терапии;

группа 1011 - пациенты, для которых прогноз благоприятен в случаях отсутствия терапии, применения гормональной терапии, одновременного применения гормо- и химиотерапии, и неблагоприятен при применении химиотерапии;

группа 1100 - пациенты, для которых прогноз благоприятен при отсутствии терапии и в случае применения химиотерапии, когда же применяется гормональная терапия или одновременно гормо- и химиотерапия - прогноз неблагоприятный;

группа 1101 - пациенты, для которых прогноз благоприятен в случаях отсутствия терапии, применения химиотерапии, одновременного применения гормо- и химиотерапии, в случае же применения гормональной терапии прогноз неблагоприятный;

группа 1110 - пациенты, для которых прогноз благоприятен и при отсутствии терапии, и в случаях применения химио- или гормональной терапии, когда же применяется одновременно гормо- и химиотерапия, то прогноз неблагоприятный;

группа 1111 - пациенты, для которых прогноз благоприятен во всех случаях. Результаты разделения баз I—IV плоскостями Ь\ — сведены в табл. 10. В последней строке этой таблицы указаны вероятности благоприятного исхода в случае попадания в соответствующее подмножество (А» или В¿) (см. табл. 3, 5, 7 и 9). Жирным шрифтом дается вероятность благоприятного исхода, если пациент оказался в соответствующем подмножестве с благоприятным исходом (т. е. в подмножестве А{) при применении данной терапии (г-й). Так, если пациент имеет благоприятный прогноз при применении только гормональной терапии (т. е. в четырехзначном номере его группы на третьем месте стоит 1), то вероятность благоприятного исхода равна 0,542 (см. табл. 7); если же он неблагоприятный (т. е. в номере его группы на третьем месте стоит 0), то вероятность благоприятного исхода равна 0,4.

Для каждой группы (0000, 0001, 0010 и т. д.) в соответствующей ей строке указано количество пациентов из каждого подмножества (А» и В{) базы г, г £ {I, II, III, IV}, идентифицированных как пациенты этой группы.

Так, в группе 0000 (т. е. в группе пациентов, для которых любой способ лечения имеет неблагоприятный прогноз) из подмножества А\ базы I оказалось 8 пациентов, из подмножества В\ базы I - 23; из подмножества А2 базы II - 1 пациент, из подмножества В'2 базы II 16; из подмножества Аз базы III - 10 пациентов, из подмножества Вл базы III - 15; из подмножества А\ базы IV - 6 пациентов, из подмножества В\ базы IV - 7. Общее количество пациентов, попавших в группу 0000, - 86. Поскольку любой способ лечения для них имеет неблагоприятный прогноз, следует выбрать способ лечения, имеющий наибольшую вероятность успеха. В данном случае вероятность благоприятного исхода первого способа лечения (никакой терапии) 0,351, второго способа лечения (только химиотерапия) - 0,043, третьего способа (только гормональная терапия) - 0,4, четвертого способа (и гормо-, и химиотерапия) - 0,414. Максимальную вероятность успеха имеет четвертый способ лечения (0,414). Она и приведена в столбце р. В столбце Т указан рекомендуемый способ лечения (IV). В столбце Е дается математическое ожидание количества пациентов с благоприятным исходом (86 х 0,414 = 35,6); в столбце А количество пациентов с благоприятным исходом при применении тех методов лечения, которым они были реально подвергнуты (8 + 1 + 10 + 6 = 25). Наконец, в столбце А приводится математическое ожидание прироста количества пациентов с благоприятным исходом в случае применения рекомендуемого (IV) способа лечения (в данном случае прирост равен 10,59).

Рассмотрим еще группу 0110 (т. е. пациентов, для которых благоприятный исход прогнозируется в случае применения только либо химиотерапии, либо гормональной терапии; в случае отсутствия терапии или одновременного применения и химио-, и гормональной терапии прогноз неблагоприятный). В этой группе из подмножества Ах базы I оказалось 4 пациента, из подмножества В\ базы 1-2 пациента; из подмножества Л о базы II 2 пациента, из подмножества В2 базы II - 1; из подмножества Аз базы III - 2 пациента, из подмножества В3 базы III - 3; из подмножества А4 базы IV -нет пациентов, из подмножества В.1 базы IV оказался 1 пациент. Общее количество пациентов, попавших в группу 0110, - 15. Следует выбрать способ лечения, имеющий наибольшую вероятность успеха. В данном случае вероятность благоприятного исхода первого способа лечения (без терапии) составляет 0,351 (поскольку у пациента неблагоприятный прогноз при применении первого способа лечения), второго способа лечения (только химиотерапия) - 0,5 (у пациента благоприятный прогноз при применении второго способа лечения), третьего способа (только гормональная терапия) -0,542 (у пациента благоприятный прогноз при применении третьего способа лечения), четвертого способа (и гормо-, и химиотерапия) - 0,414 (так как у пациента неблагоприятный прогноз при применении четвертого способа лечения). Максимальную вероятность успеха имеет третий способ лечения (0,542). Она приведена в столбце р. В столбце Т указан рекомендуемый способ лечения (III). В столбце Е дается математическое ожидание количества пациентов с благоприятным исходом (15 х 0,542 = 8,13); в столбце А - количество пациентов с благоприятным исходом при применении тех методов лечения, которым они были реально подвергнуты (4 + 2 + 2 + 0= 8). Наконец, в столбце Д приводится математическое ожидание прироста количества пациентов с благоприятным исходом в случае применения рекомендуемого (III) способа лечения (в данном случае прирост практически равен нулю).

Из табл. 10 (см. строку Е, в которой приводится сумма чисел по каждому столбцу) следует, что при применении рекомендуемых способов лечения к каждой из 16 групп (с учетом вероятностей благоприятного исхода) количество пациентов с благоприятным прогнозом составит 141,6 человек (вместо 115 в действительности), т. е. на 26,6 человек

больше. Ниже будет показано, что увеличение точности разделения множеств А* и Вг может привести к увеличению количества пациентов с благоприятным прогнозом (при применении рекомендуемого способа лечения).

4. Разделение баз I—IV с помощью параметров 30, 33 и 35. Теперь исследуем базы I—IV, используя три параметра: наибольшая гладкость (worst smoothness), точка наибольшего изгиба (worst concave point) и наибольшая фрактальность (worst fractal dimension). Выбранные параметры в базе [4] имеют соответственно номера 30, 33 и 35. Эти же параметры изучались в [9].

Для каждой из баз I-IV была найдена гиперплоскость (в данном случае плоскость в трехмерном пространстве), разделяющая (некоторым образом) множества А,; и Bi.

Для базы WCT-113 была построена плоскость Li = {х Е R3 \ hx(x) = 0}, где h\(x) -линейная функция:

1ц{х) = (x,yi) + dx, х £ R3, yi Е R\ di Е R,

У1 = (-0,8458, 0,2700, 0,4602), dx = 0,0325.

С помощью этой плоскости проводилась идентификация точек множества WCT-113 следующим образом:

если h\ (с) ^ 0, то считаем, что с Е Ах, если hx(c) > 0, то считаем, что с 6 Вх.

Аналогично для базы СТ-33 была построена плоскость L2 = {х Е R3 | h2(x) = 0},

где

/г2 (ж) = (х,у2) + do, X Е R3, 2/2 е R.3, (¿2 е R,

У2 = (-0,8907, -0,4300, -0,1473), d2 = 0,1799,

с помощью которой проводилась идентификация точек множества СТ-33: если h2(c) ^ 0, то принимаем, что с € А2, если h2(c) > 0, то принимаем, что с € В2.

Для базы НТ-49 была построена плоскость L3 = {х Е R3 | /13 (ж) = 0}, где h3(x) = (х,у3) + d3, х 6 R3, 2/3 G Л3, d3 € R,

у3 = (-0,7827, -0,4550, 0,4247), d3 = 0,1465.

С ее помощью проводилась идентификация точек множества НТ-49: если /13(c) ^ 0, то считаем, что с G A3, если /13(c) > 0, то считаем, что с Е В3.

Для базы СНТ-58 была построена плоскость L4 = {х Е R3 \ /14 (х) = 0}, где h4(x) - (х, у4) +d4, х Е R3, у4 Е R3, d4 Е R,

у4 = (-0,1442, 0,9892, 0,0269), dA = 0,1974.

С помощью этой плоскости проводилась идентификация точек множества СНТ-58 следующим образом:

если /14(c) ^ 0, то принимаем, что с Е Л4; если /14(c) > 0, то принимаем, что с Е В4.

4-1■ Разделение базы WCT-113. В табл. 11 указаны результаты разделения базы WCT-113 с помощью плоскости Lx и указанного выше идентификационного правила. В результате

из 54 точек множества А\ значения функции оказались положительными для 9 и отрицательными - для 45 (т. е. правильно были идентифицированы 45 точек, или 83,3%, а неправильно - 9, или 16,7%);

из 59 точек множества В\ значения функции Их оказались положительными для 35 и отрицательными - для 24 (т. е. правильно были идентифицированы 35 точек, или 59,3%, а неправильно - 24, или 40,7%).

Таблица 11. Результаты разделения базы \VCT-113 с помощью плоскости Ьх

Множество Их + Их - Е Количество, %

Ах 9 45 54 83,3 .

В\ 35 24 59 59,3

Е 44 69 113

Таблица 12. Данные идентификации (в %) в группах /ц+ и /ц- базы 'УУСТ-113 с помощью плоскости Ь\ как точек множеств Ах и Вх

Множество Нх + Нх -

Ах 20,5 65,2

Вх 79,5 34,8

Е 100 100

Количество правильно идентифицированных точек как точек множеств Л] и В; в группах /¿1+ и /ц — для базы \VCT-113 с помощью плоскости Ьх приведено в табл. 12.

4-2. Разделение базы СТ-33. В табл. 13 указаны результаты разделения базы СТ-33 с помощью плоскости ¿2 и указанного выше идентификационного правила. Установлено, что

из 6 точек множества А2 значения функции /12 оказались положительными для 2 и отрицательными - для 4 (т. е. правильно были идентифицированы 4 точки, или 66,7%, а неправильно - 2, или 33,3%);

из 27 точек множества В2 значения функции /12 оказались положительными для 23 и отрицательными - для 4 (т.е. правильно были идентифицированы 23 точки, или 85,2%, а неправильно - 4, или 14,8%).

Таблица 13. Результаты разделения базы СТ-33 с помощью плоскости 1,2

Множество /«2 + /12 - Е Количество, %

2 4 6 66,7

в2 23 4 27 85,2

2 25 8 33

Таблица Ц. Данные идентификации (в %) в группах /12 + и 1г2— базы СТ-33 с помощью плоскости Ьъ как точек множеств А-1 и В2

Множество /12 + /12 ~

А2 8 50

В2 92 50

Е 100 100

Количество правильно идентифицированных точек как точек множеств А> и В2 в группах /¿2+ и /г2 — для базы СТ-33 с помощью плоскости В2 приведено в табл. 14.

4-3. Разделение базы НТ-49. В табл. 15 указаны результаты разделения базы НТ-49 с помощью плоскости Ьз и указанного выше идентификационного правила:

из 23 точек множества Л3 значения функции /13 оказались положительными для 9 и отрицательными - для 14 (т. е. правильно были идентифицированы 14 точек, или 60,9%, а неправильно - 9, или 39,1%);

из 26 точек множества В3 значения функции /13 оказались положительными для 17 и отрицательными - для 9 (т. е. правильно были идентифицированы 17 точек, или 65,4%, а неправильно - 9, или 34,6%).

Таблица 16. Данные идентификации (в %) в группах /13 + и /13— базы НТ-49 с по-Таблица 15. Результаты разделения базы мощью плоскости Ьз как то-НТ-49 с помощью плоскости Ьз чек множеств Аз и Вз

Множество h3 + h3 - Е Количество, % Множество h3 + Лз -

Аз 9 14 23 60,9 Аз 34,6 60,9

Вз 17 9 26 65,4 Вз 65,4 39,1

Е 26 23 49 Е 100 100

Количество правильно идентифицированных точек как точек множеств Аз и В3 в группах /?з+ и /13— для базы НТ-49 с помощью плоскости приведено в табл. 16.

4-4- Разделение базы СНТ-58. В табл. 17 указаны результаты разделения базы СНТ-58 с помощью плоскости Ь4 и указанного выше идентификационного правила. В результате

из 32 точек множества А4 значения функции /г4 оказались положительными для 9 и отрицательными - для 23 (т. е. правильно были идентифицированы 23 точки, или 71,9%, а неправильно - 9, или 28,1%);

из 26 точек множества В4 значения функции /г4 оказались положительными для 17 и отрицательными - для 9 (т. е. правильно были идентифицированы 17 точек, или 65,4%, а неправильно - 9, или 34,6%).

Таблица 18. Данные идентификации (в %) в группах /14+ и /г4— базы СНТ-58 с по-Таблица 17. Результаты разделения базы мощью плоскости Ь4 как то-СНТ-58 с помощью плоскости Ь4 чек множеств А4 и В4

Множество /14 + h4 — Е Количество, % Множество /(4 + /г 4 —

¿4 9 23 32 71,9 а4 34,6 71,9

В4 17 9 26 65,4 В4 65,4 28,1

Е 26 32 58 Е 100 100

Количество правильно идентифицированных точек как точек множеств А4 и В4 в группах /¿4+ и /ц — для базы СНТ-58 с помощью плоскости Ь4 приведено в табл. 18.

4-5. Перекрестное исследование баз I-IV с помощью плоскостей L\— Ь4.

Каждую из баз I-IV исследуем теперь с помощью других плоскостей, т. е. выясним, каков прогноз эффективности применения иных способов лечения. В результате все 253 пациента будут разделены на 16 прогностических групп. Описание этих групп (0000, 0001, 0010, 0011,...,1111) см. в п. 3.5.

Результаты разделения баз I IV плоскостями Ь\ — Ь4 сведены в табл. 19. В последней строке этой таблицы указаны вероятности благоприятного исхода в случае попадания в соответствующее подмножество (А; или Bi) (см. табл. 12, 14, 16 и 18). Жирным шрифтом дается вероятность благоприятного исхода, если пациент оказался в соответствующем подмножестве с благоприятным исходом (т. е. в подмножестве Aj) при применении данной терапии (г-й).

Для каждой группы (0000, 0001, 0010 и т. д.) в соответствующей ей строке указано количество пациентов из каждого подмножества (А; и В,) базы г, г 6 {I, II, III, IV}.

Таблица 19. Результаты разделения баз I-IV с помощью плоскостей Li — L4

Группа AL В ! А2 в2 Аз В3 A4 В4 Е Р Т E A Д

0000 5 18 1 8 6 10 6 5 59 0,346 IV 20,42 18 2

0001 0 0 0 0 0 0 0 0 0 0,719 IV 0 0

0010 0 4 0 0 0 0 0 1 5 0,609 III 3,04 0 3

ООН 0 0 0 0 0 0 0 0 0 0,719 IV 0 0

0100 0 0 0 0 0 0 0 0 0 0,500 II 0 0 0

0101 0 0 0 0 0 0 0 0 0 0,719 IV 0 0

0110 0 0 0 0 0 0 0 0 0 0,609 III 0 0 0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0111 4 13 1 3 5 4 2 2 34 0,719 IV 24,44 12 12

1000 8 7 1 14 3 7 2 6 48 0,652 ' I 31,3 14 17

1001 0 0 0 0 0 0 0 0 0 0,719 IV 0 0

1010 5 2 0 1 1 1 1 5 16 0,652 I 10,43 7 3

1011 0 0 0 0 0 0 0 0 0 0,719 IV 0 0

1100 0 0 0 0 0 0 0 0 0 0,652 I 0 0

1101 0 0 0 0 0 0 0 0 0 0,719 IV 0 0

1110 0 0 0 0 0 0 0 0 0 0,652 I 0 0 0

1111 32 15 3 1 8 4 21 7 91 0,719 IV 65,41 64 1

£ 54 59 6 27 23 26 32 26 253 155,04 115 40

Pi 0,65 0,21 0,5 0,08 0,61 0,35 0,72 0,35

идентифицированных как пациенты этой группы. Комментарий к табл. 19 такой же, как и к табл. 10 (см. п. 3.5).

Из табл. 16 следует, что при применении рекомендуемых способов лечения к каждой из 16 групп (с учетом вероятностей благоприятного исхода) количество пациентов с благоприятным прогнозом составит 155 человек (вместо 115 в действительности), т. е. на 40 человек больше. Это лучше, чем результат, полученный в п. 3.5 (см. табл. 10: там количество пациентов с благоприятным прогнозом увеличилось на 26 человек), что связано с использованием более эффективного разделения множеств А; и

Заключение. Представленные результаты являются только иллюстративными. Для реального применения предлагаемой методики необходимо, чтобы используемая база была более репрезентативной и обширнее. Большая точность разделения множеств может привести к улучшению прогнозирования и увеличению числа пациентов с благоприятным прогнозом. Выше множества разделялись с помощью плоскостей в соответствующих пространствах. Разделение можно проводить и более тонкими методами (некоторые из них описаны в [8, 10-13]).

В [3] химио- и гормональная терапии рассматривались как один тип, при этом количество пациентов с благоприятным исходом составило 141 человек. Проведенное нами раздельное исследование химио- и гормональной терапий позволило выяснить, что при рекомендуемом настоящей методикой способе лечения количество пациентов с благоприятным исходом увеличивается до 155 (вместо 115 в действительности).

Описанная выше задача была поставлена В. М. Моисеенко, которому автор выражает свою признательность.

Summary

Demyanova V. V. On prognosing the efficiency of different types of medical treatment.

A methodology of prognosing the efficiency of different ways in the treatment of patients is described. The methodology is illustrated by the database of oncological patients. The following problem is studied: to find a criterion allowing for any patient to give a prognosis for the time of his/her survival in the case chemotherapy or/and hormonal therapy is applied to treat him/her and in the case no therapy is used.

Литература

1. Demyanova V. V. The principal expert method in data mining // Applied Coinput. Math. 2005. Vol. 4, N 1. P 70-74.

2. Демьянова В. В. Метод главного эксперта в задачах идентификации // Труды Меж-дунар. конференции «Устойчивость и процессы управления» (С.-Петербург, 29.06.2005-01.07.2005) / Ред. Д. А. Овсянников, Л. А. Петросян. СПб.: Изд-во С.-Петерб. ун-та, 2005. Т. 2. С. 815-822.

3. Демьянов В. Ф., Демьянова В. В., Кокорина А. В., Моисеенко В. М. Прогнозирование эффективности химиотерапии при лечении онкологических заболеваний // Вести. С.-Петерб. ун-та. Сер. 10: Прикладная математика, информатика, процессы управления. 2006. Вып. 4. С. 30-36.

4. Wolberg W. Н., Lee. Y.-J., Mangasarian О. L. WPBCC: Wisconsin Prognostic Breast Cancer Chemotherapy Database. Computer Science Dept., University of Wisconsin, Madison. ftp://ftp.cs.wisc.edu/math-prog/epo- dataset/machine-learn/cancer/WPBCC/, 1999.

5. Lee Y.-J., Mangasarian O. L., Wolberg W. H. Survival-time classification of breast cancer patients // Computational Optimization and Applications. 2003. Vol. 25. P. 151-166.

6. Kokorina A. V. Unsupervised and supervised data classification via nonsmooth and global optimization // TOP (Theory of Optimization). Madrid, Spain, 2003. Vol. 11, N 1. P. 86-89.

7. Kokorina A. V. Ranking the parameters in classification databases // Longevity, Aging and Degradation Models. Vol. 2 (Материалы Междунар. конференции LAD'2004). СПб.: Изд-во С.-Петерб. гос. политехи, ун-та. 2004. С. 191-193.

8. Demyanov V. F. Mathematical diagnostics via nonsmooth analysis // Optimization Methods and Software. 2005. Vol. 20, N 2-3. P. 191-212.

9. Григорьева К. В. Аппроксимация критериального функционала в задачах математической диагностики: Канд. дис. СПб.: С.-Петерб. ун-т, 2006. 191 с.

10. Lee Y.-J., Mangasarian О. L. SSVM: A Smooth Support Vector Machine for Classification // Computational Optimization and Applications. 2001. Vol. 20, N 1. P. 5-22.

11. Advances in kernel methods. Support vector learning / Eds. B. Schoelkopf, C. J. C. Burges, A. .1. Smola. Cambridge, Mass.; London, England: The MIT Press. 1999. 392 p.

12. Bennett K. P., Mangasarian O. L. Robust linear programming discrimination of two linearly inseparable sets // Optimization Methods and Software. 1992. Vol. 1, N 1. P. 22-34.

13. Bagirov A.M., Rubinov A. M., Soukhoroukova N. V., Yerwood J. Unsupervised and supervised data classification via nonsmooth and global optimization // TOP (Theory of Optimization). Madrid, Spain. 2003. Vol. 11, N 1. P. 1-93.

Статья рекомендована к печати членом редколлегии проф. С. В. Чистяковым.

Статья принята к печати 24 мая 2007 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.