УДК 519.3+519.7
Вестник СПбГУ. Сер. 10, 2006, вып. 4
В. Ф. Демьянов, В. В. Демьянова, А. В. Кокорина, В. М. Моисеенко
ПРОГНОЗИРОВАНИЕ ЭФФЕКТИВНОСТИ ХИМИОТЕРАПИИ ПРИ ЛЕЧЕНИИ ОНКОЛОГИЧЕСКИХ ЗАБОЛЕВАНИЙ •)
1. Введение и постановка задачи. В работе описывается методика прогнозирования эффективности применения химиотерапии при лечении онкологических заболеваний. Имеются две базы данных: о пациентах, подвергшихся хирургической операции и прошедших курс химиотерапии, и о пациентах, которым была сделана хирургическая операция, но они не прошли курс химиотерапии. Предполагается, что эти базы представляют собой репрезентативные выборки из множества пациентов, подвергшихся хирургической операции.
Для обеих баз данных известны результаты применения (или неприменения) химиотерапии. Для каждой из них (являющейся обучающей выборкой) строится (методами математической диагностики) критерий (решающее правило), позволяющий предсказать результат лечения. При этом получаются и вероятности данных предсказаний. Такой критерий затем применяется к другой базе (служащей контрольной выборкой). В результате все пациенты делятся на четыре прогностические группы. Для первой группы прогноз и применения, и неприменения химиотерапии неблагоприятный; для второй - прогноз благоприятный в случае применения химиотерапии и неблагоприятный - в случае ее неприменения; для третьей - прогноз неблагоприятный при применении химиотерапии и благоприятный - в случае ее неприменения; наконец, для четвертой - прогноз и применения, и неприменения химиотерапии благоприятный. Для каждой группы даются вероятности благоприятного исхода в случае и применения, и неприменения химиотерапии.
Предлагаемая методика демонстрируется на примере базы СНЕМО-253 («WPBCC: Wisconsin Prognostic Breast Cancer Chemotherapy Database»), хранящейся в репозито-рии Висконсинского университета и широко доступной.
В настоящей работе приводятся результаты исследования базы данных СНЕМО-253 (см. [1]). Она содержит сведения о 253 пациентах, больных раком молочной железы, которым была сделана хирургическая операция. 140 из них были подвергнуты химиотерапии (будем их называть пациентами с х/т), а 114 - нет (пациенты без х/т). Каждый из пациентов описан точкой в 39-мерном пространстве, представляющей информацию о данных анализов (30 параметров), а также сведения о продолжительности жизни после операции в месяцах (наблюдения велись 13 лет), размере опухоли, наличии и количестве метастаз.
В [2] рассматривалась задача идентификации тех пациентов, для которых применение химиотерапии может увеличить продолжительность жизни. В [2] использовался математический аппарат, основанный на методе гладких опорных векторов (SSVM -Smooth Support Vector Machine) (см. [3-5]). Другие методы разделения можно, например, найти в [6].
Будем считать, что операция (с химиотерапией или без нее) прошла успешно, если пациент жил после операции не менее 5 лет, и неудачно - если срок жизни после операции был меньше 5 лет.
*' Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проект № 06-01-00276).
© В. Ф. Демьянов, В. В. Демьянова, А. В. Кокорина, В. М. Моисеенко, 2006
Из пациентов с х/т 61 чел. жили не менее 5 лет (множество этих пациентов обозначим А\), а 79 - менее 5 лет (их множество - В\). Из пациентов без х/т 54 чел. жили не менее 5 лет (их множество обозначим Л2), а 59 - менее 5 лет (их множество - В2).
В работе изучается следующая задача: найти критерий, с помощью которого для каждого пациента можно определить, следует ли ему рекомендовать химиотерапию или она ему противопоказана (т. е. дать прогноз о продолжительности жизни в случае, если химиотерапия будет назначена, и в случае, если химиотерапия назначена не будет).
2. Разделение баз СТ-140 и WCT-113. Как и в [2], в нашем исследовании было выделено несколько наиболее информативных параметров. Ниже приводятся данные, полученные с помощью трех параметров: наибольшая гладкость (worst smoothness), точка наибольшего изгиба (worst concave point), наибольшая фрактальность (worst fractal dimension). Они были найдены по методике, описанной в [7], и отличались от использовавшихся в [2]. Выбранные параметры в базе [1] имеют соответственно номера 30, 33, 35.
База данных СНЕМО-253 была разделена на две: СТ-140 (содержащую сведения о 140 пациентах с х/т) и WCT-113 (со сведениями о 113 пациентах без х/т). В силу сказанного выше, СТ-140 = Аг U Ви WCT-113 = А2 U В2.
Для каждой из баз была найдена плоскость (в данном случае в трехмерном пространстве), наилучшим способом (в смысле общего количества неверно идентифицированных точек - см. [8]) разделяющая множества Ai и В\ (для базы СТ-140) и множества А2 и В2 (для базы WCT-113). Упомянутые плоскости находились по методу, являющемуся обобщением метода Фишера (оно описано в [7, 8]). Далее проводилось перекрестное исследование баз СТ-140 и WCT-113 с помощью «чужих» плоскостей по методике, предложенной в [9, 10].
Для базы СТ-140 была построена плоскость L\ = {х G R3 | hi(x) = 0}, где hi(x) -линейная функция:
hi(x) = (x,yi) + di, х G R3, уi G R3, di G R,
2/1 = (—0,5136, 0,11415, -0,85037), di = 0,13123.
С помощью этой плоскости проводилась идентификация точек множества СТ-140 следующим образом:
если hi(c) ^ 0, то считаем, что с G А\\ если /ii(c) > 0, то считаем, что с G В\.
Аналогично для базы WCT-113 была построена плоскость L2 — {х G R3 | h2(x) = 0}, где h2(x) - линейная функция:
h2{x) = {x,y2) + d2, х G R3, y2 G R3, d2 G R,
2/2 = (-0,481204, -0,75574, -0,44419), d2 = 0,223685.
С помощью этой плоскости проводилась идентификация точек множества WCT-113 таким образом:
если h2(c) «С 0, то считаем, что с G А2; если h2(c) > 0, то считаем, что с G В2.
Плоскости L1 и Ь2 разделяли соответствующие множества неточно (см. таблицы ниже). Заметим, что угол между плоскостями Li и Ь2 оказался равным 57,41°, или примерно 1 радиан.
Таблица 1. Результаты раз- Таблица 2. Идентификации (%) в груп-
деления базы СТ-140 с по- пах /м + и базы СТ-140 с помощью
мощью плоскости ¿1 (чел.) плоскости Ь\ как точек множеств Ах и В\
Множество /11 + /11- £ Множество /11 + /11-
А1 34 27 61 А\ 33,3 71,05
Вх 68 11 79 Вх 67,7 28,95
£ 102 38 140 £ 100 100
3. Разделение базы СТ-140. В табл. 1 приведены результаты разделения с помощью плоскости Ь\ и указанного выше идентификационного правила. В результате
из 61 точки множества А\ значения функции оказались положительными для 34 точек и отрицательными - для 27 (т. е. правильно были идентифицированы 27 точек, а неправильно - 34);
из 79 точек множества В\ значения функции оказались положительными для 68 точек и отрицательными - для 11 (т. е. правильно были идентифицированы 68 точек, а неправильно - 11).
Отметим, что плоскость Ь\ не очень удачно разделила множество А\\ только 27 из 61 пациентов в этой группе (или 44,26 % ) были идентифицированы правильно. Этот факт объясняется тем, что критерием при построении разделяющей гиперплоскости было общее количество правильно определенных точек (а, как следует из табл. 1, правильно идентифицировано было 67,86 %). В дальнейшем можно выбрать какой-нибудь другой функционал (например, наибольший процент неверно определенных точек в группах А\ и Вг), который следует минимизировать. Количество правильно идентифицированных точек как точек множеств А\ к В\ (в процентах) в группах и — для базы СТ-140 с помощью плоскости Ь\ приведено в табл. 2.
4. Разделение базы \УСТ-113. Для базы \VCT-113 имеем разделяющую плоскость ¿2. В табл. 3 приведен результат разделения с помощью плоскости ¿2 и указанного выше идентификационного правила:
из 54 точек множества А2 значения функции /12 оказались положительными для 9 точек и отрицательными - для 45 (т. е. правильно были идентифицированы 45 точек, а неправильно - 9);
из 59 точек множества В2 значения функции Л,2 оказались положительными для 34 точек и отрицательными - для 25 (т. е. правильно были идентифицированы 34 точки, а неправильно - 25).
Количество правильно идентифицированных точек как точек множеств А2 и В2 (в процентах) в группах /12+ и /12— базы \УСТ-113 с помощью плоскости ¿2 приведено в табл. 4.
Таблица 4■ Идентификации (%) в груп-Таблица 3. Результаты разделе- пах И2 + и Н2- для базы Л¥СТ-113 с по-
ния базы ЛУСТ-ИЗ с помощью мощью плоскости Ь2 как точек множеств
плоскости Ь2 (чел.) А2 и В2
Множество /12 + /12- £ Множество /12 + /12-
А2 9 45 54 А2 20,93 64,29
в2 34 25 59 В 2 79,07 35,71
£ 43 70 113 £ 100 100
5. Перекрестное исследование баз "\¥СТ-113 и СТ-140.
5.1. Исследование базы \VCT-113 с помощью плоскости Ь\. Вначале рассмотрим базу \VCT-113 (т. е. группу пациентов без х/т), и исследуем ее с помощью плоскости Ь\. Посмотрим, как эти точки были бы идентифицированы с помощью функции /ц.
Таблица 5. Результаты разделения базы Л¥СТ-113 с помощью плоскости Ь\ (чел.)
Множество /12+ /11 + /12+ 7ц— /12— /Ц + /12— Л. 1 — £
а2 7 2 16 29 54
в2 30 4 12 13 59
£ 37 6 28 42 113
Из табл. 5 следует, что 37 точек попали в группу к2 + /ц+ (обозначим ее ++), т. е. и плоскость Ь2, и плоскость 1/1 определили их как точки, попавшие в группу В (с неблагоприятным прогнозом в случае и применения х/т, и без нее);
6 точек попали в группу к2 + /ц — (группа Н—), т. е. плоскость Ь2 отнесла их в группу В (с неблагоприятным прогнозом в случае неприменения х/т), а плоскость Ь\ -в группу А (с благоприятным прогнозом при применении х/т);
28 точек попали в группу к2 — /ц + (ее обозначим —Ь), т. е. плоскость Ь2 отнесла их в группу А (с благоприятным прогнозом в случае неприменения х/т), а плоскость Ь\ - ъ группу В (с неблагоприятным прогнозом при применении х/т);
42 точки попали в группу к2— /ц — (группа —), т. е. и плоскость Ь2, и плоскость определили их как точки, попавшие в группу А (с благоприятным прогнозом в случае и применения химиотерапии, и без нее).
Таблица 6. Прогноз для базы \VCT-113 при применении химиотерапии (чел.)
Множество /12+ /Ц + /12+ /ц — /12— /11+ ' /12— /г 1 —
а 12,33 4,26 9,32 29,84
в 24,67 1,64 18,68 12,16
£ 37 6 28 42
В табл. 6 приведен прогноз применения химиотерапии к каждой из четырех указанных групп пациентов без х/т (база \VCT-113) с учетом вероятности (см. табл. 2) их попадания в группу А (с благоприятным прогнозом) или В (с неблагоприятным прогнозом). Хотя в группе ++ оба прогноза неблагоприятны, применение химиотерапии переведет в группу А 12,3 пациента (а не 7, как.оказалось на самом деле без нее - см. табл. 5).
В группе + — при проведении химиотерапии 4,26 чел. попадут в группу А (а не 2, как оказалось без х/т), в группе —Ь 9,23 чел. окажутся в группе А ( а не 16, как без х/т). Наконец, в группе — 29,84 пациента попадут в группу А (т. е. почти столько же, сколько попало без х/т). Таким образом, только пациентам группы —Ь строго не рекомендована химиотерапия.
Следовательно, применение химиотерапии к группам ++ и + — позволит перевести в группу А 12,3 + 4,3 = 16,6 пациента, а не 7 + 2 = 9, как произошло при отсутствии химиотерапии, т. е. на 7,6 чел. больше.
Заметим, что (согласно общепринятой терминологии [2]) в данном случае база СТ-140 представляет собой обучающее множество (training set), а база WCT-113 - контрольное (testing set).
5.2. Исследование базы СТ-140 с помощью плоскости 1/2- Теперь возьмем базу СТ-140 (т. е. группу пациентов с х/т), и исследуем ее с помощью плоскости ¿2-Посмотрим, как эти точки были бы идентифицированы с помощью функции /12 (что было бы, если бы к этим пациентам не применяли химиотерапию).
Таблица 7. Результаты разделения базы СТ-140 с помощью плоскости Ьг (чел.)
Множество /11+ /12 + /11+ /12 — hi— /12+ hi— h-2 — £
Ах 20 14 1 26 61
Вг 29 39 3 8 79
Е 49 53 4 34 140
Как следует из табл. 7, 49 точек попали в группу + /12+ (далее обозначим ее ++), т. е. и плоскость Ь\, и плоскость ¿2 определили их как точки, попавшие в группу В (с неблагоприятным прогнозом в случае и применения х/т, и без нее);
53 точки оказались в группе + /г2— (группа +—), т. е. плоскость Ь\ отнесла их в группу В (с неблагоприятным прогнозом в случае применения х/т), а плоскость ¿2 -в группу А (с благоприятным прогнозом при неприменении х/т);
4 точки попали в группу — /12+ (обозначим ее —+), т. е. плоскость Ь\ отнесла их в группу А (с благоприятным прогнозом в случае применения х/т), а плоскость 1/2 - в группу В (с неблагоприятным прогнозом при неприменении х/т);
34 точки оказались в группе /¿1 — /12 — (группа —), т. е. и плоскость Ь\, и плоскость 1/2 определили их как точки, попавшие в группу А (с благоприятным прогнозом в случае и применения химиотерапии, и без нее).
Таблица 8. Прогноз для базы СТ-140 при неприменении химиотерапии (чел.)
Множество hi+ /12+ hi+ — h\— /12 + h\— /12 —
A 10,26 34,07 0,84 21,86
в 38,74 18,93 3,16 12,14
E 49 53 4 34
В табл. 8 приведен прогноз применения химиотерапии к каждой из четырех указанных групп пациентов, не подвергшихся ей (база СТ-140), с учетом вероятности (см. табл. 4) их попадания в группу А (с благоприятным прогнозом) или В (с неблагоприятным прогнозом).
Из табл. 7 и 8 следует, что в группе Н— в случае неприменения химиотерапии 34 пациента попадут в группу с благоприятным прогнозом (вместо 14, как оказалось при применении ее). Хотя пациентам из групп ++ и — оба прогноза одинаковы (неблагоприятные для группы ++ и благоприятные для группы —), в силу несовпадения вероятностей исполнения прогнозов, полученных с помощью различных плоскостей (см. табл. 2 и 4), применение химиотерапии в обоих случаях приводит к большей вероятности попадания в группу с благоприятным прогнозом. Также заключаем, что
пациентов группы + — (которым плоскость Ь\ давала неблагоприятный прогноз, а плоскость ¿2 - благоприятный) не следовало подвергать химиотерапии, при этом в группу с благоприятным исходом попало бы 34 чел., а не 14, как оказалось при применении химиотерапии, т. е. на 20 чел. больше.
Заметим, что в данном случае база \¥СТ-113 является обучающим множеством, а база СТ-140 - контрольным.
6. Заключение и рекомендации. Таким образом, выполнение рекомендаций, полученных с помощью описанной методики, позволило бы перевести в группу с благоприятным прогнозом на 7 + 20 = 27 чел. больше, чем оказалось в действительности. Всего в базе СНЕМО-253 из 253 пациентов с неблагоприятным исходом оказались 79 + 59 = 138 чел., т. е. предлагаемая методика позволила бы уменьшить количество пациентов с неблагоприятным исходом на 27 чел. (111 вместо 138, или на 19,5 %).
С учетом полученных результатов можно сделать вывод о том, что все пациенты делятся на четыре прогностические группы (табл. 9).
Таблица 9. Прогностические группы базы СНЕМО-253 (чел.)
База hi+ /12+ h i+ /¿2 hi- /12+ h\— h>2 — £
WCT-140 49 53 4 34 140
СТ-113 37 28 6 42 113
СНЕМО-253 86 81 10 76 253
В табл. 10 приведены вероятности попадания пациента в группу А (с благоприятным прогнозом) в зависимости от его прогностической группы:
в группе ++ (86 чел.) при ее применении вероятность благоприятного исхода равна 0,333, а без нее - 0,2093, т. е. химиотерапия предпочтительнее, но вероятность неблагоприятного исхода в любом случае велика;
в группе +— (81 чел.) при ее применении вероятность благоприятного исхода равна 0,333, а без - 0,6429, т. е. пациентам из этой группы химиотерапия не рекомендуется, тогда вероятность благоприятного исхода достаточна велика;
в группе —Ь (10 чел.) при применении химиотерапии вероятность благоприятного исхода равна 0,7105, а без нее - 0,2093, т. е. пациентам группы она настоятельно рекомендуется, вероятность благоприятного исхода в случае проведения химиотерапии велика;
в группе — (76 чел.) при ее применении вероятность благоприятного исхода равна 0,7105, а без нее - 0,6429, т. е. пациентам группы химиотерапия предпочтительнее, хотя вероятность благоприятного исхода в любом случае велика.
Таблица 10. Вероятность попадания в группу А
Случаи /11+ /12 + hi+ h 2 — h\— /12 + h\ — /12 —
При применении х/т 0,333 0,333 0,7105 0,7105
При неприменении х/т 0,2093 0,6429 0,2029 0,6429
Из табл. 9 и 10 можно найти математическое ожидание количества пациентов с благоприятным исходом при применении рекомендуемой (своей для каждой прогностической группы) методики лечения: М = 86x0,333+81x0,643+10x0,710+76x0,710= 141.
Таким образом, при применении рекомендуемой методики лечения количество пациентов с благоприятным исходом увеличится на 141 — 115 = 26 чел.
Замечание. Как уже отмечалось, при разделении множеств использовался модифицированный метод Фишера, который для рассматриваемой базы оказался недостаточно эффективным. Улучшение качества разделения множеств позволит повысить качество прогноза. Цель настоящей работы - демонстрация предлагаемой методики прогнозирования эффективности химиотерапии.
Авторы благодарят проф. О. Мангасарьяна (О. Mangasarian) и проф. Ю. Ли (Yuh-Jye Lee) за уточнение параметров базы 'СНЕМО-253 и проф. В. И. Шишкина - за полезные замечания.
Summary
Demyanov V. F., Demyanova V. V., Kokorina A. V., Moiseenko V. M. On prognosing the efficiency of chemotherapy in the treatment of oncological patients.
A methodology of prognosing the efficiency of chemotherapy in the treatment of oncological patients is described. There exist two databases: one on patients who have had their cancer excited and obtained chemotherapy, and another database on the patients who have also had their cancer excited but no chemotherapy was applied to them. The following problem is studied: to find a criterion allowing, for any patient, to give a prognosis for the time of his survival in the case chemotherapy is applied to treat him and in the case it is not used.
Литература
1. Wolberg W. H., Lee Y.-J., Mangasarian 0. L. WPBCC: Wisconsin Prognostic Breast Cancer Chemotherapy Database // Computer Science Dept., University of Wisconsin, Madison (ftp://ftp.cs.wisc.edu/math-prog/ epo- dataset/machine-learn/cancer/WPBCC/, 1999).
2. Lee Y.-J., Mangasarian O. L., Wolberg W. H. Survival-time classification of breast cancer patients // Computational Optimization and Applications. 2003. Vol. 25. P. 151-166.
3. Lee Y.-J., Mangasarian O. L. SSVM: A smooth support vector machine for classification // Computational Optimization and Applications. 2001. Vol. 20, N 1. P. 5-22.
4. Advances in kernel methods. Support vector learning / Eds. B. Schoelkopf, C. J. C. Burges, A. J. Smola. Cambridge, Mass.; London, England: The MIT Press, 1999. 392 p.
5. Bennett K. P., Mangasarian O. L. Robust linear programming discrimination of two linearly inseparable sets // Optimization Methods and Software. 1992. Vol. 1, N 1. P. 22-34.
6. Bagirov A.M., Rubinov A. M., Soukhoroukova N. V., Yerwood J. Unsupervised and supervised data classification via nonsmooth and global optimization // Theory of Optimization. 2003. Vol. 11, N 1. P. 1-93.
7. Kokorina A. V. Unsupervised and supervised data classification via nonsmooth and global optimization // Theory of Optimization. 2003. Vol. 11, N 1. P. 86-89.
8. Kokorina A. V. Ranking the parameters in classification databases // Longevity, aging and degradation models. Vol. 2 (Материалы Междунар. конференции LAD'2004). СПб.: Изд-во С.-Петерб. политехи, ун-та, 2004. С. 191-193.
9. Демьянова В. В. Метод главного эксперта в задачах идентификации // Труды Междунар. конференции «Устойчивость и процессы управления» (С.-Петербург, 29 июня - 1 июля 2005 г.) / Ред. Д. А. Овсянников, Л. А. Петросян. СПб.: Изд-во С.-Петерб. ун-та, 2005. Т. 2. С. 815-822.
10. Demyanova V. V. The principal expert method in data mining // Applied Comput. Math. 2005. Vol. 4, N 1. P. 70-74.
Статья поступила в редакцию 7 июня 2006 г.