использование: логи стичес КИ X РЕГРЕССИЙ и нейронных сетей IB выявлении рака предстательной железы
В.А. Соловов1, И.Г. Фролова2
Самарский государственный медицинский университет, Самарский диагностический центр1 ГУ НИИ онкологии Томского научного центра СО РАМН2
В настоящее время для выявления рака простаты разработаны модели логистических регрессий (ЛР) и искусственных нейронных сетей (ИНС). Новая стратегия выявления рака предстательной железы, основанная на регрессионном и нейросетевом анализе, позволила значительно улучшить качество диагно стики данного заболевания, при этом существенно снижая количество ненужных биопсий.
ESTIMATION EFFECTIVENESS OF LOGISTIC REGRESSION AND NEURAL NETWORK ANALYSIS IN PROSTATE
CANCER DETECTION V.A. Solovov1, I.G. Frolova2 Samara state medical university, Samara diagnostic center1 Cancer research institute, Tomsk2
Nowadays logistic regression (LR) and artificial neural networks (ANN) models have been developed for prostate cancer detection. The use of LR and ANN in clinical practice increases the PCa detection accuracy and allows to escape unnecessary biopsies.
Первые модели логистических регрессий (ЛГ) и искусственных нейронных сетей (ИНС) для выявления рака предстательной (РПЖ) железы были разработаны в 1994 г. [1, 3, 5, 6]. Вне всякого сомнения, использование нейросетевого анализа в клинической практике повышает точность диагностики РПЖ и позволяет избежать ненужных биопсий.
Целью работы явились создание модели логистических регрессий и искусственных нейронных сетей в выявлении рака предстательной железы и оценка их эффективности, а также сравнение диагностической точности разработанных математических моделей с возможностями других диагностических методов: трансректального ультразвукового исследования (ТРУЗИ), определения концентраций общего (1-ПСА) и свободного простатического специфического антигена (1-ПСА), тестостерона.
Материалы и методы
В исследование был включен 151 пациент с заболеваниями предстательной железы в возрасте от 49 до 85 лет. Из них 62 (41,1 %) больных раком предстательной железы и 89 (58,9 %) - с доброкачественной гиперплазией предстательной железы (ДГПЖ). Всем пациентам было проведено трансректальное ультразвуковое исследование с мультифокальной био-
псией, определены концентрации тестостерона, общего (t-ПСА) и свободного ПСА (f-ПСА) в сыторотке крови, рассчитаны плотности общего ПСА (ПСА-d) и свободного ПСА (Г-ПСА^). Построение логистической регрессии осуществлялось с помощью программы Mathematica 5.2 (Wolfram Research, США), для ней-росетевого анализа применялся пакет Statistica Neural Networks (StatSoft, США).
Результаты и обсуждение
В результате проведенных исследований нами были получены переменные, которые в виде дескриптивной статистики переменных и их статистической значимости, рассчитанной по Mann - Whitney, приведены в табл. 1. Как следует из таблицы, все переменные, за исключением возраста и объема предстательной железы, статистически значимо различались в сравниваемых группах. Средние значения показателей t-ПСА, f-ПСА, ПСА-d, f-nCA-d были выше в 1,5-4,8 раза у больных раком простаты, чем у пациентов с доброкачественной гиперплазией, а соотношение f/t-ПСА в 2,6 раза ниже.
Для определения наиболее значимых переменных при предсказании рака простаты использовали метод пошагового отбора, в результате которого для построения логистических регрессий и нейронных
Таблица 1 Описательная статистика входящих переменных
Группы бальных Рал простаты (if 62) ДГПЖ (n=899 P
Возраст; пет Медиана. (¡гщаюзон) 70,65±7j67 73 (54-88) 69,14± 7,49 65,5 (51-85) 0,17
t-ПСА, нг/мп Медиана (днатзоц) 1l,9t%42 1Q7 (0-309 5^65±6,75 3,9 (0-32) 0J001
f-ПСА, нг/тп Медиана (диатзон) 1,97 (Си7ЗД 1,21±1J09 Q98 (0,13—4,815 Q05
fït-ПСА Медиана (¡гщаюзон) 0,2 Ote 0,18 a із саог-од 0,7й±1у83 0^1 (0,4-12,5) 01,06
ПСА-d, нг/mn/cm Медиана (диатзоц) 0,41±Q38 Q28 (0^02-1,58) ОЦ4іО,19 0J07 (0-0,93) 0J005
f-nCA-d, нг/тп/ст Медиана (диагазон) 0JÜʱQ08 a035 (ÜJÜ01-0,42) 0^02±0j02 Q02 (0-0,1) 01,01
Тестостерон Медиана (днагазоц) Щ22±5,47 9,54 (2j61-33,7) 12,78*1,83 11,75 (2JS3— 34,44) aos
Объем простаты, cm Медиана (диагазон) 39,13tfc31,9 26^4 (Щ81-159,9) 46^7±32,5 35^83(12,04- П0£2) G,21
ТРЮТ -ДПЖ C1J -рак (0) 6 53 61 28
сетей были отобраны следующие показатели: возраст, ТРУЗИ, уровни t-ПСА, f/t-ПСА, f-nCA-d. Для оценки эффективности используемых методик был применен ROC-анализ. Площадь под кривой (AUC) и характеристическая кривая (ROC) (рис. 1, 2) являются показателями, определяющими точность ЛР и ИНС. Площадь под кривой указывает на достоверность диагностического теста. В нашем исследовании это возможность разграничения злокачественных и доброкачественных заболеваний простаты. Диапазон AUC может быть от 50 % (минимальная возможность разграничения) до 100 % (высокая предсказательная точность). В ходе исследований были построены логистические регрессии, искусственные нейронные сети и характеристические кривые для каждого входящего параметра при определении диагностической значимости отдельных параметров и их комбинаций с целью выявления наиболее существенных переменных.
1
0.9 ¡13 0.8
о
0 0.7 0.6
н 0.5 fî 0.4
1 0.3 ^ 0.2
0.1 0
0 0.2 0.4 0.6 0.8 1
1-специфичность
Рис. 1. Характеристическая кривая (ЯОС)для ЛГ. Входящие переменные: ТРУЗИ, t-ПСА, f/t-ПСА, f-ÏCA-d, AUC 0,91
Рис. 2. Характеристическая кривая (ROC) для ИНС.
Входящие переменные: возраст, ТРУЗИ, t-ПСА, f-ÏCA-d, AUC 0,95
Логистическая регрессия [4] является математической моделью, которая позволяет прогнозировать вероятность наступления бинарного события (например, у= 1 означает «наличие рака предстательной железы», у=0 - «рак простаты не обнаружен»). Наиболее эффективной (с максимальным значением AUC 0,91) оказалась логистическая регрессия с входящими переменными: данные ТРУЗИ, t-ПСА, f/t-ПСА, f-ïCA-d (рис. 1).
Логическая регрессия представлена следующим уравнением, которое рассчитывает вероятность наличия злокачественной опухоли (Y):
в -7,617-*! +35,104-х2-0,977-х3 + 23,039-х4
Y =—----------------------------------------
1 . -7,617-* +35,104-х2-0,977-х3+23,039-х4 ,
1 + в 1 2 3 4
где х1, х2, х3, х4 - переменные данные ТРУЗИ, t-ПСА, f/t -ПСА, ШСА-d.
В.А. СОЛОВОВ, И.Г ФРОЛОВА
Для построения искусственных нейронных сетей была использована архитектура многослойного пер-септрона (MLP), которая была предложена в работе Rumelhart, McClelland (1986) и применяется сейчас наиболее часто. Итак, построение сети (после выбора входных переменных) состояло из следующих шагов. Был проведен ряд экспериментов с различными конфигурациями, в ходе которых запоминалась лучшая сеть (с наименьшей контрольной ошибкой). Для каждой конфигурации проводилось несколько экспериментов, для того чтобы не получить ошибочный результат, при котором процесс обучения попал бы в локальный минимум. Обучение и тестирование нейронных сетей проводилось по 10 раз, при этом каждый пациент попадал в тестируемую группу однажды. Для устранения перетренировки сети использовалась процедура перекрестной проверки.
Нейронная сеть, предсказывающая вероятность наличия у пациента рака предстательной железы с высокой точностью (высокая чувствительность), должна при этом минимизировать количество ненужных биопсий (высокая специфичность). Чувствительность 95 % означает, что нейронная сеть правильно выявляет 95 % больных раком простаты. Специфичность показывает процент ненужных биопсий, которые можно избежать.
На рис. 2 представлена характеристическая кривая (ROC) для ИНС со следующими входными переменными: возраст, ТРУЗИ, t-ПСА, f-nCA-d, AUC 0,95. ROC-анализ показал, что переменные: возраст, объем простаты и уровень тестостерона - имели AUC меньше 0,50, следовательно, вследствие низкой чувствительности и низкой специфичности они не обладали разграничительными возможностями и эти показатели нельзя использовать изолированно для диагностики рака простаты. AUC трансректального ультразвукового исследования составила 0,72, t-ПСА - 0,81. Площадь под кривой у показателя f-ПСА оказалась невысокой - 0,68. У остальных переменных f/t-ПСА, ПСА-d, ^ПСА-d вычисленные площади (AUC) различались незначительно - 0,76, 0,83, 0,78 соответственно. Проведенный нейросетевой анализ показал, что наименьшей разграничительной способностью обладали следующие входные переменные: возраст, объем простаты, уровень тестостерона и концентрация свободной фракции ПСА. Данные ультразвукового исследования, уровней концентрации t-ПСА, f/t-ПСА, ПСА-d, ^ПСА-d значительно лучше разграничивали злокачественные и доброкачественные заболевания предстательной железы.
Анализ результативности построенных искусственных нейронных сетей показал, что лучшими характеристиками по чувствительности, специфичности, точности диагностики РПЖ и минимальной ошибке качества работы обладала МЬР-сеть, которая имела пять входных нейронов, два скрытых и один выходной (рис. 3). В качестве входных переменных были выбраны возраст, результаты ТРУЗИ, 1-ПсА, Й-ПСА, :1-ПСА-й
Рис. 3. Структура используемой искусственной нейронной сети (многослойный персептрон), входящие переменные: возраст, ТРУЗИ, г-ПСА, т-ПСА, £ПСА-± Х1-Х5 -входящие переменные; Ъ\-Ъ2 - скрытые слои; У - выходной нейрон
Таблица 2 Диагностические характеристики используемых тестов
ТРУ- ЗИ+ ЦІ. УЗИ t-ПСА "А-ПСА f-nCA-d ЛР ИНС
Пре дсказатепжная ЦІННОСТІ попозки-тепыюго теста 0/55 0 £4 0,70 0yS0 0£3 0у85
ЧуГЕСТЕНТе ЮНОСТЬ теста 0¿84 0 ро OjSÍ 0,59 0 £7 0,95
Пре дсказатепьиая ценность отриці-тепыгого теста 0,4? 0 £4 0,70 OjSS 0£2 0,92
Специфичность 0,46 0,50 0,75 0у85 0£5 0у89
Двагносттн еская точность 0,75 0?0 0,70 0,72 0£2 0,93
Диагностические характеристики используемых методов диагностики представлены в табл. 2. Смоделированная логистическая регрессия и построенная искусственная нейронная сеть обладали более высокими показателями диагностической эффективности. Основным недостатком ультразвукового исследования
и определения концентрации t-ПСА являлась их низкая специфичность - 0,46 и 0,50 соответственно. Определение концентраций изоформ простат специфического антигена увеличило специфичность, но при этом происходило и снижение чувствительности.
Диагностическая точность методик при одиночном употреблении ТРУЗИ, t-ПСА, f/t-ПСА, f-nCA-d не превышала 70-75 %, т.е. использование традиционных диагностических тестов не позволило выявить около 30 % злокачественных новообразований предстательной железы. Построенные логистическая регрессия и искусственная нейронная сеть имели лучшие показатели специфичности (95,8 % и 89 %), чувствительности (87,5 % и 95 %), предсказательной ценности положительного (93,3 % и 85 %) и отрицательного результата (92 % и 92 %), диагностической точности (92,5 % и 93 %). По сравнению с традиционными методами диагностики ЛР и ИНС позволили дополнительно выявить от 3 до 43 % злокачественных новообразований простаты, сократив при этом количество ненужных биопсий с 4 до 43 %. Результаты данного исследования согласуются с работами A. Virtanen et al. [6], B. Djavan et al. [2]. Несмотря на то, что полученные результаты были статистически значимы, следует учитывать ограниченное количество исходных данных, поэтому для экстраполяции выводов настоящей работы на всю популяцию исследования в данном направлении следует продолжить.
Заключение
Таким образом, новая стратегия выявления рака предстательной железы, основанная на регрессион-
ном и нейросетевом анализе, позволила значительно повысить качество диагностики данного заболевания, при этом существенно снизить количество ненужных биопсий. Искусственная нейронная сеть имеет сопоставимую диагностическую точность с логистической регрессией, и их эффективность значительно выше эффективности традиционных методов диагностики.
ЛИТЕРАТУРА
1. Carlson G.D., Calvanese C.B., Partin A. W. An algorithm combining age, total prostate-specific antigen (PSA), and percent free PSA to predict prostate cancer: results on 4298 cases // Urology. 1998. Vol. 52. P. 455-461.
2. Djavan B., Remzi M., Zlotta A. et al. Novel artificial neural network for early detection of prostate cancer // J. Clin. Oncol. 2002. Vol. 20. P. 921-929.
3. Finne P., Finne R., Auvinen A. et al. Predicting the outcome of prostate biopsy in screen-positive men by a multilayer perceptron network // Urology. 2000. Vol. 56. P 418-422.
4. Press S.J., Wilson S. Choosing between logistic regression and discriminant analysis // J. Am. Stat. Assoc. 1978. Vol. 73. P. 699-705.
5. Snow P.B., Smith D.S., Catalona W.J. Artificial neural networks in the diagnosis and prognosis of prostate cancer: a pilot study // J. Urol. 1994. Vol. 152. P. 1923-1926.
6. Virtanen A., Gomari M., Kranse R., Stenman U.H. Estimation of prostate cancer probability by logistic regression: free and total prostate-specific antigen, digital rectal examination, and heredity are significant variables // Clin. Chem. 1999. Vol. 45. P. 987-994.
Поступила 29.07.05