Научная статья на тему 'ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В ПРОГНОЗИРОВАНИИ И РАННЕМ ОБНАРУЖЕНИИ РАКА'

ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В ПРОГНОЗИРОВАНИИ И РАННЕМ ОБНАРУЖЕНИИ РАКА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
223
38
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАШИННОЕ ОБУЧЕНИЕ / ПРОГНАЗИРОВАНИЕ РАКА / ИСКУССТВЕННАЯ НЕЙРОННАЯ СЕТЬ / МАШИНА ОПОРНЫХ ВЕКТОРОВ / ДЕРЕВО РЕШЕНИЙ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гаджиев Я., Шалбузова К.

В последнее время в технологиях машинного обучения и глубокого обучения наблюдается тенденция к их применению в персонифицированной и прогностической медицине. Модели машинного обучения разработаны с целью наблюдения за прогрессированием рака у пациента и оказания помощи в его лечении. Рак - это разнопроявляющиеся состояние, а это означает, что ранняя диагностика и своевременный скрининг играют важную роль в лечении. В прогнозировании рака используется множество популярных методов машинного обучения, включая, помимо прочего, искусственные нейронные сети, деревья решений, машины опорных векторов, байесовские сети и другие подходы к глубокому обучению. Каждая из этих методологий способствует развитию прогностических моделей. Ожидается, что каждая разработанная модель существенно повысит точность прогнозирования подозрений и рецидивов. Однако в ряде опубликованных исследований, которые, по-видимому, основаны на этих моделях, отсутствует валидация и/или надлежащее тестирование. В этой статье мы анализируем и представляем взгляд на недавнее развитие подходов машинного обучения, которые применяются в прогнозировании и моделировании рака.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гаджиев Я., Шалбузова К.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF MACHINE LEARNING METHODS IN CANCER PREDICTION AND EARLY DETECTION

The field of customized and preventative medication is quickly utilizing profound learning and machine learning innovation. The objective of machine learning models is to screen a patient's cancer movement and help with treatment. Given the complexity of cancer, early discovery and fast screening are fundamental for compelling treatment. A few well-known machine learning strategies, such as Bayesian systems, choice trees, bolster vector machines, manufactured neural systems, and other profound learning strategies, are utilized to anticipate cancer. These approaches all help within the creation of forecast models. Each model created is expected to extend doubt and repeat forecast precision greatly. The approval and appropriate testing are missing in a number of distributed investigate that appear to be based on these models. In this article, we look at and examine current headways in machine learning strategies utilized in cancer modeling and forecast.

Текст научной работы на тему «ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В ПРОГНОЗИРОВАНИИ И РАННЕМ ОБНАРУЖЕНИИ РАКА»

ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В ПРОГНОЗИРОВАНИИ И РАННЕМ

ОБНАРУЖЕНИИ РАКА

Гаджиев Я.,

Кандидат физико-математических наук Азербайджанский Государственный Университет Нефти и

Промышленности Шалбузова К.

Магистр

Азербайджанский Государственный Университет Нефти и

Промышленности

APPLICATION OF MACHINE LEARNING METHODS IN CANCER PREDICTION AND EARLY

DETECTION

Hajiyev Y.,

Candidate of Physical and Mathematical Sciences Azerbaijan State Oil and Industry University, Azerbaijan

Shalbuzova K.

Master

Azerbaijan State Oil and Industry University, Azerbaijan DOI: 10.5281/zenodo.7523833

АННОТАЦИЯ

В последнее время в технологиях машинного обучения и глубокого обучения наблюдается тенденция к их применению в персонифицированной и прогностической медицине. Модели машинного обучения разработаны с целью наблюдения за прогрессированием рака у пациента и оказания помощи в его лечении. Рак — это разнопроявляющиеся состояние, а это означает, что ранняя диагностика и своевременный скрининг играют важную роль в лечении. В прогнозировании рака используется множество популярных методов машинного обучения, включая, помимо прочего, искусственные нейронные сети, деревья решений, машины опорных векторов, байесовские сети и другие подходы к глубокому обучению. Каждая из этих методологий способствует развитию прогностических моделей. Ожидается, что каждая разработанная модель существенно повысит точность прогнозирования подозрений и рецидивов. Однако в ряде опубликованных исследований, которые, по-видимому, основаны на этих моделях, отсутствует валидация и/или надлежащее тестирование. В этой статье мы анализируем и представляем взгляд на недавнее развитие подходов машинного обучения, которые применяются в прогнозировании и моделировании рака.

ABSTRACT

The field of customized and preventative medication is quickly utilizing profound learning and machine learning innovation. The objective of machine learning models is to screen a patient's cancer movement and help with treatment. Given the complexity of cancer, early discovery and fast screening are fundamental for compelling treatment. A few well-known machine learning strategies, such as Bayesian systems, choice trees, bolster vector machines, manufactured neural systems, and other profound learning strategies, are utilized to anticipate cancer. These approaches all help within the creation of forecast models. Each model created is expected to extend doubt and repeat forecast precision greatly. The approval and appropriate testing are missing in a number of distributed investigate that appear to be based on these models. In this article, we look at and examine current headways in machine learning strategies utilized in cancer modeling and forecast.

Ключевые слова: машинное обучение, прогназирование рака, искусственная нейронная сеть, машина опорных векторов, дерево решений.

Keywords: machine learning, cancer prediction, artificial neural network, support vector machine, decision

tree.

ВВЕДЕНИЕ

В настоящее время область искусственного интеллекта и машинного обучения набирает обороты и добивается значительных успехов во многих медицинских секторах. Это привело к тому, что для медицинских исследователей стало доступно огромное количество медицинской информации и данных.

Модели машинного обучения (МО) в первую очередь предназначены для помощи в идентификации шаблонов и ассоциации отношений в сложных

наборах данных. Они также позволяют эффективно прогнозировать результаты классифицированного типа рака.

Модели машинного обучения включают в себя массив данных о пациентах, полученных из их клинических анализов, таких как семейный анамнез, диетические привычки, привычки с высоким риском и факторы окружающей среды, которым подвергается субъект, например, излучение через УФ или другие канцерогены. Такие факторы, как

собственный генетический профиль пациентов, полученный на молекулярном уровне, также являются необходимыми входными данными для любой успешной модели обнаружения.

По мере роста числа параметров становится все сложнее разработать гибкую и эффективную модель обнаружения или прогнозирования. В данной статье мы расмотрим проблемы, стоящие перед каждой из моделей, и попытаемся установить основания их ограничений. Для этого мы должны сначала понять основную цель любой модели прогноза. Модель прогноза отличается от модели обнаружения, поскольку ее основная цель состоит в том, чтобы предсказать восприимчивость, повторение и выживаемость. Модель прогноза в значительной степени зависит от успеха и качества диагностики. Таким образом, медицинский диагноз остается важным инструментом для успешного выполнения любого прогностического анализа.

1. МЕТОДОЛОГИЯ МАШИННОГО ОБУЧЕНИЯ

Машинное обучение (МО), которое часто путают с искусственным интеллектом (ИИ), на самом деле является подмножеством или ветвью ИИ, которая по своей сути использует статистическую оптимизацию для обучения на выборках данных. Используя простую терминологию, мы можем сказать, что методы машинного обучения используются для изучения и классификации данных из сложных наборов данных. Подход к обучению включает в себя две методологии, а именно контролируемое и неконтролируемое обучение. Оба из них имеют разные процедурные модели и разные цели соответственно.

В обучении с учителем мы создаем набор данных, из которого получаем желаемые результаты на основе поступающих входных данных. Модель обучения интерпретирует и учится на наборе данных, тогда как при неконтролируемом обучении набор данных не имеет помеченных данных, и результат полностью зависит от модели и ее результатов. Например, кластеризация — это популярная неконтролируемая обучающая процедура, в которой мы классифицируем кластеры на основе их определенных характеристик без маркировки входных данных. Подход идентифицирует и отображает

необработанные, немаркированные данные в кластеры классифицируемых данных. Таким образом, позволяя модели обучения находить закономерности и обнаружить любую потенциальную группировку в образце.

Основная цель любых методов МО — разработать модель, которая может не только обеспечить классификацию набора данных, но и позволить нам выполнять задачи прогнозирования и оценки переменных выходного набора.

2. МЕТОДЫ МО, ИСПОЛЬЗУЕМЫЕ В ИССЛЕДОВАНИИ РАКА

После обработки данных мы оцениваем данные и определяем метод, который лучше всего определяет нашу задачу обучения. Распространенными методами машинного обучения, используемыми для прогнозирования рака, являются (i) искусственные нейронные сети (ANN Artificial neural network), (ii) деревья решений (DT- Decision tree), (iii) байесовские сети (BN- Bayesian network) и (iv) машины опорных векторов (SVM- Support vector machine).

Искусственная нейронная сеть. ANN обучена генерировать несколько комбинаций выходных данных из входных переменных, что позволяет ей решать несколько проблем, связанных с распознаванием образов. Первоначально первая нейронная сеть была разработана для воссоздания функционирования нейронов в нашем мозгу и изучения того, как взаимосвязь между этими нейронами осуществляется через соединение аксонов.

Нейронные сети разработаны по аналогии послойной структуры (Рис. 1). Слой — это весовая матрица, представляющая проводку взаимосвязанных нейронов. Теоретически каждый слой будет обрабатывать ввод и генерировать соответствующий вывод в математической структуре на основе строки или вектора. Ключевой проблемой при использовании ANN для обнаружения рака является преобразование входных значений физического состояния пациента в понятное компьютеру двоичное числовое значение или вектор. Например, трудно сопоставить физическую характеристику субъекта или его тип гена с числовым вектором. Примечательно, что многослойная структура требует больше времени для обработки.

Входной слой

Скрытый Выходной

слои

слои

Рис 1. Илюстрация структуры ANN. Стрелки соединяют выход одного узла со входом другого.

Машина опорных векторов. SVM предназначена для выполнения нелинейной классификации и делает это путем создания гиперплоскости. Эта гиперплоскость функционирует как разделитель двух

классов (путем увеличения зазора между двумя классами). В результате расстояние между самой гиперплоскостью и границей максимально увеличивается.

Машины SVM используют то, что мы называем нелинейным ядром. Эти ядра значительно улучшают производительность модели классификации, построенной с помощью SVM. Подобно ANN, опорные векторы имеют большой потенциал в области комплексного анализа. В медицинской диагностике это может помочь определить функцию белка. SVM могут помочь в классификации

опухолей, поскольку они обеспечивают вероятностные выходные данные, которые могут идентифицировать злокачественную и доброкачественную опухоль. У SVM также есть граница принятия решения (Рис. 2), которая позволяет исследователям обнаруживать любую неправильную классификацию, которая могла возникнуть в результате использования метода.

и

о.

е> О

со

Vi S3

о o*o>R*

оо°оо

раница принятия решений

Размер опухоли

Рис 2. Упрощенная иллюстрация линейной SVM-классификации входных данных. Опухоли классифицируются в зависимости от их размера и возраста пациента. Изображенные стрелки отображают опухоли неправильной классификации.

Дерево решений. Дерево решений, как следует из названия, представляет собой древовидную структуру, которая включает входные переменные, представленные в виде узлов, и их соответствующие переменные результаты, помеченные и представленные в виде листьев. Дерево разветвляется

по схеме (Рис. 3), которая идентифицирует и визуально представляет соответствующие результаты в соответствии с их классификацией. Представление с помощью деревьев решений позволяет легко перемещаться по его классифицированным ветвям, что позволяет легко связать выборку с соответствующим классом.

Х>=Т1

Z>=T3

Рис 3. Иллюстрация ВТ, показывающая древовидную структуру. Каждая переменная (X, У, 2) представлена кружком, а результаты решения — квадратами (Класс А, Класс В). Т (1-3) представляет пороги (правила классификации) для успешной классификации каждой переменной по метке класса.

3. ПРИМЕР ПРОГНОЗИРОВАНИЯ РЕЦИДИВА РАКА

При рассмотрении методов предсказаний или типов прогнозов подавляющее большинство (86%) связано с прогнозированием смертности от рака (44%) и рецидива рака (42%). Тем не менее, все большее число более поздних исследований в настоящее время направлено на прогнозирование возникновения рака или факторов риска, связанных с развитием рака. Как правило, независимо от используемого метода машинного обучения, типа прогноза или типа оцениваемого рака, методы машинного обучения повышают точность прогнозов в среднем на 15-25% по сравнению с альтернативными или традиционными подходами. Почти 70%

всех опубликованных исследований используют нейронные сети в качестве основного (а иногда и единственного) предикатора. Машины опорных векторов занимают второе место с 9%, в то время как на кластеризацию и деревья решений приходится около 6%. Тем не менее, большинство исследований не имело достаточной внутренней или внешней проверки, было обучено на небольшом числе примеров, протестировано только на одном методе машинного обучения или не имело четко определенного стандарта, с которым можно было бы сравнить производительность описанного алгоритма.

Исследование Де Лаурентис и соавт. (на анг. De Laurentiis et al. - 1999), устраняет некоторые недостатки, отмеченные в предыдущих исследованиях. Эти авторы стремились предсказать вероятность рецидива в течение 5 лет для больных раком молочной железы. Использовалась комбинация 7 прогностических переменных, включая такие клинические данные, как возраст пациента, размер опухоли и количество подмышечных метастазов. Также была включена информация о белковых биомаркерах, таких как уровни рецепторов эстрогена и прогестерона.

Цель исследования заключалась в разработке автоматического количественного прогностического метода, который был бы более надежным, чем классическая система стадирования опухоль-узел-метастаз (TNM- The Tumor, Node, Metastasis).

TNM — это экспертная система, которая в значительной степени опирается на субъективное мнение патологоанатома или опытного клинициста.

Авторы использовали модель на основе ANN, в которой использовались данные от 2441 пациента с раком молочной железы (по 7 точек данных каждая), что дало набор данных с более чем 17000 точек данных. Это позволило авторам поддерживать отношение выборки к признаку значительно выше предложенного минимума.

Весь набор данных был разделен на три равные группы (Рис. 4): обучение (1/3), мониторинг (1/3) и тестовые наборы (1/3) для оптимизации и проверки. Кроме того, авторы также получили отдельный набор из 310 образцов пациентов с раком молочной железы из другого учреждения для внешней проверки. Это позволило авторам оценить обобщае-мость их модели за пределами своего учреждения.

J наборы обучение

к У

Рис 4. Структура разделения набора данных

Это исследование особенно примечательно не только количеством данных и тщательностью проверки, но и уровнем обеспечения качества при обработке данных. Например, данные были введены отдельно и сохранены в реляционной базе данных, и все они были независимо проверены лечащими врачами для поддержания качества. С 2441 пациентом и 17000 точек данных в наборе размер выборки был достаточно большим, чтобы можно было предположить нормальное распределение популяции пациентов с раком молочной железы в наборе данных даже после разделения. Несмотря на это, авторы явно проверили это предположение, изучив распределение данных для пациентов в каждой выборке (путем обучения, мониторина и тестирования) и показали, что распределения были относительно схожими. Такая гарантия качества и внимание к деталям позволило авторам разработать точный и надежный классификатор. Поскольку целью исследования была разработка модели, которая предсказывала рецидив рака молочной железы лучше, чем классическая система стадирования TNM, было важно, чтобы модель ANN сравнивалась с прогнозами стадирования TNM. Это было сделано путем сравнения производительности с использованием кривой характеристики оператора приемника (на англ. Receiver operating characteristic - ROC). Было обнаружено, что модель ANN (0,726) превосходит систему TNM (0,677) по площади ограниченной под ROC-кривой. Параметрическое уравнение для вычисления площади под ROC-кривой:

0 Í

TPR(x) * FPR'(x)dx

где TPR=True Positive Rate, FPR=False Positive Rate. Именно в этих координатах (FPR, TPR) строится ROC-кривая.

Это исследование является хорошим примером тщательно продуманного и хорошо протестированного применения машинного обучения. Был получен достаточно большой набор данных, и данные для каждого образца были независимо проверены для обеспечения качества и точности.

При расмотрении иследований предыдущеих десятилетий, можно сказать, что для прогнозирования исходов рака использовалась только молекулярная и клиническая информация. С быстрым развитием технологий, были собраны новые типы входных параметров. Было обнаружено то, что почти все прогнозы были сделаны путем интеграции либо геномных, клинических, гистологических, ви-зуализационных, демографических, эпидемиологических и протеомных данных, либо различных комбинаций этих типов.

Обучающая выборка небольшого размера по сравнению с размерностью данных может привести к неправильной классификации. Очевидно, что более широкий набор данных, используемый для прогнозирования, может повысить обобщаемость прогностической модели.

1

ЗАКЛЮЧЕНИЕ

В данной статье мы обсудили концепции машинного обучения, а также описали их применение в прогнозировании рака. Большинство исследований, которые были предложены в последние годы, сосредоточены на разработке прогностических моделей с использованием методов контролируемого машинного обучения и алгоритмов классификации, направленных на прогнозирование заболевания. На основании анализа их результатов становится очевидным, что интеграция многомерных разнородных данных в сочетании с применением различных методов выбора признаков и классификации может предоставить многообещающие инструменты для выводов в области исследования рака.

Литература

1. C.M. Lynch, J.D. Behnaz Abdollahi, A. Fuqua, R. de Carlo, James A. Bartholomai, Rayeanne N. Balgemann, Victor H. van Berkel, Hermann B. Frieboes, Prediction of lung cancer patient survival via supervised machine learning classification techniques, Int. J. Med. Inf. 108 (2017) 1-8.

2. D.S. Rao, D.P. Tripathy, Optimization of machinery noise using Genetic Algorithm. Noise Conference 2017. Michigan, 2017; 527-537.

3. P. Petousis, A. Winter, W. Speier, D.R. Aberle, W. Hsu, A.A.T. Bui, Using sequential decision making to improve lung cancer screening performance, IEEE Access 7 (2019) 119403-119419.

4. L. Demidova, I. Klyueva, Y. Sokolova, N. Ste-panov, N. Tyart, Intellectual approaches to improvement of the classification decisions quality on the base

of the SVM classifier, Procedia Comput. Sci. 103 (2017) 222-230.

5. S.S. Alahmari, D. Cherezov, D.B. Goldgof, L.O. Hall, R.J. Gillies, M.B. Schabath, Delta radiomics improves pulmonary nodule malignancy prediction in lung cancer screening, IEEE Access 6 (2018) 7779677806.

6. A. Raweh, M. Nassef, A. Badr, A hybridized feature selection and extraction approach for enhancing cancer prediction based on DNA methylation, IEEE Access 6 (2018) 15212-15223.

7. N. Picco, R.A. Gatenby, A.R.A. Anderson, Stem cell plasticity and niche dynamics in cancer progression, IEEE Trans. Biomed. Eng. 64 (3) (2017) 528537.

8. Mariam Amrane, Saliha Oukid, Ikram Ga-gaoua and Tolga Ensari, "Breast cancer classification using machine learning" 2018 Electric Electronics, Computer Science, Biomedical Engineerings, Meeting (EBBT).

9. E. Abdulhay, M. A. Mohammed, D. A. Ibrahim, N. Arunkumar, and V. Venkatraman, "Computer aided solution for automatic segmenting and measurements of blood leucocytes using static microscope images," Journal of Medical Systems, vol. 42, no. 4, p. 58, 2018.

10. M. A. Mohammed, M. K. Abd Ghani, and N. Arunkumar, "Decision support system for nasopharyn-geal carcinoma discrimination from endoscopic images using artificial neural network", The Journal of Supercomputing, vol. 76, pp. 1086-1104, 2020.

i Надоели баннеры? Вы всегда можете отключить рекламу.