Научная статья на тему 'РЕАЛИЗАЦИЯ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ РАСПОЗНАВАНИЯ ОБРАЗОВ ДЛЯ ЗАДАЧ ДИАГНОСТИКИ ОНКОЛОГИЧЕСКИХ ЗАБОЛЕВАНИЙ МОЛОЧНОЙ ЖЕЛЕЗЫ'

РЕАЛИЗАЦИЯ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ РАСПОЗНАВАНИЯ ОБРАЗОВ ДЛЯ ЗАДАЧ ДИАГНОСТИКИ ОНКОЛОГИЧЕСКИХ ЗАБОЛЕВАНИЙ МОЛОЧНОЙ ЖЕЛЕЗЫ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
3
0
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — А К. Клокова, Ю А. Бродская, Е Г. Колодий

В работе рассмотрены различные подходы, в том числе, основанные на ДСМ-методе, для своевременной диагностики злокачественных новообразований молочной железы посредством распознавания изображений рентгеновской маммографии. Предложена реализация системы медицинской диагностики в маммологии с помощью сверточной нейронной сети.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — А К. Клокова, Ю А. Бродская, Е Г. Колодий

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «РЕАЛИЗАЦИЯ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ РАСПОЗНАВАНИЯ ОБРАЗОВ ДЛЯ ЗАДАЧ ДИАГНОСТИКИ ОНКОЛОГИЧЕСКИХ ЗАБОЛЕВАНИЙ МОЛОЧНОЙ ЖЕЛЕЗЫ»

ТС 20™ Automated Cell Counter

ТС2СГ Automated Cell Counter

Рис. 4. Гистограммы распределения клеток по размерам с экрана счетчика ТС-20 для культур D-294 new (A)

и D-294 old (B)

Литература

1. Oren A. Saline Systems. 2005; 1(1), 1-14

2. Hosseini Tafreshi A., Shariati M. J. of Applied Microbiology. 2009; 107(1), 14-35.

3. Hotos G.N. J. Mar. Sci. Eng. 2023; 11, 1673.

4. Tetsuichi Fujiki, Satoru Taguchi J. of Plankton Res.2002; 24(9), 859-874

РЕАЛИЗАЦИЯ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ РАСПОЗНАВАНИЯ ОБРАЗОВ ДЛЯ ЗАДАЧ ДИАГНОСТИКИ ОНКОЛОГИЧЕСКИХ ЗАБОЛЕВАНИЙ

МОЛОЧНОЙ ЖЕЛЕЗЫ

А.К. Клокова1, Ю.А. Бродская1, Е.Г. Колодий2

'Саратовский государственный технический университет им. Ю.А. Гагарина, Саратов, Россия 2ГУЗ Областной клинический онкологический диспансер, Саратов, Россия

В работе рассмотрены различные подходы, в том числе, основанные на ДСМ-методе, для своевременной диагностики злокачественных новообразований молочной железы посредством распознавания изображений рентгеновской маммографии. Предложена реализация системы медицинской диагностики в маммологии с помощью сверточной нейронной сети.

DOI:

ВВЕДЕНИЕ

Системы искусственного интеллекта (нейронные сети и экспертные системы) для медицинской диагностики, в частности, анализа медицинских изображений, являются новым этапом в медицине. Например, использование одного из наиболее эффективных методов диагностики рака молочной железы, то есть маммографии, которая позволяет выявить опухоли на ранней стадии. Рак молочной железы, автоматизированная диагностика которого посредством формальных методов и рассмотрена в этой статье, является одним из наиболее распространенных видов рака среди женщин во всем мире. Ранняя диагностика и лечение являются ключевыми факторами в повышении шансов на выздоровление и снижении смертности от этого заболевания. Перспективным подходом является и построение нейронных сетей для обучения распознаванию (диагностике). Наиболее востребованы методы для решения задач анализа изображений, к которым можно отнести проблемы медицинской диагностики, в частности, использование для распознавания диагностических признаков, полученных посредством рентгенографии, УЗИ, МРТ и КТ (в том числе, в диагностике онкологических заболеваний молочной железы, головного мозга и аутоиммунных заболеваний кожи и ЖКТ) [1-5]. В проблеме медицинской диагностики актуальны также методы формирования представительной выборки эталонных объектов с использованием генератора псевдослучайных чисел для обучения распознаванию образов (ОРО).Выборка формируется для построения на ней минимального теста, используемого в качестве рабочего словаря признаков при распознавании образов (РО). Эти методы используются, если имеющаяся эталонная выборка мала для выполнения задачи ОРО; подобные выборки имеют место в медицине. Особенности медицины, как предметной области, состоят в ограничениях на распознавание, которые в основном связаны с выбором признаков распознавания (диагностики). Оптимальные решения принимаются с учетом одного ограничения, а сами ограничения являются неизменными для различных ситуаций распознавания. Также одной из особенностей распознавания в медицине является и то, что ресурсные и временные ограничения в значительной степени определяются ситуациями распознавания и субъективными представлениями лица, принимающего решение (ЛИР)— врача. При таком подходе к распознаванию первоочередными задачами являются задачи подготовки для ЛПР справочных данных и средств обработки данных при распознавании.

В представленной работе рассматриваются методы распознавания образов для диагностики онкологических заболеваний молочной железы. Математические методы распознавания образов позволяют ускорить диагностирование и свести к минимуму

человеческие ошибки. Данный сервис планируется разработать для пользователей настольных компьютеров и мобильных устройств.

СОДЕРЖАТЕЛЬНАЯ ПОСТАНОВКА ЗАДАЧИ

Содержательная постановка задачи заключается в разработке системы для классификации рака молочной железы по шкале BI-RADS. Результатом успешной разработки будет возможность ранней диагностики рака молочной железы на основе анализа медицинских изображений, в частности по снимкам маммографии и, в дальнейшем, по результатам анализов и биопсии, что позволит улучшить диагностику этого типа рака.

Актуальность работы не вызывает сомнений, поскольку рак молочной железы является ведущей патологией злокачественных новообразований среди женского населения большинства стран мира.

Для решения поставленной проблемы можно выделить несколько этапов.

1. Сбор и подготовка набора данных, включающих изображения молочных желез с диагнозами рака и их классификацией по шкале В1-ЯА08.

Всего выделяют 7 категорий:

- В1-ЯА08 0 — повторные исследований;

- В1-ЯА08 1 — патологии не обнаружены;

- В1-ЯА08 2 — признаки злокачественных новообразований не обнаружены, но присутствуют доброкачественные изменения;

- В1-ЯА08 3 — обнаружена доброкачественная патология;

- В1-ЯА08 4 — подозрение на злокачественность новообразований в молочной железе. Врач назначает биопсию, что позволит подтвердить качественность заболевания;

- 5 — обнаруженная злокачественную опухоль. Шанс на подтверждение диагноза «рак молочной железы» — 95%;

- В1-ЯА08 6 устанавливают при 100% злокачественном процессе. Дополнительные обследования — биопсия и гистологическое исследование.

2. Выбор метода решения поставленной задачи и разработка архитектуры системы, способной распознавать признаки рака молочной железы на изображениях.

3. Обучение, валидация и оптимизация системы, точности распознавания не менее 80%.

ВЫБОР МЕТОДА И ИНСТРУМЕНТАРИЯ ДЛЯ РЕАЛИЗАЦИИ ДИАГНОСТИЧЕСКОЙ СИСТЕМЫ

Методы создания математических моделей для распознавания образов многообразны и включают в себя различные алгоритмы и подходы.

1. Деревья принятия решений разделяют пространство признаков на более мелкие области, что позволяет классифицировать объекты на основе значений признаков. Ансамбли деревьев, такие как случайные леса, объединяют несколько деревьев для улучшения обобщающей способности модели. У деревьев принятия решений есть свои плюсы, но для сложных задач и высокой абстракции может потребоваться использование более сложных моделей.

2. Нейронные сети — это алгоритмы искусственного интеллекта, используемые для решения разнообразных задач, таких как распознавание образов, обработка естественного языка и прогнозирование. Для распознавания образов наиболее оптимальнымследует признать использование сверточных нейронных сетей, так как, во-первых, на начальных слоях они могут распознавать простые формы и углы, а на более глубоких слоях — сложные структуры и объекты. Во-вторых, они позволяет выделять важные признаки без учета их положения на изображении. В-третьих, сверточные нейронные сети могут обучаться на очень сложных и абстрактных признаках изображений.

3. Экспертные системы используют дифференциальный подход, учитывая различия в контексте, в котором представлены объекты. Он позволяет учитывать влияние фоновой информации, предыдущего опыта и ситуационных факторов на процесс распознавания образов. Хотя экспертные системы предоставляют ценные инструменты для оценки уверенности в предсказаниях моделей машинного обучения, использование этого подхода требует внимательного рассмотрения ограничений и осознания предположений, лежащих в основе метода.

В ряде случаев CNN превосходят деревья принятия решений и экспертные системы, особенно в задачах компьютерного зрения и обработки изображений. Некоторые из основных причин заключаются в автоматическом извлечении признаков и универсальности применения. Если рассмотреть плюсы CNN более детально, то они способны выявлять локальные признаки на изображении, такие как края, текстуры или углы. CNN способны обнаруживать один и тот же объект, даже если он перемещается, масштабируется или искажается по-разному на разных изображениях. Это явилось основным критерием при выборе метода для реализации, так как распознавание рака молочной железы осуществляется по снимкам маммографии, то есть по изображению.

Для разработки CNN оптимальным признан выбор языка программирования Python по следующим причинам. 1) Python обладает простым синтаксисом и высокой читаемостью кода. 2) Python предлагает мощные библиотеки, такие как TensorFlow, в частности Keras, которая разработана для создания и обучения нейронных сетей, включая CNN. 3) Python легко интегрируется с другими языками и инструментами, что позволяет использовать его для дальнейшей разработки и расширения системы.

ВХОДНЫЕ ДАННЫЕ И ВЫБОР ДИАГНОСТИЧЕСКИХ ПРИЗНАКОВ

Предварительно, до процесса разработки CNN для распознавания ракового заболевания молочной железы, необходимо определить входные данные. В данном случае входные данные - это снимки маммографии (см. рис. 1).

Рис. 1. Пример снимка маммографии

Первым шагом в подготовке данных для обучения CNN является сбор маммографии (изображений) и, соответственно, заключение от врача, говорящее о том, к какой именно из категорий BI-RADS они относятся. Важно собрать достаточное количество данных по всем категориям. Следует особо отметить, что отбор изображений (база данных) происходил напрямую, посредством коммуникации с врачами-маммологами.

Изначально снимки находятся в специальном формате DICOM (DICOM — медицинский отраслевой стандарт создания, хранения, передачи и визуализации цифровых медицинских изображений и документов обследованных пациентов). После переноса изображений в формат JPEG на снимках имелись врачебные пометки, которые при обучении CNN могли бы сильно повлиять на результат и обеспечить недостоверность работы нейронной сети. Ввиду этого необходимо удалить лишнюю информацию с изображения.

Сопоставление результатов заключений врача и изображений происходило вручную. В данном случае разметка отображается при помощи соответствующего названия изображения.

Набор данных должен быть разделен на три части: тренировочный, валидационный и тестовый. Тренировочный набор используется для обучения модели, валидационный — для настройки гиперпараметров и предотвращения переобучения, а тестовый — для оценки производительности модели после обучения. Для удобства распределения изображений была написана небольшая программа, которая в случайном порядке распределяет все изображения на три каталога.

После проверки распределения данных необходимо произвести нормализацию и препроцессинг данных. Изображения маммографии могут иметь различные размеры, контрастность и яркость. Для того, чтобы улучшить качество обучения CNN, необходимо выполнить следующие шаги:

1. Изменение размера: все изображения должны быть приведены к одному размеру.

2. Нормализация: изображения должны быть нормализованы, чтобы значения пикселей находились в определенном диапазоне.

Для предотвращения переобучения и улучшения способности сети к обобщению, можно использовать методы увеличения данных, то есть слои аугментации, которые включают в себя различные преобразования изображений. В частности, это слои изменения контрастности, яркости, размера и поворота.

РЕАЛИЗАЦИЯ МОДЕЛИ И РЕЗУЛЬТАТЫ РАБОТЫ

CNN для обработки снимков маммографии должна быть специально разработана для выявления признаков, характерных для рака груди. В построенной архитектуре первая строка model = models.Sequential() подразумевает самое создание модели. Далее идут слои аугментации и слои нормализации и предпроцессинга. После этого начинаются сами сверточные слои:

1) сверточные слои (Conv2D), которые отвечают за извлечение признаков из изображений, используются как с32 фильтрами, так и с64 фильтрами;

2) MaxPooling2D, что подразумевает уменьшение размерности изображений с сохранением наиболее важных признаков;

3) И функции активации ReLU и sigmoid.

После нескольких сверточных слоев используется слой Flatten, который преобразует выходные данные в одномерный массив, подающийся на вход полносвязного

слоя. Полносвязный же слой Dense используется для классификации изображений. Выходной слой состоит из одного нейрона с функцией активации sigmoid.

Как видим (см. рис. 2), результат, то есть аккуратность на тестовых данных— 47,5%. Теперь отрегулируем работу CNN и ее параметры. Для этого удобно просматривать историю обучения (см. рисунок 3).

В дальнейшем планируется разработать систему на основе экспертных систем для сравнения с текущим решением проблемы, а также сделать надстройку над ней, применяемую для работы с результатами биопсии и онкомаркеров.

scores = model.evaluate(test_generator. steps=iee)

✓ 2.5s

100/loa- 2s 17ms/step - accuracy: е.4765 - loss: 1.4746

print("Аккуратность на тестовых данных: X.2fW" X (scores(l]*16e))

v- OA

Аккуратность на тестовых данных: 47.50Х

Рис. 2. Аккуратность на тестовых данных

# Визуализация истории обучения def plot_history(history): plt.figure(figsize=(12, 4))

# График потерь (loss} pit .subplot(lj 2, 1) pit.plot(history.history['loss1 J, label='Training Loss") pit.plot(history.history['val_loss'], labels'Validation Loss') plt.xlabel('Epoch'} plt.ylabel('Loss") pit.title('Training and Validation Loss") pit.legend(}

# График точности (accuracy) pit.subplot(lj 2, 2) pit.plot(history.history['accuracy'], label="Training Accuracy") pit.plot(history.history['val_accuracy'], label="Validation Accuracy') plt.xlabel('Epoch") plt.ylabel('Accuracy'} pit.title('Training and Validation Accuracy') pit.legend()

plt.show()

# Вызов функции для отображения графиков plot_history(history)

' 04s Python

175 1 Л

1.25 1 00 0.75 0 50 0.25 ООО

Рис.3. История обучения

На графике показано, что наилучший результат должен получится при количестве эпох обучения от 10 до 15. Основываясь на этом, необходимо будет изменять параметры CNN и пытаться обучить ее заново.

Разработанная CNN демонстрирует удовлетворительные результаты для задачи диагностики рака молочной железы.

В целом, это может стать основой для создания автоматизированных систем, способных значительно улучшить качество как медицинской, так и производственной диагностики.

Литература

1. Волчек Ю.А., Шишко О.М., Спиридонов А.С., Мохорт Т.В. Juvenis scientia. 2017; № 9, 4-9

2. https://webiomed.ru/blog/obzor-rossiiskikh-sistem-iskusstvennogo-intellekta-dlia-

zdravookhraneniia/?ysclid=lnz13tkul2720197732. Гусев А.В. Обзор Российских систем искусственного интеллекта для здравоохранения. // WEBIOMED: интернет-портал. Обращения: к ресурсу 15.10.2023.

3. Прохорова А.В., Бродская Ю.А. Распознавание образов в диагностике некоторых классов заболеваний головного мозга. Проблемы оптической физики и биофотоники SFM-2019: Материалы 7-го Международного симпозиума и 23-й Международной молодежной научной школы SaratovFall Meeting-2019. Под ред. Г.В. Симоненко, В.В. Тучина. - Саратов: Изд-во Саратовского ун-та, 2020. - 106 стр.: ил. - С. 88-91.Имеется электронный аналог. ISBN 978-5-292-04638-7 (print) ISBN 978-5-292-04639-4 (online)

4. Приори Л.Д., Бродская Ю.А. Математические модели распознавания образов в проблеме диагностики дисбиозов кишечника. Проблемы оптической физики и биофотоники SFM-2020: Материалы 9-го Международного симпозиума и 25-й Международной молодёжной научной школы SaratovFall Meeting-2021. / Под ред. Г.В. Симоненко, В.В. Тучина. - Саратов: изд-во «Саратовский источник», 2021. - ISBN 978-56047595-9-2. С. 24-29.

5. Бродская Ю.А., Маринушкин Д.Н., Нечаев В.Н., Тугушева В.Н., Балабанов Н.Г., Василенко А.П.Теоретические предпосылки использования теории распознавания образов в прогнозировании преждевременного прерывания беременности. Искусственное прерывание беременности. - М.: Научный центр акушерства, гинекологии и перинаталогии РАМН. Изд-во СГМУ, 2002. - С. 33-35

РОЛЬ ФЛУОРЕСЦЕНЦИИ В БРАЧНОМ ПОВЕДЕНИИ ПАУКОВ-СКАКУНЧИКОВ 8УМЛОЕЬЕ8ОЛЬМЛИСШ (АКСЕЛЕ, 8АЬТ1СГОАЕ)

М.И. Никельшпарг1, Э.И. Никельшпарг2, В.В. Аникин1

'Саратовский государственный университет им. Н.Г. Чернышевского, Саратов, Россия 2Университет имени Бен-Гуриона в Негеве, Израиль

Флуоресценция у пауков и ее связь с их брачным поведением были обнаружены впервые в 2007 году у паука-скакунчика из Юго-Восточной Азии Мандибулы флуоресцируют под

ультрафиолетовым светом, что связано с брачным поведением: самец находит самку по ее флуоресценции во время брачного сезона, заключающегося в том, что самец размахивает передними ногами перед самкой. Однако мы обнаружили совершенно иную технику, изучая поведение Synagelesdalmaticus, которого мы собрали в Израиле в 2024 году в пустыне Негев. Самецвместо ног высоко поднимал свое брюшко и размахивал им перед самкой. Для регистрации флуоресценции мы провели исследование с использованием флуоресцентного микроскопа с фильтрами возбуждения 480/40 нм, 436/20 нм, 510/20 нм и 560/40 нм. Оказалось, что флуоресценция 8^а1та^сш' отличается от флуоресценции других родов пауков-скакунов, в частности от Heliophanussp., ЗаШсшоНуасеш', Ху^Исш^,, Filistatainsidiatrix, Steatodasp. Мы обнаружили, что самки S.dalmaticus интенсивно флуоресцируют в диапазоне длин волн 480/40 нм и 436/20 нм в области брюшка, а не в области мандибул. Самцы X dalmaticus также флуоресцируют в области брюшка, в то время как ноги и мандибулы этого вида не флуоресцируют в этом диапазоне. Наше открытие предполагает, что флуоресценция определенных морфологических частей может быть таксономической характеристикой пауков. Таким образом, мы наблюдали еще одно доказательство важности света в природе.

DOI:

i Надоели баннеры? Вы всегда можете отключить рекламу.