Научная статья на тему 'СИСТЕМА ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ ДЛЯ ДИАГНОСТИКИ ПАТОЛОГИЙ СЕРДЕЧНО-СОСУДИСТОЙ СИСТЕМЫ ПО РЕНТГЕНОВСКИМ ИЗОБРАЖЕНИЯМ ГРУДНОЙ КЛЕТКИ'

СИСТЕМА ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ ДЛЯ ДИАГНОСТИКИ ПАТОЛОГИЙ СЕРДЕЧНО-СОСУДИСТОЙ СИСТЕМЫ ПО РЕНТГЕНОВСКИМ ИЗОБРАЖЕНИЯМ ГРУДНОЙ КЛЕТКИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
53
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГЛУБОКОЕ ОБУЧЕНИЕ / ВНЕЛЁГОЧНЫЕ ПАТОЛОГИИ / ПОДГОТОВКА ДАННЫХ / ПРЕДОБУЧЕННЫЕ НЕЙРОННЫЕ СЕТИ / КЛАССИФИКАЦИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Раджабов А.Г.

Отсутствие универсальных (генерализированных) наборов данных и недостаток аннотированных данных делают необходимым исследование возможностей нейросетевых подходов для конкретных наборов данных. Важность построения алгоритмов для обнаружения внелёгочных патологий на рентгеновских изображениях грудной клетки продиктована социальной значимостью заболеваний данной группы (например, сердечно-сосудистых), условиями доступности таких изображений ввиду широкого распространения малоинвазивных и относительно дешевых рентгенологических методов диагностики. Одна из важных проблем при решении задач автоматизации классификации медицинских изображений - подготовка данных. В результате работы над базой изображений удалось повысить производительность итогового алгоритма с 75 до 95 %. Для медицинских учреждений обработка всего объема получаемых изображений и проведение их диагностики по широкому списку патологий затруднены ограниченностью ресурсов. В связи с чем целесообразно использовать автоматизацию процессов сегментации и распознавания, что уже на первых этапах ее применения дает возможность врачам перераспределить внимание на потенциально патологические случаи и обратить повторно внимание на те, которые ошибочно были идентифицированы как непатологические.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Раджабов А.Г.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DECISION MAKING SUPPORT SYSTEM FOR THE DIAGNOSTICS OF THE CARDIOVASCULAR SYSTEM PATHOLOGIES BY THE X-RAY IMAGES OF THE CHEST

The lack of universal (generalized) data sets, as well as the lack of annotated data, creates the need to study the possibilities of neural network approaches for specific data sets. The importance of building algorithms for detecting extrapulmonary pathologies on chest X-ray images is dictated by the great social significance of many diseases of this group (for example, cardiovascular diseases), given the availability of such images, due to the widespread use of minimally invasive and relatively cheap X-ray diagnostic methods. One of the most impor tant issues in solving the problems of automating the classification of medical images is data preparation. As a result of work on the image base, the performance of the final algorithm has been increased from 75 to 95 %. The processing of the entire volume of the obtained images and their diagnostics for a wide list of pathologies are difficult for medical institutions because of the limited resources. In this regard, it is advisable to use the automation of segmentation and recognition processes, which even at the first stages of development of the technology makes it possible to redistribute the attention of doctors, focusing on potentially pathological cases and returning attention to cases mistakenly identified as non-pathological.

Текст научной работы на тему «СИСТЕМА ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ ДЛЯ ДИАГНОСТИКИ ПАТОЛОГИЙ СЕРДЕЧНО-СОСУДИСТОЙ СИСТЕМЫ ПО РЕНТГЕНОВСКИМ ИЗОБРАЖЕНИЯМ ГРУДНОЙ КЛЕТКИ»

http://dx.doi.org/10.35596/1729-7648-2023-21-l- 98-103

Оригинальная статья Original paper

УДК 004.032.26

СИСТЕМА ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ ДЛЯ ДИАГНОСТИКИ ПАТОЛОГИЙ СЕРДЕЧНО-СОСУДИСТОЙ СИСТЕМЫ ПО РЕНТГЕНОВСКИМ ИЗОБРАЖЕНИЯМ ГРУДНОЙ КЛЕТКИ

А. Г. РАДЖАБОВ

Объединенный институт проблем информатики Национальной академии наук Беларуси

(г. Минск, Республика Беларусь)

Поступила в редакцию 03.11.2022

© Белорусский государственный университет информатики и радиоэлектроники, 2023 Belarusian State University of Informatics and Radioelectronics, 2023

Аннотация. Отсутствие универсальных (генерализированных) наборов данных и недостаток аннотированных данных делают необходимым исследование возможностей нейросетевых подходов для конкретных наборов данных. Важность построения алгоритмов для обнаружения внелёгочных патологий на рентгеновских изображениях грудной клетки продиктована социальной значимостью заболеваний данной группы (например, сердечно-сосудистых), условиями доступности таких изображений ввиду широкого распространения малоинвазивных и относительно дешевых рентгенологических методов диагностики. Одна из важных проблем при решении задач автоматизации классификации медицинских изображений -подготовка данных. В результате работы над базой изображений удалось повысить производительность итогового алгоритма с 75 до 95 %. Для медицинских учреждений обработка всего объема получаемых изображений и проведение их диагностики по широкому списку патологий затруднены ограниченностью ресурсов. В связи с чем целесообразно использовать автоматизацию процессов сегментации и распознавания, что уже на первых этапах ее применения дает возможность врачам перераспределить внимание на потенциально патологические случаи и обратить повторно внимание на те, которые ошибочно были идентифицированы как непатологические.

Ключевые слова: глубокое обучение, внелёгочные патологии, подготовка данных, предобученные нейронные сети, классификация.

Конфликт интересов. Автор заявляет об отсутствии конфликта интересов.

Для цитирования. Раджабов, А. Г. Система поддержки принятия решений для диагностики патологий сердечно-сосудистой системы по рентгеновским изображениям грудной клетки / А. Г. Раджабов // Доклады БГУИР. 2023. Т. 21, № 1. С. 98-103. http://dx.doi.org/10.35596/1729-7648-2023-21-1-98-103.

DECISION MAKING SUPPORT SYSTEM FOR THE DIAGNOSTICS OF THE CARDIOVASCULAR SYSTEM PATHOLOGIES

BY THE X-RAY IMAGES OF THE CHEST

AHMEDKHAN G. RADZHABOV

The United Institute of Informatics Problems of the National Academy of Sciences of Belarus

(Minsk, Republic of Belarus)

Submitted 03.11.2022

Abstract. The lack of universal (generalized) data sets, as well as the lack of annotated data, creates the need to study the possibilities of neural network approaches for specific data sets. The importance of building algorithms

for detecting extrapulmonary pathologies on chest X-ray images is dictated by the great social significance of many diseases of this group (for example, cardiovascular diseases), given the availability of such images, due to the widespread use of minimally invasive and relatively cheap X-ray diagnostic methods. One of the most important issues in solving the problems of automating the classification of medical images is data preparation. As a result of work on the image base, the performance of the final algorithm has been increased from 75 to 95 %. The processing of the entire volume of the obtained images and their diagnostics for a wide list of pathologies are difficult for medical institutions because of the limited resources. In this regard, it is advisable to use the automation of segmentation and recognition processes, which even at the first stages of development of the technology makes it possible to redistribute the attention of doctors, focusing on potentially pathological cases and returning attention to cases mistakenly identified as non-pathological.

Keywords: deep learning, extrapulmonary pathologies, data preparation, pretrained neural networks, classification. Conflict of interests. The author declares no conflict of interests.

For citation. Radzhabov A. G. (2023) Decision Making Support System for the Diagnostics of the Cardiovascular System Pathologies by the X-ray Images of the Chest. Doklady BGUIR. 21 (1), 98-103. http://dx.doi. org/10.35596/1729-7648-2023-21-1-98-103 (in Russian).

Введение

Закрепившаяся практика плановых рентгенологических исследований и постепенное вытеснение аналоговых способов регистрации изображений цифровыми приводят к накоплению цифровых баз изображений и открывают возможность быстрой обработки таких данных. В то же время автоматизированная классификация биомедицинских изображений стала возможной благодаря развитию компьютерной техники и доступности микросервисных и облачных технологий. Процесс информатизации компенсирует замедление в развитии базовых технических компонентов. Наиболее заметные успехи наблюдаются в сфере машинного зрения. Оно внедряется как для автоматизации внутренних процессов медицинских учреждений, так и для обработки медицинской документации и получения новых, ранее недоступных признаков из данных [1]. Часто вместо алгоритмов цифровой фильтрации и построения жестко запрограммированных моделей применяются методы машинного обучения [2]. Одна из перспективных областей применения последнего - машинное распознавание и классификация изображений и объектов на них. Несмотря на свою долгую историю, системы и алгоритмы машинного обучения только начинают заполнять ниши в медицинской практике. Это связано с тем, что возможность применения таких систем технически открылась только недавно, но все еще существует недостаток систематизированных знаний в процессах патогенеза, анатомии и других сферах [3]. Последнее при наличии большого набора экспериментальных данных преодолимо с помощью алгоритмов глубокого обучения, называемых нейросетевыми алгоритмами [4].

Использование нейросетевых алгоритмов для обработки и классификации данных

Подход к работе с аннотированным набором биомедицинских данных (рентгеновских изображений грудной клетки) описан в [5]. Он позволяет автоматизирована идентифицировать патологии из текстовых данных и изображений. В [6, 7] рассмотрены кросс-модальное обучение и одновременное обучение нейронной сети для классификации и сегментации, что позволяет улучшить качество обучения классификатора за счет повышения внимания модели нейронной сети к деталям, отвечающим за локализацию патологий. Оба подхода дают возможность одновременно использовать имеющиеся данные разной модальности для улучшения качественных и количественных показателей обученной нейронной сети. Но в случае отсутствия таких данных может быть полезным обучение без учителя - экстракция признаков, что позволяет, помимо получения самих признаков, добиться лучшего распознавания деталей на изображении [8].

Исходной выступала база данных рентгеновских изображений грудной клетки лаборатории анализа биомедицинских изображений Объединенного института проблем информатики НАН Беларуси, содержащая более 2 млн изображений с текстовыми комментариями врачей (о наличии заболеваний, возрасте) и другие полезные данные. Из базы получили следующие выборки:

I - набор, содержащий два класса - изображения со всеми внелёгочными патологиями и остальные изображения (условно - без патологий); в ходе экспериментов в нем выявились некоторые недостатки, которые были учтены при составлении новых наборов;

II - наборы, состоящие из изображений с признаками (одним признаком) одной внелёгочной патологии (табл. 1), и изображений, не содержащих признаков каких-либо патологий (во всех случаях определяющим фактором для признаков патологий являлись данные из аннотации, составленной врачом).

Таблица 1. Примеры изображений, содержащих признаки патологий Table 1. Examples of images containing signs of pathologies

Изображение / Image

Заключение врача, число изображений / Doctor's opinion, number of images

Нет патологии, 700 000

Расширенное сердце, 5200

И

Тень сердца расширена, 3800

Аорта развернута, 7500

Аорта уплотнена, 6500

Атеросклероз аорты, 660

FW

Релаксация купола, 640

Склероз дуги аорты, 2200

Сколиоз, 45 000

Во втором наборе данные формировались и разделялись на тренировочные и тестовые с соблюдением эксклюзивности изображений пациента для обозначенных наборов данных (непопадание изображений одного пациента в тренировочный и тестовый наборы данных одновременно) и случайностей распределения для предотвращения влияния непредусмотренных факторов. Также из наборов удалялись изображения неудовлетворительного качества (с ярко выраженными артефактами, слишком темные или светлые, потерявшие информативность). Для формирования перечисленных субнаборов данных использовались следующие метки из аннотации, составленной врачом (табл. 1): сердце расширено, аорта развёрнута, аорта уплотнена, тень сердца расширена, склероз дуги аорты, сглаженная талия, атеросклероз аорты, сосудистые корни, сколиоз и др. Из перечисленных наборов и общего набора изображений без признаков патологий исключали изображения с метками: пневмосклероз, спондилёз, энфизема, фиброз, тяжистость корней лёгких, релаксация купола лёгких, деформация ребер, кальциноз, пневмония, апикальные наложения, ПДС, очаговые тени, петрификаты, бронхит, усиление лёгочного рисунка, туберкулёз. Ввиду лучшего качества выборки (чистоты от изображений другого класса), для формирования наборов данных выбрали только рентгенограммы женщин.

Для достижения репрезентативного результата использовали фреймворк MONAI, предназначенный для имплементаций искусственного интеллекта или глубокого обучения в области медицинской визуализации. На первоначальном этапе использовалась база, содержащая все вне-лёгочные патологии как один класс. Сходимость на таком наборе не была достигнута, площадь под ROC-кривой в лучшем случае составляла 75 % [9]. Среди нескольких моделей нейронных сетей, таких как densenet121, senet154, se_resnet50, se_resnext101_32x4d, базовый классификатор MONAI и вариации EfficientNet, в том числе предобученных на рентгеновских изображениях, наиболее стабильный результат показали вариации EfficientNet. Поэтому они применялись для всех последующих экспериментов, произведенных с новыми наборами данных. EfficientNet была разработана в ходе изучения и поиска баланса гиперпараметров нейросетевых моделей [10]. Для EfficientNet-B4 использовалось разрешение 380^380.

Проведение эксперимента

Вычисления производились на видиоускорителях NVIDIA GeForce RTX 2070 и GeForce GTX TITAN X с 8 и 11 Гб видеопамяти соответственно. Прогоны всех датасетов, сбалансированных по классам больных и здоровых, с использованием EfficientNet-B4 и 20 эпох, произведенных на GeForce GTX TITAN X, заняли в совокупности около 50 ч.

Производительность для соответствующих наборов данных, достигнутая в ходе экспериментов, приведена в табл. 2, где AUC - площадь под ROC-кривой; Accuracy - доля правильных ответов; Precision - точность; Recall - полнота; f1-score - среднее гармоническое Precision и Recall. Для Precision, Recall и f1-score приведены средневзвешенные значения.

Таблица 2. Значения метрик точности классификации для набора данных Table 2. Values for dataset classification accuracy metrics

Наименование набора данных / Data set name Производительность для набора данных / Performance for a dataset

AUC Accuracy Precision Recall f1-score

Расширенное сердце 0.9667 0.9102 0.9118 0.9102 0.9107

Тень сердца расширена 0.9956 0.9754 0.9757 0.9754 0.9755

Аорта развёрнута 0.9732 0.9156 0.9190 0.9156 0.9161

Аорта уплотнена 0.9641 0.8952 0.8961 0.8952 0.8955

Атеросклероз аорты 0.9987 0.9829 0.9829 0.9829 0.9829

Релаксация купола 0.9335 0.8594 0.8594 0.8594 0.8594

Склероз дуги аорты 0.9820 0.9572 0.9574 0.9572 0.9573

Сколиоз 0.9495 0.8804 0.8795 0.8804 0.8786

Сосудистые корни 0.9849 0.9362 0.9400 0.9362 0.9367

Заключение

1. Показатели, полученные в процессе эксперимента, подтвердили улучшение качества набора данных, что позволяет сосредоточиться на улучшении всего алгоритма классификации.

2. Результаты для признаков такого класса, как «Атеросклероз аорты» (в табл. 2 выделен курсивом), оказались лучшими среди всех патологий, что может быть интерпретировано не только как эффект переобучения, высокая эффективность нейронной сети, но и как влияние этапов подготовки данных. Эффект переобучения мог быть вызван относительно небольшой выборкой изображений для данного класса, но отсутствие такого эффекта для класса «Релаксация купола» со схожим размером выборки снижает вероятность того, что наблюдается именно этот эффект. Визуально можно отличить изображения с атеросклерозом аорты от изображений, относящихся к другим классам. Возможно, структура данной патологии существенно изменяет яркостной баланс изображения, в результате чего нормализованные изображения выглядят иначе, чем изображения других классов. В таком случае детерминирующими для нейронной сети являются характеристики изображения, полученные в результате этапа обработки, относящегося, скорее, к машинному зрению. Нормализация выявила некоторые артефакты изображений и, возможно, усилила графические проблемы, такие как высокая контрастность, контрастные горизонтальные линии, излишняя яркость либо тусклость изображений. Есть вероятность получения гораздо лучшего результата в этой области, чем описанный в данной статье.

3. В дальнейшем предполагается исследовать возможности построения сетей для обучения без учителя, параллельное обучение классификации и сегментации по нескольким классам, а также использование архитектур сиамских сетей для поиска примеров и улучшения итогового результата классификатора.

Список литературы

1. Канюков, В. Н. Компьютерные технологии в медико-биологических исследованиях / В. Н. Канюков, Р. Р. Григорьев, А. Д. Стрекаловская. Оренбург: Оренб. госуд. ун-т, 2009. Ч. 1. 109 с.

2. Shortliffe, E. H. Computer-based Medical Consultations: MYCIN / Е. Н. Shorliffe. New York: Elsevier Computer Science Library, 1976. 286 p.

3. Пеккер, Я. С. Компьютерные технологии в медико-биологических исследованиях. Сигналы биологического происхождения и медицинские изображения / Я. С. Пеккер, К. С. Бразовский. Томск: Изд-во Томск. политех. ун-та, 2002. 240 с.

4. Гудфеллоу, Я. Д. Глубокое обучение / Я. Д. Гудфеллоу. СПб.: ДМК, 2017. 652 с.

5. PadChest: a Large Chest X-ray Image Dataset with Multi-label Annotated Reports / А. Bustos [et al.] // Medical Image Analysis. 2020. Vol. 66.

6. Han, Y. Cross-Modal Contrastive Learning for Abnormality Classification and Localization in Chest X-rays with Radiomics Using a Feedback Loop / Y. Han, B. Glicksberg // arXiv. 2021. https://arxiv.org/ pdf/2104.04968.pdf. Date of access: 25.11.2021.

7. MoCo-CXR: MoCo Pretraining Improves Representation and Transferability of Chest X-ray Models / H. Sowrirajan [et al.] // arXiv. 2021. https://arxiv.org/pdf/2010.05352.pdf. Date of access: 25.11.2021.

8. Chen, X. Deep Mask for X-Ray Based Heart Disease Classification / Х. Chen, B. Shi // arXiv. 2018. https:// arxiv.org/abs/1808.08277. Date of access: 25.11.2021.

9. Radzhabov, A. Performance Analysis of Deep Learning Models for Heart Segmentation in Chest X-ray Images on a Small Dataset / А. Radzhabov, V. Kovalev // International Conference on Pattern Recognition and Information Processing. 2021.

10. Tan, M. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks / М. Tan, Q. V. Le // arXiv. 2020. https://arxiv.org/pdf/1905.11946.pdf. Date of access: 25.11.2021.

References

1. Kanyukov V N. (2009) Computer Technologies in Biomedical Research. Ch. 1. Orenburg, GOU ORG. 109. (in Russian).

2. Shortiffe E. H. (1976) Computer-Based Medical Consultations: MYCIN. New York, Elsevier Computer Science Publi. Comp. 286.

3. Pekker Ya. S. (2002) Computer Technologies in Biomedical Research. Biological Signals and Medical Imaging. Tomsk, Tomsk Polytechnic University Publ. 240 (in Russian).

4. Gudfellou Ya. D. (2017) Deep Learning. Saint Petersburg, DMK. 652.

5. Bustos A., Pertusa A., Salinas J.-M., de la Iglesia-Vaya M. (2020) PadChest: a Large Chest X-ray Image Dataset with Multi-label Annotated Reports. Medical Image Analysis. 66.

6. Han Y., Glicksberg B. (2021) Cross-Modal Contrastive Learning for Abnormality Classification and Localization in Chest X-Rays with Radiomics Using a Feedback Loop. arXiv. https://arxiv.org/pdf/2104.04968. pdf (Accessed 25 November 2021).

7. Sowrirajan H., Yang J., Ng A. Y., Rajpurkar P. (2021) MoCo-CXR: MoCo Pretraining Improves Representation and Transferability of Chest X-Ray Models. arXiv. https://arxiv.org/pdf/2010.05352.pdf (Accessed 25 November 2021).

8. Chen X., Shi B. (2018) Deep Mask for X-Ray Based Heart Disease Classification. arXiv. https://arxiv.org/ abs/1808.08277 (Accessed 25 November 2021).

9. Radzhabov A., Kovalev V. (2021) Performance Analysis of Deep Learning Models for Heart Segmentation in Chest X-ray Images on a Small Dataset. International Conference on Pattern Recognition and Information Processing.

10. Tan M., Le Q. V (2020) EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. arXiv. https://arxiv.org/pdf/1905.11946.pdf (Accessed 25 November 2021).

Сведения об авторе

Раджабов А. Г., аспирант, младший научный сотрудник Объединенного института проблем информатики Национальной академии наук Беларуси

Адрес для корреспонденции

220141, Республика Беларусь,

г. Минск, ул. Руссиянова, 50

Объединенный институт проблем информатики

НАН Беларуси

Тел.: +375 33 385-23-20

E-mail: axmegxah@outlook.com

Раджабов Ахмедхан Гаджимаммяевич

Information about the author

Radzhabov A. G., Postgraduate, Junior Researcher at the United Institute of Informatics Problems of the National Academy of Sciences of Belarus

Address for correspondence

220141, Republic of Belarus,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Minsk, Russiyanova St., 50

The United Institute of Informatics Problems

of the NAS of Belarus

Тел.: +375 33 385-23-20

E-mail: axmegxah@outlook.com

Radzhabov Ahmedkhan Gadgimammyaevich

i Надоели баннеры? Вы всегда можете отключить рекламу.