АНАЛИЗ ОТКРЫТЫХ ДАТА СЕТОВ ЦИФРОВЫХ ИЗОБРАЖЕНИЙ ГРУДНОЙ КЛЕТКИ ДЛЯ КЛАССИФИКАЦИИ ПАТОЛОГИЙ ЛЕГКИХ

Хахина Анна Михайловна; Терешин Данил Александрович

УДК 004/ 616

АНАЛИЗ ОТКРЫТЫХ ДАТА СЕТОВ ЦИФРОВЫХ ИЗОБРАЖЕНИЙ ГРУДНОЙ КЛЕТКИ ДЛЯ КЛАССИФИКАЦИИ ПАТОЛОГИЙ ЛЕГКИХ

Хахина Анна Михайловна

Доктор технических наук, профессор, ФГАОУ ВО Санкт-Петербургский политехнический университет Петра Великого anna-hahina@mail. щ

Терешин Данил Александрович

Студент, ФГАОУ ВО Санкт-Петербургский политехнический университет Петра Великого vaterva7@vandex. ги

В данной статье осуществляется обзор и анализ существующих в открытом доступе наборов данных цифровых изображений грудной клетки, которые потенциально могут использоваться при построении медицинских систем. Для сравнения коллекций рентгенограмм между собой использовались следующие характеристики: общий объем данных, виды представленных патологий, разрешение и формат данных.

Ключевые слова: набор данных, COVID-19, нейросетевая структура, легкие, цифровая рентгенограмма, пациент.

ANALYSIS OF OPEN DATA SETS OF DIGITAL CHEST IMAGES FOR THE CLASSIFICATION OF LUNG PATHOLOGIES

Anna Mikhailovna

Khakhina, Doctor of Technical Sciences, Professor, Peter the Great St. Petersburg Polytechnic University anna-hahina@mail.ru

Tereshin Danil Alexandrovich

Student, Peter the Great St. Petersburg Polytechnic University yaterya7@yandex.ru

This article provides a review and analysis of publicly available digital chest imaging datasets that can potentially be used in the construction of medical systems. To compare collections of radiographs, the following characteristics were used: total amount of data, types of pathologies presented, resolution and data format.

Key words: data set, COVID-19, neural network structure, lungs, digital radiograph, patient.

На протяжении последних десяти лет технологии искусственного интеллекта (ИИ) благодаря бурному развитию находят широкое применение и демонстрируют потенциал в различных сферах жизнедеятельности человека, в частности, в медицине. Особое внимание уделяется создаваемым на их основе автоматизированным системам диагностики и классификации таких неструктурированных данных, как изображения лучевой диагностики. Они помогают врачам решать задачу скрининга и проводить количественный

анализ, например, цифровых рентгенограмм грудной клетки для выявления широкого ряда заболеваний: туберкулез, пневмония, СОУЮ-19 и т. д.

Большинство современных

алгоритмов, подходящих для ранней диагностики патологий легких, основаны на глубоком обучении - использовании сложных нейросетевых структур. Тем не менее, несмотря на высокую сложность таких методов, точность и практическая значимость таких моделей напрямую и во многом зависит

от количества и качества данных, которые используются при обучении и тестировании.

Наиболее популярным и одновременно одним из самых обширных наборов снимков цифрового рентгена является датасет, подготовленный Клиническим Центром Национального Института Здравоохранения США (NIH Chest x-ray dataset) в 2017 году. С момента появления в открытом доступе коллекция несколько раз обновлялась и на сегодняшний день содержит чуть более 112 тысяч цифровых снимков легких 30 тысяч уникальных пациентов в различных проекциях. Для разметки такого большого объема изображений авторы использовали технологии автоматизированной обработки естественного языка для классификации заболеваний из соответствующих радиологических отчетов. Заявленная точность нанесения меток диагнозов - свыше 90%. Несмотря на обезличенность данных для каждого снимка содержится информация о соответствующем пациенте (возраст, пол), что также может использоваться в других типах исследований. Изображения имеют разрешение 1024 на 1024 пикселя с разрешением png.

Несомненными достоинствами этого набора являются большой объем и большое количество размеченных классов болезней (14 различных диагнозов, в частности, фиброзы, отеки, пневмонии и т.д). Тем не менее, в датасете содержатся «аномальные» снимки, в которых на изображении четко видно облученные инородные предметы (рис. 1) или они сильно засвечены. Это, несомненно, способно понизить точность обучаемых моделей, если для обучения будет использоваться только часть имеющихся изображений. Кроме того, поскольку данные были опубликованы в 2017 году, в них отсутствуют снимки поражения легких коронавирусной инфекцией COVID-19, имеющей характерные особенности, отличающиеся от обычной пневмонии.

Рис. 1. «Аномальные» снимки

Другим набором является датасет из программы борьбы с туберкулезом Департамента Здравоохранения и социальных служб округа Монтгомери, США. Среди

очевидных недостатков коллекции можно выделить всего одну обозреваемую патологию - туберкулез, а также небольшой размер -всего 138 изображений рентгена грудной клетки в передней проекции, где только 58 из них имеют симптомы туберкулеза. Однако, все снимки выполнены в отличном качестве в двух разрешениях (4,892x4,020 или 4,020x4,892 пикселя соответственно). Все

вышеперечисленные особенности не позволяют выделить данный набор данных для решения задач классификации патологий. Тем не менее, он может послужить перспективной базой для решения задач сегментации и выделения легких.

Среди данных, опубликованных исследователями из стран СНГ, можно выделить предоставляемую Национальным институтом аллергии и инфекционных заболеваний (НИАИЗ) Минздрава Республики Беларусь коллекцию из 306 изображений грудной клетки от 169 уникальных пациентов. Рентгенограммы представлены с расширением 2248x2248 пикселей в формате DICOM -специальном медицинском стандарте создания, хранения и передачи цифровых медицинских изображений. Именно в таком формате снимки формируются в цифровых рентгеновских аппаратах. Однако, в наборе присутствуют только снимки заболевания туберкулезом, что не позволяет ограничиться им при построении и обучении надежного классификатора всех типов патологий.

Характерный и легко визуально распознаваемый симптом - наличие узелков в легких, являющийся показателем ряда особых патологий, отображается в наборе, собранном Японским Обществом радиологических технологий (JSRT). Коллекция представлена 154 снимками грудной клетки с узлами в легких (100 злокачественных и 54 доброкачественных узла) и 93 здоровыми рентгенограммами, оцифрованных с разрешением 2048x2048 c 12-битной шкалой серого. База данных также включает дополнительную информаций о возрасте, поле, подробном диагнозе пациентов и координатах узла, что говорит о высокой надежности данного набора при рассмотрении и анализе опухолевых заболеваний.

Отдельного рассмотрения требуют наборы рентгенограмм, посвященные инфекции COVID-19, поскольку в последние годы диагноз такого типа ставился с большой частотой. Высокий показатель надежности выявлен у периодически дополняющегося датасета от группы исследователей из Катара, Бангладеша, Пакистана и Малайзии, опубликованного в 2021 году. В последнем обновлении в наборе содержится около 34 тысяч цифровых рентгенограмм легких, среди которых 12 тыс. положительных случаев COVID-19 и 11.2 тыс. изображений с вирусной, бактериальной пневмонией или помутнением

легких, что делает его крупнейшей коллекцией на сегодняшний день. Все цифровые снимки имеют разрешение 299 на 299 пикселей в формате рпд. Кроме того, датасет был размещен на Кадд1е - публичной системе организации конкурсов по обработке данных и машинному обучению, где показывает высокие показатели полезности (279 научных публикаций используют его в

своих исследованиях согласно данным Google Академии).

Представим ряд наборов цифровых рентгеновских изображений легких, которые могут быть использованы для решения задачи классификации патологий. Характеристики вышеупомянутых датасетов, представленная в таблице.

Таблица 1

1ки датасетов

Название Представленные заболевания Объем Разрешение Формат

NIH Chest x-ray dataset Фиброз, пневмония, эфмизема... 112120 1024x1024 PNG

NLM Montgomery dataset Туберкулез 138 4020x4892 DICOM

NI-AID Belarus CXR dataset Туберкулез 306 2248x2248 DICOM

JSRT database Узелковые массы 247 2048x2048 PNG

COVID-19 Chest X-ray Database СОУЮ-19, пневмония 33920 299x299 PNG

Проведенный анализ позволяет сделать вывод о том, большими преимуществами обладает набор от Национального Института Здравоохранения США, поскольку имеет достаточный объем для обучения классификационной модели и представляет разнообразный список существующих заболеваний. Тем не менее, при попытке построения сложной, глубокой и хорошо оптимизированной модели следует использовать снимки в более высоком

разрешении. Альтернативным решением может являться объединение нескольких баз снимков при дальнейшем приведении их к одному разрешению, что важно при обучении классификатора. Вместе с тем следует подчеркнуть, что в статье указаны не все существующие в открытом доступе коллекции подобных рентгенограмм. Использование других данных потребует различных предварительных проверок качества и достоверности.

ЛИТЕРАТУРА

1. Wang X, Peng Y, Lu L, Lu Z, Bagheri M, Summers RM. ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases. IEEE CVPR 2017, ChestX-ray8Hospital-ScaleChestCVPR2017_paper.pdf

2. Stefan Jaeger, Sema Candemir, Sameer Antani, Yi-Xiang J. Wang, Pu-Xuan Lu and George Thoma, "Two public chest X-ray datasets for computer-aided screening of pulmonary diseases", Quant Imaging Med Surg, vol. 4, no. 6, pp. 475-477, Dec 2014.

3. M.E.H. Chowdhury, T. Rahman, A. Khandakar, R. Mazhar, M.A. Kadir, Z.B. Mahbub, K.R. Islam, M.S. Khan, A. Iqbal, N. Al-Emadi, M.B.I. Reaz, M. T. Islam, "Can AI help in screening Viral and COVID-19 pneumonia?" IEEE Access, Vol. 8, 2020, pp. 132665-132676.https://ieeexplore.ieee.org/document/9144185"

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Хахина Анна Михайловна, Терешин Данил Александрович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Хахина Анна Михайловна, Терешин Данил Александрович

ANALYSIS OF OPEN DATA SETS OF DIGITAL CHEST IMAGES FOR THE CLASSIFICATION OF LUNG PATHOLOGIES

Текст научной работы на тему «АНАЛИЗ ОТКРЫТЫХ ДАТА СЕТОВ ЦИФРОВЫХ ИЗОБРАЖЕНИЙ ГРУДНОЙ КЛЕТКИ ДЛЯ КЛАССИФИКАЦИИ ПАТОЛОГИЙ ЛЕГКИХ»