Научная статья на тему 'Выявление патологических изменений в легких на основе совместного анализа радиологических отчетов и томографических изображений'

Выявление патологических изменений в легких на основе совместного анализа радиологических отчетов и томографических изображений Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
166
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
обработка изображений / обработка томографических изображений / анализ изображений / признаки Харалика / классификация изображений / радиологический отчёт / обработка естественного языка. / image processing / tomographic image processing / image analysis / Haralick’s features / image classification / radiological report / natural language processing.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — А.А. Слуднова, В.В. Шутько, А.В. Гайдель, П.М. Зельтер, А.В. Капишников

В данной статье рассматривается идея совместного анализа изображений компьютерной томографии лёгких и текстовых радиологических данных для повышения качества автоматизированной диагностики эмфиземы. Сравнивается качество классификации изображений без учёта локализации патологии, упомянутой в радиологических отчётах, и с её учётом. Исследование произведено на наборах реальных изображений компьютерной томографии лёгких, полученных при клинических исследованиях в Самарском государственном медицинском университете. Установлено, что использование информации о локализации патологии, содержащейся в радиологических отчётах, приводит к повышению F-меры обнаружения эмфиземы с 0,55 до 0,73.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — А.А. Слуднова, В.В. Шутько, А.В. Гайдель, П.М. Зельтер, А.В. Капишников

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Identification of pathological changes in the lungs using an analysis of radiological reports and tomographic images

This article discusses an idea of a joint analysis of medical images and texts aimed at improving the quality of automated diagnosis of emphysema. We compare the quality of image classification with and without taking into account the localization of the pathology mentioned in radiological reports. The study was carried out on sets of real images of computed tomography of the lungs obtained in clinical studies at Samara State Medical University. It was established that the use of information on the localization of pathology contained in radiological reports leads to an increase in the F-score for the detection from 0.55 to 0.73.

Текст научной работы на тему «Выявление патологических изменений в легких на основе совместного анализа радиологических отчетов и томографических изображений»

Выявление патологических изменений в легких на основе совместного анализа радиологических отчетов и томографических изображений

А.А. Слуднова1, В.В. Шутько1, А.В. Гайдель 12, П.М. Зельтер 3, А.В. Капишников 3, А.В. Никоноров1,2 1 Самарский национальный исследовательский университет имени академика С.П. Королёва, 443086, Россия, г. Самара, Московское шоссе, д. 34, 2 ИСОИ РАН - филиал ФНИЦ «Кристаллография и фотоника» РАН, 443001, Россия, г. Самара, ул. Молодогвардейская, д. 151, 3 ФГБОУВО «Самарский государственный медицинский университет» Минздрава России, 443099, Россия, г. Самара, ул. Чапаевская, д. 89

Аннотация

В данной статье рассматривается идея совместного анализа изображений компьютерной томографии лёгких и текстовых радиологических данных для повышения качества автоматизированной диагностики эмфиземы. Сравнивается качество классификации изображений без учёта локализации патологии, упомянутой в радиологических отчётах, и с её учётом. Исследование произведено на наборах реальных изображений компьютерной томографии лёгких, полученных при клинических исследованиях в Самарском государственном медицинском университете. Установлено, что использование информации о локализации патологии, содержащейся в радиологических отчётах, приводит к повышению F-меры обнаружения эмфиземы с 0,55 до 0,73.

Ключевые слова: обработка изображений, обработка томографических изображений, анализ изображений, признаки Харалика, классификация изображений, радиологический отчёт, обработка естественного языка.

Цитирование: Слуднова, А.А. Выявление патологических изменений в легких на основе совместного анализа радиологических отчетов и томографических изображений / А.А. Слуднова, В.В. Шутько, А.В. Гайдель, П.М. Зельтер, А.В. Капишников, А.В. Никоноров // Компьютерная оптика. - 2021. - Т. 45, № 2. - С. 261-266. - DOI: 10.18287/2412-6179-CO-793.

Citation: Sludnova AA, Shutko VV, Gaidel AV, Zelter PM, Kapishnikov AV, Nikonorov AV. Identification of pathological changes in the lungs using an analysis of radiological reports and tomographic images. Computer Optics 2021; 45(2): 261-266. DOI: 10.18287/2412-6179-C0-793.

Введение

В настоящее время в PASC (Picture Archiving and Communication System) и других системах хранения медицинских изображений наблюдается проблема отсутствия аннотаций для этих изображений, в результате чего огромные массивы данных не могут быть использованы для автоматизированного анализа, а также для клинических и научных исследований. При этом зачастую у медицинских организаций и у рентгенологических лабораторий для внушительной части хранимых данных имеются радиологические отчёты и другие медицинские текстовые описания, сделанные квалифицированными медицинскими работниками на естественном языке. Использовать эти описания для автоматического аннотирования хранимых изображений предлагалось, например, в [1]. Авторы этой работы предложили переводить текстовые отчёты в формат XML, однако протокол перевода предлагалось задавать вручную с помощью специализированного программного обеспечения.

Такой формат описания называется AIM (Annotation and Image Markup) и упоминается в обзорном отчёте [2], в котором можно найти множество примеров концептуально новых возможностей, открывающихся в медицине за счёт внедрения новых

информационных технологий. В этом отчёте упоминается, что использование текстовых описаний медицинских изображений может повысить качество их анализа, однако конкретных технологий для реализации этой идеи не приводится и не предлагается.

В работе [3] разрабатывается новое открытое программное обеспечение для автоматизации аннотирования злокачественных новообразований на изображениях компьютерной томографии. Экспериментально показано, что это программное обеспечение позволяет ускорить процедуру диагностики в среднем на 15 %. Но при этом представленная программа позволяет проводить аннотирование и разметку изображений только в ручном режиме.

Позже похожая программная технология была предложена в [4]. В качестве формата хранения аннотаций в этой работе использовался JSON (JavaScript Object Notation). Однако и в этом случае представленная программа не допускает поддержку принятия решений на уровне автоматизации обнаружения областей интереса на изображениях или на уровне автоматизации анализа текстовых данных.

Преимущества структурированных радиологических отчётов перед традиционными отчётами на естественном языке в свободной форме обсуждаются в [5]. Там же отмечается, что в ближайшее время вряд

ли осуществится полный переход к написанию структурированных отчётов, кроме того, значительная доля уже имеющихся отчётов никак не структурирована. Похожие проблемы выносятся на обсуждение в [6]. Авторы упоминают возможность использования глубокого обучения для анализа как изображений, так и радиологических отчётов, однако никаких конкретных решений не предлагают.

В работе [7] рассматривается оригинальная идея совмещения текста радиологических отчётов и изображений в формате DICOM для организации базы знаний, позволяющей ускорить и упростить работу медицинских специалистов. Авторы предлагают технологию, основанную на поиске соответствий между текстом и участками различных изображений, чтобы обнаруживать сходные случаи и отвечать на сложные запросы пользователей. Однако в этой работе речь не идёт об использовании этих данных для повышения качества диагностики.

Одним из распространённых заболеваний, диагностируемых по изображениям компьютерной томографии лёгких, является эмфизема. Ранее автоматизация такой диагностики путём текстурного анализа изображений рассматривалась в [8]. Текстурные признаки показали хорошие результаты на реальном наборе данных, однако в этой работе предполагалось, что области интереса на изображениях выделяются вручную.

В [9] сравниваются подходы к автоматизации выделения области интереса на изображениях компьютерной томографии лёгких. Было показано, что метод Оцу [10] позволяет выделить область лёгкого с достаточной степенью достоверности, а использование для этой задачи свёрточных нейронных сетей не вполне оправдано. В качестве альтернативы можно использовать технологию выделения областей интереса, предложенную в [11]. Она основана на оптимизации критерия качества последующей классификации изображений компьютерной томографии лёгких.

Таким образом, повышение качества автоматической диагностики по цифровым изображениям за счёт использования радиологических отчётов является крайне актуальной задачей.

1. Исходные данные

Исходные данные можно разделить на две группы: наборы файлов в формате DICOM с полной информацией об исследовании и соответствующих этим наборам радиологических отчётов (таких наборов было 111, из которых в 56 была диагностирована эмфизема) и 108 отдельных снимков, на которых явно можно было выделить признаки эмфиземы.

Все используемые снимки были сделаны в аксиальной проекции, для исследования использовались снимки, соответствующие срезам лёгких толщиной 5 мм.

Глубина цвета используемых снимков - 24, разрешение составляло 96 dpi.

Пример исходного изображения приведён на рис. 1.

Радиологические отчёты представляли собой *Лос файлы, в которых в свободной форме были описаны результаты клинических исследований.

Рис. 1. Пример исходного изображения

2. Обработка радиологических отчётов

В рамках работы с имеющимися радиологическими отчётами было проведено два эксперимента: бинарная классификация отчётов (с эмфиземой / без эмфиземы) и попытка автоматического вычленения локализации эмфиземы в лёгких.

Для классификации отчетов была произведена их предварительная обработка в виде токенизации, лем-матизации, удаления стоп-слов.

Для обучения классификатора использовались веса, полученные с помощью TF-IDF [12]. Качество классификации проверялось с использованием перекрестной проверки (cross-validation) на 5 разбиениях с сохранением баланса классов.

В качестве классификаторов использовались логистическая регрессия [13] и решающее дерево [14]. Для поиска оптимальных гиперпараметров классификаторов использовался поиск по сетке. Для логистической регрессии была выбрана Ь2-регуляризация с параметром C = 0,1. Глубина решающего дерева была ограничена шестью уровнями, в качестве целевой функции выступала энтропия.

Табл. 1. Результаты классификации радиологических отчётов

Модель Достоверность Точность Полнота F1-мера

Логистическая регрессия 89 % 91 % 85 % 87 %

Решающее дерево 89 % 94 % 81 % 87 %

Получившиеся значения показателей качества классификации приведены в табл. 1. Показателями качества классификации являются достоверность -доля верно классифицированных отчётов, точность -отношение числа верно классифицированных отчётов с диагнозом эмфизема к числу отчётов, классифицированных как имеющих диагноз эмфизема, полнота -отношение числа верно классифицированных отчётов

с диагнозом эмфизема к числу отчётов, в реальности имеющих диагноз эмфизема, а также Р1-мера [15] -среднее гармоническое между точностью и полнотой. Если перед получением весов с помощью ТР-ГОР предварительно разбить слова на триграммы и ввести ограничение на количество признаков, качество классификации приближается к 100 %.

Дальнейшей задачей обработки радиологических отчетов стало выделение локализации патологических изменений лёгких. Все слова в отчетах предварительно были приведены к нормальной форме средствами лемматизации, затем в обработанном документе производился поиск заданных ключевых слов. Таким образом удалось разделить данные, содержащие сведения о патологии, на две группы: в одной группе эмфизема находилась в верхней половине лёгкого, в другой - в нижней. Кроме явных указаний на нижние и верхние доли лёгких, в части отчётов локализация была описана через сегменты (схематическое изображение сегментов лёгких представлено на рис. 2). Сегменты 81, 82, 83 и 86 находятся в верхней половине лёгкого, остальные - в нижнем.

Рис. 2. Расположение сегментов лёгких (на изображении представлено левое лёгкое - вид сбоку)

Из 61 отчета получилось выделить 32 отчета с локализацией. В остальных отчетах локализация не была указана или её не удалось установить однозначным образом (в одном отчёте содержалась информация о локализациях нескольких различных заболеваний). Отобранные с помощью поиска по ключевым словам отчёты совпали с вручную отобранными отчётами с достоверностью 82 %.

В рамках дальнейших исследований возможно выделение локализаций заболеваний посредством кластеризации при помощи нейронной сети word2vec либо же выделение областей с помощью механизма внимания (attention) (механизмы внимания для применения в медицине активно исследуются не только для текстовых данных [16, 17], но и для изображений [18]). Однако оба этих подхода требуют большие корпуса текстов для своего обучения.

Полученные на данном этапе сведения о локализации использовались для дальнейших экспериментов с классификацией изображений.

3. Сегментация лёгких

Для расчёта текстурных признаков для лёгких и дальнейшего построения классификатора изображений необходимо предварительно выделить на изображениях области интереса (в рамках данного исследования - сегментировать лёгкие). Порядок сегментации абсолютно идентичен и для БГСОМ-файлов, и для изображений в формате *.jpeg.

Изображение х (/'ь /2) можно представить как некоторый набор отсчётов множества Бх с 12 (количе-ствоотсчётов |.Ох|), где 1 - множество целых чисел. Перед основным этапом выделения лёгких на изображении необходима предварительная обработка изображений (стандартизация), которая выполняется с использованием формулы (1) [19]:

/. . ч х (/ь /2 )-Ц

г (/1,/2 )=—---,

ст

где ц - математическое ожидание:

(1)

Ц = Ш ^ Х (/Ь '2),

\Щ (4,/2 Их

ст - стандартное отклонение:

ст2 = т^ТТ £ ((х(/ь'2 )-Ц)2.

\иА - 1 ('1.'2 Их

Данное преобразование необходимо в случае возможных поэлементных искажений, например, таких как засветка снимка.

Над стандартизированными изображениями производилась пороговая обработка [20], при этом порог находился с использованием алгоритма кластеризации к-средних. Все точки стандартизированного изображения разбивались на два кластера (лёгкие и фон), для полученных кластеров рассчитывались центры. Значение порога для обработки изображения рассчитывалось как среднее значение между центрами полученных кластеров.

Полученная таким образом маска затем сглаживалась с использованием методов математической морфологии [21], а именно операций открытия и закрытия с использованием маски Ж. Операция закрытия применяет к изображению сначала дилатацию

У О'ь h ) = (maxw ( + j\, ¡2 + j 2 )): а затем эрозию

У ((1, ¡2 ) = ((1 + j1, ¡2 + j2 ));

(2)

(3)

а операция открытия применяет сначала эрозию (3), а после дилатацию (2).

Конечная маска накладывалась на исходное изображение, в результате чего получалось изображение с лёгкими на чёрном фоне.

Пример лёгких, выделенных с помощью описанного подхода, представлен на рис. 3.

4. Построение классификатора для изображений 4.1. Исходные данные и текстурные признаки

В качестве признаков для классификации изображения были выбраны признаки Харалика, широко используемые в задачах текстурного анализа биомедицинских изображений [22 - 24]. В качестве алгоритма классификации был выбран случайный лес [25], состоящий из 100 решающих деревьев.

Рис.3. Результат, полученный после сегментации лёгких (изображение инвертировано)

Несмотря на то, что эмфизема относится к системным заболеваниям лёгких, признаки заболевания можно обнаружить не на всех срезах КТ, поэтому для обучения случайного леса использовались следующие данные:

- заранее подготовленные снимки с явными признаками заболевания (108 изображений в формате *.jpeg);

- по 2 случайных среза из наборов DICOM-файлов для людей без эмфиземы (всего 110 DICOM-изображений).

Для всех этих изображений производилась сегментация лёгких, после чего с помощью библиотеки mahotas языка Python производился расчёт признаков Харалика. Используемая функция рассчитывает первые 13 текстурных признаков Харалика по четырём направлениям.

Рассчитанные признаки усреднялись по направлениям, поэтому конечный датасет для обучения классификатора содержал 218 записей по 13 признаков, 108 из которых были отмечены как целевой класс (есть заболевание) и 110 - как нецелевой (нет заболевания).

4.2. Классификация изображений по случайным срезам

В рамках эксперимента с классификацией по случайным срезам из каждой тестовой директории брались 11 случайно выбранных срезов, для каждого среза рассчитывались текстурные признаки, после че-

го классификатор на основании этих признаков относил снимок либо к классу 1 (есть заболевание), либо к классу 0 (нет заболевания).

Если 60 % и более выбранных срезов классификатор относил к классу людей с заболеванием, принималось решение о том, что данная директория соответствует исследованию человека с эмфиземой.

Полученные с помощью такой классификации значения метрик представлены в табл. 2.

Табл. 2. Результаты, полученные при классификации изображений с выбором случайных срезов

Точность Полнота И-мера

0 78 % 69 % 73 %

1 50 % 61 % 55 %

Среднее 64 % 65 % 64 %

Взвешенное среднее 68 % 66 % 67 %

4.3. Классификация изображений с учётом локализации патологии

В рамках эксперимента с классификацией с учётом локализации из каждой тестовой директории брались 11 срезов, при этом для здоровых лёгких срезы брались случайным образом, а для больных - с учётом локализации, выявленной на стадии обработки радиологических отчётов. Для каждого среза рассчитывались текстурные признаки, после чего классификатор на основании этих признаков относил снимок либо к классу 1 (есть заболевание), либо к классу 0 (нет заболевания).

Если 60 % и более выбранных срезов классификатор относил к классу людей с заболеванием, принималось решение о том, что данная директория соответствует исследованию человека с эмфиземой.

Полученные с помощью такой классификации значения метрик представлены в табл. 3.

Табл.3. Результаты, полученные при классификации изображений с учётом локализации эмфиземы

Точность Полнота П-мера

0 95 % 69 % 80 %

1 60 % 93 % 73 %

Среднее 78 % 81 % 77 %

Взвешенное среднее 83 % 77 % 78 %

4.4. Сравнение результатов классификации

Полученные в рамках экспериментов значения метрик позволяют заключить, что использование сведений о локализации приводит к улучшению общего качества классификации изображений. Так, полнота классификации для людей с эмфиземой при учёте локализации улучшилась на 11 % (с 0,66 до 0,77).

Поэтому одним из возможных направлений дальнейших исследований будет исследование применения методов обработки естественного языка для автоматизации получения сведений о локализации (качественное

извлечение сведений из радиологических отчётов упростит процесс разметки изображений, но существующие на данный момент алгоритмы работы с радиологическими отчётами далеки от совершенства [26]).

Заключение

В рамках исследования были проведены эксперименты по классификации снимков лёгких на предмет наличия эмфиземы.

Несмотря на то, что эмфизема является системным заболеванием, у неё есть области локализации (области, в которых структура лёгкого изменена наиболее сильно). Учёт локализации заболевания приводит к улучшению точности выявления снимков с болезнью на 11 %.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В ходе описанных экспериментов информация о локализации вычленялась из текстов радиологических отчётов вручную, в дальнейшем планируется автоматизация этого процесса с применением методов обработки естественного языка.

Благодарности

Разработка методов и алгоритмов выполнена при поддержке грантов РФФИ№ 19-29-01235 мк и № 1929-01135 мк, экспериментальные исследования - в рамках госзадания ИСОИ РАН - филиала ФНИЦ «Кристаллография и Фотоника» РАН (соглашение № 007-ГЗ/Ч3 363/26).

Литература

1. Zimmerman, S.L. Informatics in radiology: automated structured reporting of imaging findings using the AIM standard and XML / S.L. Zimmerman, W. Kim, W.W. Boonn // Radiographics. - 2011. - Vol. 31, Issue 3. - P. 881-887.

2. Mendelson, D.S. Imaging informatics: essential tools for the delivery of imaging services / D.S. Mendelson, D.L. Rubin // Academic Radiology. - 2013. - Vol. 20, Issue 10. - P. 1195-1212.

3. Rubin, D.L. Automated tracking of quantitative assessments of tumor burden in clinical trials / D.L. Rubin, D. Willrett, M.J. O'Connor, C. Hage, C. Kurtz, D.A. Moreira // Translational Oncology. - 2014. - Vol. 7, Issue 1. - P. 23-35.

4. Rubin, D.L. Common data elements in radiology / D.L. Rubin, C.E. Kahn Jr. // Radiology. - 2017. - Vol. 283, Issue 3. - P. 837-844.

5. Ganeshan, D. Structured reporting in radiology / D. Ganeshan, P.-A.T. Duong, L. Probyn, L. Lenchik, T.A. McArthur, M. Retrouvey, E.H. Ghobadi, S.L. Desouches, D. Pastel, I.R. Francis // Academic Radiology. - 2018. - Vol. 25, Issue 1. - P. 66-73.

6. Napel, S. Quantitative imaging of cancer in the post-genomic era: Radio(geno)mics, deep learning, and habitats / S. Napel, W. Mu, B.V. Jardim-Perassi, H.J.W.L. Aerts, R.J. Gillies // Cancer. - 2018. - Vol. 124, Issue 24. -P. 4633-4649. - DOI: 10.1002/cncr.31630.

7. Kulkarni, P. A novel architecture and analysis of challenges for combining text and image for medical image retrieval / P. Kulkarni, S. Kulkarni, A. Stranieri // International Journal for Infonomics (IJI). - 2014. - Vol. 7, Issues 1/2. -P. 885-890.

8. Гайдель, А.В. Возможности текстурного анализа компьютерных томограмм в диагностике хронической обструк-тивной болезни I А.В. Гайдель, П.М. Зельтер, А.В. Капишников, А.Г. Храмов II Компьютерная оптика. -2014. - Т. 38, № 4. - С. 843-850. - DOI: 10.18287I0134-2452-2014-38-4-843-850.

9. Пашина, Т.А. Сравнение алгоритмов выделения области интереса на компьютерных томограммах лёгких I Т. А. Пашина, А. В. Гайдель, П. М. Зельтер, А.В. Капишников, А.В. Никоноров II Компьютерная оптика. - 2020. - Т. 44, № 1. - С. 74-81. - DOI: 10.18287I2412-6179-CO-659.

10. Otsu, N. A threshold selection method from gray-level histograms I N. Otsu II IEEE Transactions on Systems, Man, and Cybernetics. - 1979. - Vol. 9. - P. 62-66.

11. Gaidel, A. Method of automatic ROI selection on lung CT images I A. Gaidel II Procedia Engineering. - 2017. - Vol. 201. -P. 258-264. - DOI: 10.1016Ij.proeng.2017.09.612.

12. Aizawa, A. An information-theoretic perspective of tf-idf measures I A. Aizawa II Information Processing and Management. - 2003. - Vol. 39, Issue 1. - P. 45-65.

13. Cramer, J.S. The origins of logistic regression [Electronical Resource] I J.S. Cramer. - Tinbergen Institute Working Paper No. 2002-119I4. - URL: https:IIpapers.ssm.com/sol3I pa-pers.cfm?abstract_id=360300. - DOI: 10.2139Issrn.360300.

14. Quinlan, J.R. Simplifying decision trees I J.R. Quinlan II International Journal of Man-Machine Studies. - 1987. -Vol. 27, Issue 3. - P. 221-234.

15. Van Rijsbergen, C.J. Information retrieval I C.J. Van Rijs-bergen. - 2nd ed. - Butterworth-Heinemann, 1979.

16. Choi, E. RETAIN: Interpretable predictive model in healthcare using reverse time attention mechanism [Electronical Resource] I E. Choi, T. Bahadori, A. Schuetz, W. Stewart, J. Sun. - 2016. - URL: https:IIarxiv.orgIabsI1608.05745.

17. Li, Y. BEHRT: Transformer for electronic health records I Y. Li, S. Rao, J.R.A. Solares [et al.] II Scientific Reports. -2020. - Vol. 10. - 7155.

18. Taylor, D. Co-attentive cross-modal deep learning for medical evidence synthesis and decision making [Electronical Resource] I D. Taylor, S. Spasov, P. Lio. - 2019. - URL: https:IIarxiv.orgIabsI1909.06442.

19. Kreyszig, E. Advanced engineering mathematics I E. Kreyszig, H. Kreyszig, E.J. Norminton. - 10th ed. - New York: John Wiley and Sons, Inc., 2011. - 880 p.

20. Грузман, И. С. Цифровая обработка изображений в информационных системах: Учебное пособие I И.С. Грузман, В.С. Киричук, В.П. Косых. - Новосибирск: Изд-во НГТУ, 2002. - 352 c.

21. Serra, J. Image analysis and mathematical morphology I J. Serra. - Orlando: Academic Press, 1983. - 610 p.

22. Haralick, R.M. Textural features for image classification I R.M. Haralick, K. Shanmugam, I. Dinstein II IEEE Transactions on Systems, Man, and Cybernetics. - 1973. -Vol. SMC-3(6). - P. 610-621.

23. Садыков, C.C. Компьютерная диагностика новообразований на маммографических снимках I С.С. Садыков, Ю.А. Буланова, Е.А. Захарова II Компьютерная оптика. - 2014. - Т. 38, № 1. - С. 131-138. - DOI: 10.18287I0134-2452-2014-38-1-131-138.

24. Глумов, Н.И. Компьютерная обработка сцинтиграфи-ческих изображений легких I Н.И. Глумов, А.В. Капишников II Компьютерная оптика. - 2003. -Т. 25, № 1. - С. 158-164.

25. Breiman, L. Random forests I L. Breiman II Machine Learning. - 2001. - Vol. 45, Issue 1. - P. 5-32

26. Olatunji, T. Caveats in generating medical imaging labels from radiology reports with natural language processing [Электронный ресурс] / T. Olatunji, L. Yao, B. Covington,

A. Rhodes, A. Upton. - 2019. - URL: https://arxiv.org/abs/1905.02283 (дата обращения 27.03.2021).

Сведения об авторах

Слуднова Алена Александровна, 1997 года рождения, студентка Самарского национального исследовательского университета имени академика С.П. Королёва. В 2019 году защитила выпускную квалификационную работу бакалавра по направлению «Прикладные математика и физика». E-mail: alena.sludnova@gmail.com .

Шутько Вадим Валерьевич, 1997 года рождения, студент Самарского национального исследовательского университета имени академика С.П. Королёва. В 2019 году защитил выпускную квалификационную работу бакалавра по направлению «Информатика и вычислительная техника». E-mail: shutkovadim@gmail. com .

Гайдель Андрей Викторович, 1989 года рождения, кандидат технических наук. В 2012 году окончил Самарский государственный аэрокосмический университет имени академика С.П. Королёва по направлению «Прикладная математика и информатика», в 2015 году защитил кандидатскую диссертацию. Работает доцентом кафедры технической кибернетики Самарского университета и научным сотрудником в Институте систем обработки изображений РАН - филиале ФНИЦ «Кристаллография и фотоника» РАН. Область научных интересов: компьютерная обработка изображений, теория распознавания образов, интеллектуальный анализ данных, теория алгоритмов. E-mail: andrey.gaidel@gmail. com .

Зельтер Павел Михайлович, 1986 года рождения, кандидат медицинских наук. В 2010 году с отличием окончил Самарский государственный медицинский университет, в 2012 году - ординатуру по специальности «Рентгенология», в 2016 году защитил кандидатскую диссертацию. Заведует отделением лучевой диагностики клиник СамГМУ. Область научных интересов: компьютерная томография, ХОБЛ, компьютерный анализ медицинских изображений. E-mail: pzelter@mail.ru .

Капишников Александр Викторович, 1955 года рождения, доктор медицинских наук. В 1972 году окончил лечебный факультет Куйбышевского медицинского института по специальности «Терапия», в 1994 году защитил кандидатскую диссертацию, в 2004 году - докторскую диссертацию. Заведует кафедрой лучевой диагностики и лучевой терапии с курсом медицинской информатики СамГМУ Минздрава России. Область научных интересов: лучевая диагностика и ядерная медицина в пульмонологии, остеологии, нефрологии и онкологии, информационные технологии медицинской радиологии, CADe и CADx-системы для компьютерной поддержки диагностики.

Никоноров Артем Владимирович, 1979 года рождения, доктор технических наук. В 2005 году окончил Самарский государственный аэрокосмический университет, в 2016 защитил докторскую диссертацию. Профессор кафедры суперкомпьютеров и общей информатики Самарского университета, заведующий лабораторией интеллектуального анализа видеоданных ИСОИ РАН - филиала ФНИЦ «Кристаллография и фотоника» РАН. Опубликовал более 80 работ, две монографии. Область научных интересов: распознавание образов и анализ изображений, идентификация систем, параллельные и распределённые вычисления, вычисления с использованием графических процессоров. E-mail: artniko@gmail.com .

ГРНТИ: 28.23.15. Распознавание образов. Обработка изображений Поступила в редакцию 5 июля 2020 г. Окончательный вариант - 22 декабря 2020 г.

Identification of pathological changes in the lungs using an analysis of radiological reports and tomographic images

A.A. Sludnova1, V.V. Shutko1, A.V. Gaidel1-2, P.M. Zelter 3, A.V. Kapishnikov 3, A.V. Nikonorov12 1 Samara National Research University, Moskovskoye Shosse 34, 443086, Samara, Russia, 2IPSIRAS - Branch of the FSRC "Crystallography and Photonics" RAS, Molodogvardeyskaya 151, 443001, Samara, Russia, 3 Samara State Medical University, Samara, Russia

Abstract

This article discusses an idea of a joint analysis of medical images and texts aimed at improving the quality of automated diagnosis of emphysema. We compare the quality of image classification with and without taking into account the localization of the pathology mentioned in radiological reports. The study was carried out on sets of real images of computed tomography of the lungs obtained in clinical studies at Samara State Medical University. It was established that the use of information on the localization of pathology contained in radiological reports leads to an increase in the F-score for the detection from 0.55 to 0.73.

Keywords: image processing, tomographic image processing, image analysis, Haralick's features, image classification, radiological report, natural language processing.

Citation: Sludnova AA, Shutko VV, Gaidel AV, Zelter PM, Kapishnikov AV, Nikonorov AV. Identification of pathological changes in the lungs using an analysis of radiological reports and tomographic images. Computer Optics 2021; 45(2): 261-266. DOI: 10.18287/2412-6179-CO-793.

Acknowledgements: The work was partially funded by the Russian Foundation for Basic Research under grants No. 19-29-01235 and 19-29-01135 (theoretical results) and the RF Ministry of Science and Higher Education within the government project of the FSRC "Crystallography and Photonics" RAS No. 007-GZ/Ch3363/26 (numerical calculations).

References

[1] Zimmerman SL, Kim W, Boonn WW. Informatics in radiology: automated structured reporting of imaging findings using the AIM standard and XML. Radiographics 2011; 31(3): 881-887. DOI: 10.1148/rg.313105195.

[2] Mendelson DS, Rubin DL. Imaging informatics: essential tools for the delivery of imaging services. Acad Radiol 2013; 20(10): 1195-1212. DOI: 10.1016/j.acra.2013.07.006.

[3] Rubin DL, Willrett D, O'Connor MJ, Hage C, Kurtz C, Moreira DA. Automated tracking of quantitative assessments of tumor burden in clinical trials. Transl Oncol 2014; 7(1): 23-35. DOI: 10.1593/tlo.13796.

[4] Rubin DL, Kahn CE Jr. Common data elements in radiology. Radiology 2017; 283(3): 837-844. DOI: 10.1148/radiol.2016161553.

[5] Ganeshan D, Duong P-AT, Probyn L, Lenchik L, McAr-thur TA, Retrouvey M, Ghobadi EH, Desouches SL, Pastel D, Francis IR. Structured reporting in radiology. Acad Radiol 2018; 25(1): 66-73.

[6] Napel S, Mu W, Jardim-Perassi BV, Aerts HJWL, Gillies RJ. Quantitative imaging of cancer in the postgenomic era: Radio(geno)mics, deep learning, and habitats. Cancer 2018; 124(24): 4633-4649. DOI: 10.1002/cncr.31630.

[7] Kulkarni P, Kulkarni S, Stranieri A. A novel architecture and analysis of challenges for combining text and image for medical image retrieval. International Journal for Info-nomics (IJI) 2014; 7(1/2): 885-890.

[8] Gaidel AV, Zelter PM, Kapishnikov AV, Khramov AG. Computed tomography texture analysis capabilities in diagnosing a chronic obstructive pulmonary disease. Computer Optics 2014; 38(4): 843-850. DOI: 10.18287/01342452-2014-38-4-843-850.

[9] Pashina TA, Gaidel AV, Zelter PM, Kapishnikov AV, Nikonorov AV. Automatic highlighting of the region of

interest in computed tomography images of the lungs. Computer Optics 2020; 44(1): 74-81. DOI: 10.18287/2412-6179-CO-659.

10] Otsu N. A threshold selection method from gray-level histograms. IEEE Trans Syst Man Cybern Syst 1979; 9: 62-66.

11] Gaidel A. Method of automatic ROI selection on lung CT images. Procedia Eng 2017; 201: 258-264. DOI: 10.1016/j.proeng.2017.09.612.

12] Aizawa A. An information-theoretic perspective of tf-idf measures. Inf Process Manag 2003; 39(1): 45-65.

13] Cramer JS The origins of logistic regression. Tinbergen Institute Working Paper No. 2002-119/4. Source: (https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3603 00). DOI: 10.2139/ssrn.360300.

14] Quinlan JR. Simplifying decision trees. Int J Man Mach Stud 1987; 27(3): 221-234.

15] Van Rijsbergen CJ. Information retrieval. 2nd ed. Butterworth-Heinemann; 1979.

16] Choi E, Bahadori T, Schuetz A, Stewart W, Sun J. RETAIN: Interpretable predictive model in healthcare using reverse time attention mechanism. 2016. Source: (https://arxiv.org/abs/1608.05745).

17] Li Y, Rao S, Solares JRA, et al. BEHRT: Transformer for electronic health records. Sci Rep 2020; 10: 7155.

18] Taylor D, Spasov S, Lio P. Co-attentive cross-modal deep learning for medical evidence synthesis and decision making. 2019. Source: (https://arxiv.org/abs/1909.06442).

19] Kreyszig E, Kreyszig H, Norminton EJ. Advanced Engineering Mathematics. 10th ed. New York: John Wiley and Sons Inc; 2011.

20] Gruzman IS, Kirichuk VS, Skew VP. Digital image processing in information systems [In Russian]. Novosibisrk: Publishing house of NSTU; 2002.

21] Serra J. Image analysis and mathematical morphology. Orlando: Academic Press; 1983.

[22] Haralick RM, Shanmugam K, Dinstein I. Textural features for image classification. IEEE Trans Syst Man Cybern Syst 1973; SMC-3(6): 610-621.

[23] Sadykov SS, Bulanova YuA, Zakharova EA. Computer diagnosis of tumors in mammograms. Computer Optics 2014; 38(1): 131-138. DOI: 10.18287/0134-2452-2014-381-131-138.

[24] Glumov NI, Kapishnikov AV. Computer processing of lung scintigraphic images [In Russian]. Computer Optics 2003; 25(1): 158-164.

[25] Breiman L. Random forests. Mach Learn 2001; 45(1): 5-32.

[26] Olatunji T, Yao L, Covington B, Rhodes A, Upton A. Caveats in generating medical imaging labels from radiology reports with natural language processing. 2019. Source: https://arxiv.org/abs/! 905.02283.

Authors' information

Alena Alexandrovna Sludnova (b. 1997) is a student of Samara National Research University, majoring in Applied Mathematics and Informatics. In 2019, she defended the final qualifying work of the bachelor degree in the direction of "Applied Physics and Mathematics". E-mail: alena.sludnova@smail.com .

Vadim Valerievich Shutko (b. 1997) is a student of Samara National Research University, majoring in Applied Mathematics and Informatics. In 2019, he defended the final qualifying work of the bachelor degree in the direction of "Computer Engineering". E-mail: shutkovadim@gmail.com .

Andrey Viktorovich Gaidel (b. 1989) graduated from Samara State Aerospace University in 2012, majoring in Applied Mathematics and Informatics. He received his Candidate of Science degree in Physics and Math in 2015 from the SSAU. Currently he is a teaching assistant of the Technical Cybernetics sub-department and Engineer at SSAU's laboratory SRL-35 of Samara State Aerospace University, also working as an intern researcher of the Image Processing Systems Institute of the Russian Academy of Sciences - Branch of the FSRC "Crystallography and Photonics" RAS, Samara, Russia. His research interests currently focus on computer image processing, pattern recognition, data mining and theory of computation. E-mail: andrey.saidel@smail.com .

Pavel Mikhailovich Zelter (b. 1986) graduated with honors from Samara State Medical University in 2010, residency in Radiology in 2012. Received his Candidate of Science degree in Medicine in 2016. Head of Radiology department of the Clinic of the Samara State Medical University. Research interests are currently focused on computered tomography, COPD, digital analysis of medical images. E-mail: pzelter@mail.ru .

Aleksandr Viktorovich Kapishnikov (b.1955). In 1972 he graduated from Medical faculty of Kuibyshev Medical Institute. Doctor of Science in Medicine (2004). Head of Radiology and Radiation Therapy department of Samara State Medical University. Research interests: diagnostic radiology and nuclear medicine in pulmonology, osteology, nephrology and oncology, information technology in medical imaging, computer-based diagnostic support system (CADe and CADx).

Artem Vladimirovich Nikonorov (b.1979). He graduated from SSAU in 2002. He received his PhD degree in 2016. Now he works as a professor at Supercomputing and Computer Science sub-department of Samara University and as a head of laboratory of video mining in IPSI RAS. He has more than 70 publications, two monographs. Field of scientific interest: pattern recognition and image analysis, system identification, parallel and distributed programming, GPGPU programming. E-mail: artniko@gmail.com .

Received July 5, 2020. The final version - December 22, 2020.

i Надоели баннеры? Вы всегда можете отключить рекламу.