Научная статья на тему 'Оценка энтропии фрагментов рентгеновских изображений легких'

Оценка энтропии фрагментов рентгеновских изображений легких Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
236
40
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭНТРОПИЯ ИЗОБРАЖЕНИЯ / ФРАГМЕНТЫ / ГЛУБОКАЯ СВЕРТОЧНАЯ НЕЙРОСЕТЬ / МАШИННОЕ ОБУЧЕНИЕ / РЕНТГЕНОВСКИЕ СНИМКИ / ВЫЧИСЛИТЕЛЬНЫЙ ЭКСПЕРИМЕНТ / МАТРИЦЫ ЭЛЕМЕНТОВ / ПРЕДОБРАБОТКА ИЗОБРАЖЕНИЯ / СТАТИСТИЧЕСКИЙ АНАЛИЗ / БИНАРНАЯ КЛАССИФИКАЦИЯ / IMAGE ENTROPY / FRAGMENTS / DEEP CONVOLUTIONAL NEURAL NETWORK / MACHINE LEARNING / X-RAYS IMAGES / COMPUTATIONAL EXPERIMENT / MATRIX OF ELEMENTS / IMAGE PREPROCESSING / STATISTICAL ANALYSIS / BINARY CLASSIFICATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Румянцев А.А., Бикмуратов Ф.М., Пашин Н.П., Голованов Р.А.

Предмет исследования медицинские флюорографические рентгеновские снимки грудной клетки. Обученная глубокая сверточная нейросеть осуществляет бинарную классификацию снимков и может быть использована в качестве помощника врача-рентгенолога. Для этого необходимо минимизировать ошибки первого и второго рода. Возможный подход к повышению эффективности применения нейросетей, по критериям уменьшение вычислительной сложности и качество классификации снимков применение вспомогательных подходов: предобработка изображений и предварительное вычисление энтропии фрагментов. В статье представлен алгоритм предобработки рентгеновского изображения, его деления на фрагменты и вычисления энтропии отдельных фрагментов. В ходе предобработки из всего снимка выделяется интересующая область с легкими и позвоночником, составляющая около 30-40% всего снимка, далее происходит деление снимка на матрицу фрагментов и вычисляется энтропия по формуле Шеннона, за счет анализа отдельных пикселей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Evaluation of the entropy of fragments of X-ray images of the lungs

The emergence of digital X-ray machines and the development of cloud storage technology has led to the accumulation of a huge number of medical X-rays, in particular, chest x-rays fluorography. The accumulated image bases after high-quality preprocessing can be used to train the deep convolutional neural networks that have received the most development in recent years, the trained network performs preliminary binary classification of the incoming flow of images and can be used as a radiologist assistant. For this purpose, it is necessary to adequately train the neural net-work to minimize errors of the first and second kind. A possible approach to improving the efficiency of neural networks, reducing the computational complexity and quality of image classification by the criteria is the use of auxiliary approaches of image preprocessing and preliminary entropy calculation. The article presents an algorithm for the X-ray image preprocessing, its division into fragments and the calculation of the entropy of individual fragments. During the preprocessing, the region of interest with lungs and the spine is selected from the entire image, constituting about 30-40% of the entire image, then the image is divided into a fragment matrix and the entropy of individual fragments is calculated using the Shannon formula, by analyzing individual pixels. By determining the frequency of each of the 255 colors, the total entropy is calculated. The use of entropy for detecting pathologies is based on the assumption of differences in its values for individual fragments and the overall picture of its distribution between images with the norm and pathologies. Statistical indicators are analyzed: standard deviation of error, variance.

Текст научной работы на тему «Оценка энтропии фрагментов рентгеновских изображений легких»

Оценка энтропии фрагментов рентгеновских изображений легких

А.А. Румянцев, Ф.М. Бикмуратов, Н.П. Пашин, Р.А. Голованов

Казанский национальный исследовательский технический университет имени А. Н.

Туполева - КАИ, Казань

Аннотация: Предмет исследования - медицинские флюорографические рентгеновские снимки грудной клетки. Обученная глубокая сверточная нейросеть осуществляет бинарную классификацию снимков и может быть использована в качестве помощника врача-рентгенолога. Для этого необходимо минимизировать ошибки первого и второго рода. Возможный подход к повышению эффективности применения нейросетей, по критериям уменьшение вычислительной сложности и качество классификации снимков -применение вспомогательных подходов: предобработка изображений и предварительное вычисление энтропии фрагментов. В статье представлен алгоритм предобработки рентгеновского изображения, его деления на фрагменты и вычисления энтропии отдельных фрагментов. В ходе предобработки из всего снимка выделяется интересующая область с легкими и позвоночником, составляющая около 30-40% всего снимка, далее происходит деление снимка на матрицу фрагментов и вычисляется энтропия по формуле Шеннона, за счет анализа отдельных пикселей.

Ключевые слова: энтропия изображения, фрагменты, глубокая сверточная нейросеть, машинное обучение, рентгеновские снимки, вычислительный эксперимент, матрицы элементов, предобработка изображения, статистический анализ, бинарная классификация

Введение

В настоящее время одним из основных источников диагностической информации в медицине являются рентгеновские изображения. Для осуществления быстрой и качественной автоматизированной обработки снимков, может быть использована обученная глубокая сверточная нейронная сеть, которая анализирует рентгеновские изображения и определяет вероятность наличия заболевания - патологии у пациента, осуществляя бинарную классификацию. Перспективность такого подхода была показана в работе [1]. Повышение эффективности применения рассматриваемого класса нейросетей, по критерию уменьшения вычислительной сложности, может быть достигнуто за счет применения вспомогательных подходов предобработки изображений и предварительного вычисления энтропии его фрагментов. Это востребовано по причине сложности задачи классификации изображений и высоких требований к

уровню доверия нейросети. Альтернативой такому подходу может выступать идея использования параллельных СУБД в процессе обучения нейросети [25]. Информационная энтропия - мера неопределенности, определяемая Клодом Шенноном для дискретных событий как сумма с противоположным знаком всех относительных частот появления состояния, умноженных на их же двоичные логарифмы [6]. Поскольку рентгеновские изображения представляют собой набор некоторой закодированной информации, то для них также возможен расчет энтропии. Определяя частоту появления каждого из 255 цветов, вычисляется суммарная энтропия. Данный метод применим как к целым изображениями, так и фрагментам заданного размера.

Использование энтропии для обнаружения патологий основано на предположении о различиях энтропии отдельных фрагментов и общей картины ее распределения между снимками с нормой и патологиями. Статистический анализ распределения энтропии на выборках изображений позволяет оценить перспективность данного подхода, а применение нейронных сетей реализовать самостоятельный подход к классификации изображений или повысить эффективность других подходов при помощи локализации аномальных фрагментов.

Для решения задачи расчета, анализа и оценки энтропии реализован набор скриптов обработки снимков, была разработана нейросеть, проведено ее обучение на имеющемся наборе рентгеновских снимков. В статье представлены: описание процесса расчета энтропии и предобработки снимков, используемой базы изображений, статистический анализ и оценка энтропии фрагментов изображений, результаты вычислительных экспериментов по применению полносвязной нейронной сети для задачи бинарной классификации исходных рентгеновских снимков для выделения патологий, оценка эффективности данного подхода по критерию безошибочной классификации снимков.

Выделение легких на изображениях

В рамках рассматриваемой задачи мы имеем дело с рентгеновскими черно-белыми изображениями легких в специальном формате медицинских снимков Б1СОМ. База флюорографических снимков представляет собой статистический набор из 10000/10000 рентгеновских изображений с различной категорией принадлежности: норма, патология. Основную часть снимка занимают легкие и позвоночник, составляющие около 30-40% всего снимка. Поэтому важной задачей при работе с энтропией является предварительное отсечение лишних фрагментов изображения, не содержащих полезной информации - область тела человека, имеющая характерный цвет. Более подробно существующие методы и используемый алгоритм фрагментного выделения легких описаны в работе [7].

Рис. 1. - Примеры снимков: исходный, с выделенным позвоночником,

итоговый обработанный

На выходе после обработки данным алгоритмом на основе вспомогательной нейросети формируется частично зафрагментированное черным цветом изображение, содержащее только практически полезную для выявления патологий информацию.

Алгоритм расчета и применения энтропии

Для решения задачи была разработана программная система на языке С# с использованием библиотеки БАКЫ, представляющая собой модуль расчета

энтропии по формуле Шеннона для заданного размера фрагментов изображения, модуль полносвязной нейронной сети, а также обучающий модуль на языке С++.

В рамках принятого подхода исходное изображение разделяется на фрагменты, формируя матрицы элементов 4x4, 8x8 и 16x16. Расчет элементов матрицы осуществляется проходом по всем пикселям изображения в ширину и высоту с приращением исходно нулевых элементов частоты распределения цветов для каждого соответствующего фрагмента в матрице энтропии. Затем массивы распределения цветов нормализуются и по формуле Шеннона вычисляется энтропия в каждом из фрагментов. В дальнейшем алгоритм при необходимости повторяется, если требуется более детальное изучение отдельных фрагментов. Альтернативой рассмотренного подхода может служить использование параллельных алгоритмов обработки данных.

Результаты расчета энтропии подаются на вход полносвязной нейросети с указанием категории, происходит обучение каскадным алгоритмом [8] и оценка эффективности на тестовой выборке из 1000/1000 снимков.

Статистический анализ энтропии

Для оценки перспективности применения энтропии в задаче медицинской диагностики необходимо произвести первичную оценку результатов расчета энтропии. С целью удобства интерпретации используется фрагментация 4x4 на выборке из 100 равномерно отобранных изображений, с детальным исследованием наиболее интересных фрагментов при 8x8. Диаграммы рядов энтропии для большинства фрагментов не выявили статистически значимой разницы между нормой и патологией (рис. 2). Однако фрагменты, расположенные в нижней части легких слева и справа от позвоночника (центральные нижние фрагменты) показали заметную разницу в распределении энтропии (рис. 3).

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 100 фрагменте (норма) .........Фрагмент 10 (норма) Фрагменте (патология) -Фрагмент 10 (патология)

Рис.2. - Энтропия центральных верхних фрагментов

При сравнении с линиями (зеленая, голубая) на рисунке 3

минимальных пиковых значений снимков с нормой и рядом снимков с

патологиями, имеющими меньшую энтропию заметна разница в распределении энтропии.

4,3 I .................. . I ................... ■ ...........*........ I .......................................

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 100

......... Фрагмент 11 {норма) .........Фрагмент7 (норма) -Фрагмент 11 (патология) -Фрагмент7 (патология)

Рис. 3. - Энтропия центральных нижних фрагментов

Детальное исследование энтропии аномальных фрагментов показало более сложную картину для визуальной фрагментарной интерпретации с меньшими, но заметными отклонениями у центральных фрагментов вдоль позвоночника. Анализ статистических показателей (рис 4, 5) показал рост

стандартного отклонения ошибки и дисперсии от верхних к нижним фрагментам, а также преобладающее превосходство данных показателей у снимков с патологией.

1 I 3 * 5 В 7 0 5 10 II Т2 15 14 та 1» • • Стандартная ошибка {норма) •« Стандартное отклонение ЦюрмЩ Диспермя выборки (норма) " Стандартная ошиб*а (патология) — Стандэртноеоткломеиис(пагологнн) ™ Дисперсия выборки {патологии)

Рис. 4. - Статистические характеристики фрагментов (1000/1000 4x4)

Таким образом, можно сделать вывод, что определенные закономерности в распределении энтропии и ее статистических характеристик на различных фрагментах флюорографического снимка имеются и могут быть использованы для более комплексного анализа всей картины распределения на снимке.

II Л Я » )7 1! 1}

• • Стандартная ошибка {мормл) • • Стандарпгао отклонении (норма) •• Дисперсии выборки (норма) — гандартиая ошибки (гатологи») - Стандартно* отилг-'-рыч; нтшопиия) — Дисжоси» выбор«' Патология:

Рис. 5. - Статистические характеристики центральных фрагментов

(1000/1000 8x8)

Анализ нейронными сетями

Учет распределения энтропии между отдельными фрагментами изображения может позволить обнаруживать закономерности, полезные при

выявлении патологий [9]. В рамках данной работы исследована эффективность полносвязной нейронной сети в задаче бинарной классификации исходных рентгеновских изображений [10]. Структура нейросети представляет собой входные элементы (16, 64, 256) для анализа матрицы фрагментов соответствующего размера, 1 выход и каскадно формируемую алгоритмом обучения внутреннюю структуру. Сеть каскадной корреляции Фальмана - многослойная конструкция с подбором структуры параллельно при обучении, добавлением одного скрытого нейрона на каждом шаге [11]. Обучающая база представляет собой 10000/10000 снимков, преобразованных в матрицы энтропии. Среднеквадратичная ошибка в ходе обучения составила 0.001.

Полученные результаты представлены в таблице 1. Средняя эффективность классификации по каждой категории возрастает с увеличением степени фрагментации изображения и достигает уровня 67.2%, что говорит о существовании определенных закономерностей в распределении энтропии на флюорографическом снимке.

Таблица №1

Эффективность применения нейросети

Степень фрагментации Уровень корректной классификации Количество эпох обучения(прирост 300 нейронов за эпоху)

4x4 60.4% 220

8x8 64.4% 137

16x16 67.2% 118

Структура нейросети с увеличением детализации уменьшается, что означает наличие более явных признаков при меньших фрагментах для классификации. Таким образом, распределение энтропии на рентгеновском изображении легких действительно содержит информацию, применимую при

классификации в задаче медицинской диагностики и может использоваться как вспомогательный подход, например, в задаче локализации патологии, что является предметом дальнейших исследований.

Заключение

Проведенное статистическое и экспериментальное исследование энтропии изображения при различной детализации фрагментов показывает возможность применения данной характеристики для классификации патологий на рентгеновских снимках, открывает перспективы для оценки энтропии сверточными нейронными сетями, а также использования данного подхода в качестве средства локализации аномальных фрагментов изображения для детализации анализа в сочетании с другими методами бинарной классификации.

Литература

1. Румянцев А.А., Минязев Р.Ш., Дыганов С.А., Голованов Р.А., Перухин М.Ю. Оценка влияния размера архитектуры нейросети на скорость обучения в задаче бинарной классификации // Вестник Казан. технол. ун-та. - 2018. -Т.21, №8. - С.124-127.

2. Минязев Р.Ш., Дыганов С.А., Гумеров И.Р., Перухин М.Ю. Разработка сервиса для идентификации полей сканированного документа с использованием библиотеки машинного распознавания Tesseract-OCR // Вестник Казан. технол. ун-та. - 2018. - Т.21, №9. - С.132-136.

3. Семенистая Е.С., Максимов А.В. О подходе к построению модели дистальных сосудов пригодной для оценки артериального давления // Инженерный вестник Дона, 2012, №4. URL: ivdon.ru/magazine/archive/n3y2009/143.

4. Ганиев Т.И., Гибадуллин Р.Ф. Применение латентно-семантического анализа и машинного обучения для определения местоположения

пользователя социальной сети // В сборнике: Цифровая культура открытых городов материалы Международной научно-практической конференции студентов, аспирантов и молодых ученых.. - 2018. - С.134-137.

5. Райхлин В.А., Вершинин И.С., Гибадуллин Р.Ф. Элементы содержательной теории ассоциативной стеганографии // Вестник Московского университета. Серия 15: Вычислительная математика и кибернетика. - 2019. - № 1. С.41-47.

6. Шеннон К. Работы по теории информации и кибернетике. - М.: Изд-во иностранной литературы, 1963. - 830 с.

7. Захаров Р.В. Машинное обучение в медицине. Автоматическое распознавание легких на флюорографических снимках. МатМех СПбГУ, 2016.

8. Романов Д.Е. Нейронные сети обратного распространения ошибки // Инженерный вестник Дона, 2009, №3. URL: ivdon.ru/magazine/archive/n3y2009/143.

9. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp.770-778.

10. Minyazev R. Sh., Rumyantsev A. A., Dyganova S. A., and Baev A. A. X-Ray Image Analysis for the Neural Network-Based Detection of Pathology // Bulletin of the Russian Academy of Sciences: Physics, Vol. 82, № 12, 2018. pp. 1685-1688.

11. Осовский С. Нейронные сети для обработки информации / Пер. с польского Рудинского И. Д. - М.: Финансы и статистика, 2002. - 344 с.

References

1. Rumyancev A.A., Minyazev R.Sh., Dyganov S.A., Golovanov R.A., Peruxin M.Yu. Vestnik Kazan. texnol. un-ta. 2018. T.21, №8. pp.124-127.

2. Minyazev R.Sh., Dyganov S.A., Gumerov I.R., Peruxin M.Yu. Vestnik Kazan. texnol. un-ta. 2018. T.21, №9. pp.132-136.

3. Semenistaya E.S., Maksimov A.V. Inzhenernyj vestnik Dona, 2012, №4. URL: ivdon.ru/magazine/archive/n3y2009/143.

4. Ganiev T.I., Gibadullin R.F. V sbornike: Cifrovaya kul'tura otkry'ty'x gorodov materialy' Mezhdunarodnoj nauchno-prakticheskoj konferencii studentov, aspirantov i molody'x ucheny'x. 2018. pp.134-137.

5. Rajxlin V.A., Vershinin I.S., Gibadullin R.F. Vestnik Moskovskogo universiteta. Seriya 15: Vy'chislitel'naya matematika i kibernetika. 2019. № 1. pp.41-47.

6. Shennon K. Raboty' po teorii informacii i kibernetike [Works on information theory and cybernetics]. M.: Izd-vo inostrannoj literatury', 1963. 830 p.

7. R.V. Zaxarov. Mashinnoe obuchenie v medicine. Avtomaticheskoe raspoznavanie legkix na flyuorograficheskix snimkax [Machine learning in medicine. Automatic lung recognition in fluorographic images]. MatMex SPbGU, 2016.

8. Romanov D.E. Inzhenernyj vestnik Dona, 2009, №3. URL: ivdon.ru/magazine/archive/n3y2009/143.

9. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770778.

10. Minyazev R. Sh., Rumyantsev A. A., Dyganova S. A., and Baev A. A. Bulletin of the Russian Academy of Sciences: Physics, Vol. 82, № 12, 2018. pp. 1685-1688.

11. Osovskij S. Nejronny'e seti dlya obrabotki informacii [Neural networks for information processing]. Per. s pol'skogo Rudinskogo I. D. M.: Finansy' i statistika, 2002. 344 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.