Вестник КРАУНЦ. Физ.-мат. науки. 2020. Т. 31. № 2. C. 117-128. ISSN 2079-6641
ИНФОРМАЦИОННЫЕ И ВЫЧИСЛИТЕЛЬНЫЕ ТЕХНОЛОГИИ УДК 519.88 Научная статья
Свёрточные сети для сегментации изображений крупных вен
А. А. Егоров1'2, С. А. Лысенкова1, К. В. Мазайшвили1
1 Бюджетное учреждение высшего образования Ханты-Мансийского автономного округа - Югры Сургутский государственный университет, 628412, г. Сургут, пр. Ленина, д. 1
2 Сургутский филиал Федеральное государственное учреждение Федеральный научный центр Научно-исследовательский институт системных исследований Российской академии наук, 628426, г. Сургут, ул. Базовая, д. 34.
E-mail: [email protected], [email protected], [email protected]
В статье представлены результаты работы по сегментации изображений отдельных снимков магнитно-резонансной томографии забрюшинного пространства. Рассматриваются вопросы обнаружения и сегментации объектов магистральных вен забрюшинного пространства на основе свёрточной архитектуры нейронной сети для семантической пиксельной сегментации. Предлагается автоматический, точный и надежный метод с использованием свёрточной нейронной сети U-Net для извлечения сосудов вен из МРТ изображений. Глубокое обучение сети с большим рецептивным полем U-Net позволяет достичь значительных результатов даже при наличие не качественных исходных данных, на малых обучающих выборках. Стратегия расширения данных представляется эффективным способом уменьшения степени переобучения в распознавании медицинских образов — вен.
Ключевые слова: свёрточная архитектура, нейронные сети, сегментация изображений, медицинские данные.
DOI: 10.26117/2079-6641-2020-31-2-117-128
Поступила в редакцию: 15.04.2020 В окончательном варианте: 14.05.2020
Для цитирования. Егоров А. А., Лысенкова С. А., Мазайшвили К. В. Свёрточные сети для сегментации изображений крупных вен // Вестник КРАУНЦ. Физ.-мат. науки. 2020. Т. 31. № 2. C. 117-128. DOI: 10.26117/2079-6641-2020-31-2-117-128
Контент публикуется на условиях лицензии Creative Commons Attribution 4.0 International (https://creativecommons.Org/licenses/by/4.0/deed.ru)
© Егоров А. А., Лысенкова С. А., Мазайшвили К. В., 2020
Введение
Магнитно-резонансная томография получает все больше распространение в виду совершенствования удешевления технологии. В тоже самое время на практике результаты МРТ в данный момент времени анализируются только специалистами в
Финансирование. Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта №18-47-860005 р_а.
области медицины. Распознавание магистральных вен забрюшинного пространства на снимках компьютерной или магнитно-резонансной томографии усложняется рядом факторов. Нарушение венозного оттока из нижних конечностей, в большинстве своем, протекающее в форме хронической венозной недостаточности — самая часто встречающаяся патология сосудов у человека. Особенно тяжело протекает данное заболевание после перенесенного ранее тромбоза магистральных вен забрюшинного пространства — нижней полой и подвздошных вен [1].
Необходимо подчеркнуть, что отсутствие адекватного понимания механизмов оттока крови венозной крови из нижних конечностей порождает отсутствие сколь либо надежных методов лечения таких больных. Попытки хирургической коррекции переоцененных стенозов в венах носят и будут продолжать носить эмпирический (и хаотический) характер до тех пор, пока не появится более-менее надежная модель венозного оттока, обладающая предсказательной силой.
Правильные хирургические подходы возможны только при полноценной диагностике, основанной на качественной визуализации сосудов. Существующий "золотой стандарт" ультразвуковое дуплексное сканирование вен в анатомических сегментах выше паховой складки неинформативно, а рентген-контрастная флебография требует введения контрастного препарата, облучения пациента рентгеновским изучением, госпитализации в стационар и соответствующей предварительной подготовки. Вследствие этого, основной массив пациентов, проходящих лечение амбулаторно, просто не обследуется.
Ситуация стала меняться в лучшую сторону после внедрения в клиническую практику магнитно-резонансной томографии (МРТ). Метод прост, не требует госпитализации в стационар и введения каких-либо препаратов. Однако, на пути его распространения имеется ряд преград. Прежде всего это - отсутствие анатомических критериев нормы и патологии магистральных вен забрюшинного пространства. Современные магнитно-резонансные томографы обладают достаточным качеством визуализации вен. Однако, интерпретация полученных данных остается за человеком, индивидуальный опыт и знания которого не всегда может оказаться достаточным. Таким образом, возникает необходимость создания интеллектуальных диагностических систем, которые умели бы выделять вены на срезах магнитно-резонансных томограмм. Для этого можно использовать следующие критерии: анатомические (место расположение вен), критерии магнитной плотности среды, позволяющей отделить движущуюся кровь от расположенных рядом тканей.
В значительной мере усложняет задачу интерпретации результатов МРТ эластичность венозной стенки и обусловленная этим непрерывная деформация вен во время дыхания, а также при изменении положения тела в пространстве. За последнее время глубокие свёрточные сети достигли значимых результатов во многих задачах визуального распознавания [2]. Не смотря, на то, что математический аппарат свёрточных сетей существует уже долгое время, ряд ограничений не позволял использовать на полную мощность. К таким ограничениям принято относить ограничения вычислительных возможностей и малых размеров доступных обучающих наборов.
Семантическая сегментация имеет широкий спектр применений, начиная от понимания сути изображения, выводя отношения поддержки между объектами до автономного вождения транспортных средств. В частности, в последнее время глубокое обучение достигло огромных успехов в распознавании рукописных цифр, речи, категоризации целых изображений и обнаружении объектов на изображениях.
Обычно медицинские задачи сводятся к классификации наборов данных состоящих из количественных и качественных параметров. Сегодня не редкостью становятся медицинские наборы данных, содержащие графические данные в контексте поиска геометрической и пространственной смысловой информации.
Использование свёрточных сетей не ограничивается задачей классификации, где вывод на изображение представляет собой метку одного класса. В визуальных задачах, особенно при обработке медицинских изображений, желаемый результат должен включать локализацию, т.е. пространственную информацию об исследуемом объекте. Метка класса объекта на изображении, должна назначаться каждому отдельному пикселю (рис. 1). Еще более интересной представляется задача семантической пиксельной маркировки, позволяющей не только обозначить присутствие объекта на изображении и определить его пространственное расположение, но и идентифицировать попиксельно каждый отдельный класс.
Рис. 1. Оригинальное изображение (слева) и пиксельная маска(справа)
Спецификой медицинских областей исследования является малое количество образов содержащих значимую информацию для идентификации класса изображений, содержащих какую-либо патологию или отклонение. Глубокое обучение может самостоятельно находить информативные признаки в обучающих данных, без конструирования признаков вручную, но это выполнимо только при наличии больших объемах обучающей выборки [3]. Увеличение объема рецептивного поля, как в случае с изображениями, также приводит к росту требуемых данных для обучения. Невозможно обучить свёрточную нейронную сеть для решения задач на нескольких экземплярах изображений. Но в случае если решаемая задача "проста", то при решении задачи можно обойтись сотней или тысячей образцов. Это связано, с тем, что свёрточной сети интересно не изображение целиком, а лишь некоторые локальные признаки, которые являются инвариантными по отношению к переносимым. В это же время они очень эффективны при решении проблем распознавания.
Архитектура сети
В рамках данного исследования была осуществлена реализации архитектуры свёрточной сети U-net на основе открытой нейросетевой библиотеки Архи-
тектура U-net, состоит из сжимающейся части кодера для анализа всего изображения и последовательной расширяющейся части декодера для получения сегментации с полным разрешением [4]. Архитектура U-net является 2D-архитектурой и в рамках данной реализации все входные тензоры являются двумерными изображениями. Двумерные изображения срезов магнитно-резонансной томографии поступают в качестве входных данных и обрабатываются с помощью соответствующих двумерных операций, в частности, двумерного максимального объединения MaxPooling2D и двумерных свёрточных слоев Conv2D (с функцией активации RectifiedLineaгUnit). Рисунок иллюстрирует реализованную архитектуру U-net. Все прямоугольники на рисунке представляют собой трехмерные карты (высота, ширина, глубина). Стрелки обозначают операции преобразования над картами свойств.
Рис. 2. Архитектура U-net (входное изображение 128х128 пикселей)
Входом в сеть является изображение с разрешением 256x256 с 3 цветовыми каналами. Сжимающая часть кодера похожа на типичную свёрточную сеть и содержит подряд идущие свёрточные слои. На изображение, проходящее по сжимающейся части кодера, многократно накладывается пара свёрток с размером ядра 3х3. Параметр свертки отступ (padding) не применяется. Шаг свертки (stride) равен единице. За каждой свёрткой следует линейное выпрямление (ReLU). По результатам двух сверток изображение проходит через операцию MaxPooling2D (пулинг) с размером ядра 2x2 и с шагом 2 для понижающей дискретизации. Операция выбора максимального значения позволяет уменьшить выходное разрешение карты признаков. При этом на каждом шаге понижающей дискретизации удваивается количество функциональных каналов. Пакетная нормализация используется после каждого свёрточного уровня как в сети кодера, так и в сети декодера и позволяет повысить скорость обучения сети.
Каждый шаг расширяющей части кодера содержит слой, обратный пулингу, который расширяет карту признаков. Слой деконволюции состоит из пары свёрток с размером ядра 3х3. Параметр свертки отступ (padding) также не применяется. Шаг свертки (stride) равен единице. За каждой свёрткой следует линейное выпрямление (ReLU). Всего в архитектуре 125545217 параметров. Для повышения производительности сети была использована пакетная нормализация.
Так как передача в нейронную сеть значений цветовых каналов, находящихся в диапазоне от 0 до 255 негативно отразится на процессе обучения. Сеть, сможет автоматически адаптироваться к таким разнородным данным, однако это усложнит обучение. В данной реализации архитектуры U-net была применена нормализация. Все входные изображения были преобразованы в двумерные тензоры по следующему алгоритму. Из каждого значения вычиталось среднее по этому признаку, и разность делилась на стандартное отклонение. В результате каждый признак центрируется по нулевому значению и имеет стандартное отклонение, равное единице.
Увеличение данных
Увеличение данных необходимо для обучения сети желаемым свойствам инвариантности и устойчивости, когда доступно только несколько обучающих выборок. Причиной переобучения является недостаточное количество образцов для обучения модели, способной обобщать новые данные. На рис. 3 приведен пример с переобученной сетьюна 60 эпохах для объема выборки 51. Коэффициент игральной кости ^^)один из наиболее часто применимых метрик оценки результатов сегментации свёрточных нейронных сетей [5].
О 10 20 30 40 SO 60
Эпохи
Рис. 3. Пример обучения сети с переобучением
Модель, показывает хорошие результаты на обучающих данных, но значительно хуже ведет себя на тестовой выборке. В данном случае наблюдается переобучение. В процессе обучения произошла чрезмерная оптимизация на обучающих данных, и в результате получилось представление, характерное для обучающих данных, не обобщающее данные за пределами обучающего набора. Имея бесконечный объем данных МРТ снимков, можно было бы получить модель, учитывающую все аспекты распределения данных, исключив возможность появления эффекта переобучения. Прием расширения данных реализует подход создания дополнительных обучающих
данных МРТ из имеющихся путем трансформации образцов множеством случайных преобразований, дающих правдоподобные изображения. Цель состоит в том, чтобы на этапе обучения модель никогда не увидела одно и то же изображение дважды. Это позволяет модели выявить больше особенностей данных и достичь лучшей степени обобщения.
Во многих медицинских задачах для обучения сети, которая достаточно хорошо обобщает, требуется всего несколько изображений. Это потому, что каждое изображение уже содержит повторяющиеся структуры с соответствующим изменением. Увеличение данных достигается инвариантностью сдвига и вращения, а также устойчивостью к деформациям и изменениям значения цвета изображения. Особенно случайные упругие деформации обучающих образцов, по-видимому, являются ключевым понятием для обучения сети сегментации с очень небольшим количеством аннотированных изображений [6]. Формирование новых данных осуществлялось на основе следующих вариантов расширения данных:
• shear_range=0.5 (случайного применения сдвигового преобразования);
• rotation_range=50 (диапазон, в котором будет осуществляться случайный поворот изображения);
• zoom_range=0.2 (диапазон случайного изменения масштаба внутри изображений);
• width_shift_range=0.2 (диапазоны изменяемые в долях ширины);
• height_shift_range=0.2 (диапазоны изменяемые в долях высоты).
Параметры обучения
Входные изображения и соответствующие им карты сегментации подавались на вход нейронной сети, реализованной в Keras. Расширение данных выполнялось на лету, что позволило обеспечить разные изображения для каждой итерации. Было проведено 100 обучающих итераций на графическом процессоре NVIDIA GTX Titan, что заняло 80 часов.
Так как задача сводится к задаче бинарной классификации, то в качестве функции потерь была выбрана функция бинарной кроссэнтропии. Энергетическая функция вычисляется попиксельно активацией soft-max по окончательной карте характеристик в сочетании с функцией потери бинарной кроссэнтропии.
Конфигурация оптимизации строилась на основе алгоритма Адама, которая является расширением стохастического градиентного спуска. Алгоритм Адама хорошо зарекомендовал себя в области глубокого обучения, потому что способен быстро достичь хороших результатов обучения [7].
В результате обучения нейронной сети, была настроена сеть способная сегментировать изображения вен подвздошной области. На рисунке 4 представлены результаты сегментации изображений вен на тестовой выборке данных.
На рисунке выше представлены результаты успешной сегментации пикселей с большим количеством совпадений между маской и классифицированным изображением вен, в том числе и нескольких вен на изображении. Обученная модель не всегда способна верно и в полной мере классифицировать пиксели вены в соответствие с заданной маской.
Исходное изображение
лл шт
Предсказанн
Рис. 4. Результаты классификации свёрточной сетью: оригинальное изображение (слева),
предсказанное изображение вены (в центре), исходная маска (справа)
Так, например, на рис. 5 приведены менее качественные результаты предсказания
вен:
На верхнем предсказанном изображение сеть верно определила месторасположение и количество вен на срезе МРТ снимка, но при этом площадь предсказанной вены значительно меньше площади маски вены.
На среднем исходном изображении вены присутствует две области вены, однако сеть смогла верно сегментировать только одну из двух вен.
На нижнем исходном изображении, вена имеет сужение с правого края область, которую не смогла сегментировать сеть.
Не смотря на наличие изображений, сегментированных не в полной степени, сеть показала приемлемые результаты, которые после алгоритмической доработки вполне можно применить для восстановления структуры вен подвздошной области.
Рис. 5. Результаты классификации свёрточной сетью: оригинальное изображение (слева), предсказанное изображение вены (в центре), исходная маска (справа)
Анализ
Для оценки, представленной на рис. 2 свёрточной сети были выбраны четыре показателя оценки сегментации. Эти метрики включают коэффициент dice для общей оценки точности сегментации, его альтернатива коэффициент Жаккарда, точность сегментации пикселей, чувствительность и специфичность. Точность оценивалась по отношению общего количества правильно классифицированных пикселей маски и фона к количеству пикселей в изображении. Чувствительность указала количество
правильно классифицированных пикселей маски по отношению к числу пикселей маски, а специфичность указала количество правильно классифицированных пикселей фона по отношению к числу пикселей фона. Каждый из четырех показателей выделил один аспект качества сегментации и использовался для общей оценки [8].
На рис. 6 представлен график изменений метрик оценки обучения свёрточной сети рассчитанных на основе коэффициентов игральной кости и Жаккарда. При обучения нейронной сети удалось достичь роста коэффициентов на обучающих и на тестовых выборках.
Рис. 6. Метрики оценки результатов обучения свёрточной нейронной сети: коэффициент игральной кости (слева), коэффициент Жаккарда (справа)
В процессе обучения на 100 эпохах была достигнута точность обучения для тренировочных данных 0.9991 и для тестовых данных 0.9965. Потери на тренировочных и тестовых данных составили 0.0037 и 0.019. График изменения точности и потерь в процессе обучения представлен на рис. 7.
Рис. 7. График изменения точности и потерь в процессе обучения на 100 эпохах
На каждом этапе обучения функции расширения данных генерировали модифицированные изображения на основе исходной выборки данных. Это позволило не переобучить сеть и достичь относительно высоких показателей коэффициентов. Не достижение метриками оценки значений близких к единице, на взгляд авторов являются следствием наличия шума в изображениях. Шум разделен на три типа:
• Шум, полученный в следствии динамического характера поведения вен во время проведения МРТ исследования. Вены непрерывно меняют геометрию в результате воздействия дыхательной и кровеносной систем.
• Специфический шум оборудования на котором проводилось МРТ исследование.
• Шум, полученный в результате воздействия человеческого фактора.
В процессе маскирования вен принимала участие группа людей с различной квалификацией. В результате изображения масок вен не всегда попиксельно точно, способны отразить действительность. Следует отметить, что на маскирование изображений влияют первый и второй класс ошибок, которые приводят к тому, что определить границы вены на изображении не предоставляется возможным в принципе.
Таким образом сегментация вен по изображениям с шумом является очень сложной задачей, поскольку большинство вен тонкие и не однородные по форме. Более того сама разметка масок изображений осуществлялась в ручном режиме и не гарантирует отсутствие ошибочно маскированных или не маскированных пикселей. Высокий шум может сильно размыть границы и уменьшить контраст.
Заключение
В данной статье представлен метод автоматического обозначения пикселей с венами МРТ изображений с использованием свёрточной сети . В результате проведенного исследования было установлено, что архитектура свёрточных сетей U-net способна обеспечить высокую точность классификации данных в разных приложениях биомедицинской сегментации. Благодаря увеличению объема данных с помощью функций расширения, требуется относительно не много образцов исходных данных для того, чтобы достичь значимый результат классификации. Алгоритм может эффективно реализовать точное и надежное извлечение вен из МРТ изображений с высоким уровнем шума, различным распределением интенсивности и структурой вен. Разработанное программное обеспечение позволит автоматизировать процессы идентификации вен на МРТ снимках, для последующей обработки и создания 3D моделей вен.
Конкурирующие интересы. Авторы заявляют, что конфликтов интересов в отношении авторства и публикации нет.
Авторский вклад и ответственность. Все авторы участвовали в написании статьи и полностью несут ответственность за предоставление окончательной версии статьи в печать. Окончательная версия рукописи была одобрена всеми авторами.
Список литературы/References
[1] Мазайшвили К. В., Климова Н. В., Дарвин В. В., Дрожжин Е. В., Щебряков В. В., Ма-медов Р. Э., "Возможности магнитно-резонансной флебографии при посттромботиче-ской патологии нижней полой вены и подвздошных вен", Вестник СурГУ. Медицина, 34:4 (2017), 11-16. [Mazayshvili K.V., Klimova N.V., Darvin V.V., Drozhzhin Ye. V., Shchebryakov V. V., Mamedov R. E., "Vozmozhnosti magnitno-rezonansnoy flebografii pri posttromboticheskoy patologii nizhney poloy veny i podvzdoshnykh ven", Vestnik SurGU. Meditsina, 34:4 (2017), 11-16].
[2] Krizhevsky A., Sutskever I., Hinton G.E., "Imagenet classification with deep convolutional neural networks", NIPS, 2012, 1106-1114.
[3] Chollet F., Deep learning with Python. Manning, 2018, 386 pp.
[4] Ronneberger O., Fischer P., Brox, T., "U-net: Convolutional networks for biomedical image segmentation", MICCAI, 9351 (2015), 234-241.
[5] Bertels J., Eelbode T., Berman M., Vandermeulen D., Maes F., Bisschops R., Blaschko M., Optimizing the Dice Score and Jaccard Index for Medical Image Segmentation: Theory & Practice, arXiv Preprint arXiv:1911.01685, 2019.
[6] Ronneberger O., Fischer Ph., Brox Th, U-Net Convolutional Networks for Biomedical Image Segmentation, Preprint arXiv:1505.04597, 2015.
[7] Ruder S., An overview of gradient descent optimization algorithms, Preprint arXiv:1609.04747, 2016.
[8] Huanga O., Sun J., Ding H., Wangb X., Wanga G., "Robust liver vessel extraction using 3D U-Net with variant dice loss function", Computersin Biologyand Medicine, 101:1 (2018), 153-162.
Список литературы (ГОСТ)
[1] Мазайшвили К. В., Климова Н. В., Дарвин В. В., Дрожжин Е. В., Щебряков В. В., Ма-медов Р. Э. Возможности магнитно-резонансной флебографии при посттромботической патологии нижней полой вены и подвздошных вен // Вестник СурГУ. Медицина. 2017, №4. Т.34. С.11-16.
[2] Krizhevsky A., Sutskever I., Hinton G.E. Imagenet classification with deep convolutional neural networks. In: NIPS. 2012. pp. 1106-1114
[3] Francois Chollet. Deep learning with Python. Manning, 2018. 386 p.
[4] Ronneberger O., Fischer P., Brox, T.: U-net: Convolutional networks for biomedical image segmentation. In: MICCAI. LNCS, 2015. vol. 9351, pp. 234-241.
[5] Bertels J., Eelbode T., Berman M., Vandermeulen D., Maes F., Bisschops R., Blaschko M. Optimizing the Dice Score and Jaccard Index for Medical Image Segmentation: Theory & Practice. arXiv Preprint arXiv:1911.01685. 2019.
[6] Ronneberger O., Fischer Ph., Brox Th. U-Net Convolutional Networks for Biomedical Image Segmentation. arXiv Preprint arXiv:1505.04597. 2015.
[7] Ruder S. An overview of gradient descent optimization algorithms. arXiv Preprint arXiv:1609.04747. 2016.
[8] Huanga O., Sun J., Ding H., Wangb X., Wanga G. Robust liver vessel extraction using 3D U-Net with variant dice loss function // Computersin Biologyand Medicine. 2018. Vol. 101, no. 1. pp. 153-162.
Vestnik KRAUNC. Fiz.-Mat. Nauki. 2020. vol. 31. no. 2. pp. 117-128. ISSN 2079-6641
INFORMATION AND COMPUTATION TECHNOLOGIES MSC 68T07 Research Article
Convolutional networks for segmentation of large vein images A. A. Egorov1,2, S. A. Lysenkova1, K. V. Mazayshvily1
1 Budget institution of higher education of the Khanty-Mansiysk Autonomous Okrug-Ugra Surgut State University, 628412, Surgut, Lenin Ave., 1, Russia
2 Surgut branch Federal State Institution Federal Scientific Center Scientific Research Institute for System Research of the Russian Academy of Sciences, 628426, Surgut, st. Basic, 34, Russia
E-mail: [email protected], [email protected], [email protected]
The article presents the results of work on image segmentation individual images of magnetic resonance imaging of the retroperitoneal space. The issues of detection and segmentation of objects the main veins of retroperitoneal space based on the convolutional architecture of a neural network for semantic pixel segmentation are considered. An automatic, accurate and reliable method using the convolutional neural network U-Net for extracting vein vessels from MRI images is proposed. Deep network training with a large receptive field U-Net allows you to achieve significant results even with the presence of low-quality source data, on small training samples. The data expansion strategy seems to be an effective way to reduce the degree of retraining in the recognition of medical images — veins.
Key words: convolutional architecture, neural networks, image segmentation, medical data.
DOI: 10.26117/2079-6641-2020-31-2-117-128
Original article submitted: 15.04.2020 Revision submitted: 14.05.2020
For citation. Egorov A. A., Lysenkova S. A., Mazayshvily K. V. Convolutional networks for segmentation of large vein images. Vestnik KRAUNC. Fiz.-mat. nauki. 2020,31: 2,117-128. DOI: 10.26117/2079-6641-2020-31-2-117-128
Competing interests. The authors declare that there are no conflicts of interest regarding authorship and publication.
Contribution and Responsibility. All authors contributed to this article. Authors are solely responsible for providing the final version of the article in print. The final version of the manuscript was approved by all authors.
The content is published under the terms of the Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/deed.ru)
© Egorov A. A., Lysenkova S. A., Mazayshvily K. V., 2020
Funding. The study was carried out with the financial support of the Russian Federal Property Fund in the framework of the scientific project No. 18-47-860005 p_a.