ИСПОЛЬЗОВАНИЕ БЛОКОВ СЖАТИЯ И ВОЗБУЖДЕНИЯ ДЛЯ ПОВЫШЕНИЯ ТОЧНОСТИ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ОСТЕОАРТРИТА КОЛЕННОГО СУСТАВА ПРИ ПОМОЩИ СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ

Михайличенко Алексей Андреевич; Демяненко Яна Михайловна

Использование блоков сжатия и возбуждения для повышения точности автоматической классификации остеоартрита коленного сустава при помощи сверточных нейронных сетей

А.А. Михайличенко1, Я.М. Демяненко1 1 Южный Федеральный университет, Институт математики, механики и компьютерных наук,

Ростов-на-Дону, Россия

Аннотация

В данной работе исследуется влияние блоков сжатия и возбуждения на улучшение качества классификации остеоартрита при помощи сверточных нейронных сетей с архитектурами ResNet и DenseNet. Показано, что использование подобных блоков позволяет повысить качество классификации остеоартрита по шкале Келлгрена-Лоуренса на 1- 3 % без существенной модификации традиционных схем. Также показано, что объединение 0-го и 1-го классов шкалы Келлгрена-Лоуренса в один класс позволяет на 12,74 % повысить точность автоматической классификации стадии остеоартрита, не теряя при этом значимой информации о заболевании. Наилучшая точность классификации составила 84,66 % при использовании ансамбля трех сверточных сетей с архитектурой DenseNet-121, с включенными в них блоками сжатия и возбуждения, что существенно превосходит результаты предыдущих исследований. Полученные результаты могут быть использованы как для автоматической постановки предварительного диагноза, так и в качестве вспомогательного инструмента.

Ключевые слова: обработка изображений, автоматическая классификация остеоартрита, сверточные нейронные сети.

Цитирование: Михайличенко, А.А. Использование блоков сжатия и возбуждения для повышения точности автоматической классификации остеоартрита коленного сустава при помощи сверточных нейронных сетей / А.А. Михайличенко, Я.М. Демяненко // Компьютерная оптика. -2022. - Т. 46, № 2. - С. 317-325. - DOI: 10.18287/2412-6179-CO-897.

Citation: Mikhaylichenko AA, Demyanenko YM. Using squeeze-and-excitation blocks to improve an accuracy of automatically grading knee osteoarthritis severity using convolutional neural networks. Computer Optics 2022; 46(2): 317-325. DOI: 10.18287/2412-6179-CO-897.

Введение

Одной из самых распространенных болезней опорно-двигательного аппарата считается остеоарт-рит (ОА). Основным симптомом этой болезни является износ и разрушение межсуставного хряща, что приводит к ограничению функциональности сустава и возникновению болей при движении. На текущем этапе развития медицины не существует эффективных способов лечения данной болезни, кроме полной замены сустава на искусственный аналог после его полного разрушения. При этом остеоартрит является стадийной болезнью [1], и при раннем обнаружении есть возможность замедлить процесс разрушения сустава.

Самым распространенным и дешевым неинвазив-ным способом диагностики остеоартрита на данный момент является использование рентгеновского излучения. Ввиду того, что хрящи на рентгенограммах не видны, оценку степени развития остеоартрита осуществляют по косвенным признакам - сужению межсуставной щели, деформации формы кости и появления на костях определенного вида наростов, называемых остеофитами.

Существуют различные шкалы оценки прогресси-рования остеоартрита, при этом одной из самых рас-

пространенных является шкала Келлгрена-Лоуренса. К недостаткам этой шкалы относят ее субъективность, т.е. результат оценки рентгенограммы сильно зависит от опыта эксперта, который выполняет эту оценку. Использование автоматических методов анализа рентгенограмм для классификации остеоартрита позволило бы существенно снизить субъективность диагноза и сделать его более надежным.

Для автоматической диагностики остеоартрита могут быть использованы разнообразные методы -начиная с автоматизации стандартных измерений, проводимых экспертом (расстояния между костями сустава и т.п.) и заканчивая автоматическим анализом графического содержимого рентгенограмм. При этом самыми популярными в данный момент (а также показывающими самое высокое качество классификации) являются методы, основанные на использовании глубокого обучения и сверточных нейронных сетей в частности.

Целью данной работы является исследование возможности повышения точности работы стандартных архитектур сверточных нейронных сетей, которые показали наилучшие результаты в предыдущих работах по автоматической классификации остеоартрита, путем их модификации при помощи добавления блоков сжатия и возбуждения [14].

1. Оценка прогрессирования остеоартрита по шкале Келлгрена-Лоуренса

В настоящее время существуют различные подходы к оценке развития остеоартрита - в отечественном пространстве ранее применялась классификация Н.С. Косинской [2], в Европе и Северной Америке преобладает шкала Келлгрена-Лоуренса [3], а в некоторых случаях используется атлас международного общества изучения остеоартрита (OARSI [4]).

Ввиду того, что большинство размеченных данных для экспериментов по автоматической классификации остеоартрита опираются на шкалу Келлгрена-Лоуренса, а также для удобства сравнения с другими работами, в данном исследовании в качестве базовой шкалы была выбрана именно она. Эта шкала состоит из 5 стадий развития остеоартрита (стадия 0 - отсутствие признаков остеоартрита):

• none: патологии отсутствуют;

• сомнительные рентгенологические признаки (doubtful): сужения суставной щели нет или есть небольшое сужение, заострения на краях суставной поверхности (рис. 1а);

• минимальные изменения (minimal): небольшое сужение суставной щели, небольшие единичные остеофиты на краях суставной поверхности (рис. 16);

• умеренные проявления (moderate): умеренное сужение суставной щели, множественные остеофиты на краях суставной поверхности, небольшие деформации суставной поверхности (рис. 1в);

• выраженные изменения (severe): суставная щель почти не прослеживается, грубые остеофиты на краях суставной поверхности, деформация эпифизов костей, образующих сустав (рис. 1г).

ЕНШУ

а) б) в) г)

Рис. 1. Пример изображений коленного сустава с разными

стадиями остеоартрита по шкале Келлгрена-Лоуренса

Наличие остеоартрита диагностируется на стадии 2 и выше [5], поэтому в некоторых исследованиях нулевую и первую стадии объединяют в одну (отсутствие патологий). Как будет показано дальше, объединение 0-й и 1-й стадий также позволяет повысить точность классификации, т.к. основные ошибки классификации как раз происходят между стадиями 0 и 1 из-за слишком незначительных отличий между ними.

2. Обзор существующих методов

автоматической диагностики остеоартрита

За годы исследований в области автоматической диагностики стадий остеоартрита были предложены различные подходы к решению данной задачи.

В [19] классификация ОА осуществляется при помощи модификации алгоритма ближайших соседей, в качестве данных для которого выступают различные характеристики изображения вроде первых четырех моментов, текстурных и статистических характеристик и др. В работе используется датасет из 350 изображений, которые разделяются на тренировочную и тестовую выборки в соотношении 7:3, а в качестве шкалы классификации - шкала Келлгрена-Лоуренса с отброшенной последней стадией (стадия severe). Среднеклассовая точность (количество верно классифицированных изображений) в данном случае не превышает 47 %.

В работе [8] для решения задачи автоматической классификации рассматриваются деревья решений, байесовский классификатор и логистическая регрессия по различным текстурным характеристикам -признакам Харалика, разного рода гистограммам и т.п. При этом для экспериментов был использован датасет из 130 рентгенограмм.

Одной из первых работ, в которой было предложено применять для автоматической классификации сверточные нейронные сети, можно считать работу [9]. При использовании простой, обученной с нуля сверточной сети, состоящей из 5 сверточных и одного полносвязного слоя, удалось достичь точности классификации около 60 %. В работе [15] приводится исследование применимости к классификации остео-артрита стандартных архитектур сверточных сетей, предтренированных на ImageNet и дообученных на датасете OAI.

В работе [10] изучаются глубокие сиамские сети, которые используют симметрию на изображении и состоят из двух ветвей, каждая из которых независимо от другой работает со своей частью коленного сустава. При этом достигается точность классификации в 67,49 %. В [11] представлена модель, обученная не только классификации остеоартрита, но также измерению сужения межсуставной щели и определению наличия остеофитов. Подход основан на использовании комбинации двух сетей, каждая из которых действует независимо от другой и состоит из двух частей - предтренированных на ImageNet сверточных и 7 полносвязных слоев. Для связи между сверточными и полносвязными слоями используется усредняющий пуллинг. Полученная точность на задаче классификации остеоартрита - 66,68 %.

Оригинальная идея представлена в работе [20], где, помимо рентгенограмм коленного сустава, предлагается использовать некоторые характеристики походки пациента (частота шагов, ширина шага, угол сгибания колена, угол разгибания бедра и др.). Датасет состоит из 728 рентгенограмм коленей 364 пациентов с прикрепленной информацией о походке. В качестве метода классификации используется классификатор SVM, который опирается на особенности походки и карту признаков рентгенограммы, извле-

ченную при помощи нейронной сети с архитектурой Inception-ResNet-v2. Полученная среднеклассовая точность классификации - 64,7 % без применения метаданных и 75,2 % при использовании информации о походке на тестовой выборке из 218 изображений.

Помимо экспериментов с различными архитектурами, существуют исследования различных способов обучения, которые направлены на уменьшение ошибки между классами при помощи функции потерь специального вида. В [12] это достигается при помощи функции потерь, которая назначает штраф в зависимости от «расстояния» между реальной и предсказанной степенями остеоартрита (чем сильнее отличается класс, тем больше штраф). Исследуются несколько стандартных архитектур, таких как ResNet, VGG и др., при этом наибольшая точность 69,7 % достигается на предтренированной VGG-19 при использовании во время обучения предложенной функции потерь.

В [7] проводится исследование сетей с архитектурой DenseNet различной глубины и с различными функциями потерь. Показано, что наилучшая средне-классовая точность 68,98 % была достигнута для случая предтренированной сверточной сети архитектуры DenseNet-121 при использовании в качестве функции потерь классической кросс-энтропии. Ансамблю из нескольких таких моделей, обученных при задании разных случайных начальных значений для генератора случайных чисел, удалось достигнуть точности 71,08 %. Исследования архитектуры DenseNet для задачи классификации остеоартрита также приводятся в [13], однако в этом случае применяется не пяти-классовая шкала Келлгрена-Лоуренса, а шкала с объединенными 0-м и 1-м классами. В этом случае авторами была получена среднеклассовая точность 77,2 % при использовании ансамбля из трех моделей.

В нашем исследовании мы рассматриваем использование блоков сжатия и возбуждения [14] для повышения точности классификации остеоартрита как для полной, так и для сокращенной шкалы Келлгрена-Лоуренса применительно к архитектурам, которые в предыдущих работах показали наилучшие результаты - к архитектурам ResNet [21] и DenseNet [22] различной глубины.

3. Данные

На данный момент в исследованиях по автоматической классификации остеоартрита превалирует использование двух стандартных наборов данных - да-тасета The Osteoarthritis Initiative (OAI), содержащего архив клинических данных 4796 пациентов, и датасе-та MOST (Multicenter Osteoarthritis Study), который включает в себя данные о 3026 пациентах. Кроме того, в последнее время популярность набирает датасет CHECK (Cohort Hip & Cohort Knee), который является результатом многолетнего наблюдения [18] за пациентами с ранними симптомами остеоартрита коленей и бедер в Нидерландах и состоит более чем из

3000 рентгенограмм различных частей тела (боковой и фронтальной проекций коленей, бедер, рентгенограмм кистей рук и др.). Для каждого обследования, помимо набора рентгенограмм различных частей тела, присутствуют описания экспертов, включая степень ОА по шкале Келлгрена-Лоуренса, оценку сужения межсуставной щели, наличие остеофитов и т.п.

Несмотря на кажущееся обилие данных, в ходе проведения экспериментов было обнаружено, что да-тасет CHECK содержит большое количество ошибок в разметке, а доступ к датасету MOST ограничен из-за прекращения финансирования и реорганизации, поэтому в качестве основных данных для их проведения был выбран набор данных The Osteoarthritis Initiative (OAI).

Как было упомянуто ранее, данный набор содержит информацию о 4796 пациентах в возрасте от 45 до 79 лет, наблюдаемых в течение 14 лет. Помимо рентгенограмм коленного сустава, в датасете также содержится информация о различных измерениях, наличии остеофитов, сужении межсуставного пространства, стадиях остеоартрита, полученных от нескольких независимых экспертов и т.п.

Несмотря на то, что в некоторых исследованиях при построении классификаторов остеоартрита, помимо рентгенограмм, используется дополнительная информация в виде разного рода антропометрических данных, клинической истории и т.п. [6], в нашем исследовании классификация остеоартрита выполняется исключительно по рентгенограммам коленного сустава, полученным в двусторонней задне-передней проекции с фиксированным сгибанием сустава (рис. 2).

Рис. 2. Пример изображений двусторонней задне-передней

проекции с фиксированным сгибанием

Ввиду того, что в наборе данных отсутствует информация о позиционировании на рентгенограмме области сустава, для локализации этой области использовался готовый модуль локализации, также основанный на базе сверточной нейронной сети, описание которого можно найти в [7].

После фильтрации имеющегося набора рентгенограмм и удаления из него низкокачественных изображений (сильно размытых, расфокусированных и т.п.) был получен датасет из 4130 рентгенограмм, в котором содержится 8260 изображений областей коленного сустава.

Данный набор был случайным образом разделен на тренировочную, валидационную и тестовую вы-

борки в пропорции 7: 1 : 2. Распределение изображений областей коленного сустава по степени прогрес-сирования на них остеоартрита (по шкале Келлгрена-Лоуренса) приведено в табл. 1.

Как можно заметить, полученный датасет является сильно несбалансированным, поэтому для увеличения разнообразия использовалась аугментация данных. Для этого применялись такие преобразования исходных данных, как зеркальное отображение по горизонтали, случайное масштабирование и вращение (на небольшой угол), а также изменение яркости и насыщенности содержимого изображений. После всех преобразований изображение масштабировалось до размера 224 х 224. Все этапы аугментации выполнялись в случайном порядке «на лету», в процессе тренировки моделей.

Табл. 1. Распределение рентгенограмм по шкале Келлгрена-Лоуренса для тренировочной, валидационной и тестовой выборок: числа в таблице означают количество изображений коленного сустава для каждой категории

Группа КЛ-0 КЛ-1 КЛ-2 КЛ-3 КЛ-4 Всего

Тренир. 2295 1051 1504 752 175 6604

Валид. 319 148 223 111 25 826

Тестовая 639 296 447 223 51 1656

4. Описание блоков сжатия и возбуждения

Традиционным центральным блоком сверточной нейронной сети является оператор свертки, который позволяет формировать информативные карты признаков, учитывающие как пространственную, так и межканальную информацию.

В работе [14] делается акцент на отношениях между разными каналами одного слоя. Авторы предлагают новый элемент архитектуры, называемый блоком сжатия и возбуждения (Squeeze-and-Excitation block, SE), который позволяет усилить обобщающую способность нейронной сети или ее части путем явного моделирования взаимозависимости между различными слоями сверточного блока. Предложенный механизм позволяет выполнять рекалибровку выходных данных сверточного блока (иначе говоря - ставить в соответствие каждому слою его вес), обучаясь использовать глобальную информацию для акцентирования внимания сети на информативных признаках, в то же время подавляя признаки неинформативные. Структура блока сжатия и возбуждения представлена на рис. 3.

IIIIIIIIN-1 x 1 x C

► ЩЖШ

1 x 1 x C

Рис. 3. Иллюстрация блока сжатия и возбуждения из работы [14]

Сначала для карты признаков U выполняется операция сжатия Fs?, которая позволяет получить де-

скрипторы каждого канала путем агрегирования содержимого каждого слоя в одно число при помощи операции глобального усредняющего пуллинга:

zc = Fsq (uc ) =

1 H W

Y,"Luc(i, j x

H x M

(1)

i=1 j=1

где Zc - дескриптор канала c ^ е КС), Ыс - содержимое слоя для канала c (изображение размера Н х Ш).

Для полученного таким образом вектора дескрипторов выполняется процедура адаптивной рекалиб-ровки, или возбуждения ^Са/е). Этот механизм принимает на вход вектор дескрипторов zc и состоит из двух полносвязных слоев, первый из которых обладает нелинейностью в виде ЯеЬи, а второй - нелинейностью в виде сигмоиды. При этом первый полносвязный слой уменьшает размерность вектора на некоторый коэффициент г, а второй слой восстанавливает размерность до исходной. Если обозначить сигмоиду через с, а нелинейность ЯеЬи через 5, то операцию возбуждения можно выразить следующим образом:

s = FeX (z, W) = CT(W25(W!z)),

(2)

где W1 е КС/гхС, W2 е КСхС/г - полносвязные слои 8Б-блока.

В качестве функции активации для второго полносвязного слоя блока используется сигмоида, как показавшая наилучшую эффективность для операции возбуждения [14]. Изменение размерностей на коэффициент г необходимо для того, чтобы обеспечить обучение блока нелинейным зависимостям между каналами, при этом г позволяет гибко управлять сложностью и обобщающей способностью всего 8Б-блока. В работе показано, что увеличение сложности блока не является прямо пропорциональным улучшению производительности блока, однако маленькие значения г сильно увеличивают количество обучаемых параметров сети. В качестве базового значения коэффициента уменьшения авторами предложено использовать число 16, что является балансом между сложностью блока и его производительностью, однако утверждается, что в некоторых ситуациях для разных уровней нейронной сети, вероятно, потребуется использовать различные значения коэффициента уменьшения г.

Финальный выходной набор данных блока x получается после выполнения рекалибровки карты признаков U с учетом вектора коэффициентов s:

xc = Fscale (uc , sc ) = ucsc

(3)

где при помощи Fscale (uc, sc) обозначено поэлементное перемножение карты признаков uc и соответствующего ей скалярного коэффициента sc.

Из-за своей простой структуры и легковесности SE-блоки могут быть использованы для улучшения уже известных предобученных нейронных сетей,

та

C

позволяя улучшить итоговую точность их вычислений путем простого добавления соответствующих блоков в уже готовые архитектуры (в том числе и для случая переноса обучения), не приводя при этом к существенному повышению вычислительной сложности моделей.

5. Структура используемых моделей и особенности реализации

В работе исследовалось влияние 8Б-блоков на качество работы архитектур КеБ№1 с глубиной 18, 34 и 50 слоев и Беше№1 [22] глубиной 121 слой на задаче классификации ОА.

КезКй. Для случая КеБ№1 использовалась схема, предложенная в оригинальной работе [14] - расположение блоков сжатия и возбуждения между финальным сверточным слоем блока и соединением быстрого доступа (рис. 4, слева).

Репэе-блок

«

о

а ч

ы а

(Л —

I

N раз

Рис. 4. Схема расположения SE-блоков для архитектур ResNet (слева) и DenseNet (справа)

Обозначим базовый и расширенный строительные блоки КеБ№1 через Я^А и Я^В соответственно:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Res A(C) =

3 х 3 х C 3 х 3 х C SE (16, C)

,ResB(Cj, C2) =

1 х 1 х C1 3 х 3 х C1 1 х 1 х C2 SE (16, C2)

где C - количество выходных слоев в базовом блоке ResNet, C2 - количество слоев на выходе из расширенного блока, а SE (16, X) - блок сжатия и возбуждения с коэффициентом редукции r = 16 и количеством входных / выходных слоев, равным X. Каждый сверточный слой сопровождается нормализацией батчей, а первый слой базового блока и первые два слоя для расширенного блока - еще и нелинейностью в виде ReLU. Структура моделей SE-ResNet для разной глубины сетей, принимающих на вход изображение размером 224 х 224, описана в табл. 2.

Здесь conv обозначает сверточный слой с нормализацией батчей, max pool - слой пуллинга, average pool - глобальный усредняющий пуллинг, а fc - полносвязный слой соответствующей размерности. Оригинальные версии ResNet выглядят аналогично за исключением отсутствия SE-блоков в базовом и расширенном строительных блоках.

DenseNet. DenseNet состоит из серии плотно-связанных и транзитных блоков, где назначение вторых - изменение пространственной и канальной размерности данных для соблюдения баланса между

обобщающей способностью сети и ее вычислительной сложностью. При этом плотно -связанный блок состоит из т.н. плотных слоев, каждый из которых состоит из свертки 1 х 1 х 128 и свертки 3 х 3 х 32.

Табл. 2. Структура сетей архитектуры ResNet различной глубины с SE-блоками, которые были использованы в исследовании, для случая 5 классов

Выход SE-ResNet-18 | SE-ResNet-34 | SE-ResNet-50

112х112 7 x 7 conv, 64, stride 2

56 х 56 3 x3 max pool, stride 2

ResA (64) x 2 | ResA (64) x 3 | ResB (64, 256) x3

28 х 28 3 x3 max pool, stride 2

ResA (128) x2 |ResA (128) x4 |ResB (128, 512) x4

14 х 14 3 x3 max pool, stride 2

ResA (256) x2 |ResA (256) x6 |ResB (256, 1024) x6

7 х 7 3x3 max pool, stride 2

ResA (512) x2 |ResA (512) x3 |ResB (512, 2048) x3

1х 1 7 x7 average pool, 5-d fc, softmax

Блоки сжатия и возбуждения при модификации архитектуры Беше№1 для удобства реализации были размещены перед каждым dense-слоем в плотно-связанном блоке (рис. 4, справа), и тогда мы можем обозначить такой слой следующим образом:

DenseLayer (S) =

SE(16, S + 32 • i) 1х 1х128 3 х 3 х 32

где i - номер слоя в плотно -связанном блоке, S -начальное количество слоев в таком блоке (задается для каждого блока), а каждая свертка сопровождается нормализацией батчей и нелинейностью в виде ЯеЬи. В базовом варианте Беше№1 8Б-блоки в плотных слоях и транзитных блоках отсутствуют. Каждый плотный слой принимает на вход выходные данные всех предыдущих подобных слоев, а на выходе последнего сверточного слоя предоставляет карту признаков с фиксированной глубиной 32, которая конкатенируется с входными данными. Подобная схема на выходе плотно -связанного блока дает набор карт признаков с общим количеством каналов, равным S + 32*N, где N - количество плотных слоев. Структура плотных слоев также фиксирована и отличается лишь количеством каналов во входных данных.

Более подробное описание структуры 8Б-Беше№1-121 для 5 классов представлено в табл. 3. Для случая 4 классов в структуре сети меняется лишь последний полносвязный слой.

6. Автоматическая классификация остеоартрита

Основная задача по автоматической классификации остеоартрита в данной работе решается при помощи сверточных сетей с архитектурами КеБ№1 и Беп8е№1

В качестве объектов исследования рассматриваются модели, которые показали наилучшие результаты в предыдущих исследованиях - КеБ№1 с глубиной

18, 34 и 50 слоев и Беше№! с глубиной 121 слой, предтренированные на датасете ImageNet, состоящем из изображений 1000 различных классов.

Табл. 3. Структура сети архитектуры БетеЫе1-121 с ББ-блоками, которая была использована в исследовании (ББ-Веше'Ые1-121), для случая 5 классов

Тип Выход DenseNet-121-18

112x112 7 x 7 conv, 64, stride 2

56 x 56 3 x 3 max pool, stride 2

SE-блок 56 x 56 SE (4, 64)

Dense-блок (1) 56 x 56 SE (4, 64)

DenseLayer (64) x 6, i = 1..6

Transition (1) 56 x 56 SE (16, 256)

1 x 1 conv, 128, stride 2

28 x 28 3 x 2 max pool, stride 2

Dense-блок (2) 28 x 28 SE (8, 128)

DenseLayer (128) x 12, i = 1..12

Transition (2) 28 x 28 SE (32, 512)

1 x 1 conv, 256, stride 2

14 x 14 3 x 2 max pool, stride 2

Dense-блок (3) 14x14 SE (16, 256)

DenseLayer (256) x 24, i = 1..24

Transition (3) 14 x 14 SE (64, 1024)

1 x 1 conv, 512, stride 2

7x 7 3 x 2 max pool, stride 2

Dense-блок (4) 7 x 7 SE (32, 512)

DenseLayer (512) x 16, i = 1..16

1 x 1 7 x7 average pool, 5-d fc, softmax

Применяется стандартный для случая переноса обучения подход - замена верхнего полносвязного слоя с количеством выходов, равным 1000, на полносвязный слой с количеством выходов, равным числу классов остеоартрита. После замены производится дообучение модели на новом наборе изображений (в данном случае на датасете OAI), при этом в качестве начальных весов сверточных слоев используются веса, полученные при обучении на ImageNet, что позволяет более эффективно использовать обобщающие способности нейросетевых моделей, чем если бы обучение на новых данных выполнялось с нуля.

В качестве целевой шкалы классификации остеоарт-рита в исследовании используется как стандартная шкала Келлгрена-Лоуренса, состоящая из 5 классов, так и шкала, в которой нулевой и первый классы объединены в один класс, означающий отсутствие заболевания.

Процесс обучения. Обучение всех моделей выполнялось при помощи оптимизатора Adam (the adaptive moment estimation [15]) с коэффициентом скорости обучения (learning rate), равным 0,001, коэффициентом регуляризации нормы L2 (weight decay), также равным 0,0001, и размером батча 32. В процессе тренировки скорость обучения уменьшалась на 5 % каждые 5 эпох. Каждая из моделей при этом обучалась ровно 75 эпох.

Для каждой рассматриваемой модели проведено три эксперимента по обучению, отличающиеся между собой начальными случайными значениями для гене-

ратора случайных чисел (21, 42 и 84). Для каждого случая в качестве финальной модели была выбрана модель, показавшая наилучшие результаты на вали-дационной выборке, а в таблицах представлены усредненные по трем этим экспериментам метрики качества работы. Помимо одиночных моделей, также проведен эксперимент по использованию ансамблей, состоящих из этих трех моделей.

Ансамбль моделей. Существуют различные подходы к организации ансамблей нейронных сетей. В данной работе используется наиболее распространенный подход - невзвешенное среднее (unweighted averaging [17]). Он заключается в суммировании предсказаний нескольких моделей и применении слоя softmax к полученному вектору значений. Схему комбинирования предсказаний нескольких моделей можно представить следующим образом:

P(y = k | x) = -

exp X M=1 Pm (У = k | x) "

I j=,exp IM=1 Pm (У = Í 1 X)

(4)

где M=3 - количество моделей в ансамбле, к - количество классов остеоартрита, а Pm (y = к | x) - индивидуальный выход соответствующей модели перед слоем soft-max (ненормированное распределение вероятностей).

7. Экспериментальные результаты

В качестве метрик качества используются такие характеристики классификатора, как accuracy (процент верно классифицированных изображений, далее и везде по тексту - точность), precision, recall и /¡-score:

precision =

TP

recall = -

TP + FP TP

F = 2

TP + FN precision • recall precision + recall

где TP, FP, FN - значения True Positive, False Positive и False Negative из соответствующей матрицы ошибок.

В табл. 4 представлены подробные среднеклассо-вые метрики для моделей, обученных классификации остеоартрита по рентгенограмме для полной (состоящей из пяти классов) шкале Келлгрена-Лоуренса, а также показана степень улучшения результатов при добавлении SE-блоков. Приведенные значения являются усредненными по трем независимым экспериментам для каждого случая. Префикс SE в названии модели означает, что к традиционной схеме модели были добавлены блоки сжатия и возбуждения - к каждому строительному блоку (residual block) в случае архитектуры ResNet и к каждому плотно-связанному блоку (dense block) для случая DenseNet.

Наилучший результат был достигнут для модели с архитектурой DenseNet-121 и составил 66,73 % для

стандартной схемы и 69,77 % для расширенного варианта с добавленными блоками сжатия и возбуждения. Добавление 8Б-блоков в среднем позволило улучшить точность классификации на 1 % - это схоже с выводами, полученными в работе [14]. Наибольшее улучшение на 3,04 % было получено для архитектуры Беше№Ы21.

Табл. 4. Метрики классификации остеоартрита на тестовой выборке исследуемыми моделями для стандартной шкалы Келлгрена-Лоуренса

Модель Acc. Prec. Recall Fi Улучш.

ResNet-18 65,24 0,62 0,65 0,63 -

ResNet-34 66,81 0,65 0,67 0,65 -

ResNet-50 66,42 0,64 0,67 0,64 -

DenseNet-121 66,73 0,64 0,63 0,65 -

SE-ResNet-18 66,02 0,64 0,66 0,64 0,78 %

SE-ResNet-34 67,11 0,65 0,67 0,65 0,30 %

SE-ResNet-50 67,47 0,65 0,68 0,66 1,05 %

SE-DenseNet-121 69,77 0,68 0,70 0,68 3,04 %

Ввиду того, что классы 0 и 1 шкалы классификации при постановке диагноза обычно считаются эквивалентными - и оба трактуются как отсутствие остеоартрита - был проведен эксперимент с объединением этих двух классов в один, при этом остальные классы оставались неизменными. Это позволило улучшить качество работы на 12,74 % для лучшей модели и достигнуть среднеклассовой точности классификации остеоартрита 82,51% (табл. 5).

Табл. 5. Среднеклассовые метрики классификации остеоартрита исследуемыми моделями для сокращенной шкалы Келлгрена-Лоуренса из 4 классов ОА

Модель Acc. Prec. Recall Fi Улучш.

ResNet-18 79,63 0,79 0,80 0,79 -

ResNet-34 80,13 0,80 0,80 0,80 -

ResNet-50 80,36 0,80 0,80 0,80 -

DenseNet-121 80,86 0,80 0,81 0,80 -

SE-ResNet-18 79,77 0,79 0,80 0,79 0,14 %

SE-ResNet-34 80,28 0,80 0,80 0,79 0,15 %

SE-ResNet-50 80,29 0,80 0,80 0,80 - 0,07 %

SE-DenseNet-121 82,51 0,82 0,83 0,82 1,65 %

Для случая 4 классов в шкале оценки остеоартрита добавление блоков сжатия и возбуждения также позволило повысить точность, однако значительное ее увеличение (1,65 %) наблюдалось лишь для архитектуры Беше№Ы21, в остальных же случаях это увеличение было незначительным и находилось на уровне погрешности.

Как было сказано выше, помимо изменения подхода к рассмотрению градации остеоартрита, для повышения точности также было проведено тестирование подхода с использованием ансамбля из трех нейронных сетей с архитектурой 8Б-Беше№Ы21. В качестве агрегирующей функции использовалось не-взвешенное среднее. Для обучения моделей использо-

вались одни и те же данные, однако для каждого эксперимента использовалось свое начальное значение генератора случайных чисел (в работе это 21, 42 и 84), что позволило получить модели с разными весами.

Среднеклассовая точность классификации при помощи ансамбля ансамбля из трех моделей более чем на 2,5 % превышает усредненную точность одиночных моделей и составляет 84,66 %. Подробные метрики качества работы финального ансамбля для каждого класса остеоартрита представлены в табл. 6 -приводятся как значения различных метрик по отдельности для различных классов, так и общие (сред-неклассовые) характеристики метода.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Табл. 6. Подробные метрики качества работы для ансамбля из трех моделей SE-DenseNet-121

Класс Accuracy Precision Recall F1

1 91,87 0,88 0,92 0,90

2 70,69 0,76 0,71 0,73

3 82,96 0.88 0,83 0,85

4 82,35 0,89 0,82 0,86

Ср. 84,66 0,85 0,85 0,84

Помимо подробных метрик, на рис. 5 и 6 также приводится матрица ошибок и соответствующая ей ЯОС-кривая со значениями площади под кривой для каждого из четырех классов остеоартрита.

1 859 72 4 0

S2' ГО 117 316 14 0

Ф EE 3 1— 5 28 185 5

4 0 1 8 42

\ г ъ \

Predicted label

Рис. 5. Матрица ошибок для ансамбля из трех моделей SE-DenseNet-121 для случая 4 классов

1.0

S 0.8

£

О

.1 0.6 **

и о

о. 0.4

а

э

0.2

0.00.0 0.2 0.4 0.6 0.8 1.0

False Positive Rate

Рис. 6. ROC-кривая для ансамбля из трех моделей SE-DenseNet-121 для случая 4 классов

8. Обсуждение результатов

В сфере здравоохранения предъявляются очень высокие требования к точности и надежности автома-

— ROC-кривая для степени 0 (AUX = 0.95) ....... ROC-кривая для степени 1 (AUX = 0.91) — ROC-кривая для степени 2 (AUX = 0.98) — ROC-кривая для степени 3 (AUX = 1.00)

тических методов диагностики. Несмотря на полученные высокие результаты (с точностью классификации стадии остеоартрита более 84 %), их может быть все еще недостаточно для реального применения. Однако несмотря на это предложенные алгоритмы могут быть использованы в качестве вспомогательного инструмента для облегчения работы экспертов.

К примеру, выходной нормированный вектор распределения вероятностей (рис. 7, справа) может быть использован для постановки предварительного диагноза.

0.5

0.0

0.999 Г

0.0 0.0 1 0.0

КЛ-1

КЛ-2 КЛ-3 КЛ-4

0.999

I]

0.0

КЛ-1 КЛ-2 КЛ-3 КЛ-4

Рис. 7. Распределения вероятностей наличия каждой из степеней остеоартрита на примере реальных рентгенограмм

Заключение

В работе представлено исследование эффективно -сти добавления блоков сжатия и возбуждения в стандартные архитектуры сверточных нейронных сетей с целью повышения качества их работы. Показано, что использование SE-блоков позволяет повысить точность стандартных архитектур на 1- 3 % без существенной модификации готовых моделей, что открывает широкий диапазон возможностей повышения эффективности автоматической классификации.

При этом показано, что эффективность SE-блоков зависит от используемой архитектуры. В частности, встраивание таких блоков в архитектуру ResNet различной глубины для четырехклассовой шкалы Кел-лгрена-Лоуренса не дало какого-либо значимого улучшения точности, в то время как использование их в модели DenseNet-121 в аналогичных условиях позволило повысить качество работы модели на 1,65 % (табл. 5).

Также показано, что объединение 0-го и 1-го классов шкалы Келлгрена-Лоуренса в один класс позволяет существенно (на 12,74 %) повысить точность распознавания прогрессирования остеоартрита. При этом информация по классам, означающим наличие остеоартрита, не теряется, т. к. улучшение происходит за счет объединения двух классов, каждый из которых означает отсутствие заболевания.

Полученные результаты могут быть использованы как для автоматической постановки предварительно -го диагноза с целью облегчения работы эксперта, так

и в качестве вспомогательного инструмента, позволяющего предоставить информацию о возможном распределении вероятностей наличия той или иной стадии остеоартрита у пациента.

К работе прилагаются все обученные модели и исходный код для анализа и воспроизведения результатов исследования, написанный на Python с использованием библиотеки pytorch. Все данные доступны публично на https://github.com/almikh/grading-knee-oa-using-se-netw orks.

References

[1] Balabanova RM. Osteoarthrosis or osteoarthritis? Modern ideas about the disease and its treatment [In Russian]. Modern Rheumatology 2013; 3: 67-70.

[2] Doherty M, Doherty J. Clinical examination in rheumatology. Wolfe Pub Ltd; 1992.

[3] Kellgren J, Lawrence J. Radiological assessment of osteoarthrosis. Ann Rheum Dis 1957; 16: 494-502.

[4] Altman R, Gold GE. Atlas of individual radiographic features in osteoarthritis, revised. Osteoarthr Cartil 2007; 15: A1-56.

[5] Altman R. Development of criteria for the classification and reporting of osteoarthritis. Classification of osteoarthritis of the knee. Arthritis Rheum 1986; 29(8): 10391049.

[6] Tiulpin A, Klein S, Bierma-Zeinstra S, Thevenot J. Multimodal machine learning-based knee osteoarthritis progression prediction from plain radiographs and clinical data. Sci Rep 2019; 9: 20038.

[7] Mikhaylichenko A, Demyanenko Y. Automatic grading of knee osteoarthritis from plain radiographs using densely connected convolutional networks. Recent trends in analysis of images, social networks and texts (AIST 2020). Commun Comput Inf Sci 2021; 1357: 149-161.

[8] Chan S, Dittakan K. Osteoarthritis stages classification to human joint imagery using texture analysis: A comparative study on ten texture descriptors. Recent Trends in Image Processing and Pattern Recognition 2019; 209-225.

[9] Antony J, McGuinness K, Moran K, O'Connor N. Automatic detection of knee joints and quantification of knee osteoarthritis severity using convolutional neural networks. Machine Learning and Data Mining in Pattern Recognition (MLDM) 2017: 376-390.

[10] Tiulpin A, Thevenot J, Rahtu E, Lehenkari P, Saarakkala S. Automatic knee osteoarthritis diagnosis from plain radiographs: A deep learning-based approach. Sci Rep 2018; 8: 1727.

[11] Tiulpin A, Saarakkala S. Automatic grading of individual knee osteoarthritis features in plain radiographs using deep convolutional neural networks. Osteoarthr Cartil 2020; 28(1): S308. DOI: 10.1016/j.joca.2020.02.480.

[12] Pingjun C, Linlin G, Xiaoshuang S, Kyle A, Lin Y. Fully automatic knee osteoarthritis severity grading using deep neural networks with a novel ordinal loss. Comput Med Imaging Graph 2019; 75: 84-92.

[13] Norman B, Pedoia V, Noworolski A. Applying densely connected convolutional neural networks for staging osteo-arthritis severity from plain radiographs. J Digit Imaging 2019; 32: 471-477.

[14] Hu J, Shen L, Sun G. Squeeze-and-excitation networks. 2018 IEEE/CVF Conf on Computer Vision and Pattern Recognition 2018: 7132-7141.

[15] Kingma DP, Ba J. Adam: A method for stochastic optimization. Int Conf on Learning Representations (ICLR) 2015.

[16] Antony J, McGuinness K, Moran K, O'Connor N. Quantifying radiographic knee osteoarthritis se-verity using deep convolutional neural networks. 23rd Int Conf on Pattern Recognition (ICPR) 2016: 1195-1200.

[17] Cheng J, Aurelien B, Mark L. The relative performance of ensemble methods with deep convolutional neural networks for image classification. J Appl Stat 2018; 45: 2800-2818.

[18] Wesseling J, Boers M, Viergever MA, Hilberdink WKHA, Lafeber FPJG, Dekker J, Bijlsma JWJ. Cohort profile: Cohort hip and Cohort knee (CHECK) study. Int J Epidemiol 2016; 45(1): 36-44.

[19] Shamir L, Ling S, Scott W, Orlov N. Knee X-Ray image analysis method for automated detection of osteoarthritis. IEEE Trans Biomed Eng 2009; 56: 407-415.

[20] Kwon SB, Han H, Lee MC, Kim HC. Machine learning-based automatic classification of knee osteoarthritis severity using gait data and radiographic images. IEEE Access 2020; 8: 120597-120603.

[21] He K, Zhang X, Ren S, Sun J. Deep residual learning for image recognition. IEEE Conf on Computer Vision and Pattern Recognition (CVPR) 2016: 770-778.

[22] Huang G, Liu Z, Weinberger KQ. Densely connected convolutional networks. IEEE Conf on Computer Vision and Pattern Recognition (CVPR) 2017; 8: 2261-2269.

Сведения об авторах

Михайличенко Алексей Андреевич, аспирант кафедры прикладной математики и программирования института математики, механики и компьютерных наук Южного Федерального университета. Область научных интересов: компьютерное зрение, обработка изображений, машинное обучение. E-mail: alexey.a.mikh@smail.com .

Демяненко Яна Михайловна, к.т.н., доцент института математики, механики и компьютерных наук Южного Федерального университета. Область научных интересов: компьютерная графика, компьютерное зрение, обработка изображений. E-mail: demyanam@gmail.com .

ГРНТИ: 28.23.15

Поступила в редакцию 28 марта 2021 г. Окончательный вариант - 9 сентября 2021 г.

Using squeeze-and-excitation blocks to improve an accuracy of automatically grading knee osteoarthritis severity using convolutional neural networks

А.А. Mikhaylichenko1, У.М. Demyanenko1

1 Southern Federal University, Institute of Mathematics, Mechanics and Computer Science,

Rostov-on-Don, Russia

Abstract

In this paper, we investigate the effect of squeeze-and-excitation blocks on improving the classification quality of osteoarthritis using convolutional neural networks of the ResNet and DenseNet families. We show that the use of these blocks improves the quality of osteoarthritis classification according to the Kellgren-Lawrence scale by 1 - 3 % without a significant modification of the model structure. We also demonstrate that combining the 0 and 1 classes of the Kellgren-Lawrence scale into one class allows one to increase the accuracy of osteoarthritis grading by 12.74 %, without losing significant information about the disease. The best final accuracy attained was 84.66 % when using an ensemble of three convolutional networks with the DenseNet-121 architecture using squeeze-and-excitation blocks, which significantly exceeds the performance of the existing state-of-the-art. The obtained results can be used both for a preliminary automatic diagnosis and as an auxiliary tool.

Keywords: image processing; automatically grading osteoarthritis severity; convolutional neural network.

Citation: Mikhaylichenko AA, Demyanenko YM. Using squeeze-and-excitation blocks to improve an accuracy of automatically grading knee osteoarthritis severity using convolutional neural networks. Computer Optics 2022; 46(2): 317-325. DOI: 10.18287/2412-6179-CO-897.

Authors' information

Alexey Andreevich Mikhaylichenko, graduate student of the Applied Mathematics and Programming department of the Institute of Mathematics, Mechanics and Computer Science of the Southern Federal University. His research interests are currently focused on computer vision, image processing and machine learning. E-mail: alexey.a.mikh@smail.com .

Yana Mikhaylovna Demyanenko, Ph.D., associate professor of the Southern Federal University. Institute of Mathematics, Mechanics and Computer Science. Research interests are computer graphics, computer vision, image processing. E-mail: demyanam@smail. com .

Received March 28, 2021. The final version - September 9, 2021.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Михайличенко Алексей Андреевич, Демяненко Яна Михайловна

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Михайличенко Алексей Андреевич, Демяненко Яна Михайловна

USING SQUEEZE-AND-EXCITATION BLOCKS TO IMPROVE AN ACCURACY OF AUTOMATICALLY GRADING KNEE OSTEOARTHRITIS SEVERITY USING CONVOLUTIONAL NEURAL NETWORKS