Научная статья на тему 'Методика оценки эффективности параметризатора в виде сверточной нейронной сети'

Методика оценки эффективности параметризатора в виде сверточной нейронной сети Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
300
48
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
CONVOLUTION NEURAL NETWORKS / OBJECT RECOGNIZING / PERFORMANCE EVALUATION / RECONSTRUCTION OF WEIGHTS / СВЕРТОЧНЫЕ НЕЙРОННЫЕ СЕТИ / РАСПОЗНАВАНИЕ ОБЪЕКТОВ / ОЦЕНКА ЭФФЕКТИВНОСТИ / РЕКОНСТРУИРОВАНИЕ ВЕСОВ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Толстых Андрей Андреевич

Предложена методика оценки эффективности параметризатора телевизионных изображений в виде сверточной нейронной сети без участия экспертов. Приведены результаты сравнения нейросетевых классификаторов для различных задач классификации изображений

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Толстых Андрей Андреевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODOLOGY FOR ASSESSING THE EFFICIENCY OF A CONVOLUTION NEURAL NETWORK PARAMETRIZER

A method for evaluating the effectiveness of a television image parameterizer in the form of a convolutional neural network without the participation of experts is proposed. The results of the comparison of neural network classifiers for various problems of image classification are given

Текст научной работы на тему «Методика оценки эффективности параметризатора в виде сверточной нейронной сети»

А. А. Толстых

МЕТОДИКА ОЦЕНКИ ЭФФЕКТИВНОСТИ ПАРАМЕТРИЗАТОРА В ВИДЕ СВЕРТОЧНОЙ НЕЙРОННОЙ СЕТИ

METHODOLOGY FOR ASSESSING THE EFFICIENCY OF A CONVOLUTION NEURAL NETWORK PARAMETRIZER

Предложена методика оценки эффективности параметризатора телевизионных изображений в виде сверточной нейронной сети без участия экспертов. Приведены результаты сравнения нейросетевых классификаторов для различных задач классификации изображений.

A methodfor evaluating the effectiveness of a television image parameterizer in the form of a convolutional neural network without the participation of experts is proposed. The results of the comparison of neural network classifiers for various problems of image classification are given.

Введение. Задача распознавания объектов на телевизионных изображениях в настоящее время успешно решается с помощью применения аппарата сверточных нейронных сетей (СНС). Важнейшим качеством СНС является возможность выделения вторичных параметров изображения, которые в последующем классифицируются с помощью полносвязных перспетронов. Однако не существует универсальной методики построения СНС для конкретной задачи классификации объектов на телевизионных изображениях. Рассматриваемый ранее подход [1] позволял оценивать основные численные показатели качества обучения, но не давал представления об устойчивости СНС и процессах внутри нее. Для более полной оценки эффективности части СНС, отвечающей за параметризацию изображения, необходимо разработать методику численной оценки данной эффективности.

Целью работы является разработка методики оценки эффективности параметри-затора сверточной нейронной сети в задачах классификации объектов на телевизионных изображениях.

Теоретический анализ. В работах [2—4] предложены два метода визуализации вторичных параметров изображения, получаемых с помощью параметризатора в сверточной нейронной сети:

• метод, вычисляющим значимые карты класса;

• метод, вычисляющий интегральные градиенты.

Два данных метода иногда применяют с модификациями, использующими техники сглаживания выбросов численных расчетов, однако от этого основные идеи методов не меняются.

Идея метода, вычисляющего значимые карты класса, состоит в генерации «идеального» входного изображения, которое соответствует минимально возможной ошибке классификации для обученной сети. Формально, данный метод описывается следующей максимизационной задачей [3]нахождения

1*=а^шах Я (I)(1)

.. 112

I

где £с (I) — значение выходного слоя для с-го класса на входном изображении I;

|Ц|2- L2 — регуляризация [5]; Л — коэффициент регуляризации. Для нивелирования

влияния на генерируемое изображение эффектов нормирования связанных с применением в классификаторе СНС softшax-слоя используются абсолютные величины значений выходного слоя. Softшax-слой определяется как [6]:

Я

е

Р = -—; г е с, (2)

X«*

к=0

где Р — нормированное значение отклика СНС для класса с; С — количество классов

в архитектуре СНС; Я — отклик СНС до нормировки. Таким образом, реконструируется некоторый идеальный образ изображения заданного класса. Следует отметить, что реконструкция «идеального» образа возможна для любого слоя в архитектуре ИНС.

В [3] приводится метод, основанный на анализе градиентов при работе ИНС для генерации карты наиболее значимых признаков параметризатора для данного объекта. Для понимания фундаментальной идеи метода рассмотрим его на примере примитивной однослойной полносвязной ИНС. Введем оценку, характеризующую принадлежность изображения к классу с следующим образом:

Яг (I) = м?с1 + Ьг, (3)

где I — векторизованное представление изображения в одномерном виде, подобные преобразования обсуждались в [1]; Wc и Ьс — веса и смещения ИНС соответственно. Отметим, что для данной модели не использовалась нелинейность в качестве функции активации. В случае СНС £с (I) является сложной нелинейной функцией от I, поэтому функция 1 становится трудновычислимой. Для изображения 1о можно аппроксимировать 8С (I) с помощью линейных функций в окрестности 1о, используя разложение Тейлора первого порядка:

т дБ

Я (I) « VеI + Ь, V = дЯ г Ш

(4)

После данной аппроксимации следует приступать к решению максимизационной задачи (1). В [7] показано, что данный подход фактически является реконструирующей моделью. Сверточный слой СНС определяется как

Хп+1=ХпоКп, (5)

I

о

где Х„+1 — отклик сверточного слоя п (без использования функции активации); Кп — ядра сверточного слоя п\ Хп — вход слоя //; — поэлементное умножение. Для подобного слоя градиенты вычисляются следующим образом:

а/ - а/ К, (в)

гх„ адг„,

где Кп — матрицы ядер слоя п, отраженные вертикально и горизонтально. В реконструирующих сетях вычисление //-го слоя производится аналогично:

(7)

где R — отклик соответствующего слоя реконструирующей сети. Для завершения реконструкции отклика сверточного слоя СНС необходимо учесть нелинейности, вносимые функцией активации. В работе рассматривались СНС, использующие в качестве функции активации в сверточных слоях кусочно-линейную функцию [8]:

/( х) = тах(0, х). (8)

Для подобной функции градиент вычисляется следующим образом:

д/ Г0, если X < 0

/ Ч и . (9)

дХи [1, иначе

Последним элементом, позволяющим вычислить наиболее значимые карты признаков, является вычисление отклика слоя подвыборки. Данный слой описывается как

Хп+1(р) = тах Хп (д), (10)

(р)

где p — элемент конечной карты признаков; q — элемент множества ближайших соседей входной карты признаков; О(р) — ближайшие соседи элемента входной карты признаков. Градиент данного слоя вычисляется как:

д/ / -(Л Г0, если x < 0

дХп (Б) дХ,

п +1

(р)1 Б = агвтахX,(д) ; Цх) = . (11)

1, иначе

V де°( р) /

Метод, вычисляющий интегральные градиенты заключается в вычислении интегрального значения градиентов СНС при входном изображении X и базовом изображением X' (изображение, составленное из нулевых значений [4]). Формально данная задач решается как

а=1

о1 (X)=(Х,-х;)х / *(Х +ах(Х -Х)(12)

а=0

где ¥{*) / сХ 1 — градиент, полученный из обратного распространения ошибки для /-го

измерения входного массива; а — интегральный показатель затухания. В оригинальной работе [4] данный показатель принимал непрерывные значения в интервале [0,1], однако для вычислений принимался дискретный интервал [0,1] с шагом 0.02. В данной работе использован исходный дискретный интервал. Принимая во внимание, что X = 0, выражение (12) преобразуется в

1

О,(X) = (Х,)х £ ^(X, +аХ,). (13)

а=0.02

Вычисление градиентов для каждого слоя СНС подробно описано выше. Таким образом, с помощью данного метода можно получить цельное представление о формировании вторичных параметров СНС.

Методика. В работе использовались две СНС: одна разработана и обучена для распознавания набора изображений военной техники с точностью на обучающей выборке 100%, вторая — для распознавания 1000 классов соревнования ImageNet 2014 года [8], данная архитектура сокращенно называется VGG. Были реализованы 4 метода анализа весов СНС: два, описанных ранее, и их модификации, использующие полиноминальное сглаживание пиков.

Получение реконструированных вторичных параметров СНС проводилось в два

этапа:

1. СНС получала на вход два известных изображения (присутствующих в обучающей выборке).

2. СНС получала изображения, не входящие в обучающую выборку. Рассмотрим полученные изображения. На рис. 1 приведены изображения для

первого этапа анализа весов СНС, распознающей военную технику.

Рис. 1. Визуализация реконструированных вторичных параметров изображения

параметризатором СНС: а, б — исходные изображения; 1 —значимые карты класса; 2 — интегральные градиенты; 3 — сглаженные значимые карты класса; 4 — сглаженные интегральные

градиенты

Рис. 1 сформирован для СНС, обучавшейся около 500 эпох. Метрики качества обучения (ошибка, точность, ROI-кривые) показали полное обучение сети на обучающем наборе данных. Однако, рассматривая вторичные признаки изображения, генерируемые СНС, очевидно, что СНС не выделяет отдельные сложные части изображения. Для человека данные изображения неразличимы, отнесение объекта к какому-либо классу затруднено. На рис. 2 приведен аналогичный набор изображений для сети VGG.

Рис. 2. Визуализация реконструированных вторичных параметров изображения

параметризатором СНС: а, б — исходные изображения; 1 —значимые карты класса; 2 — интегральные градиенты; 3 — сглаженные значимые карты класса; 4 — сглаженные интегральные

градиенты

Следует обратить внимание на более детальное представление объекта СНС. Выделяются вертикальные и горизонтальные линии, а также сложные кривые. Численно, данные градиенты (СНС для военной техники и VGG) различаются на 6 порядков, что говорит об устойчивости VGG сети. Таким образом, на основании полученных визуализаций можно выбрать, с помощью экспертной оценки, более эффективный параметриза-тор СНС. Второй этап реконструкции представляет собой тестирование устойчивости СНС. Сети предъявляются изображения, не входящие в обучающую выборку. На рис. 3 приведен результат визуализации реконструкции вторичных параметров для обеих СНС на изображениях, не входящих в обучающую выборку.

Рис. 3. Визуализации реконструкции вторичных параметров для обеих СНС на изображениях, входящих в обучающую выборку другой сети: а, б — исходные изображения для СНС, обученной на военной технике и VGG соответственно; 1 —значимые карты класса; 2 — интегральные градиенты; 3 — сглаженные значимые карты класса; 4 — сглаженные интегральные градиенты

VGG демонстрирует более сложное выделение вторичных параметров на изображениях из другой обучающей выборки.

Приведенные реконструированные изображения позволяют оценивать эффективность параметризатора СНС с помощью экспертной оценки. Для введения формального представления об эффективности параметризатора рассмотрим методику вычисления разности изображений. В работе использовалось усредненное евклидово расстояние между двумя изображениями [5]:

I =

1

н ш

ИЖ

УУ(/2 _/2 у

(14)

Й=1

где Н, Ж — высота и ширина изображения соответственно; — реконструированное значение пикселя на И-й высоте и ^-й ширине первого изображения. Данное расстояние

предлагается интерпретировать как меру различимости вторичных параметров, сформированных параметризатором СНС, двух изображений разных классов. Чем большее расстояние между изображениями во внутреннем пространстве СНС, тем меньшим может быть классифицирующий полносвязный слой. На рис. 4 приведены пары изображений, выступающие примером вычисления эффективности параметризатора СНС.

Рис. 4. Изображения, для которых получены оценки эффективности параметризатора СНС: а — изображения, не входящие ни в одну обучающую выборку; б — изображения из обучающей выборки VGG сети; в — изображения из обучающей выборки военной

техники

Для наглядного изображения сравнительных характеристик параметризаторов СНС целесообразно построить гистограммы значений евклидовых расстояний между парами изображений. На рис. 5 приведена гистограмма для пары изображений рис. 4,а. В таблице приведены сокращения на гистограммах. Следует отметить, что на рисунках использован логарифмический масштаб.

Перечень сокращений на гистограммах

Подпись на гистограмме Описание

а Значимые карты класса для СНС, обученной на военной технике

б Значимые карты класса для VGG сети

в Сглаженные значимые карты класса для СНС обученной на военной технике

г Сглаженные значимые карты класса для VGG сети

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

д Интегральные градиенты для СНС, обученной на военной технике

е Интегральные градиенты для VGG сети

ж Сглаженные интегральные градиенты для СНС, обученной на военной технике

з Сглаженные интегральные градиенты для VGG сети

Рис. 5. Гистограмма расстояний для пары изображений а

Рис. 6. Гистограмма расстояний для пары изображений б

а б в гдежз

1,ООЕ 01 1,ООЕ-О3 1,О0Е-05 1,ООЕ-С)7 1,О0Е-09 1,ООЕ-11 1,ООЕ-13 1,ООЕ-15 1,ООЕ-17

Рис. 7. Гистограмма расстояний для пары изображений в

Следует обратить внимание на то, что реконструирование изображений производилось на основе вычисления градиентов. В глубоких СНС градиенты сильно затухают к первым слоям, что ведет к малому численному значению. В работе использовалась относительная разность между изображениями для соблюдения корректности сравнения двух СНС. По полученным гистограммам можно заключить об эффективности парамет-ризатора VGG сети. Однако в работе приведена пара изображений б, которая является примером неправильной оценки эффективности параметризатора. СНС, обученная на военной технике, на данной паре показывает более высокие результаты. Из этого следует, что оценка эффективности параметризатора СНС должна быть интегральной — на некотором множестве изображений. В работе объем оценочных пар составлял 200. Данное число пар подобрано эмпирически — при меньшем числе пар оценка становится менее точной, при большем — порядок времени вычисления оценки начинает приближаться к порядку времени обучения СНС на одной эпохе.

Вывод. Разработанная в работе методика позволяет оценивать эффективность параметризации в СНС числено, избегая привлечения экспертов. Вместе с тем косвенным результатом работы является численное подтверждение того факта, что более глубокие СНС эффективнее выделяют вторичные параметры изображения. Полученные результаты возможно использовать при построении искусственных нейронных сетей для распознавания объектов на изображениях в практических приложениях.

ЛИТЕРАТУРА

1. Толстых А. А., Голубинский А. Н. Выбор архитектуры искусственной нейронной сети на основе сравнения эффективности методов распознавания // Вестник Воронежского института МВД России. — 2018. — № 1. — С. 27—37.

2. Erhan D., Bengio Y., Courville A., Vincent P. Visualizing Higher-Layer Features of a Deep Network. — University of Montreal, Tech. rep. Jun 2009.

3. Simonyan K., Vedaldi A., Zisserman A. Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps // CoRR. — Vol. abs/1312.6034, 2013.

4. Sundararajan M., Taly A., Yan Q. Axiomatic Attribution for Deep Networks // CoRR. — Vol. abs/1703.01365, 2017.

5. Вьюгин В.В. Математические основы теории машинного обучения и прогнозирования. — М. : МЦНМО, 2013. — 387 с.

6. Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение. — М. : ДМК Пресс, 2017. — 652 с.

7. Springenberg J. T., Dosovitskiy A., Brox T., Riedmiller M. A. Striving for Simplicity: The All Convolutional Net // CoRR. —Vol. abs/1412.6806, 2014.

8. Simonyan K., Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition // CoRR. — Vol. abs/1409.1556, 2014.

REFERENCES

1. Tolstyih A. A., Golubinskiy A. N. Vyibor arhitekturyi iskusstvennoy neyronnoy seti na osnove sravneniya effektivnosti metodov raspoznavaniya // Vestnik Voronezhskogo insti-tuta MVD Rossii. — 2018. — # 1. — S. 27—37.

2. Erhan D., Bengio Y., Courville A., Vincent P. Visualizing Higher-Layer Features of a Deep Network. — University of Montreal, Tech. rep. Jun 2009.

3. Simonyan K., Vedaldi A., Zisserman A. Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps // CoRR. — Vol. abs/1312.6034, 2013.

4. Sundararajan M., Taly A., Yan Q. Axiomatic Attribution for Deep Networks // CoRR. — Vol. abs/1703.01365, 2017.

5. Vyugin V.V. Matematicheskie osnovyi teorii mashinnogo obucheniya i prognoziro-vaniya. — M. : MTsNMO, 2013. — 387 s.

6. Gudfellou Ya., Bendzhio I., Kurvill A. Glubokoe obuchenie. — M. : DMK Press, 2017. — 652 s.

7. Springenberg J. T., Dosovitskiy A., Brox T., Riedmiller M. A. Striving for Simplicity: The All Convolutional Net // CoRR. —Vol. abs/1412.6806, 2014.

8. Simonyan K., Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition // CoRR. — Vol. abs/1409.1556, 2014.

СВЕДЕНИЯ ОБ АВТОРЕ

Толстых Андрей Андреевич. Преподаватель кафедры тактико-специальной подготовки.

Воронежский институт МВД России.

E-mail: [email protected]

Россия, 394065, Воронеж, проспект Патриотов, 53. Тел. (473)200-52-68.

Tolstykh Andrey Andreevich. Lecturer of the chair of Tactical and Special Disciplines.

Voronezh Institute of the Ministry of the Interior of Russia.

E-mail: [email protected]

Work address: Russia, 394065, Voronezh, Prospect Patriotov, 53. Tel. (473)200-52-68.

Ключевые слова: сверточные нейронные сети; распознавание объектов; оценка эффективности; реконструирование весов.

Key words: convolution neural networks; object recognizing; performance evaluation; reconstruction of weights.

УДК 004.932:004.032.26

i Надоели баннеры? Вы всегда можете отключить рекламу.