Научная статья на тему 'ПРИМЕНЕНИЕ НЕЙРОННОЙ СЕТИ ДЛЯ СТИЛИЗОВАННОЙ ОБРАБОТКИ ИЗОБРАЖЕНИЙ'

ПРИМЕНЕНИЕ НЕЙРОННОЙ СЕТИ ДЛЯ СТИЛИЗОВАННОЙ ОБРАБОТКИ ИЗОБРАЖЕНИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
158
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБРАБОТКА ИЗОБРАЖЕНИЙ / НЕЙРОННЫЕ СЕТИ / СВЕРТОЧНЫЕ СЕТИ / СВЕРТКА / ПЕРЕДАЧА СТИЛЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Верзун С.В.

В статье рассмотрена задача обработки графических изображений с использованием математического аппарата искусственных нейронных сетей. Отдельно рассматривается структура определенной сверточной нейронной сети. Для решения задачи художественной обработки фотографии с использованием заданной стилистической техники используются два изображения - «картинка-контент» и «картинка-стиль», задающая шаблон стилистики. При использовании различных стилистических шаблонов можно сформировать фото с разной стилистикой - например, в стиле импрессионизма, абстракционизма и т.д.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ПРИМЕНЕНИЕ НЕЙРОННОЙ СЕТИ ДЛЯ СТИЛИЗОВАННОЙ ОБРАБОТКИ ИЗОБРАЖЕНИЙ»

С.В. Верзун

ПРИМЕНЕНИЕ НЕЙРОННОЙ СЕТИ ДЛЯ СТИЛИЗОВАННОЙ ОБРАБОТКИ ИЗОБРАЖЕНИЙ

В статье рассмотрена задача обработки графических изображений с использованием математического аппарата искусственных нейронных сетей. Отдельно рассматривается структура определенной сверточной нейронной сети. Для решения задачи художественной обработки фотографии с использованием заданной стилистической техники используются два изображения - «картинка-контент» и «картинка-стиль», задающая шаблон стилистики. При использовании различных стилистических шаблонов можно сформировать фото с разной стилистикой - например, в стиле импрессионизма, абстракционизма и т.д.

Ключевые слова: обработка изображений; нейронные сети; свер-точные сети; свертка; передача стиля.

Введение. Благодаря возможности обучения искусственные нейронные сети имеют возможность более эффективно решать задачи распознавания и идентификации графических образов в разных областях жизни. На сегодняшний день существует много типов архитектуры искусственных нейронных сетей, которые в процессе обработки изображений способны обнаруживать отдельные детали, настраивать контрастность, но архитектура сверточной нейронной сети позволяет решать качественно новую задачу - художественной или стилистической обработки изображений, что дает возможность. формирование образов заданной стилистики. Сверточные нейронные сети могут находить определенные объекты на изображениях, а также обнаруживать важные детали этих объектов, то есть высокоуровневые признаки. Эта способность позволяет различать объекты между собой, определять расстояние между объектами и модернизировать изображения с сохранением высокоуровневых признаков.

Постановка проблемы. В данной работе рассматривается задача обработки фотографий и переноса определенного заданного стиля на исходное изображение. То есть на основании имеющихся двух изображений - начальной фотографии и графически-стилистического контента, который задает стилистику, формируется новая стилизованная фотография. Эта стилизованная фотография остается узнаваемой, но на нее накладываются определенные структуры, цвета и формы. При использовании разных графических кон-тентов можно сформировать фото с разной стилистикой - например, в стиле импрессионизма, абстракционизма и т.д. Таким образом, работа представляет интерес как с художественной, так и с исследовательской точки зрения. В частности, важна разработка и реализация алгоритма обработки изображений на базе математического аппарата искусственных нейронных сетей.

Анализ литературных данных

Рис. 1. Структура искусственного нейрона Рис.2. Модель сверточной нейронной сети

© С.В. Верзун, 2022.

Научный руководитель: Мкртычев Сергей Вазгенович - доктор технических наук, профессор, Институт математики, физики и информационных технологий, доцент кафедры "Прикладная математика и информатика", Тольяттинский государственный университет, Россия.

Сверточная нейронная сеть - структурный вид многослойной искусственной нейронной сети, используемой для эффективной работы с изображениями. Метод основан на использовании математической операции «свертка». К слоям этой сети применяется операция свертки на входе, а результат передается в следующий слой. Такая организация работы сети имитирует реакцию биологического нейрона на визуальные раздражители.

Рис.3. Принцип работы функций потерь

контента и стиля

О ЮС 200 300 «О 500

Рис.4. Входное изображение контента

Свертка выполняется со вспомогательной функцией, задаваемой конечными импульсными характеристиками серии цифровых фильтров, последовательно накладываемых на входной сигнал -изображения, подлежащего обработке. Эти фильтры являются матрицами - обычно трехмерными наборами значений, образующих в пространстве квадратную призму. При обработке изображений часто используются матрицы с высотой и шириной, равные 3 или 5. Глубина матрицы соответствует количеству каналов изображения. Три цветовых канала (RGB) означают глубину, равную трем.

Нейронная передача стиля - метод формирования изображения путем объединения двух других изображений. При этом задается два изображения: картинка-контент и картинка-стиль. Результирующее изображение включает в себя объекты контента и мелкие детали картинки-стиля. Обычно контент - это фотография, а стиль - абстрактный рисунок, в результате получается как бы нарисованная фотография. Входные изображения пропускаются через сверточную нейронную сеть, после чего для исходного изображения вычисляются значения функции потери контента и функции потери стиля.

Функция потери контента определяется как:

где X1, У1 - признаки, полученные после обработки изображений X и Y в 1-м слое нейросети; Н^,С -размер и количество каналов соответственно. Функция потери контента демонстрирует, насколько данные изображения схожи между собой, причем сравнение осуществляется не непосредственно (попиксельно), а путем определения и сравнения высокоуровневых признаков изображений. Функция потери стиля:

где О4 - матрица Грама для сборки признаков А: с ас„ а - нейрон в координатах ху в канале признаков А.

Матрица Грама иллюстрирует связь между нейронами в разных каналах, а функция потери стиля ограничивает разницу в матрицах и демонстрирует, насколько изображения схожи по стилю.

Далее решается задача оптимизации: где деопеем и д^е - наборы номеров этих слоев, в которых нужно определить функции потерь, а и в - вес контента и стиля соответственно (чем больше отношение а/р , тем менее стилизованным будет фото, и наоборот).

Эксперимент. Входящие изображения масштабируем к необходимому размера. Загружаем предварительно подготовленную нейросеть (VGG19). Зная, что мы можем различать слои, отвечающие за стиль (основные формы) и те, что отвечают за контент (особенности изображения), мы можем разделить слои для самостоятельной работы над содержанием и стилем. Тогда мы ставим нашу задачу как задачу оптимизации, где мы будем минимизировать:

•потеря контента (расстояние между входящими и исходными изображениями) •потерю стиля (расстояние между стилем и исходными изображениями) •суммарные потери вариации (пространственное сглаживание исходного изображения)

Рис.5. Входное изображение стиля

Рис. 6. Результат эксперимента

Определив нашу модель, определяем функцию потери контента. Чтобы сохранить оригинальный контент, сводим к минимуму разницу между входящим изображением и исходным изображением. Подобно потере контента, потеря стиля также определяется как разница между двумя изображениями. Однако, для применения нового стиля, утрату стиля определяем как в разницу между изображением стиля и исходным изображением. Определяем общую утрату вариации. После этого, вычислив утрату контента, стиля и общий урон вариаций, определяем процесс передачи стиля как проблему оптимизации, где мы сводим свести к минимуму наши глобальные потери (это сочетание содержимого, стиля и общих потерь вариации). В каждой итерации создаем исходное изображение так, чтобы расстояние (разница) между выходом и входом/стилем на соответствующих слоях объектов была минимизирована.

Выводы. В данной работе была реализована нейронная сеть с качественной глубиной изображения. При изучении распознавания объекта сверточная сеть становится инвариантной ко всему изображению и сохраняет идентичность объекта. То, что нейронная сеть обучена передавать стиль, дает широкие возможности выведения нужной визуальной системы по заданным критериям и входным параметрам.

Библиографический список:

1.M. M. Cheng, X. C. Liu, P. L. Rosin, Y. K. Lai, "Depth- aware neural style transfer,", 2017, pp. 1-10, DOI: 10.1145/3092919.3092924

2.A. S. Ecker, M. Bethge, L. A. Gatys, "Image Style Transfer Using Convolutional Neural Networks," 2016 IEEE Conf. Com- put. Vis. Pattern Recognit., pp. 2414-2423, 2016, DOI: 10.1109/CVPR.2016.265

3.W. Chen, D. Yang, and J. Deng, Z. Fu, "Single-Image Depth Per- ception in the Wild," Adv. Neural Inf. Process. Syst., pp. 730- 738, 2016.

4.A. G. Howard, Some Improvements on Deep Convolutional Neural Network Based Image Classification. 2013, URL: https://arxiv.org/abs/1312.5402

5.J. Hays, Z. Ren, X. Tao, C. Qian, P. Y. Laffont, "Transient attributes for high-level understanding and editing of outdoor scenes," ACM Trans. Graph., vol. 33, no. 4, pp. 1-11, 2014, DOI: 10.1145/2601097.2601101

6.C. Li, M. Wand, "Combining Markov Random Fields and Convolutional Neural Networks for Image Synthesis," 2016, URL: http://arxiv.org/abs/1601.04589

7.V. V. Vyugin, Matematicheskie osnovy teorii mashinnogo obucheniya i prognozirovaniya [The mathematical foundations of machine learning theory and forecast]. Moscow, 2013.

8.K. Simonyan and A. Zisserman, "Very Deep Convolutional Net- works for Large-Scale Image Recognition," 2014, URL: http://arxiv.org/abs/1409.1556

9.A. L. Yuille, L. C. Chen, I. Kokkinos, K. Murphy, G. Papandreou, "DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs.," IEEE Trans. Pattern Anal. Mach. Intell., vol. 40, no. 4, pp. 834-848, 2018, DOI: 10.1109/TPAMI.2017.2699184

10.A. A. Lukjanitsa, A. G. Shishkin, Obrabotka videoizobra- zheniy [Video processing]. Moscow: ISS Press, 2009.

ВЕРЗУН СТАНИСЛАВ ВИКТОРОВИЧ - магистрант, Тольяттинский государственный университет, Россия.

i Надоели баннеры? Вы всегда можете отключить рекламу.