ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИЙ ПРИРОДНОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕШЕНИЕМ НА ОСНОВЕ GAN

Сай С. В.; Кудяшов А. А.

системный анализ, управление

И ОБРАБОТКА ИНФОРМАЦИИ,

ВЕСТНИК ТОГУ. 2024. № 1 (72)

СТАТИСТИКА

УДК 004.896

С. В. Сай, А. А. Кудяшов

ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИЙ ПРИРОДНОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕШЕНИЕМ НА ОСНОВЕ GAN

Сай С. В. - д-р техн. наук, профессор, e-mail: [email protected]; Кудяшов А. А. - аспирант, e-mail: [email protected] (ТОГУ)

В статье рассматривается применение генеративно-состязательной сети (GAN) в задаче повышения разрешения изображений в два раза. Приводится описание архитектуры GAN на основе сверточной сети. Сеть обучена с использованием набора данных состоящего из 540 изображений природного ландшафта с разрешением 256 на 256 пикселей. В результате тестирования GAN получены усредненные коэффициенты метрик PSNR, SSIM, MFSD, а также среднеквадратичная ошибка вывода модели VGG-19. Приведены результаты сравнения качества изображений с увеличенным разрешением на основе GAN и методом масштабирования с использованием фильтра Лан-цоша.

Ключевые слова: нейронные сети, машинное обучение, GAN, суперразрешение, анализ качества изображений.

Генеративно-состязательная сеть [1] принадлежит к типу нейронных сетей с обучением без учителя и основывается на комбинации двух отдельно обучаемых моделей: генератора (G) и дискриминатора (D). Сеть генератора учится создавать правдоподобные изображения повышенного разрешения, в то время как сеть дискриминатора учится отличать истинные изображения от ложных, создаваемых генератором. В настоящее время сети на основе GAN исследуются в системах повышения разрешения изображения в два, четыре и более раз. Такие сети получили абревиатуру SRGAN [2]. До сих пор, актуальными остаются вопросы связанные с оценкой качества изображений с суперразрешением (SR).

Простой способ увеличения разрешения — это масштабирование с использованием методов интерполяции соседних пикселей. В [3] приводится сравнение методов интерполяции в задачах увеличения изображения в два

Введение

ВЕСТНИК ТОГУ. 2024. № 1 (72)

раза. Наиболее эффективным считается фильтр Ланцоша, который взят за основу для сравнительного анализа. В настоящей работе представлены результаты исследования разработанной сети GAN позволяющей повышать разрешение изображений в два раза с «хорошим» качеством.

Архитектура модели

Упрощенная модель GAN показана на рис. 1. Архитектура модели дискриминатора представлена в табл. 1, генератора в табл. 2.

В GAN обучение сводится к минимизации значений функции ошибки генератора. Как и в случае с другими свёрточными нейронными сетями веса генератора и дискриминатора обновляются методом обратного распространения ошибки.

В процессе обучения на вход D отдельно подаются истинные и сгенерированные изображения с исходным разрешением 256x256 пикселей. На вход генератора подаются изображения с уменьшенным разрешением в два раза, т.е. 128x128 пикселей. Потери D вычисляются на основе суммы возвращаемых бинарной перекрёстной энтропией вероятностей принадлежности к истинным или ложным изображениям. Потери D вычисляются исходя из способности дискриминатора классифицировать ложные данные. Дополнительно использовалась метрика SSIM, а также вывод двадцать первого слоя модели VGG-19 для определения визуально значимых характеристик [4]. После обучения, GAN может использоваться в задачах увеличения разрешения изображений в два раза для участков изображений с разрешением равным 128x128 до 256x256 пикселей.

Из-за необходимости вычисления бинарной перекрёстной энтропии, на последних слоях сетей использовалась сигмоидная функция активации. Таким образом, выход последнего слоя приводился к диапазону значений от 0 до 1.

Рис. 1. Упрощенный вид GAN в задаче повышения разрешения изображений

ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИИ ПРИРОД- -

НОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕ- ВЕОШК ТОГУ 2К4. № 1 (72)

ШЕНИЕМ НА ОСНОВЕ GAN

Таблица 1

Архитектура дискриминатора

№ слоя Название слоя Параметры

1 Input [Ширина, высота, фильтры] [256, 256, 3]

2 Conv2D (Свёртка) [256, 256, 80] Активация: LeakyReLU Ядро: 3x3

3 Conv2D (Свёртка)] [128, 128, 160] Активация: LeakyReLU Ядро: 3x3 Сдвиг: 2

4 BatchNormalization (Нормализация) [128, 128, 160] Момент: 0.95

5 Conv2D (Свёртка) [64, 64, 160] Активация: LeakyReLU Ядро: 3x3

6 Dense [64, 64, 320] Активация: LeakyReLU

7 Flatten [1310720]

8 Output: Dense [1] Активация: sigmoid

Общее число параметров: 1 711 041

Таблица 2

Архитектура генератора

№ слоя Название слоя Параметры

1 Input [Ширина, высота, фильтры] [128, 128, 3]

2 Conv2D (Свёртка) [128, 128, 320] Активация: ЬеакуЯеЬи Ядро: 3x3

3 BatchNormalization (Нормализация) [128, 128, 320] Момент: 0.95

4 Conv2D (Свёртка) [128, 128, 320] Активация: ЬеакуЯеЬи Ядро: 3x3

5 Conv2D (Свёртка) [128, 128, 320] Активация: ЬеакуЯеЬи Ядро: 3x3

6 Add (№5 + №2) [128, 128, 320]

7 Conv2D (Свёртка) [128, 128, 320] Активация: ЬеакуЯеЬи Ядро: 3x3

8 Conv2D (Свёртка) [128, 128, 320] Активация: ЬеакуЯеЬи Ядро: 3x3

9 Add (№8 + №6) [128, 128, 320]

ВЕСТНИК ТОГУ. 2024. № 1 (72)

Продолжение табл. 2

10 Conv2D (Свёртка) Активация: LeakyReLU

[128, 128, 320] Ядро: 3x3

11 Conv2D (Свёртка) Активация: LeakyReLU

[128, 128, 320] Ядро: 3x3

12 Add (№11 + №9)

[128, 128, 320]

13 Conv2DTranspose (Обратная Активация: LeakyReLU

свёртка) Ядро: 3x3

[256, 256, 320] Сдвиг: 2

14 Conv2D (Свёртка) Активация: LeakyReLU

[256, 256, 640] Ядро: 3x3

15 Output: Conv2D (Свёртка) Активация: sigmoid

[256, 256, 3] Ядро: 3x3

Общее число параметров: 8 324 483

В каждом сверточном слое использованы фильтры с ядром 3^3, при этом их количество равно 320.

Слой Add (Сумма) используется для создания остаточного соединения с предыдущими слоями. Слой BatchNormaHzation (Пакетная нормализация) с заданным моментом уменьшает чувствительность к начальной инициализации весов, сглаживает зависимость между выборками изображений и выступает в качестве стабилизатора при обновлении градиентов.

Наборы изображений и параметры сети

Обучающий набор состоит из 540 оригинальных несжатых изображений формата PNG с разрешением 512x512 и цветовой моделью RGB. В процессе обучения на выход сети подавались вырезанные по случайной координате изображения с разрешением 256x256 пикселей. На вход сети генератора подавались эти же изображения с пониженным до 128x128 пикселей разрешением. С 50% вероятностью изображения подвергались операции зеркального отображения по горизонтали.

Проверочный набор состоит из 10 изображений, не входящих в обучающий.

Были использованы следующие начальные параметры сети:

- количество эпох E = 4000;

- размер выборки в итерации B = 16.

Параметр E указывает на число итераций прямого и обратного прохода по всем предоставленным данным в сети. Размер выборки B определяет часть от общего количества изображений, которая будет использоваться в эпохе в течении одного шага итерации.

Поскольку на последней итерации значение параметра B превышает максимально допустимый индекс обучающего набора, последующие изображения

ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИИ ПРИРОД- -

НОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕ- ВЕСТНИК! ТСГУ. 2К4 № 1 (72)

ШЕНИЕМ НА ОСНОВЕ GAN

брались из его начала, таким образом индексы подаваемых на вход сети данных смещались за каждую эпоху. Значения функций потерь

Значения потерь вычислялись следующим образом:

V = 10 MSE(VGG(G(x), VGG(y))); M = 0,1 (1 - SSIM(G(x), y)); B = 0,002 BCE(1, D(G(x)); GioSS = V+M + B; D,oSS = BCE(1, D(y)) + BCE(0, D(x)),

где О - модель генератора, Б - модель дискриминатора, х - выборка изображений низкого разрешения, у - выборка изображений высокого разрешения, М8Е - среднеквадратичная ошибка, УОО - модель УОО-19, 881М() - функция метрики ВСЕ - функция бинарной перекрёстной энтропии.

Были получены следующие значения 881М наилучшей контрольной точки за историю потерь по обучающему набору: тах^т) = 0,8925 (рис. 2), а также значения потерь генератора шт^еп_1о88) = 0,0151, дискриминатора шах(&8С_1о88) = 1,2385 (рис. 3) и средней квадратичной ошибки УОО-19 min(vgg_1oss) = 0,0026 (рис. 4).

500 1000 1500 2000 2500 3000 3500 4000

Epoch #

Рис. 2. График значений метрики SSIM по обучающему (ssim) и проверочному

набору (val_ssim)

ВЕСТНИК ТОГУ. 2024. № 1 (72)

а) Генератор

500 1000 1500 2000 2500 3000 Еро<± #

б) Дискриминатор

Рис. 3. Графики значений функций потерь генератора и дискриминатора по обучающему набору

Рис. 4. График значений функции потерь VGG по обучающему (vgg_loss) и проверочному набору (val_vgg_loss)

Значения потерь VGG основывались на средней квадратичной ошибке фильтров последнего слоя модели VGG-19. Активации слоёв проверочного изображения показаны на (рис. 5).

ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИИ ПРИРОД- -

НОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕ- ЖЛНЖ ТОГУ. 2Ш. № 1 (72)

ШЕНИЕМ НА ОСНОВЕ GAN

а) Фильтр Ланцоша

в) GAN

Рис. 5. Активации слоёв VGG-19 проверочного изображения

ВЕСТНИК ТОГУ. 2024. № 1 (72)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Результаты анализа

Оценка качества вывода модели проводилась в сравнении с изображениями, увеличенными при помощи фильтра Ланцоша.

Для анализа качества были использованы метрики PSNR, SSIM, MFSD, а также средняя квадратичная ошибка выводов модели УОО. На рис. 6 показаны примеры изображений с повышенным разрешением.

а) Фильтр Ланцоша б) GAN

Рис. 6. Примеры вывода модели на проверочных изображениях

В табл. 3 приведены результаты сравнения качества изображений с увеличенным разрешением через фильтр Ланцоша If и вывода модели Igan по каждому изображению из проверочного набора при помощи метрик PSNR [5], SSIM [6], MFSD [7] и VGG-19.

ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИЙ ПРИРОДНОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕШЕНИЕМ НА ОСНОВЕ GAN

ВЕСТНИК ТОГУ. 2024. № 1 (72)

Таблица 3

Результаты анализа_

№ PSNR SSIM MFSD VGG-19 (MSE)

If Igan If Igan If Igan If Igan

1 29.650 28.322 0.803 0.766 1,87 1,88 0.005 0.001

2 30.724 29.965 0.862 0.851 2,22 2,10 0.005 0.001

3 26.896 26.125 0.792 0.788 1,11 0,97 0.006 0.001

4 31.505 30.855 0.850 0.831 1,32 1,04 0.003 0.001

5 27.256 26.139 0.807 0.779 1,37 1,26 0.006 0.001

6 27.279 26.095 0.827 0.794 1,25 1,24 0.007 0.001

7 29.096 28.553 0.868 0.852 1,11 1,19 0.006 0.001

8 29.243 28.386 0.858 0.847 1,51 1,44 0.007 0.001

9 27.268 26.653 0.860 0.850 1,62 1,95 0.008 0.001

10 29.070 28.751 0.881 0.869 1,67 1,58 0.006 0.001

Mean 28.799 27.984 0.841 0.823 1,51 1,46 0.0059 0.00093

Значения PSNR и SSIM не позволяют оценить качество генераций модели, поскольку отдают предпочтение размытым изображениям [8]. Метрика MFSD показывает незначительное улучшение качества. Функция среднеквадратиче-ской ошибки фильтров последнего слоя активации VGG-19 возвращает меньшие значения, что соответствует улучшению качества изображения.

Заключение

В результате исследований получено, что по оценкам коэффициентов VGG-19 (MSE) и метрики MFSD, реализованная модель GAN позволяет повышать разрешение изображений в два раза, при этом улучшая их визуальную чёткость.

Метрики PSNR и SSIM не дают объективных результатов так как показывают лучшие оценки для фильтра Ланцоша, что не соответствует визуальным оценкам (см. рис. 6).

Таким образом, оценка эффективности нейросети в задачах обработки изображений по метрикам PSNR и SSIM не дает объективных результатов, что объясняется ошибками предсказания на выходах нейросети. К перспективным направлениям исследований относится поиск и разработка новых объективных метрик оценки качества изображений с учетом ошибок предсказания нейросети.

Библиографические ссылки

1. Twitter Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network / Christian Ledig, Lucas Theis, Ferenc Husz'ar et al. // Computer Vision and Pattern Recognition. (cs.CV). 2017.

ВЕСТНИК ТОГУ. 2024. № 1 (72)

2. Wang Z., Chen J., Steven C. H. Hoi. Deep Learning for Image Super-resolution: A Survey // Computer Vision and Pattern Recognition. (cs.CV). 2020.

3. Ваганов C. Е., Хашин С. И. Сравнение алгоритмов удвоения размера изображения // Моделирование и анализ информационных систем. 2016. Т. 23, № 4. С. 389-400.

4. VGG16 - нейросеть для выделения признаков изображений. URL: https://neurohive.io/ru/vidy-nejrosetej/vgg16-model/ (дата обращения: 21.11.2023)

5. Pratt W.K. Digital Image Processing // John Wiley & Sons. 2001.

6. Image Quality Assessment: From Error Visibility to Structural Similarity / Wang Zhou, Bovik A. C., Sheikh H. R., Simoncelli E. P. // IEEE Transactions on Image Processing. 2004. Vol. 13(4). P. 600-612.

7. Сай С. В. Метрика искажений мелких структур компрессированных изображений // Компьютерная оптика. 2018. № 5. С. 829-837.

8. Reibman A. R., Bell R. M., Gray S. Quality assessment for super-resolution image enhancement // International Conference on Image Processing, IEEE Xplore, 2006.

Title: Quality Assessment of Natural Landscape Images with Increased Resolution Based on GAN

Authors' affiliation:

Sai S. V. - Pacific National University, Khabarovsk, Russian Federation Kudyashov A. A. - Pacific National University, Khabarovsk, Russian Federation

Abstract: In the article, the authors discuss the use of a generative adversarial network (GAN) in the problem of doubling the resolution of images. A description of the GAN architecture based on a convolutional network is given. The network has been trained using a dataset consisting of 540 images of a natural landscape with a resolution of 256 by 256 pixels. As a result of GAN testing, the averaged coefficients of PSNR, SSIM, MFSD metrics, as well as the root-mean-square error of the VGG-19 model output, have been obtained. The results of comparing the quality of images with increased resolution based on GAN and the scaling method using the Lanczos filter are presented.

Keywords: neural networks, machine learning, GAN, super-resolution, image quality analysis

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Сай С. В., Кудяшов А. А.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Сай С. В., Кудяшов А. А.

Quality Assessment of Natural Landscape Images with Increased Resolution Based on GAN

Текст научной работы на тему «ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИЙ ПРИРОДНОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕШЕНИЕМ НА ОСНОВЕ GAN»