системный анализ, управление
И ОБРАБОТКА ИНФОРМАЦИИ,
ВЕСТНИК ТОГУ. 2024. № 1 (72)
СТАТИСТИКА
УДК 004.896
С. В. Сай, А. А. Кудяшов
ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИЙ ПРИРОДНОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕШЕНИЕМ НА ОСНОВЕ GAN
Сай С. В. - д-р техн. наук, профессор, e-mail: [email protected]; Кудяшов А. А. - аспирант, e-mail: [email protected] (ТОГУ)
В статье рассматривается применение генеративно-состязательной сети (GAN) в задаче повышения разрешения изображений в два раза. Приводится описание архитектуры GAN на основе сверточной сети. Сеть обучена с использованием набора данных состоящего из 540 изображений природного ландшафта с разрешением 256 на 256 пикселей. В результате тестирования GAN получены усредненные коэффициенты метрик PSNR, SSIM, MFSD, а также среднеквадратичная ошибка вывода модели VGG-19. Приведены результаты сравнения качества изображений с увеличенным разрешением на основе GAN и методом масштабирования с использованием фильтра Лан-цоша.
Ключевые слова: нейронные сети, машинное обучение, GAN, суперразрешение, анализ качества изображений.
Генеративно-состязательная сеть [1] принадлежит к типу нейронных сетей с обучением без учителя и основывается на комбинации двух отдельно обучаемых моделей: генератора (G) и дискриминатора (D). Сеть генератора учится создавать правдоподобные изображения повышенного разрешения, в то время как сеть дискриминатора учится отличать истинные изображения от ложных, создаваемых генератором. В настоящее время сети на основе GAN исследуются в системах повышения разрешения изображения в два, четыре и более раз. Такие сети получили абревиатуру SRGAN [2]. До сих пор, актуальными остаются вопросы связанные с оценкой качества изображений с суперразрешением (SR).
Простой способ увеличения разрешения — это масштабирование с использованием методов интерполяции соседних пикселей. В [3] приводится сравнение методов интерполяции в задачах увеличения изображения в два
© Сай С. В., Кудяшов А. А., 2024
Введение
ВЕСТНИК ТОГУ. 2024. № 1 (72)
раза. Наиболее эффективным считается фильтр Ланцоша, который взят за основу для сравнительного анализа. В настоящей работе представлены результаты исследования разработанной сети GAN позволяющей повышать разрешение изображений в два раза с «хорошим» качеством.
Архитектура модели
Упрощенная модель GAN показана на рис. 1. Архитектура модели дискриминатора представлена в табл. 1, генератора в табл. 2.
В GAN обучение сводится к минимизации значений функции ошибки генератора. Как и в случае с другими свёрточными нейронными сетями веса генератора и дискриминатора обновляются методом обратного распространения ошибки.
В процессе обучения на вход D отдельно подаются истинные и сгенерированные изображения с исходным разрешением 256x256 пикселей. На вход генератора подаются изображения с уменьшенным разрешением в два раза, т.е. 128x128 пикселей. Потери D вычисляются на основе суммы возвращаемых бинарной перекрёстной энтропией вероятностей принадлежности к истинным или ложным изображениям. Потери D вычисляются исходя из способности дискриминатора классифицировать ложные данные. Дополнительно использовалась метрика SSIM, а также вывод двадцать первого слоя модели VGG-19 для определения визуально значимых характеристик [4]. После обучения, GAN может использоваться в задачах увеличения разрешения изображений в два раза для участков изображений с разрешением равным 128x128 до 256x256 пикселей.
Из-за необходимости вычисления бинарной перекрёстной энтропии, на последних слоях сетей использовалась сигмоидная функция активации. Таким образом, выход последнего слоя приводился к диапазону значений от 0 до 1.
Рис. 1. Упрощенный вид GAN в задаче повышения разрешения изображений
ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИИ ПРИРОД- -
НОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕ- ВЕОШК ТОГУ 2К4. № 1 (72)
ШЕНИЕМ НА ОСНОВЕ GAN
Таблица 1
Архитектура дискриминатора
№ слоя Название слоя Параметры
1 Input [Ширина, высота, фильтры] [256, 256, 3]
2 Conv2D (Свёртка) [256, 256, 80] Активация: LeakyReLU Ядро: 3x3
3 Conv2D (Свёртка)] [128, 128, 160] Активация: LeakyReLU Ядро: 3x3 Сдвиг: 2
4 BatchNormalization (Нормализация) [128, 128, 160] Момент: 0.95
5 Conv2D (Свёртка) [64, 64, 160] Активация: LeakyReLU Ядро: 3x3
6 Dense [64, 64, 320] Активация: LeakyReLU
7 Flatten [1310720]
8 Output: Dense [1] Активация: sigmoid
Общее число параметров: 1 711 041
Таблица 2
Архитектура генератора
№ слоя Название слоя Параметры
1 Input [Ширина, высота, фильтры] [128, 128, 3]
2 Conv2D (Свёртка) [128, 128, 320] Активация: ЬеакуЯеЬи Ядро: 3x3
3 BatchNormalization (Нормализация) [128, 128, 320] Момент: 0.95
4 Conv2D (Свёртка) [128, 128, 320] Активация: ЬеакуЯеЬи Ядро: 3x3
5 Conv2D (Свёртка) [128, 128, 320] Активация: ЬеакуЯеЬи Ядро: 3x3
6 Add (№5 + №2) [128, 128, 320]
7 Conv2D (Свёртка) [128, 128, 320] Активация: ЬеакуЯеЬи Ядро: 3x3
8 Conv2D (Свёртка) [128, 128, 320] Активация: ЬеакуЯеЬи Ядро: 3x3
9 Add (№8 + №6) [128, 128, 320]
ВЕСТНИК ТОГУ. 2024. № 1 (72)
Продолжение табл. 2
10 Conv2D (Свёртка) Активация: LeakyReLU
[128, 128, 320] Ядро: 3x3
11 Conv2D (Свёртка) Активация: LeakyReLU
[128, 128, 320] Ядро: 3x3
12 Add (№11 + №9)
[128, 128, 320]
13 Conv2DTranspose (Обратная Активация: LeakyReLU
свёртка) Ядро: 3x3
[256, 256, 320] Сдвиг: 2
14 Conv2D (Свёртка) Активация: LeakyReLU
[256, 256, 640] Ядро: 3x3
15 Output: Conv2D (Свёртка) Активация: sigmoid
[256, 256, 3] Ядро: 3x3
Общее число параметров: 8 324 483
В каждом сверточном слое использованы фильтры с ядром 3^3, при этом их количество равно 320.
Слой Add (Сумма) используется для создания остаточного соединения с предыдущими слоями. Слой BatchNormaHzation (Пакетная нормализация) с заданным моментом уменьшает чувствительность к начальной инициализации весов, сглаживает зависимость между выборками изображений и выступает в качестве стабилизатора при обновлении градиентов.
Наборы изображений и параметры сети
Обучающий набор состоит из 540 оригинальных несжатых изображений формата PNG с разрешением 512x512 и цветовой моделью RGB. В процессе обучения на выход сети подавались вырезанные по случайной координате изображения с разрешением 256x256 пикселей. На вход сети генератора подавались эти же изображения с пониженным до 128x128 пикселей разрешением. С 50% вероятностью изображения подвергались операции зеркального отображения по горизонтали.
Проверочный набор состоит из 10 изображений, не входящих в обучающий.
Были использованы следующие начальные параметры сети:
- количество эпох E = 4000;
- размер выборки в итерации B = 16.
Параметр E указывает на число итераций прямого и обратного прохода по всем предоставленным данным в сети. Размер выборки B определяет часть от общего количества изображений, которая будет использоваться в эпохе в течении одного шага итерации.
Поскольку на последней итерации значение параметра B превышает максимально допустимый индекс обучающего набора, последующие изображения
ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИИ ПРИРОД- -
НОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕ- ВЕСТНИК! ТСГУ. 2К4 № 1 (72)
ШЕНИЕМ НА ОСНОВЕ GAN
брались из его начала, таким образом индексы подаваемых на вход сети данных смещались за каждую эпоху. Значения функций потерь
Значения потерь вычислялись следующим образом:
V = 10 MSE(VGG(G(x), VGG(y))); M = 0,1 (1 - SSIM(G(x), y)); B = 0,002 BCE(1, D(G(x)); GioSS = V+M + B; D,oSS = BCE(1, D(y)) + BCE(0, D(x)),
где О - модель генератора, Б - модель дискриминатора, х - выборка изображений низкого разрешения, у - выборка изображений высокого разрешения, М8Е - среднеквадратичная ошибка, УОО - модель УОО-19, 881М() - функция метрики ВСЕ - функция бинарной перекрёстной энтропии.
Были получены следующие значения 881М наилучшей контрольной точки за историю потерь по обучающему набору: тах^т) = 0,8925 (рис. 2), а также значения потерь генератора шт^еп_1о88) = 0,0151, дискриминатора шах(&8С_1о88) = 1,2385 (рис. 3) и средней квадратичной ошибки УОО-19 min(vgg_1oss) = 0,0026 (рис. 4).
500 1000 1500 2000 2500 3000 3500 4000
Epoch #
Рис. 2. График значений метрики SSIM по обучающему (ssim) и проверочному
набору (val_ssim)
ВЕСТНИК ТОГУ. 2024. № 1 (72)
а) Генератор
500 1000 1500 2000 2500 3000 Еро<± #
б) Дискриминатор
Рис. 3. Графики значений функций потерь генератора и дискриминатора по обучающему набору
Рис. 4. График значений функции потерь VGG по обучающему (vgg_loss) и проверочному набору (val_vgg_loss)
Значения потерь VGG основывались на средней квадратичной ошибке фильтров последнего слоя модели VGG-19. Активации слоёв проверочного изображения показаны на (рис. 5).
ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИИ ПРИРОД- -
НОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕ- ЖЛНЖ ТОГУ. 2Ш. № 1 (72)
ШЕНИЕМ НА ОСНОВЕ GAN
а) Фильтр Ланцоша
в) GAN
Рис. 5. Активации слоёв VGG-19 проверочного изображения
ВЕСТНИК ТОГУ. 2024. № 1 (72)
Результаты анализа
Оценка качества вывода модели проводилась в сравнении с изображениями, увеличенными при помощи фильтра Ланцоша.
Для анализа качества были использованы метрики PSNR, SSIM, MFSD, а также средняя квадратичная ошибка выводов модели УОО. На рис. 6 показаны примеры изображений с повышенным разрешением.
а) Фильтр Ланцоша б) GAN
Рис. 6. Примеры вывода модели на проверочных изображениях
В табл. 3 приведены результаты сравнения качества изображений с увеличенным разрешением через фильтр Ланцоша If и вывода модели Igan по каждому изображению из проверочного набора при помощи метрик PSNR [5], SSIM [6], MFSD [7] и VGG-19.
ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИЙ ПРИРОДНОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕШЕНИЕМ НА ОСНОВЕ GAN
ВЕСТНИК ТОГУ. 2024. № 1 (72)
Таблица 3
Результаты анализа_
№ PSNR SSIM MFSD VGG-19 (MSE)
If Igan If Igan If Igan If Igan
1 29.650 28.322 0.803 0.766 1,87 1,88 0.005 0.001
2 30.724 29.965 0.862 0.851 2,22 2,10 0.005 0.001
3 26.896 26.125 0.792 0.788 1,11 0,97 0.006 0.001
4 31.505 30.855 0.850 0.831 1,32 1,04 0.003 0.001
5 27.256 26.139 0.807 0.779 1,37 1,26 0.006 0.001
6 27.279 26.095 0.827 0.794 1,25 1,24 0.007 0.001
7 29.096 28.553 0.868 0.852 1,11 1,19 0.006 0.001
8 29.243 28.386 0.858 0.847 1,51 1,44 0.007 0.001
9 27.268 26.653 0.860 0.850 1,62 1,95 0.008 0.001
10 29.070 28.751 0.881 0.869 1,67 1,58 0.006 0.001
Mean 28.799 27.984 0.841 0.823 1,51 1,46 0.0059 0.00093
Значения PSNR и SSIM не позволяют оценить качество генераций модели, поскольку отдают предпочтение размытым изображениям [8]. Метрика MFSD показывает незначительное улучшение качества. Функция среднеквадратиче-ской ошибки фильтров последнего слоя активации VGG-19 возвращает меньшие значения, что соответствует улучшению качества изображения.
Заключение
В результате исследований получено, что по оценкам коэффициентов VGG-19 (MSE) и метрики MFSD, реализованная модель GAN позволяет повышать разрешение изображений в два раза, при этом улучшая их визуальную чёткость.
Метрики PSNR и SSIM не дают объективных результатов так как показывают лучшие оценки для фильтра Ланцоша, что не соответствует визуальным оценкам (см. рис. 6).
Таким образом, оценка эффективности нейросети в задачах обработки изображений по метрикам PSNR и SSIM не дает объективных результатов, что объясняется ошибками предсказания на выходах нейросети. К перспективным направлениям исследований относится поиск и разработка новых объективных метрик оценки качества изображений с учетом ошибок предсказания нейросети.
Библиографические ссылки
1. Twitter Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network / Christian Ledig, Lucas Theis, Ferenc Husz'ar et al. // Computer Vision and Pattern Recognition. (cs.CV). 2017.
ВЕСТНИК ТОГУ. 2024. № 1 (72)
2. Wang Z., Chen J., Steven C. H. Hoi. Deep Learning for Image Super-resolution: A Survey // Computer Vision and Pattern Recognition. (cs.CV). 2020.
3. Ваганов C. Е., Хашин С. И. Сравнение алгоритмов удвоения размера изображения // Моделирование и анализ информационных систем. 2016. Т. 23, № 4. С. 389-400.
4. VGG16 - нейросеть для выделения признаков изображений. URL: https://neurohive.io/ru/vidy-nejrosetej/vgg16-model/ (дата обращения: 21.11.2023)
5. Pratt W.K. Digital Image Processing // John Wiley & Sons. 2001.
6. Image Quality Assessment: From Error Visibility to Structural Similarity / Wang Zhou, Bovik A. C., Sheikh H. R., Simoncelli E. P. // IEEE Transactions on Image Processing. 2004. Vol. 13(4). P. 600-612.
7. Сай С. В. Метрика искажений мелких структур компрессированных изображений // Компьютерная оптика. 2018. № 5. С. 829-837.
8. Reibman A. R., Bell R. M., Gray S. Quality assessment for super-resolution image enhancement // International Conference on Image Processing, IEEE Xplore, 2006.
Title: Quality Assessment of Natural Landscape Images with Increased Resolution Based on GAN
Authors' affiliation:
Sai S. V. - Pacific National University, Khabarovsk, Russian Federation Kudyashov A. A. - Pacific National University, Khabarovsk, Russian Federation
Abstract: In the article, the authors discuss the use of a generative adversarial network (GAN) in the problem of doubling the resolution of images. A description of the GAN architecture based on a convolutional network is given. The network has been trained using a dataset consisting of 540 images of a natural landscape with a resolution of 256 by 256 pixels. As a result of GAN testing, the averaged coefficients of PSNR, SSIM, MFSD metrics, as well as the root-mean-square error of the VGG-19 model output, have been obtained. The results of comparing the quality of images with increased resolution based on GAN and the scaling method using the Lanczos filter are presented.
Keywords: neural networks, machine learning, GAN, super-resolution, image quality analysis