Научная статья на тему 'ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИЙ ПРИРОДНОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕШЕНИЕМ НА ОСНОВЕ GAN'

ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИЙ ПРИРОДНОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕШЕНИЕМ НА ОСНОВЕ GAN Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
19
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
нейронные сети / машинное обучение / GAN / суперразрешение / анализ качества изображений / neural networks / machine learning / GAN / super-resolution / image quality analysis

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Сай С. В., Кудяшов А. А.

В статье рассматривается применение генеративно-состязательной сети (GAN) в задаче повышения разрешения изображений в два раза. Приводится описание архитектуры GAN на основе сверточной сети. Сеть обучена с использованием набора данных состоящего из 540 изображений природного ландшафта с разрешением 256 на 256 пикселей. В результате тестирования GAN получены усредненные коэффициенты метрик PSNR, SSIM, MFSD, а также среднеквадратичная ошибка вывода модели VGG-19. Приведены результаты сравнения качества изображений с увеличенным разрешением на основе GAN и методом масштабирования с использованием фильтра Ланцоша.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Сай С. В., Кудяшов А. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Quality Assessment of Natural Landscape Images with Increased Resolution Based on GAN

In the article, the authors discuss the use of a generative adversarial network (GAN) in the problem of doubling the resolution of images. A description of the GAN architecture based on a convolutional network is given. The network has been trained using a dataset consisting of 540 images of a natural landscape with a resolution of 256 by 256 pixels. As a result of GAN testing, the averaged coefficients of PSNR, SSIM, MFSD metrics, as well as the root-mean-square error of the VGG-19 model output, have been obtained. The results of comparing the quality of images with increased resolution based on GAN and the scaling method using the Lanczos filter are presented.

Текст научной работы на тему «ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИЙ ПРИРОДНОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕШЕНИЕМ НА ОСНОВЕ GAN»

системный анализ, управление

И ОБРАБОТКА ИНФОРМАЦИИ,

ВЕСТНИК ТОГУ. 2024. № 1 (72)

СТАТИСТИКА

УДК 004.896

С. В. Сай, А. А. Кудяшов

ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИЙ ПРИРОДНОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕШЕНИЕМ НА ОСНОВЕ GAN

Сай С. В. - д-р техн. наук, профессор, e-mail: [email protected]; Кудяшов А. А. - аспирант, e-mail: [email protected] (ТОГУ)

В статье рассматривается применение генеративно-состязательной сети (GAN) в задаче повышения разрешения изображений в два раза. Приводится описание архитектуры GAN на основе сверточной сети. Сеть обучена с использованием набора данных состоящего из 540 изображений природного ландшафта с разрешением 256 на 256 пикселей. В результате тестирования GAN получены усредненные коэффициенты метрик PSNR, SSIM, MFSD, а также среднеквадратичная ошибка вывода модели VGG-19. Приведены результаты сравнения качества изображений с увеличенным разрешением на основе GAN и методом масштабирования с использованием фильтра Лан-цоша.

Ключевые слова: нейронные сети, машинное обучение, GAN, суперразрешение, анализ качества изображений.

Генеративно-состязательная сеть [1] принадлежит к типу нейронных сетей с обучением без учителя и основывается на комбинации двух отдельно обучаемых моделей: генератора (G) и дискриминатора (D). Сеть генератора учится создавать правдоподобные изображения повышенного разрешения, в то время как сеть дискриминатора учится отличать истинные изображения от ложных, создаваемых генератором. В настоящее время сети на основе GAN исследуются в системах повышения разрешения изображения в два, четыре и более раз. Такие сети получили абревиатуру SRGAN [2]. До сих пор, актуальными остаются вопросы связанные с оценкой качества изображений с суперразрешением (SR).

Простой способ увеличения разрешения — это масштабирование с использованием методов интерполяции соседних пикселей. В [3] приводится сравнение методов интерполяции в задачах увеличения изображения в два

© Сай С. В., Кудяшов А. А., 2024

Введение

ВЕСТНИК ТОГУ. 2024. № 1 (72)

раза. Наиболее эффективным считается фильтр Ланцоша, который взят за основу для сравнительного анализа. В настоящей работе представлены результаты исследования разработанной сети GAN позволяющей повышать разрешение изображений в два раза с «хорошим» качеством.

Архитектура модели

Упрощенная модель GAN показана на рис. 1. Архитектура модели дискриминатора представлена в табл. 1, генератора в табл. 2.

В GAN обучение сводится к минимизации значений функции ошибки генератора. Как и в случае с другими свёрточными нейронными сетями веса генератора и дискриминатора обновляются методом обратного распространения ошибки.

В процессе обучения на вход D отдельно подаются истинные и сгенерированные изображения с исходным разрешением 256x256 пикселей. На вход генератора подаются изображения с уменьшенным разрешением в два раза, т.е. 128x128 пикселей. Потери D вычисляются на основе суммы возвращаемых бинарной перекрёстной энтропией вероятностей принадлежности к истинным или ложным изображениям. Потери D вычисляются исходя из способности дискриминатора классифицировать ложные данные. Дополнительно использовалась метрика SSIM, а также вывод двадцать первого слоя модели VGG-19 для определения визуально значимых характеристик [4]. После обучения, GAN может использоваться в задачах увеличения разрешения изображений в два раза для участков изображений с разрешением равным 128x128 до 256x256 пикселей.

Из-за необходимости вычисления бинарной перекрёстной энтропии, на последних слоях сетей использовалась сигмоидная функция активации. Таким образом, выход последнего слоя приводился к диапазону значений от 0 до 1.

Рис. 1. Упрощенный вид GAN в задаче повышения разрешения изображений

ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИИ ПРИРОД- -

НОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕ- ВЕОШК ТОГУ 2К4. № 1 (72)

ШЕНИЕМ НА ОСНОВЕ GAN

Таблица 1

Архитектура дискриминатора

№ слоя Название слоя Параметры

1 Input [Ширина, высота, фильтры] [256, 256, 3]

2 Conv2D (Свёртка) [256, 256, 80] Активация: LeakyReLU Ядро: 3x3

3 Conv2D (Свёртка)] [128, 128, 160] Активация: LeakyReLU Ядро: 3x3 Сдвиг: 2

4 BatchNormalization (Нормализация) [128, 128, 160] Момент: 0.95

5 Conv2D (Свёртка) [64, 64, 160] Активация: LeakyReLU Ядро: 3x3

6 Dense [64, 64, 320] Активация: LeakyReLU

7 Flatten [1310720]

8 Output: Dense [1] Активация: sigmoid

Общее число параметров: 1 711 041

Таблица 2

Архитектура генератора

№ слоя Название слоя Параметры

1 Input [Ширина, высота, фильтры] [128, 128, 3]

2 Conv2D (Свёртка) [128, 128, 320] Активация: ЬеакуЯеЬи Ядро: 3x3

3 BatchNormalization (Нормализация) [128, 128, 320] Момент: 0.95

4 Conv2D (Свёртка) [128, 128, 320] Активация: ЬеакуЯеЬи Ядро: 3x3

5 Conv2D (Свёртка) [128, 128, 320] Активация: ЬеакуЯеЬи Ядро: 3x3

6 Add (№5 + №2) [128, 128, 320]

7 Conv2D (Свёртка) [128, 128, 320] Активация: ЬеакуЯеЬи Ядро: 3x3

8 Conv2D (Свёртка) [128, 128, 320] Активация: ЬеакуЯеЬи Ядро: 3x3

9 Add (№8 + №6) [128, 128, 320]

ВЕСТНИК ТОГУ. 2024. № 1 (72)

Продолжение табл. 2

10 Conv2D (Свёртка) Активация: LeakyReLU

[128, 128, 320] Ядро: 3x3

11 Conv2D (Свёртка) Активация: LeakyReLU

[128, 128, 320] Ядро: 3x3

12 Add (№11 + №9)

[128, 128, 320]

13 Conv2DTranspose (Обратная Активация: LeakyReLU

свёртка) Ядро: 3x3

[256, 256, 320] Сдвиг: 2

14 Conv2D (Свёртка) Активация: LeakyReLU

[256, 256, 640] Ядро: 3x3

15 Output: Conv2D (Свёртка) Активация: sigmoid

[256, 256, 3] Ядро: 3x3

Общее число параметров: 8 324 483

В каждом сверточном слое использованы фильтры с ядром 3^3, при этом их количество равно 320.

Слой Add (Сумма) используется для создания остаточного соединения с предыдущими слоями. Слой BatchNormaHzation (Пакетная нормализация) с заданным моментом уменьшает чувствительность к начальной инициализации весов, сглаживает зависимость между выборками изображений и выступает в качестве стабилизатора при обновлении градиентов.

Наборы изображений и параметры сети

Обучающий набор состоит из 540 оригинальных несжатых изображений формата PNG с разрешением 512x512 и цветовой моделью RGB. В процессе обучения на выход сети подавались вырезанные по случайной координате изображения с разрешением 256x256 пикселей. На вход сети генератора подавались эти же изображения с пониженным до 128x128 пикселей разрешением. С 50% вероятностью изображения подвергались операции зеркального отображения по горизонтали.

Проверочный набор состоит из 10 изображений, не входящих в обучающий.

Были использованы следующие начальные параметры сети:

- количество эпох E = 4000;

- размер выборки в итерации B = 16.

Параметр E указывает на число итераций прямого и обратного прохода по всем предоставленным данным в сети. Размер выборки B определяет часть от общего количества изображений, которая будет использоваться в эпохе в течении одного шага итерации.

Поскольку на последней итерации значение параметра B превышает максимально допустимый индекс обучающего набора, последующие изображения

ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИИ ПРИРОД- -

НОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕ- ВЕСТНИК! ТСГУ. 2К4 № 1 (72)

ШЕНИЕМ НА ОСНОВЕ GAN

брались из его начала, таким образом индексы подаваемых на вход сети данных смещались за каждую эпоху. Значения функций потерь

Значения потерь вычислялись следующим образом:

V = 10 MSE(VGG(G(x), VGG(y))); M = 0,1 (1 - SSIM(G(x), y)); B = 0,002 BCE(1, D(G(x)); GioSS = V+M + B; D,oSS = BCE(1, D(y)) + BCE(0, D(x)),

где О - модель генератора, Б - модель дискриминатора, х - выборка изображений низкого разрешения, у - выборка изображений высокого разрешения, М8Е - среднеквадратичная ошибка, УОО - модель УОО-19, 881М() - функция метрики ВСЕ - функция бинарной перекрёстной энтропии.

Были получены следующие значения 881М наилучшей контрольной точки за историю потерь по обучающему набору: тах^т) = 0,8925 (рис. 2), а также значения потерь генератора шт^еп_1о88) = 0,0151, дискриминатора шах(&8С_1о88) = 1,2385 (рис. 3) и средней квадратичной ошибки УОО-19 min(vgg_1oss) = 0,0026 (рис. 4).

500 1000 1500 2000 2500 3000 3500 4000

Epoch #

Рис. 2. График значений метрики SSIM по обучающему (ssim) и проверочному

набору (val_ssim)

ВЕСТНИК ТОГУ. 2024. № 1 (72)

а) Генератор

500 1000 1500 2000 2500 3000 Еро<± #

б) Дискриминатор

Рис. 3. Графики значений функций потерь генератора и дискриминатора по обучающему набору

Рис. 4. График значений функции потерь VGG по обучающему (vgg_loss) и проверочному набору (val_vgg_loss)

Значения потерь VGG основывались на средней квадратичной ошибке фильтров последнего слоя модели VGG-19. Активации слоёв проверочного изображения показаны на (рис. 5).

ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИИ ПРИРОД- -

НОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕ- ЖЛНЖ ТОГУ. 2Ш. № 1 (72)

ШЕНИЕМ НА ОСНОВЕ GAN

а) Фильтр Ланцоша

в) GAN

Рис. 5. Активации слоёв VGG-19 проверочного изображения

ВЕСТНИК ТОГУ. 2024. № 1 (72)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Результаты анализа

Оценка качества вывода модели проводилась в сравнении с изображениями, увеличенными при помощи фильтра Ланцоша.

Для анализа качества были использованы метрики PSNR, SSIM, MFSD, а также средняя квадратичная ошибка выводов модели УОО. На рис. 6 показаны примеры изображений с повышенным разрешением.

а) Фильтр Ланцоша б) GAN

Рис. 6. Примеры вывода модели на проверочных изображениях

В табл. 3 приведены результаты сравнения качества изображений с увеличенным разрешением через фильтр Ланцоша If и вывода модели Igan по каждому изображению из проверочного набора при помощи метрик PSNR [5], SSIM [6], MFSD [7] и VGG-19.

ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИЙ ПРИРОДНОГО ЛАНДШАФТА С ПОВЫШЕННЫМ РАЗРЕШЕНИЕМ НА ОСНОВЕ GAN

ВЕСТНИК ТОГУ. 2024. № 1 (72)

Таблица 3

Результаты анализа_

№ PSNR SSIM MFSD VGG-19 (MSE)

If Igan If Igan If Igan If Igan

1 29.650 28.322 0.803 0.766 1,87 1,88 0.005 0.001

2 30.724 29.965 0.862 0.851 2,22 2,10 0.005 0.001

3 26.896 26.125 0.792 0.788 1,11 0,97 0.006 0.001

4 31.505 30.855 0.850 0.831 1,32 1,04 0.003 0.001

5 27.256 26.139 0.807 0.779 1,37 1,26 0.006 0.001

6 27.279 26.095 0.827 0.794 1,25 1,24 0.007 0.001

7 29.096 28.553 0.868 0.852 1,11 1,19 0.006 0.001

8 29.243 28.386 0.858 0.847 1,51 1,44 0.007 0.001

9 27.268 26.653 0.860 0.850 1,62 1,95 0.008 0.001

10 29.070 28.751 0.881 0.869 1,67 1,58 0.006 0.001

Mean 28.799 27.984 0.841 0.823 1,51 1,46 0.0059 0.00093

Значения PSNR и SSIM не позволяют оценить качество генераций модели, поскольку отдают предпочтение размытым изображениям [8]. Метрика MFSD показывает незначительное улучшение качества. Функция среднеквадратиче-ской ошибки фильтров последнего слоя активации VGG-19 возвращает меньшие значения, что соответствует улучшению качества изображения.

Заключение

В результате исследований получено, что по оценкам коэффициентов VGG-19 (MSE) и метрики MFSD, реализованная модель GAN позволяет повышать разрешение изображений в два раза, при этом улучшая их визуальную чёткость.

Метрики PSNR и SSIM не дают объективных результатов так как показывают лучшие оценки для фильтра Ланцоша, что не соответствует визуальным оценкам (см. рис. 6).

Таким образом, оценка эффективности нейросети в задачах обработки изображений по метрикам PSNR и SSIM не дает объективных результатов, что объясняется ошибками предсказания на выходах нейросети. К перспективным направлениям исследований относится поиск и разработка новых объективных метрик оценки качества изображений с учетом ошибок предсказания нейросети.

Библиографические ссылки

1. Twitter Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network / Christian Ledig, Lucas Theis, Ferenc Husz'ar et al. // Computer Vision and Pattern Recognition. (cs.CV). 2017.

ВЕСТНИК ТОГУ. 2024. № 1 (72)

2. Wang Z., Chen J., Steven C. H. Hoi. Deep Learning for Image Super-resolution: A Survey // Computer Vision and Pattern Recognition. (cs.CV). 2020.

3. Ваганов C. Е., Хашин С. И. Сравнение алгоритмов удвоения размера изображения // Моделирование и анализ информационных систем. 2016. Т. 23, № 4. С. 389-400.

4. VGG16 - нейросеть для выделения признаков изображений. URL: https://neurohive.io/ru/vidy-nejrosetej/vgg16-model/ (дата обращения: 21.11.2023)

5. Pratt W.K. Digital Image Processing // John Wiley & Sons. 2001.

6. Image Quality Assessment: From Error Visibility to Structural Similarity / Wang Zhou, Bovik A. C., Sheikh H. R., Simoncelli E. P. // IEEE Transactions on Image Processing. 2004. Vol. 13(4). P. 600-612.

7. Сай С. В. Метрика искажений мелких структур компрессированных изображений // Компьютерная оптика. 2018. № 5. С. 829-837.

8. Reibman A. R., Bell R. M., Gray S. Quality assessment for super-resolution image enhancement // International Conference on Image Processing, IEEE Xplore, 2006.

Title: Quality Assessment of Natural Landscape Images with Increased Resolution Based on GAN

Authors' affiliation:

Sai S. V. - Pacific National University, Khabarovsk, Russian Federation Kudyashov A. A. - Pacific National University, Khabarovsk, Russian Federation

Abstract: In the article, the authors discuss the use of a generative adversarial network (GAN) in the problem of doubling the resolution of images. A description of the GAN architecture based on a convolutional network is given. The network has been trained using a dataset consisting of 540 images of a natural landscape with a resolution of 256 by 256 pixels. As a result of GAN testing, the averaged coefficients of PSNR, SSIM, MFSD metrics, as well as the root-mean-square error of the VGG-19 model output, have been obtained. The results of comparing the quality of images with increased resolution based on GAN and the scaling method using the Lanczos filter are presented.

Keywords: neural networks, machine learning, GAN, super-resolution, image quality analysis

i Надоели баннеры? Вы всегда можете отключить рекламу.