Научная статья на тему 'Сравнение зависимости эффективности нейронных сетей по улучшению разрешения изображений от формата и размера'

Сравнение зависимости эффективности нейронных сетей по улучшению разрешения изображений от формата и размера Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
сравнение / зависимость / эффективность / нейронная сеть / нейросеть / улучшение разрешения / изображение / фотография / формат / размер / дорожная поверхность

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — А.А. Журавлев

Дороги имеют огромное влияние на жизнь современного человека. Одной из ключевых характеристик дорожного полотна является его качество. Для оценки качества дорожного покрытия существует множество систем. Такие технологии работают лучше с изображениями высокого разрешения (ИВР), поскольку на них проще выделять какие-либо признаки. Для улучшения разрешения фотографий существует достаточное количество способов, среди которых числятся и нейронные сети. Однако каждая нейросеть обладает определенными характеристиками. Например, для некоторых нейронных сетей достаточно проблематично работать с фотографиями большого исходного размера. Чтобы понять, насколько эффективна конкретная нейронная сеть, необходим сравнительный анализ. В данном исследовании за основной показатель эффективности берется среднее время получения ИВР. В качестве нейронных сетей выбраны EDSR, ESPCN, ESRGAN, FSRCNN и LapSRN, каждая из которых увеличивает ширину и высоту изображения в 4 раза (количество пикселей возрастает в 16 раз). Исходным материалом являются 5 фотографий 5 различных размеров (141x141, 200x200, 245x245, 283x283, 316x316) форматов png, jpg и bmp. Наилучшие показатели эффективности, согласно предложенной методологии, демонстрирует ESPCN, нейросеть FSRCNN также обладает хорошими результатами. Поэтому они являются более предпочтительными для решения задачи по улучшению разрешения изображений.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — А.А. Журавлев

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Сравнение зависимости эффективности нейронных сетей по улучшению разрешения изображений от формата и размера»

Сравнение зависимости эффективности нейронных сетей по улучшению

Аннотация: Дороги имеют огромное влияние на жизнь современного человека. Одной из ключевых характеристик дорожного полотна является его качество. Для оценки качества дорожного покрытия существует множество систем. Такие технологии работают лучше с изображениями высокого разрешения (ИВР), поскольку на них проще выделять какие-либо признаки. Для улучшения разрешения фотографий существует достаточное количество способов, среди которых числятся и нейронные сети. Однако каждая нейросеть обладает определенными характеристиками. Например, для некоторых нейронных сетей достаточно проблематично работать с фотографиями большого исходного размера. Чтобы понять, насколько эффективна конкретная нейронная сеть, необходим сравнительный анализ. В данном исследовании за основной показатель эффективности берется среднее время получения ИВР. В качестве нейронных сетей выбраны EDSR, ESPCN, ESRGAN, FSRCNN и LapSRN, каждая из которых увеличивает ширину и высоту изображения в 4 раза (количество пикселей возрастает в 16 раз). Исходным материалом являются 5 фотографий 5 различных размеров (141x141, 200x200, 245x245, 283x283, 316x316) форматов png, jpg и bmp. Наилучшие показатели эффективности, согласно предложенной методологии, демонстрирует ESPCN, нейросеть FSRCNN также обладает хорошими результатами. Поэтому они являются более предпочтительными для решения задачи по улучшению разрешения изображений. Ключевые слова: сравнение, зависимость, эффективность, нейронная сеть, нейросеть, улучшение разрешения, изображение, фотография, формат, размер, дорожная поверхность.

Оценка качества дорожного покрытия является одной из самых популярных задач во всем мире. Данной области посвящено множество монографий [1, 2] и научных работ, которые можно разделить на две основные категории: с использованием машинного обучения [3, 4] и традиционные методы (без использования машинного обучения) [5]. В настоящее время наиболее актуальной является первая группа в связи с большой популярностью нейронных сетей.

Системы, оценивающие качество дорожного покрытия, как правило, эффективнее работают с изображениями высокого разрешения, поскольку на них проще выделять какие-либо признаки. Однако на практике не всегда

разрешения изображений от формата и размера

А.А. Журавлев Уральский федеральный университет

Введение

и

получается взаимодействовать с такими фотографиями. В настоящее время существует достаточное количество нейронных сетей, предназначенных для получения изображения высокого разрешения (ИВР) из исходной фотографии. К ним относятся: EDSR [6], ESPCN [7], ESRGAN [8], FSRCNN [9], LapSRN [10]. Каждая из нейросетей обладает своими характеристиками. Одним из ключевых показателей качества нейросети является время получения ИВР. Также важна скорость роста функции зависимости времени от размера фотографии. Чем меньше оба показателя (абсолютный показатель времени и скорость роста функции зависимости функции), тем эффективнее нейронная сеть. Кроме того, фотографии могут иметь разный формат (png, jpg, bmp), что, скорее всего, также оказывает влияние на эффективность нейронной сети.

Цель работы - сравнить эффективность нейронных сетей по улучшению разрешения изображений разных форматов.

Материал исследования - фотографии дорожного покрытия форматов png, jpg и bmp.

В исследовании используется эмпирический метод, поскольку основными источниками результатов являются сравнение и эксперимент.

Научная новизна заключается в способе определения эффективности нейронных сетей по улучшению разрешения изображений.

Задачи исследования:

1. Описать методологию проведения эксперимента для определения зависимости эффективности нейронных сетей по улучшению изображений от формата и размера.

2. Дать краткую информацию о выбранных нейросетях.

3. Провести сравнительный анализ нейронных сетей на основе предложенной методологии.

4. Описать полученные результаты.

и

Описание анализируемых нейронных сетей

В качестве нейронных сетей по улучшению разрешения изображений выбраны EDSR, ESPCN, ESRGAN, FSRCNN и LapSRN, увеличивающие размер фотографии в 4 раза по высоте и ширине одновременно (количество пикселей увеличивается в 16 раз). Краткая информация о каждой нейросети представлена ниже.

EDSR (Enhanced Deep Residual Network for Single Image SuperResolution) - усовершенствованная глубокая остаточная сеть для сверхразрешения одного изображения [6].

ESPCN (Efficient Sub-Pixel Convolutional Neural Network) -эффективная субпиксельная сверточная нейронная сеть [7].

ESRGAN (Enhanced Super-Resolution Generative Adversarial Network) -усовершенствованная генеративно-состязательная сеть сверхвысокого разрешения [8].

FSRCNN (Fast Super-Resolution Convolutional Neural Network) - быстрая сверточная нейронная сеть со сверхразрешением [9].

LapSRN (Laplacian Pyramid Super-Resolution Network) - сеть сверхразрешения пирамиды Лапласа [10].

Методология эксперимента

Для эксперимента используются 5 фотографий 5 различных размеров (141x141, 200x200, 245x245, 283x283, 316x316) форматов png, jpg и bmp. Размеры изображений подобраны таким образом, чтобы количество пикселей в фотографии изменялось равномерно. Если перевести размеры в пиксели, то получаем: 20000 (-141x141), 40000 (200x200), 60000 (-245x245), 80000 (-283x283), 100000 (-316x316). Шаг изменения равен 20000 пикселей.

Ключевым показателем эффективности нейросетей выбранного типа является время получения изображения высокого разрешения (ИВР). Также большое влияние на эффективность оказывает размер данных, с которым

работает нейросеть. В нашем случае размером данных является разрешение фотографии.

Компьютер, на котором проводится исследование, имеет следующие характеристики: операционная система - Windows 10 Pro, тип системы - x64, процессор - Intel Core i5, оперативная память - 8 гигабайт, частота процессора - 1,6 гигагерц. В качестве среды выполнения выбрана Visual Studio Code 2023 язык программирования - Python (версия 3.11.7), тип приложения - Jupyter-блокнот.

Описание эксперимента для определения зависимости среднего времени получения ИВР нейросетью от формата и размера в пикселях:

1. В качестве исходного материала используются 5 фотографий 5 различных размеров форматов png, jpg и bmp.

2. Для каждой нейронной сети и формата изображения проводится серия из 5 экспериментов, в которых последовательно увеличивается количество пикселей, содержащихся в фотографии, на 20000: 20000 (-141x141), 40000 (200x200), 60000 (-245x245), 80000 (-283x283), 100000 (-316x316). Количество пикселей у ИВР увеличивается в 4 раза по высоте и ширине одновременно (количество пикселей изменяется в 16 раз). При этом 5 фотографий для каждого эксперимента хранятся в отдельной компьютерной папке (всего 75 различных папок: 5 (нейросетей) x 3 (формата) x 5 (количество экспериментов)). Изображения высокого разрешения сохраняются в новую папку, расположенную в том же месте, что и исходные фотографии.

3. Для определения среднего времени получения изображения высокого разрешения суммарное время, которое затрачивается на обработку всех фотографий, делится на общее количество изображений (1).

t,

ср

П

(1)

и

где - среднее время получения ИВР, ?общ - общее время обработки всех фотографий, п - количество изображений (в нашем случае 5).

Результаты экспериментов

Исходные изображения и соответствующие ИВР (после проведения эксперимента) на примере формата jpg представлены на рис. 1.

Рис. 1. - Исходные фотографии формата jpg (слева) и соответствующие ИВР

(справа)

Результаты эксперимента для определения эффективности нейронных сетей по улучшению разрешения изображений от формата и размера в пикселях представлены в таблице 1.

и

Таблица № 1

Среднее время (в миллисекундах) получения изображения высокого разрешения в зависимости от формата и исходного размера фотографии

Р^

Нейронная сеть Размер изображения

20000 40000 60000 80000 100000

ЕББЯ 9015 20535 31414 43481 56139

ЕБРСК 300 426 542 667 803

ЕБяалк 2516 4326 6625 9015 11974

РБКСт 218 373 598 774 1022

ЬарБКК 954 2009 3119 4188 5290

1РО

Нейронная сеть Размер изображения

20000 40000 60000 80000 100000

ЕББЯ 9105 21561 34429 47134 60525

ЕБРСК 48 62 80 98 128

ЕБЯОЛК 1616 3900 5511 7545 9118

РБКСт 32 74 124 176 226

ЬарБКК 842 1715 2733 3715 4729

ВМР

Нейронная сеть Размер изображения

20000 40000 60000 80000 100000

ЕББЯ 10019 21042 33504 46165 60283

ЕБРСК 28 51 76 108 155

ЕБЯОЛК 3046 5040 6634 8235 10181

РБКС^ 43 98 140 185 227

ЬарБКК 935 1734 2624 3597 4750

Для того, чтобы однозначно понять, какой характер зависимости имеет конкретная нейронная сеть от формата и размера, необходимо построить соответствующие графики (рис. 2).

и

Рис. 2. - Графики зависимости среднего времени получения изображения высокого разрешения от формата и размера в пикселях

Обсуждение результатов

Как видно из графиков, каждая нейронная сеть для всех форматов имеет линейную зависимость О(п) среднего времени получения ИВР от разрешения. Однако, абсолютные показатели времени и скорость роста функций отличаются. Чтобы иметь четкую картину эффективности конкретной нейросети в выбранной системе из пяти элементов (БОБЯ, ББРСК БЗЯаЛК, РБКСт, БарБЯК), рассчитаем эффективность, зависящую от скорости изменения функции таким образом, чтобы сумма всех показателей (эффективности) давала 1. Необходимы следующие формулы:

дс

V™ = — =

СР Ах х-

£тах ¿тт

с X™

(2)

где уср - средняя скорость изменения функции, & - разница максимального ^тах) и минимального абсолютного значения времени, Лх - разница максимального (хтах) и минимального (хтгп) значения размера изображения в пикселях.

где £норм - коэффициент нормализации, уср { - скорость изменения функции конкретной нейросети, N - количество нейронных сетей (в нашем случае 5).

где Е - эффективность конкретной нейросети.

(5)

где Еср - средняя эффективность нейросети, Е{ - эффективность нейронной сети для определенного формата, М - количество форматов (равно 3).

и

Подставляя нужные значения в формулы (2), (3), (4) и (5), получаем результаты, представленные в таблице 2 (значения округлены до 3 знаков после запятой).

Таблица № 2

Показатели эффективности выбранных нейросетей по улучшению разрешения изображений для форматов png, jpg и bmp

Формат Нейронная сеть

EDSR ESPCN ESRGAN FSRCNN LapSRN

PNG 0,006 0,554 0,029 0,347 0,064

JPG 0,001 0,692 0,008 0,285 0,014

BMP 0,002 0,573 0,010 0,396 0,019

Среднее значение 0,003 0,606 0,016 0,343 0,032

Наилучший средний показатель эффективности имеет ESPCN, также высоким значением обладает FSRCNN. Следовательно, ESPCN и FSRCNN являются наиболее подходящими для решения задачи по улучшению разрешения изображений.

Выводы

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В работе проведено сравнение зависимости эффективности нейронных сетей по улучшению разрешения от формата и размера. Исходный материал -5 фотографий пяти различных размеров (141x141, 200x200, 245x245, 283x283, 316x316) форматов png, jpg и bmp. В качестве нейросетей для анализа выбраны EDSR, ESPCN, ESRGAN, FSRCNN и LapSRN, увеличивающие размер фотографии в 4 раза по ширине и высоте, одновременно (количество пикселей увеличивается в 16 раз). Каждая из нейросетей обладает линейной зависимостью O(n) времени получения изображения высокого разрешения (ИВР) от размера фотографии для всех форматов. Однако, наилучшими показателями среднего времени и скорости

и

изменения функции обладает ESPCN, хороший результат также имеет FSRCNN.

Литература

1. Визильтер Ю.В., Желтов С.Ю., Бондаренко А.В., Ососков M.B., Моржин А.В. Обработка и анализ изображений в задачах машинного зрения.

- М.: ФИЗМАТКНИГА, 2010. - 672 с.

2. Гонсалес Р. Цифровая обработка изображений. - М.: Техносфера, 2012.

- 1101 с.

3. Arya D., Maeda H., Ghosh S. K., Toshniwal D., Mraz A., Kashiyama T., Sekimoto Y. Deep learning-based road damage detection and classification for multiple countries // Automation in Construction. 2021, Vol. 132, P. 103935.

4. Silva L.A., Leithardt V.R.Q., Batista V.F.L., González G.V., Santana J.F.D.P. Automated Road Damage Detection Using UAV Images and Deep Learning Techniques // IEEE Access. 2023, Vol. 11, pp. 62918-62931.

5. Zhuravlev A.A., Aksyonov K.A. Comparison of Contour Detection Methods in Images on the Example of Photos with Road Surface Damage // Institute of Electrical and Electronics Engineers Inc., 2023 IEEE Ural-Siberian Conference on Biomedical Engineering, Radioelectronics and Information Technology (USBEREIT). 2023, pp. 183-186.

6. Enhanced Deep Residual Networks for Single Image Super-Resolution (EDSR). URL: huggingface.co/eugenesiow/edsr#:~:text=EDSR%20 upscaling%20 x2.-,Model%20description,the%20end%20of%20the%2 network.

7. ESPCN. URL: learnopencv.com/super-resolution-in-opencv/#sec4

8. ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks. URL: esrgan.readthedocs.io/en/latest/

9. Accelerating the Super-Resolution Convolutional Neural Network. URL: mmlab.ie.cuhk.edu.hk/proj ects/FSRCNN.html

10. LapSRN. URL: learnopencv.com/super-resolution-in-opencv/#sec6

и

References

1. ViziFter Yu.V., Zheltov S.Yu., Bondarenko A.V., Ososkov M.B., Morzhin A.V. Obrabotka i analiz izobrazhenij v zadachax mashinnogo zreniya [Image processing and analysis in machine vision problems]. M.: FIZMATKNIGA, 2010. 672 p.

2. Gonsales R. Cifrovaya obrabotka izobrazhenij [Digital image processing]. Texnosfera. 2012. 1101 p.

3. Arya D., Maeda H., Ghosh S. K., Toshniwal D., Mraz A., Kashiyama T., Sekimoto Y. Automation in Construction. 2021, Vol. 132, 103935.

4. Silva L.A., Leithardt V.R.Q., Batista V.F.L., González G.V., Santana J.F.D.P. IEEE Access. 2023, Vol. 11, pp. 62918-62931.

5. Zhuravlev A.A., Aksyonov K.A. Institute of Electrical and Electronics Engineers Inc., 2023 IEEE Ural-Siberian Conference on Biomedical Engineering, Radioelectronics and Information Technology (USBEREIT). 2023, pp. 183-186.

6. Enhanced Deep Residual Networks for Single Image Super-Resolution (EDSR). URL: huggingface.co/eugenesiow/edsr#:~:text=EDSR%20 upscaling%20 x2.-,Model%20description,the%20end%20of%20the%2 network.

7. ESPCN. URL: learnopencv.com/super-resolution-in-opencv/#sec4.

8. ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks. URL: esrgan.readthedocs.io/en/latest/.

9. Accelerating the Super-Resolution Convolutional Neural Network. URL: mmlab.ie.cuhk.edu.hk/proj ects/FSRCNN.html.

10. LapSRN. URL: learnopencv.com/super-resolution-in-opencv/#sec6.

Дата поступления: 28.02.2024

Дата публикации: 1.04.2024

i Надоели баннеры? Вы всегда можете отключить рекламу.