УДК 004.4:004.032.26 ЖукД.С., АзаровИ.С.
Жук Д.С.
магистрант факультета компьютерных систем и сетей Белорусский государственный университет информатики и радиоэлектроники (г. Минск, Беларусь)
Научный руководитель: Азаров И.С.
Белорусский государственный университет информатики и радиоэлектроники (г. Минск, Беларусь)
ПРЕИМУЩЕСТВО ИСПОЛЬЗОВАНИЯ GAN В РАСКРАШИВАНИИ ЧЕРНО-БЕЛЫХ ФОТОГРАФИЙ
Аннотация: данная статья демонстрирует основные преимущества использования GAN для задачи раскрашивания черно-белых фотографий, обсуждая их эффективность, качество результатов и потенциал для дальнейшего развития.
Ключевые слова: состязательные сети, фотография, технология.
Введение.
Раскрашивание черно-белых фотографий представляет собой сложную задачу, требующую от алгоритмов восполнения утраченной информации о цвете, чтобы создать правдоподобные и эстетически приятные цветные изображения. Этот процесс не только имеет значительное культурное и историческое значение [1], позволяя нам воссоздать и сохранить визуальные аспекты прошлого, но также находит применение в различных областях, таких как киноиндустрия, медиа и даже судебная экспертиза.
Однако проблема раскраски черно-белых изображений по своей природе недоопределена: множество цветовых комбинаций могут быть одинаково правдоподобны для одного и того же черно-белого изображения. Традиционные подходы либо требуют значительного вмешательства пользователя для указания точных цветов, либо приводят к слабо насыщенным и неестественным результатам. Далее будут рассмотрены основные подходы и алгоритмы, применяющиеся для раскрашивания черно-белых фотографий.
Сверточные нейронные сети (CNN)
Сверточные нейронные сети (CNN) являются одним из наиболее эффективных типов нейронных сетей для обработки изображений. Они обладают специальной архитектурой, которая позволяет им автоматически извлекать иерархические признаки из входных изображений, что делает их особенно подходящими для задачи цветизации черно-белых фотографий. Интересным фактом, что сверточные нейронные сети были созданы на основе (рисунок 1) многоуровневой архитектуры зрительной коры головного мозга человека [2]. Поэтому результат работы сверточной нейронной сети может быть эффективен настолько, что в некоторых случаях человек между искомым изображением и раскрашенным CNN, может выбрать сгенерированный вариант как искомый. Согласно исследованию [3] такое событие может произойти в 32% случаев.
Dense Pooling Convolution Pooling Convolution Convolution
Рисунок 1. Сходство архитектуры CNN и структуры коры головного мозга.
Глубокое обучение и сверточные нейронные сети (DLCNN).
Некоторыми исследователями было преджложено совместить глубокое обучение и сверточные нейронные сети [4]. Такой подход имеет свои особенности, преимущества и недостатки в сравнении со сверточными нейронными сетями. К преимуществам можно отнести качество полученных результатов (глубокое обучение в паре со сверточной нейронной сетью дает еще более визуально естественный и качественный результат раскрашивания фотографий), гибкость (архитектура может быть адаптирована и улучшена с использованием различных типов слоев и функций потерь). Однако же при получении лучшего качества результата есть необходимость в большем
количестве вычислительных мощностей ввиду того, что помимо сверточной нейронной сети задействуется еще и глубокое обучение, существсвует риск переобучения системы, что может ощутимо ухудшить качество предсказаний на новых изображениях.
В исследовании, представленном на конференции по обработке изображений, было показано, что DLCNN может превосходить существующие методы по различным показателям производительности и достигать передовых результатов в цветизации изображений. Сеть обучалась на большом наборе данных ImageNet, где изображения преобразовывались из цветового пространства RGB в Lab, и сеть обучалась предсказывать значения цветовых каналов на основе входного изображения в градациях серого.
Генеративно-состязательные сети (GAN).
В последние годы использование генеративных состязательных сетей (GAN) стало популярным инструментом в различных областях компьютерного зрения, включая раскрашивание черно-белых фотографий. GAN, впервые предложенные Иэном Гудфеллоу в 2014 году [6], состоят из двух нейросетей — генератора и дискриминатора, которые обучаются в процессе состязания друг с другом.
Одним из ключевых преимуществ использования GAN в раскрашивании черно-белых фотографий является их высокая эффективность. GAN могут обучаться на большом количестве данных, что позволяет им генерировать реалистичные изображения с минимальными человеческими вмешательствами [7]. Обученные модели способны раскрашивать изображения за считанные секунды, что существенно ускоряет процесс по сравнению с ручным раскрашиванием.
GAN демонстрируют высокое качество результатов, превосходя многие традиционные алгоритмы раскрашивания. Генератор, обученный на большом наборе данных, может учитывать контекст и детали изображения, создавая натуральные и гармоничные цвета. Это особенно важно при раскрашивании фотографий, где требуется реалистичное воспроизведение текстур и оттенков.
GAN обладают высокой адаптивностью [8], позволяя использовать их для раскрашивания изображений различных типов и стилей. Модели могут быть дообучены на специфических наборах данных для улучшения качества на конкретных типах изображений, таких как портреты или пейзажи. Обобщающие способности GAN позволяют им успешно справляться с новыми, ранее не виденными изображениями, сохраняя при этом высокое качество раскрашивания.
Использование GAN для раскрашивания черно-белых фотографий открывает множество возможностей для дальнейших исследований и улучшений. В частности, комбинирование GAN с другими методами глубокого обучения может привести к созданию более мощных и универсальных моделей [9]. Также перспективным направлением является интеграция GAN с системами искусственного интеллекта для интерактивного редактирования и улучшения изображений.
Заключение.
Таким образом, проведенное в статье исследование показывает, что генеративные состязательные сети представляют собой мощный инструмент непосредственно для автоматизированного раскрашивания черно-белых фотографий. Их эффективность, качество результатов, адаптивность и потенциал для дальнейшего развития делают GAN предпочтительным выбором для решения этой задачи. Будущие исследования и разработки в этой области обещают еще больше улучшить технологии раскрашивания и открыть новые возможности для их применения.
СПИСОК ЛИТЕРАТУРЫ:
1. Сервис реставрации архивных фотографий. / https://hi-tech.mail.ru/news/43430-mailru-servis-vosstanovleniya-foto/;
2. Zoumana K. (2023). An Introduction to Convolutional Neural Networks (CNNs) / https://www.datacamp.com/tutorial/introduction-to-convolutional-neural-networks-cnns;
3. Richard Z., Phillip I., Alexei A.E. (2016). Colorful Image Colorization / https://arxiv.org/abs/1603.08511;
4. Rakshit S., Apurupa V., Sathvika D., Hathiram N., Ashwini K. (2021). Automatic colorization of black and white images using convolutional neural networks / https://pubs.aip.org/aip/acp/article-abstract/2407/1/020010/624241/Automatic-colorization-of-black-and-white-images;
5. Xu X. F., Wang X. W., Ma T. Y. (2021). / https : //opg. optica. org/abstract. cfm?uri=LS-2021-JW7A. 4 ;
6. Gautham S. (2020). How Ian Goodfellow invented GANs / https://medium.com/nybles/interview-with-ian-goodfellow-gans-deeplearning-book-1f8dfa9dacd4;
7. Phillip I., Jun-Yan Z., Tinghui Z., Alexei A.E. (2018). Image-to-Image Translation with Conditional Adversarial Nets / https://phillipi.github.io/pix2pix/;
8. Sandra T., Efttim Z., Ivan M. P., Petre L., Sonja G. (2022). GAN-Based Image Colorization for Self-Supervised Visual Feature Learning / https://www.mdpi.com/1424-8220/22/4Z1599;
9. Yi W., Menghan X., Lu Q., Jing S., Yu Q. (2024). / https://ar5iv.labs.arxiv.org/html/2210.11204
Zhuk D.S., Azarov I.S.
Zhuk D.S.
Belarusian State University of Informatics and Radioelectronics
(Minsk, Belarus)
Scientific advisor: Azarov I.S.
Belarusian State University of Informatics and Radioelectronics
(Minsk, Belarus)
ADVANTAGE OF USING GAN IN COLORING BLACK AND WHITE PHOTOS
Abstract: this article demonstrates the main advantages of using GAN for the task of coloring black and white photographs, discussing their effectiveness, the quality of the results and the potential for further development.
Keywords: GAN, networks, photograph.