Вестник Череповецкого государственного университета. 2022. № 6 (111). С. 23-41. Cherepovets State University Bulletin, 2022, no. 1 (111), pp. 23-41.
Научная статья УДК 004.8
https://doi.org/10.23859/1994-0637-2022-6-111-2
Применение искусственного интеллекта при работе с мультимедийной информацией
Вероника Валерьевна Кабанова1, Оксана Сергеевна Логунова2н
1,2Магнитогорский государственный технический университет им. Г. И. Носова,
Магнитогорск, Россия,
[email protected], https://orcid.org/0000-0001-9253-6942 [email protected], https://orcid.org/0000-0002-7006-8639
Аннотация. Целью данной работы является изучение и обобщение существующих задач, методов анализа и обработки изображений, видеопотоков, аудиофайлов с применением искусственного интеллекта для дальнейшего развития направления.
В основной части работы рассматривается принцип работы полносвязной нейронной сети, приводится пример, указываются основные типы нейронных сетей и ссылки на работы по тематике, описываются и анализируются разработки в области искусственного интеллекта и мультимедиа. В работе проведен литературный обзор научных трудов за последние 5 лет. Тезисно раскрывается суть генеративного и дискриминативного моделирования, определяется проблема, решаемая генеративно-состязательными сетями. Рассматривается применение нейронных сетей при генерации монофонической и полифонической музыки, определении жанра мелодии, при распознавании и классификации образов на изображении, стилизации изображений и генерации новых изображений на основе набора данных и описания на английском языке, при различных манипуляциях с лицом на изображении: морфинг лица, ретушь лица, генерирование уникальных лиц и обмен идентичностью, а также при использовании глубокого обучения в медицине. При этом кратко описываются модели сетей, используемые при различных манипуляциях, представленных в работе. Определяются сферы использования сверточных нейронных сетей, рекуррентных нейронных сетей, а также описываются основные характеристики и отличительные особенности моделей CNN, RNN, GAN. Также рассматривается создание deepfake-видео и их угроза обществу, методы распознавания deepfake-видео. Определяются перспективы генеративного моделирования и искусственного интеллекта при работе с мультимедийной информацией, подчеркивается важность нейронных сетей для общества.
Ключевые слова: искусственный интеллект, нейросеть, обработка изображения, генеративное моделирование, глубокое обучение, GAN, CNN, RNN
Благодарность. Исследования проведено при финансовой поддержке по договору № 247715 от 05.07.2021 г. между ПАО «ММК» и ФГБОУ ВО «МГТУ им. Г. И. Носова» «Разработка и применение методик контроля территорий, зданий и сооружений ПАО «ММК» с
1 Кабанова В. В., Логунова О. С., 2022
ISSN 1994-0637 (print)
использованием беспилотных воздушных судов (БВС)» под руководством кандидата технических наук М. Ю. Наркевича и доктора технических наук О. С. Логуновой. Статья выполнена из средств субсидии федерального бюджета на разработку программ бакалавриата и программ магистратуры по профилю «искусственный интеллект», а также на повышение квалификации педагогических работников образовательных организаций высшего образования в сфере искусственного интеллекта (соглашение №075-15-2021-1039 от 28.09.2021).
Для цитирования: Кабанова В. В., Логунова О. С. Применение искусственного интеллекта при работе с мультимедийной информацией // Вестник Череповецкого государственного университета. 2022. № 6 (111). С. 23-41. https://doi.org/10.23859/1994-0637-2022-6-111-2.
Application of artificial intelligence in multimedia
Veronika V. Kabanova1, Oksana S. Logunova2H
2 3Nosov Magnitogorsk State Technical University, Magnitogorsk, Russia,
'[email protected], https://orcid.org/0000-0001-9253-6942 [email protected], https://orcid.org/0000-0002-7006-8639
Abstract. The aim of the work is to study and generalize existing tasks, methods for analyzing and processing images, video streams and audio files applying artificial intelligence for further development of the direction.
The main part of the work considers the principle of a fully connected neural network, gives examples, indicating the main types of neural networks and references to works on the subject, describing and analyzing developments in the field of artificial intelligence and multimedia. The paper provides a literature review of scientific papers over the past 5 years. The authors highlight the essence of generative and discriminative modeling; determine the problem solved by generative adversarial networks. They also focus on the application of neural networks in monophonic and polyphonic music generation, melody genre identification, image recognition and classification, image stylization and new image generation based on data set and description in English, face manipulation in images: face morphing, face attribute, generation of unique faces and identity swap and also applying deep learning in medicine. In doing so, the network models used in the various manipulations presented in the paper are briefly described. The application spheres of convolutional neural networks, recurrent neural networks, as well as the main characteristics and distinctive features of CNN, RNN, GAN models are described. The paper also discusses the development of deepfake videos and their threat to society, as well as methods of deepfake video recognition. The authors determine the prospects of generative modeling and artificial intelligence when dealing with multimedia information; emphasize the importance of neural networks for society.
Keywords: artificial intelligence, neural network, image processing, generative modeling, deep learning, GAN, CNN, RNN
Acknowledgments. The studies are carried out with financial support under agreement no. 247715 of 05.07.2021 between PJSC Magnitogorsk Iron & Steel Works and Nosov Magnitogorsk State Technical University "Development and application of methods for monitoring territories, buildings and structures of PJSC Magnitogorsk Iron & Steel Works using unmanned aerial vehicles" under the guidance of M. Yu. Narkevich, Candidate of Technical Sciences, and O. S. Logunova, Doctor of Technical Sciences.
The article was funded by the federal budget subsidy for the development of bachelor's and master's programs of "Artificial intelligence"; for the advanced training of lecturers of higher education organizations in the field of artificial intelligence (agreement no. 075-15-2021-1039 dated 28.09.2021) For citation: Kabanova V. V., Logunova O. S. Application of artificial intelligence in multimedia. Cherepovets State University Bulletin, 2022, no. 6 (111), pp. 23-41 (In Russ.). https://doi.org/10.23859/1994-0637-2022-6-111-2
Введение
Мозг - сложная биологическая нейронная сеть, способная принимать информацию от органов чувств и обрабатывать ее. Ученые не один десяток лет пытаются наделить машины человеческим разумом, для того чтобы техническое устройство могло самостоятельно выполнять поставленные задачи. В 1956 год информатик Джон Маккарти предложил использовать термин "Artificial Intelligence" (Искусственный интеллект). Искусственный интеллект - направление в информатике, занимающееся решением задач, предназначенных для человеческого интеллекта, с использованием машин. Человек не может обладать всеми знаниями мира, но он может добывать и накапливать знания, а искусственный интеллект их обрабатывать, или, например, человек не способен работать без отдыха, монотонный труд нелегок. Техническое устройство наделяют искусственным интеллектом, чтобы человек освободился от определенных задач и выполнял то, на что машина не способна. В настоящее время искусственный интеллект решает задачи в разных сферах жизни человека. В работах С. Николенко1, Д. Фостера2, С. Ратгеба3 представлены теоретические основы искусственного интеллекта, описаны области, в которых используется искусственный интеллект, и методы решения задач.
Целью данной работы является изучение и обобщение методов и задач, решаемых при работе с мультимедийной информацией с применением искусственного интеллекта, для дальнейшего развития направления. В соответствии с целью были поставлены следующие задачи:
- изучение теоретических основ искусственного интеллекта;
- рассмотрение задач искусственного интеллекта при работе с мультимедиа из литературных источников;
- изучение методов, используемых для решения поставленных задач, представленных в литературных источниках.
1 Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. Санкт-Петербург: Питер, 2018. 480 с.
2 Фостер Д. Генеративное глубокое обучение. Творческий потенциал нейронных сетей. Санкт-Петербург: Питер, 2020. 336 с.
3 Rathgeb C., Tolosana R., Vera-Rodriguez R., Busch C. Handbook of Digital Face Manipulation and Detection: From DeepFakes to Morphing Attacks. Springer International Publishing, 2022. 487 р.
ISSN 1994-0637 25 (print)
Основная часть Нейронные сети
Искусственная нейронная сеть - это математическая модель работы человеческого мозга. Простейший вид нейронной сети - персептрон. Персептрон - отражение работы биологической сети, состоящей из нейронов. В полносвязных сетях прямого распространения (FFNN)1 каждый нейрон предыдущего слоя связан с каждым нейроном следующего слоя (рис. 1). При этом сигнал распространяется от входного слоя к выходному без обратных связей.
Рис. 1. Полносвязная сеть прямого распространения
Связи между нейронами имеют определенные веса от у-го нейрона к г-му нейрону. Вес - это числовое значение, которое умножается на входное значение сигнала. Каждый нейрон получает сумму входных значений, умноженных на вес соответствующей связи (1):
=Ею рх
(1)
i=i
где т - вес связи оту-го нейрона к г-му нейрону; хг - значение входного сигнала.
Затем сумма передается функции активации. Функция активации - это математическая формула, которая помогает нейрону активироваться или не активироваться.
Пример. Школьник решил заказать пиццу и выбирает пиццу по четырем параметрам:
- наличие зелени;
- есть ли в пицце грибы;
- наличие помидоров;
- два вида колбасных изделий.
1 Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. Санкт-Петербург: Питер, 2018. 480 с._
На рис. 2 представлена нейронная сеть, с помощью которой школьник решает, заказывать пиццу или нет.
Рис. 2. Нейронная сеть школьника
Школьник отрицательно относится к наличию зелени и грибов в пицце, а к помидорам и двум видам колбасных изделий положительно, поэтому для зелени и грибов веса отрицательные, а для помидоров и колбасных изделий положительные. Функция активации, от которой зависит, закажет ли школьник пиццу (2):
_[1, х > 0,6 1 (Х) = ]0 х < 0,6. (2)
Допустим, школьник читает состав пиццы и определяет, что в ее составе есть зелень, грибы, два вида колбасных изделий и нет помидоров. Считаем сумму по формуле (1):
х = -0,5-1 + 0,7 • 0 - 0,3-1 + 0,4-1 = -0,4. (3)
Далее полученное значение проходит через функцию активации, получаем 0. Следовательно, школьник пиццу с таким составом не купит.
Если, к примеру, в пицце нет зелени и грибов, но есть помидоры и два вида колбасных изделий, сумма получается следующая:
х = -0,5 • 0 + 0,7 • 1-0,3 • 0 + 0,4-1 = 0,11. (4)
После функции активации значение равно 1, значит, школьник пиццу закажет.
Существует множество типов нейронных сетей. Чаще всего встречаются следующие типы:
1. C прямой связью (feedforward neural network, FF или FFNN). FFNN применяются для распознавания речи1, изображений и компьютерного зрения2.
2. Рекуррентная нейронная сеть (recurrent neural network, RNN) - это тип нейронной сети, который содержит циклы, позволяющие хранить информацию в сети. Рекуррентные нейронные сети используют выходную информацию предыдущего слоя в следующих слоях3. Используются в распознавании речи4, языковом переводе, где важен правильный порядок слов.
3. Сверточная нейронная сеть (convolutional neural network, CNN). CNN особенно полезны для поиска шаблонов на изображениях для распознавания объектов, лиц и сцен5.
Работа с изображением
Генерация новых изображений на основе коллекции изображений
Созданием новых, ранее не существующих, изображений занимается генеративное моделирование. Генеративное моделирование определяет и описывает способ создания набора данных с точки зрения вероятностной модели. К примеру, есть набор изображений с каким-либо объектом и поставлена задача построить модель, способную генерировать новые изображения с объектом. Описание процесса генеративного моделирования:
- сбор обучающего набора с образцами объекта для будущей генерации;
- выделение множества признаков - в задачах генерации изображений признаками являются отдельные пикселы;
- генерация нового образца.
Стоит отметить, что модель должна быть недетерминированной, т. е. каждый раз выдавать разные результаты. Автор6 сравнивает дискриминативное моделирование (обучение с учителем, каждое наблюдение из набора данных получает метку для классификации изображений) с генеративным моделированием (чаще всего обучение
1 Aaref A., Mahmood Z. Optimization the Accuracy of FFNN Based Speaker Recognition System Using PSO Algorithm // International Journal on Communications Antenna and Propagation (IRECAP). 2021. DOI: 10.15866/irecap.v11i4.19883.
2 Kalam R., Rahiman M. Efficient Segmentation of Tumor and Edema MR Images Using Optimized FFNN Algorithm // Advances in Intelligent Systems and Computing book series (AISC, volume 1420). 2022. DOI: 10.1007/978-981-16-9573-5_56.
3 Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. Санкт-Петербург: Питер, 2018. 480 с.
4 Krishnaveni M., Subashini P., Dhivyaprabha T. Recurrent Neural Network Model for the Classification of Tamil Speech Sound Disorder Signals // AgroTech. 2022. DOI: 10.1007/978-981-19-3951-8_56.
5 Chen X., Xie L., Wu J., Tian Q. Cyclic CNN: Image Classification with Multi-Scale and Multi-Location Contexts // IEEE Internet of Things Journal. 2020. DOI: 10.1109/JTOT.2020.3038644.
6 Фостер Д. Генеративное глубокое обучение. Творческий потенциал нейронных сетей. Санкт-Петербург: Питер, 2020. 336 с.
без учителя) и утверждает, что генеративное моделирование - следующий рубеж машинного обучения. Но при этом подчеркивает, что в академической среде проще применить дискриминативное моделирование для решения практических задач. Его позиция ясна и понятна. Действительно, чаще всего требуется определить вероятность наличия какого-то определенного объекта на снимке, а не сгенерировать новые изображения этого объекта. Для создания автокодировщиков и генеративно-состязательных сетей используются библиотеки Keras и TensorFlow, примеры создания приведены в книге Д. Фостера1.
В некоторых областях существует проблема нехватки изображений. Сверточные нейронные сети (CNN) при обучении требуют больших наборов данных, которые иногда сложно получить, например, медицинские снимки. Генерация новых изображений на основе существующих, используя GAN (генеративно-состязательные сети), устраняет проблему нехватки изображений.
В статье2 авторы сгенерировали синтетические изображения с помощью GAN, использовали их для семантической сегментации бактериальных колоний в чашках с агаром и пришли к выводу, что использование небольшого набора реальных данных совместно с синтетическими изображениями позволяет получить результаты, сравнимые с использованием полного набора реальных данных.
В работе3 авторы также использовали генеративно-состязательные сети для получения синтетических изображений головного мозга для трех различных стадий болезни Альцгеймера. Следовательно, генерирование синтетических изображений для создания крупномасштабного набора данных для обучения моделей является активной областью исследований и экономичным подходом к разработке автоматизированных диагностических технологий.
Стилизация изображений
Также генеративные модели применяются при стилизации изображений. Например, есть входное изображение. Задача - стилизовать это изображение так, чтобы казалось, что оно принадлежит тому же набору изображений с образцами стиля (рис. 3). На рис. 3 исходному изображению передается стиль Ван Гога. Укажем сайт, на котором доступна стилизация изображения бесплатно: https://www.ostagram.me
1 Фостер Д. Генеративное глубокое обучение. Творческий потенциал нейронных сетей. Санкт-Петербург: Питер, 2020. С. 125.
2 Andreini P., Bonechi S., Bianchini M., Mecocci A., Scarselli F. Image Generation by GAN and Style Transfer for Agar Plate Image Segmentation // Computer Methods and Programs in Biomedi-cine. 2019. DOI: 10.1016/j.cmpb.2019.105268.
3 Islam J., Zhang Y. GAN-based synthetic brain PET image generation // Brain Informatics. 2020. DOI: 10.1186/s40708-020-00104-2.
Рис. 3. Пример стилизации изображения
Для передачи стиля используются модели CycleGAN и Neural Style Transfer. До появления CycleGAN для переноса стиля использовалась модель pix2pix. Автор1 сравнивает генеративно-состязательную сеть CycleGAN и модель передачи стиля pix2pix и отмечает, что модели pix2pix требуется наличие каждого изображения из обучающего набора в двух формах: исходной и целевой. Но, как известно, для некоторых задач переноса стиля невозможно получить оригинальное изображение объекта. Это недостаток модели pix2pix. CycleGAN такого недостатка не имеет. Кроме того, модель CycleGAN способна выполнять обратное преобразование - превращать картины художника в реалистичные фотографии.
Способ нейронной передачи стиля (Neural Style Transfer) позволяет перенести стиль уникального изображения на базовое без применения обучающего набора, но с использованием обоснованно выбранной функции потерь, штрафующей модель за слишком большое отклонение от содержимого основного и стилевого изображения.
Стилизация изображения применяется не только в развлекательных целях. Медицинские изображения, как правило, имеют низкое разрешение и шум. Применение стилизации может значительно уменьшить шум исходных изображений. Например, автор2 построил модель на основе GAN и смог уменьшить шум КТ-сканов.
Классификация изображений
Классификация изображений — это задача присвоения метки или класса всему изображению. Ожидается, что изображения будут иметь только один класс для каждого изображения. Модели классификации изображений принимают изображение в качестве входных данных и возвращают прогноз о том, к какому классу оно принад-
1 Фостер Д. Генеративное глубокое обучение. Творческий потенциал нейронных сетей. Санкт-Петербург: Питер, 2020. 336 с.
2 Yang Q. Low-Dose CT Image Denoising Using a Generative Adversarial Network With Wasserstein Distance and Perceptual Loss // IEEE Transactions on Medical Imaging. 2018. June. Vol. 37, no. 6. Pp. 1348-1357. DOI: 10.1109/TMI.2018.2827462.
лежит. В статье1 авторы используют архитектуру AlexNet со сверточными нейронными сетями для классификации нескольких изображений (морская актиния, барометр, стетоскоп, радиоинтерферометр из базы данных ImageNet для экспериментов) и подтверждают эффективность алгоритма.
Классификация изображений в медицине чрезвычайно важна. В работе2 авторы используют сверточные нейронные сети для обнаружения опухоли головного мозга. МРТ-изображение загружается в приложение первым. Затем изображение подвергается предварительной обработке, которая включает в себя пороговое значение и шум. Входное МРТ-изображение головного мозга разделяется на две важные области в процессе сегментации. Есть два типа изображений: опухолевые и неопухолевые. Данные сегментированы с использованием алгоритма водораздела на основе маркеров. В конце применяется алгоритм CNN и утверждается эффективность использования сверточных нейронных сетей.
В борьбе с COVID-19 глубокие сверточные нейронные сети (DCNN) показали результат - 97,5 % при классификации рентгеновских изображений грудной клетки. Экспериментальный результат показывает, что предложенные методы авторами статьи3 эффективны.
Для оценки качества выпуска промышленной продукции применяют нейронные сети. Например, в работе4 конструируется нейронная сеть для системы распознавания дефектов холодного проката.
Сверточная нейронная сеть (CNN) успешно справляется с классификацией и сегментацией трещин на кирпичной кладке. Krishna M., Neelima M., Mane H., Matcha V.5 отмечают, что изображения кирпичной кладки оказались наиболее сложными для обработки среди других случаев (поиск трещин на бетонных поверхностях), поскольку швы кирпичной кладки и фоновые текстуры создают шумы. Сверточная нейросеть MobileNet показала высокую точность при обнаружении трещин на кирпичной кладке. Но трещины классифицируются MobileNet и другими сверточными нейронными сетями не всегда правильно на изображениях, сделанных под острым углом или с большим полем зрения. Авторы не решили проблему обнаружения две-
1 Krishna M., Neelima M., Mane H., Matcha V. Image classification using Deep learning // International Journal of Engineering & Technology. 2018. DOI: 10.14419/ijet.v7i2.7.10892.
2 Hebbale S., Marndi A., Prasad N., Achyutha, Manjula G., Mohan B., Jagadeesh B. Automated medical image classification using deep learning // International journal of health sciences. 2022. DOI: 1650-1667. 10.53730/ijhs.v6nS5.9153.
3 Olimjonov O., Md N., Shirin K., Al-Absi A., Mannan Z. COVID-19 X-Ray Image Classification Using Deep Convolution Neural Network // Lecture Notes in Networks and Systems book series (LNNS, vol. 395). 2022. С. 392-402. DOI: 10.1007/978-981-16-9480-6_37.
4 Гарбар Е. А., Логунова О. С. Конструирование нейронной сети для системы распознавания дефектов холодного проката // Актуальные проблемы современной науки, техники и образования: Тезисы докладов 79-й международной научно-технической конференции (Магнитогорск, 19-23 апреля 2021 года). Магнитогорск: Магнитогорский государственный технический университет им. Г. И. Носова, 2021. С. 344.
5 Dais D., Bal I., Smyrou E., Sarhosis V. Automatic crack classification and segmentation on masonry surfaces using convolutional neural networks and transfer learning // Automation in Construction. 2021. DOI: 10.1016/j.autcon.2021.103606._
рей, окон, лестниц на фасаде здания и исключения их из изображения и рекомендуют продолжить исследования в данной области.
Таким образом, CNN доказала свою эффективность в обнаружении и классификации объектов. Но стоит отметить, что в большинстве работ, в которых CNN обучалась на изображениях с монотонным фоном, а затем тестировалась на более сложном наборе данных, точность классификации изображений резко снижалась. В контексте некоторых задач это очень важно.
Генерация новых изображений из описания на английском языке
Нейросеть способна не только классифицировать изображения и распознавать объекты на них, но и генерировать свои изображения из словесного описания. В начале 2021 года компания OpenAI выпустила нейронную сеть DALL-E. DALL-E — это новая система искусственного интеллекта, создающая реалистичные изображения и рисунки из описания на английском языке. DALL-E использует 12-миллиардную модель GPT-3 для интерпретации данных на английском языке и генерации на их основании изображения. Модель GPT-3 разработана на основе архитектуры глубоких нейронных сетей «Трансформер», которая используется в Ян-декс.Переводчике и Google.Переводчике. С появлением второй версии DALL-E появилась возможность вносить правки в работе приложения через редактор, а также принимать во внимание тени, отражения и текстуры. DALL-E - это прорыв в области искусственного интеллекта и анализа данных. Генерация изображений с помощью DALL-E позволяет учесть точное описание желаемого и создать необычное красочное изображение, которое можно использовать в дизайне, рекламе, журналах.
Манипуляции с лицом на изображении
Создание уникальных лиц
StyleGAN - генеративно-состязательная сеть от NVIDIA, генерирующая уникальные лица (рис. 4). Сайт, на котором можно проверить работу StyleGAN: https://thispersondoesnotexist.com/. Генерация новых лиц подходит для видеоигр, кинофильмов и 3D-моделирования. Но некоторые используют такую возможность для дезинформации. GAN состоит из двух нейронных сетей, которые соревнуются друг с другом. Генератор G фиксирует распределение данных и создает новые выборки, дискриминатор D оценивает вероятность того, что выборка относится к реальным данным, а не к поддельным (G). Процедура обучения для G состоит в том, чтобы
максимизировать вероятность ошибки D, создавая качественные поддельные образ-цы1.
1 Islam J., Zhang Y. GAN-based synthetic brain PET image generation // Brain Informatics. 2020. DOI: 10.1186/s40708-020-00104-2.
Рис. 4. Генерация уникального лица Замена лица. Обмен идентичностью
Данная манипуляция с изображением называется БеерРаке. Появление манипуляции по замене лица дало новый виток развития разным отраслям, например, киноиндустрии. Стоит отметить, что БеерРаке также используется для создания розыгрышей и махинаций. На рис. 5 представлено изображение, полученное при замене лица (https://faceswapper.ai/). Примечательно, что два исходных изображения сгенерированы нейросетью StyleGAN.
Рис. 5. Смешивание лиц
Трансформация лица
Трансформация лица (Face Morphing) - это тип цифровой манипуляции с лицом, использующийся для создания искусственного биометрического образца лица, напоминающего биометрическую информацию двух или больше человек. Процесс генерации изображения с трансформацией лица имеет следующие этапы1:
- определение соответствий между изображениями лиц (выделение глаз, рта, носа);
- искажение выделенных элементов до тех пор, пока эти элементы выровнены геометрически;
1 Rathgeb C., Tolosana R., Vera-Rodriguez R., Busch C. Handbook of Digital Face Manipulation and Detection: From DeepFakes to Morphing Attacks. Springer International Publishing, 2022. 487 p._
- значения цветов деформированных изображений объединяются.
Для трансформации лиц используются модели MorGAN и StyleGAN. MorGAN для создания выходного изображения использует генератор, который состоит из кодеров, декодеров, и дискриминатор. Генератор обучен создавать изображения с размерами 64 х 64 пикселей. Архитектура StyleGAN улучшила процесс генерации выходных изображений за счет увеличения размера до 1024 х 1024 пикселей1. Метод, основанный на использовании нейронных сетей, имеет недостатки:
- высокая склонность к геометрическим искажениям;
- требуется предварительный отбор данных в зависимости от пола, возраста и этнической принадлежности.
Системы распознавания лиц с трудом различают преобразованное лицо от двух других лиц, на основе которых сгенерировано новое лицо, получая точность 55-70 %2.
Ретушь лица
Ретушь лица - манипуляция, изменяющая некоторые атрибуты лица, такие как цвет волос или кожи, пол, возраст, добавление очков и т. д. Этот процесс манипулирования обычно осуществляется с помощью GAN. Авторы3 сравнили несколько созданных GAN и пришли к выводу, что в настоящее время реалистичных визуальных результатов достигают RelGAN4 и SSC-GAN.
Работа с аудиофайлом
Генерация музыки для монофонической музыкальной линии
Для генерации мелодии используется модель LSTM (Long Short-Term Memory). LSTM - разновидность RNN (Recurrent Neural Network). В рекуррентных нейронных сетях присутствуют циклы для накопления знаний о предыдущих событиях. Модель RNN справляется с решением задач, в которых требуется просмотреть только последнюю информацию. Например, построение словосочетаний. На основе предыдущего слова определяется следующее. Но если разрыв между необходимой информацией и местом, где она нужна, велик, то модель RNN не решит задачу. Это ее недостаток. Модель LSTM способна обучаться долгосрочным зависимостям. В главе 7 книги5 Д. Фостера описан процесс создания сети RNN для генерирования музыки.
1 Venkatesh S., Ramachandra R., Raja K., Busch C. Face Morphing Attack Generation & Detection: A Comprehensive Survey // IEEE Transactions on Technology and Society. 2021. DOI: 10.1109/TTS.2021.3066254.
2 Hörmann S., Kong T., Teepe T., Herzog, F., Knoche M., Rigoll G. Face Morphing: Fooling a Face Recognition System Is Simple! // Cornell University. 2022. DOI: 10.48550/arXiv.2205.13796.
3 Rathgeb C., Tolosana R., Vera-Rodriguez R., Busch C. Handbook of Digital Face Manipulation and Detection: From DeepFakes to Morphing Attacks. Springer International Publishing, 2022. 487 p.
4 Wu P., Lin Y., Chang C., Chang E., Liao S. RelGAN: Multi-Domain Image-to-Image Translation via Relative Attributes // IEEEXplore. 2019. DOI: 10.1109/ICCV.2019.00601.
5 Фостер Д. Генеративное глубокое обучение. Творческий потенциал нейронных сетей. Санкт-Петербург: Питер, 2020. 336 с.
Генерирование полифонической музыки
Инфраструктура RNN позволяет генерировать сразу несколько музыкальных линий, но в текущем наборе данных аккорды хранятся как отдельные объекты, а не как части, состоящие из нескольких нот. То есть некоторые аккорды взаимодействуют друг с другом, например, при замене одной ноты. Следовательно, требуется сеть, принимающая несколько музыкальных каналов в виде отдельных потоков для генерации гармоничной музыки. Рекуррентная модель MuseGAN способна на это. Из-за определенной организации модели (аккорды, стиль, мелодия, дорожки) доступно управление высокоуровневыми свойствами музыки1.
Определение музыкального жанра
Основная проблема в классификации музыкальных жанров - выделение отличительных особенностей из аудиоданных, которые можно было бы ввести в модель. В работе2 музыка классифицируется по жанру с использованием CNN и RCNN. Предложенный в статье подход обеспечил точность 81,55 % для четырехслойной 2Б-модели CNN и точность 82,05 % для модели RCNN. Следовательно, результаты показывают работоспособность данной модели.
В статье3 обсуждается применение различных типов нейронных сетей для классификации набора данных аудио. Строится сверточная нейронная сеть (CNN) и рекуррентная нейронная сеть (RNN) с длинной кратковременной памятью (LSTM). CNN превзошла другие модели с точки зрения точности обучения и тестирования, набрав 83,74 и 74 % соответственно.
Работа с видеопотоком
Генерация DeepFake-видео. DeepFake (конкатенация слов «глубинное обучение» и «подделка») - это сгенерированное видео, изображение или аудио, имитирующее внешний вид и голос человека. В большинстве случаев DeepFake генерируется с помощью GAN - генеративно-состязательных сетей, но есть и другие методы, описанные в работе4.
Дискриминативные модели могут использоваться как метод обнаружения deep-fake-видео. Подобный подход можно использовать в качестве метода обнаружения deepfake-видео с использованием, например, методов состязательного обучения, когда система злоумышленника обучается на примерах deepfake-видео, чтобы обмануть детектор. Цель злоумышленника — создать наилучшее поддельное изображе-
1 Фостер Д. Генеративное глубокое обучение. Творческий потенциал нейронных сетей. Санкт-Петербург: Питер, 2020. С. 273.
2 Macharla V., Radha Krishna P. Music Genre Classification using Neural Networks with Data Augmentation A Make in India Creation // Innovation Sciences and Sustainable Technologies. 2021. No. 1 (1). P. 21-37.
3 Khamees A., Hejazi H., Alshurideh M., Salloum S. Classifying Audio Music Genres Using CNN and RNN // Advances in Intelligent Systems and Computing book series (AISC, vol. 1339). 2021. DOI: 10.1007/978-3-030-69717-4_31.
4 Rathgeb C., Tolosana R., Vera-Rodriguez R., Busch C. Handbook of Digital Face Manipulation and Detection: From DeepFakes to Morphing Attacks. Springer International Publishing, 2022. 487 р.
ние, которое нельзя было бы обнаружить как манипулируемое с помощью программного обеспечения.
Обнаружение объектов в видеопотоке. Важными областями исследований в области обработки видео являются распознавание объектов, действий человека, обнаружение толпы и анализ поведения. В работе1 авторы предлагают новую автоматическую систему обнаружения пистолета на видео. Наиболее многообещающие результаты дает модель на основе Faster R-CNN, обученная на авторской базе данных. Лучший детектор показывает высокий потенциал даже в видео низкого качества на YouTube и обеспечивает удовлетворительные результаты в качестве автоматической системы сигнализации.
В статье2 точность предлагаемого метода обнаружения объектов CNN с градиентным спуском равна 92 % (рис. 6). В работе3 CNN используют для обнаружения и распознавания номерного знака автомобиля, достигнута точность 96,91 % на этапе определения точности текста за счет применения схемы CNN. Высокая точность обнаружения объектов на видео с помощью сверточной нейронной сети подтверждают ее работоспособность при решении задач из разных областей.
Рис. 6. Обнаружение объектов в видеопотоке
YOLO (You Only Look Once) - архитектура нейронных сетей, предназначенная для детектирования объектов на изображении. Средняя точность обнаружения груш на видео составила 0,97, а количество правильно подсчитанных груш - 226 из 234. Сеть YOLO v2 с большим размером входного изображения и методом аугментации
1 Olmos R., Tabik S., Herrera F. Automatic Handgun Detection Alarm in Videos Using Deep Learning // Neurocomputing. 2017. DOI: 10.1016/j.neucom.2017.05.012.
2 Jeberson Retna Raj R., Srinivasulu S. Object Detection in Live Streaming Video Using Deep Learning Approach // IOP Conference Series: Materials Science and Engineering. 2021. DOI: 10.1088/1757-899X/1020/1/012028.
3 Pilli B.V.R., Devabalan P., Nagarajan S. Detecting the Vehicle's Number Plate in the Video Using Deep Learning Performance // Review of International Geographical Education Online. 2021. C. 4315-4324. DOI: 10.48047/rigeo.11.05.311._
данных способствовали высокой точности подсчета. Груши и яблоки на видео под-считывались автоматически с абсолютной погрешностью 10 % при нестабильном освещении и с зеленоватыми плодами1.
Заключение
На текущий момент в области искусственного интеллекта при работе с изображениями, аудиофайлами и видеопотоками достигнуты значительные успехи. Существует возможность генерировать изображения, неотличимые от реальных, генерировать музыку и обнаруживать движущиеся объекты в видеопотоке в реальном времени.
Ручная обработка большого количества сложных данных приводит к ошибкам из-за субъективности процесса и уровня навыков работника. Нейронные сети заменяют ручную работу человека, обрабатывая большие объемы данных. Одно из преимуществ нейронных сетей - способность обрабатывать неорганизованные данные, разделяя и классифицируя их. Также нейросети обладают адаптивной структурой, умением быстро трансформироваться и приспосабливаться к новым условиям. При этом нейронные сети не лишены недостатков. Они сильно зависят от данных. Если данные недостаточно подходят для нейросети, то результаты анализа могут быть ошибочными и исказить фактические результаты вычислений.
Генеративно-состязательная сеть GAN - прорыв в области исследований генерации синтетических данных. GAN успешно применяют для генерации изображений, раскрашивания и стилизации изображений, обнаружения объектов, манипуляции с объектами на изображении.
Достижениями в генерировании изображений считается - ProGAN, SAGAN, BigGAN и StyleGAN. ProGAN - новая методика для повышения скорости обучения GAN. Сети SAGAN демонстрируют возможность механизма внимания для генерирования изображений. SAGAN ищет зависимости между удаленными друг от друга пикселами. Нейросеть DALL-E генерирует уникальные детализированные изображения в любом стиле, используя описание на английском языке.
Модель MuseNet может генерировать огромное количество музыкальных произведений в определенном стиле. Сгенерированную музыку возможно использовать в фильмах и видеоиграх. Сверточные нейронные сети подходят для решения задач, связанных с обработкой изображений. Главное преимущество CNN заключается в том, что сеть автоматически определяет важные отличительные особенности для каждого класса изображений без контроля со стороны человека. Рекуррентные нейронные сети предназначены для распознавания последовательных характеристик данных и последующего использования шаблонов для прогнозирования предстоящего сценария.
Бесспорно, искусственный интеллект полезен в различных сферах. Искусственные нейросети в настоящее время используются для решения многих сложных задач, и спрос на них растет.
1 Itakura K., Narita Y., Noaki S., Hosoi F. Automatic pear and apple detection by videos using deep learning and a Kalman filter // OSA Continuum. 2021. DOI: 10.1364/OSAC.424583.
ISSN 1994-0637 (print)
Список источников
Гарбар Е. А., Логунова О. С. Конструирование нейронной сети для системы распознавания дефектов холодного проката // Актуальные проблемы современной науки, техники и образования: Тезисы докладов 79-й международной научно-технической конференции (Магнитогорск, 19-23 апреля 2021 года). Магнитогорск: Магнитогорский государственный технический университет им. Г. И. Носова, 2021. С. 344.
Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. Санкт-Петербург: Питер, 2018. 480 с.
Фостер Д. Генеративное глубокое обучение. Творческий потенциал нейронных сетей. Санкт-Петербург: Питер, 2020. 336 с.
Aaref A., Mahmood Z. Optimization the Accuracy of FFNN Based Speaker Recognition System Using PSO Algorithm // International Journal on Communications Antenna and Propagation (IRECAP). 2021. DOI: 10.15866/irecap.v11i4.19883.
Andreini P., et al. Image Generation by GAN and Style Transfer for Agar Plate Image Segmentation // Computer Methods and Programs in Biomedicine. 2019. DOI: 10.1016/j.cmpb.2019.105268.
Chen X., Xie L., Wu J., Tian Q. Cyclic CNN: Image Classification with Multi-Scale and Multi-Location Contexts // IEEE Internet of Things Journal. 2020. DOI: 10.1109/JIOT.2020.3038644.
Dais D., Bal I., Smyrou E., Sarhosis V. Automatic crack classification and segmentation on masonry surfaces using convolutional neural networks and transfer learning // Automation in Construction. 2021. DOI: 10.1016/j.autcon.2021.103606.
Hebbale S., Marndi A., Prasad N., Achyutha, Manjula G., Mohan B., Jagadeesh B. Automated medical image classification using deep learning // International journal of health sciences. 2022. DOI: 1650-1667. 10.53730/ijhs.v6nS5.9153.
Hormann S., Kong T., Teepe T., Herzog, F., Knoche M., Rigoll G. Face Morphing: Fooling a Face Recognition System Is Simple! // Cornell University. 2022. DOI: 10.48550/arXiv.2205.13796.
Islam J., Zhang Y. GAN-based synthetic brain PET image generation // Brain Informatics. 2020. DOI: 10.1186/s40708-020-00104-2.
Itakura K., Narita Y., Noaki S., Hosoi F. Automatic pear and apple detection by videos using deep learning and a Kalman filter // OSA Continuum. 2021. DOI: 10.1364/OSAC.424583.
Jeberson Retna Raj R., Srinivasulu S. Object Detection in Live Streaming Video Using Deep Learning Approach // IOP Conference Series: Materials Science and Engineering. 2021. DOI: 10.1088/1757-899X/1020/1/012028.
Kalam R., Rahiman M. Efficient Segmentation of Tumor and Edema MR Images Using Optimized FFNN Algorithm // Advances in Intelligent Systems and Computing book series (AISC, volume 1420). 2022. DOI: 10.1007/978-981-16-9573-5_56.
Khamees A., Hejazi H., Alshurideh M., Salloum S. Classifying Audio Music Genres Using CNN and RNN // Advances in Intelligent Systems and Computing book series (AISC, vol. 1339). 2021. DOI: 10.1007/978-3-030-69717-4_31.
Krishna M., Neelima M., Mane H., Matcha V. Image classification using Deep learning // International Journal of Engineering & Technology. 2018. DOI: 10.14419/ijet.v7i2.7.10892.
Krishnaveni M., Subashini P., Dhivyaprabha T. Recurrent Neural Network Model for the Classification of Tamil Speech Sound Disorder Signals // AgroTech. 2022. DOI: 10.1007/978-981-19-3951-8_56.
Wu P., Lin Y., Chang C., Chang E., Liao S. RelGAN: Multi-Domain Image-to-Image Translation via Relative Attributes // IEEEXplore. 2019. DOI: 10.1109/ICCV.2019.00601.
Macharla V., Radha Krishna P. Music Genre Classification using Neural Networks with Data Augmentation A Make in India Creation // Innovation Sciences and Sustainable Technologies. 2021. No. 1(1). Pp. 21-37.
Olimjonov O., Md N., Shirin K., Al-Absi A., Mannan Z. COVID-19 X-Ray Image Classification Using Deep Convolution Neural Network // Lecture Notes in Networks and Systems book series (LNNS, vol. 395). C. 392-402. DOI: 10.1007/978-981-16-9480-6_37.
Olmos R., Tabik S., Herrera F. Automatic Handgun Detection Alarm in Videos Using Deep Learning // Neurocomputing. 2017. DOI: 10.1016/j.neucom.2017.05.012.
Pilli B.V.R., Devabalan P., Nagarajan S. Detecting the Vehicle's Number Plate in the Video Using Deep Learning Performance // Review of International Geographical Education Online. 2021. C. 4315-4324. DOI: 10.48047/rigeo.11.05.311.
Rathgeb C., Tolosana R., Vera-Rodriguez R., Busch C. Handbook of Digital Face Manipulation and Detection: From DeepFakes to Morphing Attacks. Springer International Publishing, 2022. 487 p.
Venkatesh S., Ramachandra R., Raja K., Busch C. Face Morphing Attack Generation & Detection: A Comprehensive Survey // IEEE Transactions on Technology and Society. 2021. DOI: 10.1109/TTS .2021.3066254
Yang Q. Low-Dose CT Image Denoising Using a Generative Adversarial Network With Wasserstein Distance and Perceptual Loss // IEEE Transactions on Medical Imaging. 2018. June. Vol. 37, no. 6. Pp. 1348-1357. DOI: 10.1109/TMI.2018.2827462.
References
Garbar E. A., Logunova O. S. Konstruirovanie neironnoi seti dlia sistemy raspoznavaniia defektov kholodnogo prokata [Design of a neural network for a cold rolled product defect recognition system]. Aktual'nye problemy sovremennoi nauki, tekhniki i obrazovaniia: Tezisy dokladov 79-i mezhdunarodnoi nauchno-tekhnicheskoi konferentsii, Magnitogorsk, 19-23 aprelia 2021 goda [Current problems of modern science, technology and education: Proceedings of the 79th International Scientific and Technical Conference (Magnitogorsk, April 19-23, 2021)]. Magnitogorsk: Magni-togorskii gosudarstvennyi tekhnicheskii universitet im. G. I. Nosova, 2021, pp. 344.
Nikolenko S., Kadurin A., Arkhangel'skaia E. Glubokoe obuchenie [Deep learning]. St. Petersburg: Piter, 2018. 480 p.
Foster D. Generativnoe glubokoe obuchenie. Tvorcheskii potentsial neironnykh setei [Generative deep learning. Teaching machines to paint, write, compose, and play]. St. Petersburg: Piter, 2020. 336 p.
Aaref A., Mahmood Z. Optimization the Accuracy of FFNN Based Speaker Recognition System Using PSO Algorithm. International Journal on Communications Antenna and Propagation (IRECAP), 2021. DOI: 10.15866/irecap.v11i4.19883.
Andreini P., Bonechi S., Bianchini M., Mecocci A., Scarselli F. Image Generation by GAN and Style Transfer for Agar Plate Image Segmentation. Computer Methods and Programs in Biomedi-cine, 2019. DOI: 10.1016/j.cmpb.2019.105268.
Chen X., Xie L., Wu J., Tian Q. Cyclic CNN: Image Classification with Multi-Scale and Multi-Location Contexts. IEEE Internet ofThings Journal, 2020. DOI: 10.1109/JIOT.2020.3038644.
Dais D., Bal I., Smyrou E., Sarhosis V. Automatic crack classification and segmentation on masonry surfaces using convolutional neural networks and transfer learning. Automation in Construction, 2021. DOI: 10.1016/j.autcon.2021.103606.
Hebbale S., Marndi A., Prasad N., Achyutha, Manjula G., Mohan B., Jagadeesh B. Automated medical image classification using deep learning. International journal of health sciences, 2022. DOI: 1650-1667. 10.53730/ijhs.v6nS5.9153.
Hörmann S., Kong T., Teepe T., Herzog, F., Knoche M., Rigoll G. Face Morphing: Fooling a Face Recognition System Is Simple!, 2022. DOI: 10.48550/arXiv.2205.13796.
Islam J., Zhang Y. GAN-based synthetic brain PET image generation. Brain Informatics, 2020. DOI: 10.1186/s40708-020-00104-2.
Itakura K., Narita Y., Noaki S., Hosoi F. Automatic pear and apple detection by videos using deep learning and a Kalman filter. OSA Continuum, 2021. DOI: 10.1364/0SAC.424583.
Jeberson Retna Raj R., Srinivasulu S. Object Detection in Live Streaming Video Using Deep Learning Approach. IOP Conference Series: Materials Science and Engineering, 2021. DOI: 10.1088/1757-899X/1020/1/012028.
Kalam R., Rahiman M. Efficient Segmentation of Tumor and Edema MR Images Using Optimized FFNN Algorithm, 2022. DOI: 10.1007/978-981-16-9573-5_56.
Khamees A., Hejazi H., Alshurideh M., Salloum S. Classifying Audio Music Genres Using CNN and RNN, 2021. DOI: 10.1007/978-3-030-69717-4_31.
Krishna M., Neelima M., Mane H., Matcha V. Image classification using Deep learning. International Journal of Engineering & Technology, 2018. DOI: 10.14419/ijet.v7i2.7.10892.
Krishnaveni M., Subashini P., Dhivyaprabha T. Recurrent Neural Network Model for the Classification of Tamil Speech Sound Disorder Signals, 2022. DOI: 10.1007/978-981-19-3951-8_56.
Wu P., Lin Y., Chang C., Chang E., Liao S. RelGAN: Multi-Domain Image-to-Image Translation via Relative Attributes, 2019. DOI: 10.1109/ICCV.2019.00601.
Macharla V., Radha Krishna P. Music Genre Classification using Neural Networks with Data Augmentation A Make in India Creation, 2021, pp. 21-37.
Olimjonov O., Md N., Shirin K., Al-Absi A., Mannan Z. COVID-19X-Ray Image Classification Using Deep Convolution Neural Network, 2022, pp. 392-402. DOI: 10.1007/978-981-16-9480-6_37.
Olmos R., Tabik S., Herrera F. Automatic Handgun Detection Alarm in Videos Using Deep Learning. Neurocomputing, 2017. DOI: 10.1016/j.neucom.2017.05.012.
Pilli B.V.R., Devabalan P., Nagarajan S. Detecting the Vehicle's Number Plate in the Video Using Deep Learning Performance. Review of International Geographical Education Online, 2021. pp. 4315-4324. DOI: 10.48047/rigeo.11.05.311.
Rathgeb C., Tolosana R., Vera-Rodriguez R., Busch C. Handbook of Digital Face Manipulation and Detection: From DeepFakes to Morphing Attacks. Springer International Publishing, 2022.
Venkatesh S., Ramachandra R., Raja K., Busch C. Face Morphing Attack Generation & Detection: A Comprehensive Survey. IEEE Transactions on Technology and Society, 2021. DOI: 10.1109/TTS.2021.3066254.
Yang Q. "Low-Dose CT Image Denoising Using a Generative Adversarial Network With Wasserstein Distance and Perceptual Loss," IEEE Transactions on Medical Imaging, vol. 37, no. 6, pp. 1348-1357, June 2018, DOI: 10.1109/TMI.2018.2827462.
Сведения об авторах
Оксана Сергеевна Логунова - доктор технических наук, профессор; https://orcid.org/0000-0002-7006-8639, [email protected], Магнитогорский государственный технический университет им. Г. И. Носова (д. 38, пр-т Ленина, 455000 Магнитогорск, Россия); Oksana S. Loguno-va - Doctor of Technical Sciences, Professor; https://orcid.org/0000-0002-7006-8639, [email protected], Nosov Magnitogorsk State Technical University (38, Lenin pr., 455000 Magnitogorsk, Russia).
Вероника Валерьевна Кабанова - студент; https://orcid.org/0000-0001-9253-6942, [email protected], Магнитогорский государственный технический университет им. Г. И. Носова (д. 38, пр-т Ленина, 455000 Магнитогорск, Россия); Veronika V. Kabanova -
Student; https://orcid.org/0000-0001-9253-6942, [email protected], Nosov Magnitogorsk State Technical University (38, Lenin pr., 455000 Magnitogorsk, Russia).
Заявленный вклад авторов: все авторы сделали эквивалентный вклад в подготовку публикации. Авторы заявляют об отсутствии конфликта интересов.
Contribution of the authors: the authors contributed equally to this article. The authors declare no conflicts of interests.
Статья поступила в редакцию 01.10.2022; одобрена после рецензирования 20.10.2022; принята к публикации 14.11.2022.
The article was submitted 01.10.2022; Approved after reviewing 20.10.2022; Accepted for publication 14.11.2022.