Научная статья на тему 'ПРИМЕНЕНИЕ ГЛУБОКОГО ОБУЧЕНИЯ ДЛЯ СОЗДАНИЯ И ОБНАРУЖЕНИЯ ПОДДЕЛЬНЫХ ИЗОБРАЖЕНИЙ, СИНТЕЗИРОВАННЫХ С ПОМОЩЬЮ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА'

ПРИМЕНЕНИЕ ГЛУБОКОГО ОБУЧЕНИЯ ДЛЯ СОЗДАНИЯ И ОБНАРУЖЕНИЯ ПОДДЕЛЬНЫХ ИЗОБРАЖЕНИЙ, СИНТЕЗИРОВАННЫХ С ПОМОЩЬЮ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
962
120
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГЛУБОКИЕ ПОДДЕЛКИ / МАНИПУЛЯЦИЯ ЛИЦОМ / ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / ГЛУБОКОЕ ОБУЧЕНИЕ / АВТОЭНКОДЕРЫ / ГЕНЕРАТИВНАЯ СОСТЯЗАТЕЛЬНАЯ СЕТЬ / КРИМИНАЛИСТИКА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Довгаль Виталий Анатольевич

Глубокое обучение успешно применяется для решения различных сложных задач, начиная от анализа больших данных и заканчивая компьютерным зрением и предоставлением информации для лиц, принимающих решения. Однако достижения в области глубокого обучения могут также использоваться для создания программного обеспечения, создающего угрозы конфиденциальности и безопасности. Примером такого недавно появившегося приложения, основанного на глубоком обучении, является deepfake. Реализованные в приложении алгоритмы могут создавать поддельные изображения и видео, которые практически невозможно отличить от подлинных. В связи с этим разработка технологий, которые могут автоматически обнаруживать и оценивать целостность цифровых визуальных носителей, является актуальной. В статье представлен обзор алгоритмов, используемых для создания поддельных изображений, синтезированных с помощью искусственного интеллекта, и, что более важно, методов для обнаружения указанных изображений, предложенных в актуальной литературе. Рассмотрены обширные дискуссии о проблемах, тенденциях исследований и направлениях, связанных с технологиями deepfake. На основе анализа предыстории и современных подходов к обнаружению подделок в статье содержится обзор методов, используемых для создания поддельных изображений. Это может способствовать разработке новых и более надежных средств для борьбы с ними.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Довгаль Виталий Анатольевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF DEEP LEARNING TO CREATE AND DETECT FAKE IMAGES SYNTHESIZED USING ARTIFICIAL INTELLIGENCE

Deep learning is successfully used to solve various complex tasks, ranging from big data analysis to computer vision and providing information for decision makers. However, advances in deep learning can also be used to create software that poses threats to privacy and security. An example of such a recently appeared application based on deep learning is deepfake. The algorithms implemented in the application can create fake images and videos that are almost impossible to distinguish from genuine ones. In this regard, the development of technologies that can automatically detect and evaluate the integrity of digital visual media is relevant. The article provides an overview of the algorithms used to create fake images synthesized using artificial intelligence, and, more importantly, the methods proposed in the literature for detecting these images to date. We present extensive discussions on issues, research trends and trends related to deepfake technologies. Based on the analysis of the background and modern approaches to detecting fakes, the article provides an overview of the methods used to create fake images, which contributes to the development of new and more reliable means to combat them.

Текст научной работы на тему «ПРИМЕНЕНИЕ ГЛУБОКОГО ОБУЧЕНИЯ ДЛЯ СОЗДАНИЯ И ОБНАРУЖЕНИЯ ПОДДЕЛЬНЫХ ИЗОБРАЖЕНИЙ, СИНТЕЗИРОВАННЫХ С ПОМОЩЬЮ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА»

Обзорная статья

УДК 004.932+004.032.26

ББК 32.813.52

Д 58

DOI: 10.53598 / 2410-3225-2021-4-291-82-94

Применение глубокого обучения для создания и обнаружения поддельных изображений, синтезированных с помощью искусственного интеллекта

(Рецензирована)

Виталий Анатольевич Довгаль

Майкопский государственный технологический университет, Адыгейский государственный университет, Майкоп, Россия, urmia@mail.ru

Аннотация. Глубокое обучение успешно применяется для решения различных сложных задач, начиная от анализа больших данных и заканчивая компьютерным зрением и предоставлением информации для лиц, принимающих решения. Однако достижения в области глубокого обучения могут также использоваться для создания программного обеспечения, создающего угрозы конфиденциальности и безопасности. Примером такого недавно появившегося приложения, основанного на глубоком обучении, является deepfake. Реализованные в приложении алгоритмы могут создавать поддельные изображения и видео, которые практически невозможно отличить от подлинных. В связи с этим разработка технологий, которые могут автоматически обнаруживать и оценивать целостность цифровых визуальных носителей, является актуальной. В статье представлен обзор алгоритмов, используемых для создания поддельных изображений, синтезированных с помощью искусственного интеллекта, и, что более важно, методов для обнаружения указанных изображений, предложенных в актуальной литературе. Рассмотрены обширные дискуссии о проблемах, тенденциях исследований и направлениях, связанных с технологиями deepfake. На основе анализа предыстории и современных подходов к обнаружению подделок в статье содержится обзор методов, используемых для создания поддельных изображений. Это может способствовать разработке новых и более надежных средств для борьбы с ними.

Ключевые слова: глубокие подделки, манипуляция лицом, искусственный интеллект, глубокое обучение, автоэнкодеры, генеративная состязательная сеть, криминалистика

Review article

Application of deep learning to create and detect fake images synthesized using artificial intelligence

Vitaliy А. Dovgal

Maikop State University of Technology, Adyghe State University, Maikop, Russia, urmia@mail.ru

Abstract. Deep learning is successfully used to solve various complex tasks, ranging from big data analysis to computer vision and providing information for decision makers. However, advances in deep learning can also be used to create software that poses threats to privacy and security. An example of such a recently appeared application based on deep learning is deepfake. The algorithms implemented in the application can create fake images and videos that are almost impossible to distinguish from genuine ones. In this regard, the development of technologies that can automatically detect and evaluate the integrity of digital visual media is relevant. The article provides an overview of the algorithms used to create fake images synthesized using artificial intelligence, and, more importantly, the methods proposed in the literature for detecting these images to date. We present extensive discussions on issues, research trends and trends related to deepfake technologies. Based on the analysis of the background and modern approaches to detecting fakes, the article provides an overview of the methods used to create fake images, which contributes to the development of new and more reliable means to combat them.

Keywords: deepfakes, face manipulation, artificial intelligence, deep learning, autoencoders, generative adversarial network, forensics

I. Введение

В узком смысле глубокие подделки (англ. ёеерГаке - происходит от понятий «глубокое обучение» и «подделка») создаются с помощью методов, которые позволяют накладывать изображения лица конкретного (целевого) человека на исходное видео другого человека, чтобы сделать новое видео, на котором целевой человек делает или говорит то, что делает исходный человек. Описанная методика является одной из категорий технологии ёеерГаке, называемой faceswap («обмен лицами»). В более широком смысле deepfakes - это контент, синтезированный искусственным интеллектом, который также может относиться к двум другим категориям, то есть к синхронизации губ и управлению телом человека, выступающего основой для создания подделки. В поддельных видео с синхронизацией губ проводятся такие изменения, в которых движения рта соответствуют аудиозаписи. Второй вид поддельных видео-фейков включает видео некоторого целевого человека (марионетки), которое анимируется выражением лица, движениями глаз и головы другого человека (мастера), сидящего перед камерой [1].

Еще не так давно поддельные видеофрагменты создавались с помощью традиционных визуальных эффектов или подходов с применением средств компьютерной графики. Однако с недавнего времени общим базовым механизмом для создания глубоких подделок стали модели глубокого обучения, такие как автокодировщики (авто-энкодеры) и генеративно-состязательные сети, которые широко применяются в области компьютерного зрения [2]. Эти модели используются для изучения выражений лица и движений человека и синтеза изображений лица другого человека, делающего аналогичные выражения и движения [3]. Методы глубокой подделки обычно требуют большого объема изображений и видеоданных для обучения моделей с целью создания фотореалистичных изображений и видео. Поскольку общественные деятели (знаменитости и политики) часто генерируют большое количество видео и изображений, доступных в Интернете, то они могут являться первоначальными объектами для создания подделок.

Начиная с 2017 года, когда впервые появилось deepfake-видео, возникает новая угроза мировой безопасности - использование методов глубокой подделки для создания видеороликов мировых лидеров с фальшивыми речами в целях фальсификации [4]. Такие видеоролики могут быть использованы для создания политической или религиозной напряженности между странами, обмана общественности с целью повлиять на результаты избирательных кампаний или формирования хаоса на финансовых рынках под действием фальшивых новостей [5]. Глубокие подделки можно даже использовать для создания поддельных спутниковых изображений Земли, содержащих объекты, которых на самом деле не существует, вводя в заблуждение военных аналитиков [6].

В качестве положительных примеров использования глубоких подделок можно назвать их применение в визуальных эффектах, цифровых аватарах, фильтрах snapchat, создание голосов тех, кто потерял их, или обновление эпизодов фильмов без их пересъемки [7].

Однако количество злонамеренных применений глубоких подделок в значительной степени превышает количество положительных, что обусловлено развитием передовых глубоких нейронных сетей и доступностью большого объема данных. Совершенствование технологий создания поддельных изображений и видео, почти неразличимых для людей и сложных компьютерных алгоритмов, позволяет сформировать реалистичный видеофрагмент только по фотографии личности или короткого видео целевого человека. Все перечисленное делает способы преодоления указанной угрозы весьма актуальными.

К настоящему времени было предложено множество методов обнаружения глубоких подделок, которые также основаны на глубоком обучении [8], что позволяет го-

ворить о борьбе между злонамеренным и позитивным использованием указанных методов. В качестве примеров серьезности угрозы можно привести инициацию Агентством перспективных исследовательских проектов Министерства обороны США (DARPA) исследовательской схемы в области судебной экспертизы СМИ (названную Media Forensics или MediFor), направленную на ускорение разработки методов обнаружения поддельных цифровых визуальных носителей для устранения угрозы технологии подмены лиц или глубоких подделок [9]. Кроме того, компании Facebook и Microsoft совместно с «Партнерством в области искусственного интеллекта» в целях обнаружения и предотвращения случаев использования deepfakes для введения пользователей в заблуждение запустили программу Deepfake Detection Challenge, стимулирующую дополнительные исследования и разработки в этой области [10]. Такие меры вызваны значительным ростом документов глубокой подделки за последние годы, что можно иллюстрировать данными, полученными на конец 2021 года компанией Dimension, измерения которой охватывают миллионы научных публикаций, связанных более чем 1,5 миллиардами цитирований, поддержанными грантами, наборами данных, клиническими испытаниями, патентами и программными документами (см. рис. 1). Хотя реальное количество глубоких подделок может быть и меньшим, чем фактически представленные цифры, но тенденция исследования этой темы явно возрастает.

1,500

1421

1,400

Рис. 1. Количество статей в период с 2017 по 2021 год, найденных по ключевому слову поиска "deepfake", примененным к полному тексту научных работ [11] Fig. 1. Number of articles from 2017 to 2021 found by keyword "deepfake" applied to the full text of scientific papers [11]

В данной статье представлен обзор методов создания, а также обнаружения глубоких подделок с точки зрения таксономии. В разделе II представлены принципы построения алгоритмов глубокой подделки и способы использования глубокого обучения для создания прорывных технологий. В разделе III рассматриваются различные методы обнаружения глубоких подделок, а также их преимущества и недостатки. В разделе IV обсуждаются проблемы, тенденции и направления исследований по обнаружению глубоких подделок и проблемам мультимедийной криминалистики.

II. Создание глубокой подделки

БеерГакев стали популярными благодаря качеству подделанных видео, а также простым в использовании возможностям их приложений для широкого круга пользователей с различными компьютерными навыками, от профессионалов до новичков. Методы глубокого обучения, использующиеся в приложениях для разработки подделок, хорошо известны своей способностью представлять сложные и многомерные данные. Ранее упоминавшиеся глубокие автоэнкодеры, являющиеся одним из вариантов глубоких сетей с такой возможностью, широко применяются для уменьшения размерности и сжатия изображений [12]. Первой попыткой создания глубокой подделки было приложение БакеЛрр, разработанное пользователем Яеёёк с использованием структуры сопряжения автоэнкодеров [13]. В этом методе автоэнкодер извлекает скрытые особенности изображений лиц, а декодер используется для восстановления изображений лиц. Для обмена данными о лицах между исходными изображениями и целевыми изображениями необходимы две пары кодер-декодер, где каждая пара используется для обучения набору изображений, а параметры кодера распределяются между двумя сетевыми парами. Другими словами, две пары имеют одну и ту же сеть кодировщиков. Эта стратегия позволяет обычному кодировщику находить и изучать сходство между двумя наборами изображений лиц, которые всегда найдутся, поскольку лица обычно имеют схожие черты, такие как положение глаз, носа, рта.

На рисунке 2 показан процесс создания глубокой подделки, в которой две сети используют один и тот же кодер, но разные декодеры для процесса обучения (а). Изображение лица Л кодируется общим кодером и декодируется декодером В для создания глубокой подделки (б) - набор признаков лица Л соединяется с декодером В для восстановления лица В из исходного лица Л. Этот подход применяется в нескольких моделях, таких как Беер-Расе1аЬ [14], БГакег [15], БеерБаке1Г (ёеерГакеБ на основе тензорного потока) [16].

Рис. 2. а)

Оригинальное лицо А

Кодер

Скрытое лицо А

Декодер В

Восстановленное лицо В

Рис. 2. б)

Рис. 2. Модель создания глубокой подделки с использованием двух пар кодер-декодер (см. рис. 1 из [17])

Fig. 2. A deepfake creation model using two encoder-decoder pairs (see Fig. 1 from [17])

Добавление в архитектуру кодера-декодера потерь от состязательности и потери восприятия, реализованных с помощью дескриптора VGGFace [18], привело к появлению улучшенной версии глубокой подделки, основанной на генеративной состязательной сети (generative adversarial network, GAN) [19], то есть faceswap-GAN [20]. Потеря восприятия VGGFace добавлена, чтобы сделать более реалистичными и согласованными с входными лицами движения глаз и помочь сгладить артефакты в маске сегментации, что приведет к более качественному выходному видео. Эта модель облегчает создание видео с разрешением 64x64, 128x128 и 256x256. Кроме того, многозадачная свер-точная нейронная сеть (CNN) из реализации FaceNet [21] введена, чтобы сделать распознавание лиц более стабильным, а выравнивание лиц более надежным. Библиотека CycleGAN [22] используется для реализации генеративно-состязательной сети для переноса стиля изображения.

III. Обнаружение глубокой подделки

Видео с глубокой подделкой все больше наносят ущерб частной жизни, безопасности общества и демократии. Методы обнаружения глубоких подделок были предложены сразу же после появления этой угрозы. Первоначально использовались методы с применением ручной работы, исследующие артефакты и несоответствия в процессе синтеза поддельного видео. В настоящее время для автоматического извлечения характерных и отличительных признаков выявления глубоких подделок применяются методы глубокого обучения [23].

Обнаружение глубоких подделок обычно считается проблемой двоичной классификации, когда классификаторы используются для классификации между подлинными видео и подделанными. Такого рода методы требуют большой базы данных реальных и поддельных видео для обучения моделей классификации. Большое количество поддельных видео становится все более доступным, однако с точки зрения установления ориентира для проверки различных методов обнаружения они по-прежнему ограничены. Для разрешения этой проблемы, например, создан достойный упоминания набор данных видеоподделок, состоящий из 620 видеороликов, основанных на модели GAN, с использованием открытого исходного кода faceswap-GAN [24]. Еще пример: поскольку видео из общедоступной базы данных VidTIMIT [25] могут быть использованы для создания низкокачественных и высококачественных видео с глубокой подделкой, эффективно имитирующих выражение лица, движения рта и моргание глаз, то эти же видео могут быть использованы и для тестирования различных методов обнаружения глубоких подделок. Имеются исследования, результаты тестов в которых показывают, что популярные системы распознавания лиц, основанные на VGG и FaceNet [26], не способны эффективно обнаруживать глубокие подделки. Другие методы, такие как подходы к синхронизации по губам [27] и показатели качества изображения с помощью метода опорных векторов (SVM) [28], приводят к очень высокой частоте оши-

бок при применении для обнаружения глубоких подделок видео из этого недавно созданного набора данных. Это вызывает озабоченность по поводу острой необходимости будущей разработки более надежных методов, которые могут отличать подделки от подлинных.

Рассмотрим методы обнаружения глубоких подделок, группируя их в две основные категории: методы обнаружения поддельных изображений и методы обнаружения поддельного видео (см. рис. 3). Последние можно разделить на две более мелкие группы: визуальные артефакты в рамках методов, основанных на анализе одного видеокадра, и особенности времени в рамках методов, основанных на анализе нескольких кадров. В то время как большинство методов, основанных на временных характеристиках, используют рекуррентные модели классификации глубокого обучения, методы, использующие визуальные артефакты в видеокадре, могут быть реализованы либо глубокими, либо мелкими классификаторами.

✓-ч

Методы обнаружения глубоких подделок

Рис. 3. Классификация методов обнаружения глубоких подделок Fig. 3. Classification of deep fake detection methods

A. Обнаружение поддельных изображений

Замена лиц из коллекции стандартных изображений при подделке изображений и видео популярна не только для подделки личности, как таковой, но и как метод кибе-ратаки, с помощью которой возможно проникновение в системы идентификации или аутентификации с целью получения незаконного доступа. Использование глубокого обучения, такого как CNN и GAN, сделало обмен изображениями лиц более сложным для моделей судебной экспертизы, поскольку оно может сохранять позу, выражение лица и освещение фотографий [29]. Кроме того, для разделения поддельных изображений лиц и подлинных используется метод «мультимножества слов» [30], который применяется для извлечения набора компактных объектов и передачи его в различные классификаторы, такие как SVM [31], случайный лес (Random Forest, RF) [32] и многослойные персептроны (MLP) [33]. Среди изображений, созданных с помощью глубокого обучения, подделку наиболее трудно обнаружить в тех, которые синтезированы с помощью моделей GAN, поскольку они реалистичны и качественны из-за способности модели GAN изучать распределение сложных входных данных и генерировать новые выходные данные с аналогичным распределением входных данных.

Однако в большинстве методов по обнаружению изображений, сгенерированных GAN, не учитывается возможность обобщения моделей обнаружения (как одного из этапов работы нейросети), хотя разработка GAN продолжается, и часто вводятся многие новые расширения этой модели. Например, можно использовать этап предварительной обработки изображения, например, размытие по Гауссу и нормально распределенный шум, для удаления низкоуровневых высокочастотных подсказок изображений GAN [34]. Это увеличивает статистическое сходство на уровне пикселей между реаль-

ными изображениями и поддельными изображениями и требует, чтобы криминалистический классификатор изучал больше внутренних и значимых функций, которые обладают лучшей способностью к обобщению, чем предыдущие методы криминалистики изображений [35], или сети стегано-анализа изображений [36].

В. Обнаружение поддельного видео

Все методы обнаружения видео с глубокой подделкой классифицируются на две группы: методы, использующие временные функции, и методы, исследующие визуальные артефакты в кадрах. Большинство ранее рассмотренных методов обнаружения поддельных изображений не могут быть использованы для видео из-за сильного ухудшения данных кадра после сжатия видео и варьирования временных характеристик набора кадров [37].

В методах, использующих временные особенности между видеокадрами, рассматривается наличие покадровых артефактов низкого уровня, появляющихся при манипуляциях с лицом. В качестве примеров можно назвать рекуррентную сверточную модель (ЯСК), основанную на интеграции сверточной сети Бепве№1 [38] и закрытых рекуррентных элементарных ячеек [39] для использования временных расхождений между кадрами (см. рис. 4). Предлагаемый метод протестирован на наборе данных ЕасеБогеп81с8++, который включает 1000 видео [40], и показывает многообещающие результаты.

Рис. 4. Двухэтапный процесс обнаружения манипуляций с лицами, в котором этап предварительной обработки направлен на обнаружение, обрезку и выравнивание лиц в последовательности кадров, а второй этап различает обработанные и подлинные изображения лиц путем объединения сверточной нейронной сети (CNN) и рекуррентной нейронной сети (RNN) (см. рис. 3 из [17])

Fig. 4. Two-step face manipulation detection process where the pretreatment is aimed at detecting, trimming and aligning faces in a sequence of frames, and the second stage distinguishes between processed and genuine facial images by combining convolutional neural network (CNN) and recurring neural network (RNN) (see Fig. 3 from [17])

Deepfake-видео содержат внутрикадровые несоответствия и временные несоответствия между кадрами, которые можно выявить с помощью метода конвейера с учетом времени, который использует CNN и долговременная кратковременная память (LSTM) для обнаружения видео с глубокой подделкой [41]. CNN используется для извлечения функций уровня кадра, которые затем передаются в LSTM для создания дескриптора временной последовательности. Полностью подключенная сеть используется для отделения подделанных видео от реальных на основе дескриптора последовательности, как показано на рисунке 5.

Сеть обнаружения, состоящая из полностью соединенных слоев, используется для приема дескриптора последовательности в качестве входных данных и вычисления вероятностей последовательности кадров, принадлежащих либо к аутентичному, либо к классу глубокой подделки [41].

Для выявления подделок используются временные характеристики некоторых физиологических параметров. Например, частоту моргания глаз - не имея доступа к изображениям моргающих людей, алгоритмы глубокой подделки не имеют возможности генерировать поддельные лица, которые могут нормально мигать. Частота мигания в deepfakes намного ниже, чем в обычных видео, или моргание в принципе отсутствует.

Рис. 5. Метод обнаружения глубокой подделки с использованием сверточной нейронной сети (CNN) и долговременной кратковременной памяти (LSTM) для извлечения временных характеристик данной видеопоследовательности, которые представлены с помощью дескриптора последовательности (см. рис. 4 из [17])

Fig. 5. Method of deep fake detection using convolutional neural network (CNN) and long-term short-term memory (LSTM) to extract time characteristics of a given video sequence, which are represented by a sequence descriptor (see Fig. 4 from [17])

Другой подход, который обычно используется для выявления поддельных видео - это разделение видео на кадры и последующее исследование их на наличие визуальных артефактов в пределах отдельных кадров для получения дискриминантных признаков, которые далее распределяются с помощью глубокого или поверхностного классификатора. Таким образом, методы этого подхода группируются на основе следующих типов классификаторов:

а) Глубокие классификаторы: видео deepfake обычно создаются с ограниченным разрешением, для которых требуется аффинный подход к искажению лица (то есть масштабирование, поворот и сдвиг), чтобы соответствовать конфигурации исходных. Из-за несоответствия разрешения между искривленной областью лица и окружающим контекстом этот процесс оставляет артефакты, которые могут быть обнаружены моделями CNN.

Для устранения ограничений CNN при применении к обратным графическим задачам, которые направлены на поиск физических процессов, используемых для создания изображений, можно использовать капсульные сети [42]. Для описания иерархических отношений между частями объекта капсульную сеть можно модернизировать алгоритмом динамической маршрутизации [43] как компонентом конвейера для обнаружения сфабрикованных изображений и видео (см. рис. 6). Алгоритм динамической маршрутизации развертывается для маршрутизации выходов трех капсул к выходным капсулам через ряд итераций для разделения между поддельными и реальными изображениями. Метод оценивается с помощью четырех наборов данных, охватывающих широкий спектр поддельных атак на изображения и видео. Они включают в себя хорошо известные наборы данных для повторной атаки - набора данных для замены лиц deepfake, FaceForensics и других. Предлагаемый метод обеспечивает наилучшую производительность по сравнению с конкурирующими методами во всех этих наборах данных. Это показывает потенциал капсульных сетей в создании общей системы обнаружения deepfake, которые могут эффективно работать при различных поддельных атаках на изображения и видео.

б) Неглубокие классификаторы используют метод обнаружения, наблюдая различия между трехмерными положениями головы, включающими ориентацию и ее положение, которые оцениваются на основе 68 лицевых ориентиров центральной области лица. Извлеченные объекты подаются в классификатор SVM для получения результатов обнаружения. Эксперименты с двумя наборами данных показывают высокую эффективность предлагаемого подхода по сравнению с его конкурирующими методами.

Рис. 6. Использование капсульной сети признаков для выявления поддельных изображений или видео. На этап предварительной обработки выделяется область лица и масштабируется до размера 128x128, а затем извлекаются скрытые признаки для капсульной сети (три основных капсулы и две выходные капсулы - одной для реальных и одной для поддельных изображений). Статистический пул составляет важную часть капсульной сети, которая занимается обнаружением подделок (см. рис. 5 из [17])

Fig. 6. Use of a capsule network of features to detect counterfeit images or videos.

The pre-processing step detects face region and scales it to the size of 128x128 and then extracts latent features for the capsule network (three primary capsules and two output capsules, one for real and one for fake images). The statistical pooling is an important part of the capsule network that deals with forgery detection (see Fig. 5 from [17])

При появлении подозрений в подделке видео или изображения пользователи обычно хотят найти его источник, что является затруднительным в настоящее время ввиду отсутствия практического инструмента. Исследователи предлагают использовать технологии блокчейна или смарт-контрактов для помощи пользователям в обнаружении видео с глубокой подделкой, основываясь на предположении, что видео являются реальными только тогда, когда их источники отслеживаются [44]. Каждое видео связано со смарт-контрактом, который ссылается на его родительское видео, и каждое родительское видео имеет ссылку на его дочернее в иерархической структуре. Благодаря этой цепочке пользователи могут достоверно отследить исходный смарт-контракт, связанный с первичным видео, даже если видео было скопировано несколько раз. Важным атрибутом смарт-контракта являются уникальные хэши распределенной файловой системы, которая используется для хранения видео и его метаданных децентрализованным и адресуемым к контенту способом [45]. В целях обеспечения соответствия решения требованиям безопасности ключевые функции и функциональные возможности смарт-контракта проверяются на таких распространенных проблемах безопасности, как распределенный отказ в обслуживании, воспроизведение и атаки «человек в середине» [46]. Этот подход является общим и может быть распространен на другие типы цифрового контента, например, изображения, аудио и рукописи.

Заключение

Широкое внедрение средств искусственного интеллекта позволило повысить качество глубоких подделок и увеличить производительность применяемых методов. Методы обнаружения подделок еще не так развиты и находятся еще на ранней стадии становления, но уже также активно используют искусственный интеллект, обрабатывающий фрагментированные наборы данных Подход к повышению производительности

методов обнаружения заключается в создании постоянно обновляемого эталонного набора данных глубоких подделок, что облегчает процесс обучения моделей.

Кроме того, современные методы обнаружения в основном сосредоточены на недостатках конвейеров генерации deepfake, то есть на поиске слабых мест конкурентов для их атаки. Такого рода информация и знания не всегда доступны в конкурентной среде, где злоумышленники обычно пытаются не раскрывать такие технологии создания глубоких подделок. Это реальные проблемы разработки методов обнаружения, и будущие исследования должны быть сосредоточены на внедрении более надежных, масштабируемых и обобщаемых методов.

Другим направлением исследований является интеграция методов обнаружения подделок в платформы распределенного доступа (типа социальных сетей) для повышения их эффективности в борьбе с широким распространением подделок. Механизм скрининга или фильтрации с использованием эффективных методов обнаружения подделок может быть реализован на этих платформах для облегчения обнаружения deepfake [47]. Для технологических компаний, владеющих этими платформами, могут быть установлены юридические требования по быстрому удалению глубоких подделок в целях уменьшения их вредного воздействия. Кроме того, инструменты водяных знаков также могут быть интегрированы в устройства, которые люди используют для формирования цифрового контента, чтобы создавать неизменяемые метаданные для хранения деталей оригинальности, таких как время и местоположение мультимедийного контента, а также их беспрепятственной аттестации. Эту интеграцию сложно реализовать, но решением для этого может стать использование технологии блокчейн, которая в настоящее время уже эффективно используется во многих областях. Создание цепочек уникальных неизменяемых блоков метаданных является отличным инструментом для решения проблемы цифрового происхождения.

Примечания

1. Protecting world leaders against deep fakes / S. Agarwal, H. Farid, Y. Gu, M. He, K. Nagano, H. Li // IEEE Conference on Computer Vision and Pattern Recognition // Workshop on Media Forensics. 2019. P. 38-45.

2. Lin J., Li Y., Yang G. FPGAN: Face deidentification method with generative adversarial networks for social robots // Neural Networks. 2021. No. 133. P. 132-147.

3. Lyu S. Detecting "deepfake" videos in the blink of an eye // The conversation. Academic Rigour, Journalistic Flair. URL: https://theconversation.com/detecting-deepfake-videos-in-the-blink-of-an-eye-101072 (дата обращения: 01.10.2021).

4. How faking videos became easy - and why that's so scary // Bloomberg. URL: https://fortune.com/2018/09/11/deep-fakes-obama-video/ (дата обращения: 01.10.2021).

5. Xinyi Zhou, Reza Zafarani. A Survey of Fake News: Fundamental Theories, Detection Methods and Opportunities // ACM Computing Surveys. 2020. Vol. 53, Iss. 5. P. 1-40. DOI: 10.1145/3395046

6. The Newest AI-Enabled Weapon: 'Deep-Faking' Photos of the Earth. Patrick Tucker // Defence One. URL: https://www.defenseone.com/technology/2019/03/next-phaseai-deep-faking-whole-world-and-china-ahead/155944/ (дата обращения: 01.10.2021).

7. The best (and scariest) examples of AI-enabled deepfakes. Marr Bernard // Forbes. URL: https://www.forbes.com/sites/bernardmarr/2019/07/22/the-best-and-scariest-examples-of-ai-enabled-deepfakes/?sh=59e12fe82eaf (дата обращения: 01.10.2021).

8. Lyu S. Deepfake Detection: Current Challenges and Next Steps // IEEE International Conference on Multimedia & Expo Workshops (ICMEW). 2020. P. 1-6. DOI: 10.1109/ICMEW46912.2020.9105991

9. Turek M. Media Forensics (MediFor) // DARPA. URL: https://www.darpa.mil/program/media-forensics (дата обращения: 01.10.2021).

10. Schroepfer Mike. Creating a dataset and a challenge for deepfakes // MetaAI. URL: https://ai.facebook.com/blog/deepfake-detection-challenge (дата обращения: 01.10.2021).

11. Number of papers related to deepfakes in years from 2017 to 2021 // Dimencion. URL: https://app.dimensions.ai/analytics/publication/for/aggregated?search_mode=content&search_text=deepfake&se arch_type=kws&search_field=full_search&or_facet_year=2021&or_facet_year=2020&or_facet_year=2019&or _facet_year=2018&or_facet_year=2017 (дата обращения: 01.10.2021).

12. Punnappurath Abhijith, Brown Michael. Learning Raw Image Reconstruction-Aware Deep Image Compressors // IEEE Transactions on Pattern Analysis and Machine Intelligence. P. 1-1. 10.1109/TPAMI.2019.2903062. URL:

https://www.researchgate.net/publication/331505773_Learning_Raw_Image_Reconstruction-Aware_Deep_Image_Compressors (дата обращения: 02.10.2021).

13. FakeApp 2.2.0. URL: https://www.malavida.com/en/soft/fakeapp/ (дата обращения: 02.10.2021).

14. DeepFaceLab. The leading software for creating deepfakes. URL: https://github.com/iperov/DeepFaceLab (дата обращения: 02.10.2021).

15. DFaker. URL: https://github.com/dfaker/df (дата обращения: 02.10.2021).

16. DeepFaketf: Deepfake based on tensorflow. URL: https://github.com/StromWine/DeepFake_tf (дата обращения: 02.10.2021).

17. Thanh Thi Nguyen, Cuong M. Nguyen, Dung Tien Nguyen, Duc Thanh Nguyen and Saeid Naha-vandi. Deep Learning for Deepfakes Creation and Detection. URL: https://deepai.org/publication/deep-learning-for-deepfakes-creation-and-detection

18. Keras-VGGFace: VGGFace implementation with Keras framework. URL: https://github.com/rcmalli/keras-vggface (дата обращения: 02.10.2021).

19. Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza. Generative adversarialnets. URL: https://arxiv.org/pdf/1406.2661.pdf (дата обращения: 02.10.2021).

20. Faceswap-GAN. URL: https://github.com/shaoanlu/faceswap-GAN (дата обращения: 02.10.2021).

21. FaceNet. Face Recognition using Tensorflow. URL: https://github.com/davidsandberg/facenet (дата обращения: 02.10.2021).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

22. CycleGAN. CycleGAN and pix2pix in PyTorch. URL: https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix (дата обращения: 02.10.2021).

23. Irene Amerini, Roberto Caldelli. Exploiting prediction error inconsistencies through LSTM-based classifiers to detect deepfake videos.IH&MMSec '20: Proceedings of the 2020 ACM Workshop on Information Hiding and Multimedia Security. June 2020 P. 97-102. URL: https://doi.org/10.1145/3369412.3395070

24. Faceswap-GAN. URL: https://github.com/shaoanlu/faceswap-GAN (дата обращения: 02.10.2021).

25. VidTIMITAudio-VideoDataset. URL: http://conradsanderson.id.au/vidtimit/ (дата обращения: 02.10.2021).

26. Schroff F., Kalenichenko D., Philbin J. Facenet: A unified embedding for face recognition and clustering // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015. P. 815-823.

27. Lip reading sentences in the wild / J.S. Chung, A. Senior, O. Vinyals, A. Zisserman // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017. P. 3444-3453.

28. Galbally J., Marcel S. Face anti-spoofing based on general image quality assessment // 22nd International Conference on Pattern Recognition - IEEE. 2014. P. 1173-1178.

29. Fast face-swap using convolutional neural networks / I. Korshunova, W. Shi, J. Dambre, L. Theis // Proceedings of the IEEE International Conference on Computer Vision. 2017. P. 3677-3685.

30. Zhang Y., Zheng L., Thing V.L. Automated face swapping and its detection // IEEE 2nd International Conference on Signal and Image Processing (ICSIP), IEEE. 2017. P. 15-19.

31. Wang X., Thome N., Cord M. Gaze latentsupport vector machine for image classification improved byweakly supervised region selection // Pattern Recognition. 2017. No. 72. P. 59-71.

32. Bai S. Growing random forest on deep convolutional neural networks for scene categorization // Expert Systems with Applications. 2017. No. 71. P. 279-287.

33. Siamese multi-layer perceptrons for dimensionality reduction and face identification / L. Zheng, S. Duffner, K. Idrissi, C. Garcia, A. Baskurt // Multimedia Tools and Applications. 2016. No. 75 (9). P. 50555073.

34. On the generalization of GAN image forensics / X. Xuan, B. Peng, J. Dong, W. Wang // Preprint arXiv:1902.11153, 2019.

35. Yang P., Ni R., Zhao Y. Recapture image forensics based on Laplacian convolutional neural networks // International Workshop on Digital Watermarking. 2016. P. 119-128.

36. Deep learning for steganalysis via convolutional neural networks / Y. Qian, J. Dong, W. Wang, T. Tan // Media Watermarking, Security and Forensics. 2015. Vol. 9409. P. 94090J.

37. MesoNet: a compact facial video forgery detection network / D. Afchar, V. Nozick, J. Yamagishi, I. Echizen // IEEE International Workshop on Information Forensics and Security (WIFS) - IEEE. 2018. P. 1-7.

38. Densely connected convolutional networks / G. Huang, Z. Liu, L. Van Der Maaten, K.Q. Weinberger // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017. P. 4700-4708.

39. Learning phrase representations using RNN encoder-decoder for statistical machine translation / K. Cho, B. Van Merrienboer, C. Gulcehre [et al.] // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014. P. 1724-1734.

40. Faceforensics++: Learning to detect manipulated facial images / A. Rossler, D. Cozzolino, L. Verdoliva [et al.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019. P. 1-11.

41. Guera D., Delp E.J. Deepfake video detection using recurrent neural networks // 15th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS) - IEEE. 2018. P. 1-6.

42. Hinton G.E., Krizhevsky A., Wang S.D. Transforming auto-encoders // International Conference on Artificial Neural Networks. Berlin; Heidelberg: Springer, 2011. P. 44-51.

43. Sabour S., Frosst N., Hinton G.E. Dynamic routing between capsules // Advances in Neural Information Processing Systems. 2017. P. 3856-3866.

44. Hasan H.R., Salah K. Combating deepfake videos using blockchain and smart contracts // IEEE Access. 2019. No. 7. P. 41596-41606.

45. IPFS powers the Distributed Web. URL: https://ipfs.io/ (дата обращения: 03.10.2021).

46. Довгаль В. А., Довгаль Д.В. Обнаружение и предотвращение атаки «злоумышленник в середине» в туманном слое роя дронов // Вестник Адыгейского государственного университета. Сер.: Естественно-математические и технические науки. 2020. Вып. 2 (261). С. 53-59. URL: http://vestnik.adygnet.ru

47. Chesney R., Citron D.K. (2018, October 16). Disinformation on steroids: The threat of deepfakes. URL: https://www.cfr.org/report/deep-fake-disinformation-steroids (дата обращения: 03.10.2021).

References

1. Protecting world leaders against deep fakes / S. Agarwal, H. Farid, Y. Gu, M. He, K. Nagano, H. Li // IEEE Conference on Computer Vision and Pattern Recognition // Workshop on Media Forensics. 2019. P. 38-45.

2. Lin J., Li Y., Yang G. FPGAN: Face deidentification method with generative adversarial networks for social robots // Neural Networks. 2021. No. 133. P. 132-147.

3. Lyu S. Detecting "deepfake" videos in the blink of an eye // The conversation. Academic Rigour, Journalistic Flair. URL: https://theconversation.com/detecting-deepfake-videos-in-the-blink-of-an-eye-101072 (access date: 01.10.2021).

4. How faking videos became easy - and why that's so scary // Bloomberg. URL: https://fortune.com/2018/09/11/deep-fakes-obama-video/ (access date: 01.10.2021).

5. Xinyi Zhou, Reza Zafarani. A Survey of Fake News: Fundamental Theories, Detection Methods and Opportunities // ACM Computing Surveys. 2020. Vol. 53, Iss. 5. P. 1-40. DOI: 10.1145/3395046

6. The Newest AI-Enabled Weapon: 'Deep-Faking' Photos of the Earth. Patrick Tucker // Defence One. URL: https://www.defenseone.com/technology/2019/03/next-phaseai-deep-faking-whole-world-and-china-ahead/155944/ (access date: 01.10.2021).

7. The best (and scariest) examples of AI-enabled deepfakes. Marr Bernard // Forbes. URL: https://www.forbes.com/sites/bernardmarr/2019/07/22/the-best-and-scariest-examples-of-ai-enabled-deepfakes/?sh=59e12fe82eaf (access date: 01.10.2021).

8. Lyu S. Deepfake Detection: Current Challenges and Next Steps // IEEE International Conference on Multimedia & Expo Workshops (ICMEW). 2020. P. 1-6. DOI: 10.1109/ICMEW46912.2020.9105991

9. Turek M. Media Forensics (MediFor) // DARPA. URL: https://www.darpa.mil/program/media-forensics (access date: 01.10.2021).

10. Schroepfer Mike Creating a dataset and a challenge for deepfakes // MetaAI. URL: https://ai.facebook.com/blog/deepfake-detection-challenge (access date: 01.10.2021).

11. Number of papers related to deepfakes in years from 2017 to 2021 // Dimencion. URL: https://app.dimensions.ai/analytics/publication/for/aggregated?search_mode=content&search_text=deepfake&se arch_type=kws&search_field=full_search&or_facet_year=2021&or_facet_year=2020&or_facet_year=2019&or _facet_year=2018&or_facet_year=2017 (access date: 01.10.2021).

12. Punnappurath Abhijith, Brown Michael. Learning Raw Image Reconstruction-Aware Deep Image Compressors // IEEE Transactions on Pattern Analysis and Machine Intelligence. P. 1-1. 10.1109/TPAMI.2019.2903062. URL:

https://www.researchgate.net/publication/331505773_Learning_Raw_Image_Reconstruction-Aware_Deep_Image_Compressors (access date: 02.10.2021).

13. FakeApp 2.2.0. URL: https://www.malavida.com/en/soft/fakeapp/ (access date: 02.10.2021).

14. DeepFaceLab. The leading software for creating deepfakes. URL: https://github.com/iperov/DeepFaceLab (access date: 02.10.2021).

15. DFaker. URL: https://github.com/dfaker/df (access date: 02.10.2021).

16. DeepFaketf: Deepfake based on tensorflow. URL: https://github.com/StromWine/DeepFake_tf (access date: 02.10.2021).

17. Thanh Thi Nguyen, Cuong M. Nguyen, Dung Tien Nguyen, Duc Thanh Nguyen and Saeid Naha-vandi. Deep Learning for Deepfakes Creation and Detection. URL: https://deepai.org/publication/deep-learning-for-deepfakes-creation-and-detection

18. Keras-VGGFace: VGGFace implementation with Keras framework. URL: https://github.com/rcmalli/keras-vggface (access date: 02.10.2021).

19. Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza. Generative adversarialnets. URL: https://arxiv.org/pdf/1406.2661.pdf (access date: 02.10.2021).

20. Faceswap-GAN. URL: https://github.com/shaoanlu/faceswap-GAN (access date: 02.10.2021).

21. FaceNet. Face Recognition using Tensorflow. URL: https://github.com/davidsandberg/facenet (access date: 02.10.2021).

22. CycleGAN. CycleGAN and pix2pix in PyTorch. URL: https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix (access date: 02.10.2021).

23. Irene Amerini, Roberto Caldelli. Exploiting prediction error inconsistencies through LSTM-based classifiers to detect deepfake videos.IH&MMSec '20: Proceedings of the 2020 ACM Workshop on Information Hiding and Multimedia Security. June 2020 P. 97-102. URL: https://doi.org/10.1145/3369412.3395070

24. Faceswap-GAN. URL: https://github.com/shaoanlu/faceswap-GAN (access date: 02.10.2021).

25. VidTIMITAudio-VideoDataset. URL: http://conradsanderson.id.au/vidtimit/ (access date: 02.10.2021).

26. Schroff F., Kalenichenko D., Philbin J. Facenet: A unified embedding for face recognition and clustering // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015. P. 815-823.

27. Lip reading sentences in the wild / J.S. Chung, A. Senior, O. Vinyals, A. Zisserman // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017. P. 3444-3453.

28. Galbally J., Marcel S. Face anti-spoofing based on general image quality assessment // 22nd International Conference on Pattern Recognition - IEEE. 2014. P. 1173-1178.

29. Fast face-swap using convolutional neural networks / I. Korshunova, W. Shi, J. Dambre, L. Theis // Proceedings of the IEEE International Conference on Computer Vision. 2017. P. 3677-3685.

30. Zhang Y., Zheng L., Thing V.L. Automated face swapping and its detection // IEEE 2nd International Conference on Signal and Image Processing (ICSIP), IEEE. 2017. P. 15-19.

31. Wang X., Thome N., Cord M. Gaze latentsupport vector machine for image classification improved byweakly supervised region selection // Pattern Recognition. 2017. No. 72. P. 59-71.

32. Bai S. Growing random forest on deep convolutional neural networks for scene categorization // Expert Systems with Applications. 2017. No. 71. P. 279-287.

33. Siamese multi-layer perceptrons for dimensionality reduction and face identification / L. Zheng, S. Duffner, K. Idrissi, C. Garcia, A. Baskurt // Multimedia Tools and Applications. 2016. No. 75 (9). P. 50555073.

34. On the generalization of GAN image forensics / X. Xuan, B. Peng, J. Dong, W. Wang // Preprint arXiv:1902.11153, 2019.

35. Yang P., Ni R., Zhao Y. Recapture image forensics based on Laplacian convolutional neural networks // International Workshop on Digital Watermarking. 2016. P. 119-128.

36. Deep learning for steganalysis via convolutional neural networks / Y. Qian, J. Dong, W. Wang, T. Tan // Media Watermarking, Security and Forensics. 2015. Vol. 9409. P. 94090J.

37. MesoNet: a compact facial video forgery detection network / D. Afchar, V. Nozick, J. Yamagishi, I. Echizen // IEEE International Workshop on Information Forensics and Security (WIFS) - IEEE. 2018. P. 1-7.

38. Densely connected convolutional networks / G. Huang, Z. Liu, L. Van Der Maaten, K.Q. Weinberger // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017. P. 4700-4708.

39. Learning phrase representations using RNN encoder-decoder for statistical machine translation / K. Cho, B. Van Merrienboer, C. Gulcehre [et al.] // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014. P. 1724-1734.

40. Faceforensics++: Learning to detect manipulated facial images / A. Rossler, D. Cozzolino, L. Verdoliva [et al.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019. P. 1-11.

41. Guera D., Delp E.J. Deepfake video detection using recurrent neural networks // 15th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS) - IEEE. 2018. P. 1-6.

42. Hinton G.E., Krizhevsky A., Wang S.D. Transforming auto-encoders // International Conference on Artificial Neural Networks. Berlin; Heidelberg: Springer, 2011. P. 44-51.

43. Sabour S., Frosst N., Hinton G.E. Dynamic routing between capsules // Advances in Neural Information Processing Systems. 2017. P. 3856-3866.

44. Hasan H.R., Salah K. Combating deepfake videos using blockchain and smart contracts // IEEE Access. 2019. No. 7. P. 41596-41606.

45. IPFS powers the Distributed Web. URL: https://ipfs.io/ (access date: 03.10.2021).

46. Dovgal VA., Dovgal D.V. Detecting and preventing the man in the middle attack in the foggy layer of a swarm of drones // The Bulletin of the Adyghe State University. Ser.: Natural-Mathematical and Technical Sciences. 2020. Iss. 2 (261). P. 53-59. URL: http://vestnik.adygnet.ru

47. Chesney R., Citron D.K. (2018, October 16). Disinformation on steroids: The threat of deepfakes. URL: https://www.cfr.org/report/deep-fake-disinformation-steroids (access date: 03.10.2021).

Статья поступила в редакцию 12.10.2021; одобрена после рецензирования 10.11.2021; принята к публикации 11.11.2021.

The article was submitted 12.10.2021; approved after reviewing 10.11.2021; accepted for publication 11.11.2021.

© В.А. Довгаль, 2021

i Надоели баннеры? Вы всегда можете отключить рекламу.