Батоев Владимир Батоевич Юможапов Роман Сергеевич
Использование технологий искусственного интеллекта в выявлении видеодипфейков
Рассматривается опыт повышения качества научно-технического обеспечения деятельности экс-пертно- криминалистических подразделений МВД России по линии производства видеотехнических экспертиз и исследований с использованием искусственного интеллекта в целях выявления видеодипфейков. Статья основана на результатах изучения материалов проведенной научно-исследовательской работы по данной тематике.
Ключевые слова: искусственный интеллект, дипфейк, экспертиза, монтаж, видео, нейронные сети, deepfake, выявление, обнаружение, противоправное деяние.
The use of artificial intelligence technologies in the detection of video fake
The experience of increasing the scientific and technical support of the activities of the forensic units of the Ministry of Internal Affairs of Russia in the production of video technical examinations and research using artificial intelligence in order to identify video fakes is considered. The article is based on the results of studying the materials of the research work carried out in this direction.
Keywords: artificial intelligence, deepfake, expertise, editing, video, neural networks, deepfake, detection, detection, illegal act.
В условиях глобальной цифровиза-ции современное общество столкнулось с ранее не изученным феноменом поддельных (синтетических) медиа «Deepfake», созданных посредством использования технологий искусственного интеллекта, где основная роль отведена функционалу генеративно-состязательных нейронных сетей.
Под технологией «Deepfake» принято понимать совокупность методов соединения фото-и видеоизображений, аудиоинформации в поддельное целое с применением генеративно-состязательных нейронных сетей.
Общедоступность различных нейросетевых алгоритмов в виде приложений и программного обеспечения с открытым исходным кодом позволяет создавать реалистичные синтетические фото-, видеоизображения и аудиосо-общения без применения каких-либо специальных познаний, навыков и умений. В данном случае речь идет о достаточно расширенном перечне программного обеспечения (например, Zao, Reface, FaceSwapLite, DeepFaceLab, FaceApp, Morph, Avatarify, FacePlay, ToonMe, BabyGenerator и т.д.), находящегося в свободном пользовании и позволяющего создавать синтетический медиаконтент.
В настоящее время наиболее распространенными способами изготовления дипфейков являются добавление, репликация и удале-
ние объектов, манипуляция с изображениями лица человека (частичная замена, полная замена, генерация нового лица, реконструкция), синтез и синхронизация движений его губ с заранее определенным аудиотреком и т.д. При этом важно отметить, что подобный перечень манипуляций постоянно пополняется за счет функционала новых компьютерных программ и приложений, разработчики которых преследуют одну из основных целей - максимально упростить процесс изготовления дипфейков.
Общество ежедневно сталкивается с различными видами дипфейков, в которых подлинность содержащейся в них информации установить становится все сложнее. Дипфей-ки широко используются в киноиндустрии, рекламном бизнесе и т.д. Так, в 1999 г. режиссер Ридли Скотт во время съемок кинофильма «Гладиатор» заменил умершего актера Оливера Рида двойником и компьютерной графикой; в отечественной практике можно отметить появление в 2022 г. воскрешенного с использованием нейронных сетей актера Владислава Галкина в одном из российских сериалов.
Разумеется, дипфейки вызвали огромный интерес криминально настроенных лиц [1, с. 127-128]. Проблема использования дипфей-ков в противоправных целях не нова и тесно взаимосвязана с эволюцией технологий обработки фото-, аудио- и видеоконтента.
76
Опасность дипфейков вполне очевидна, как и неизбежность нарастания темпов их изготовления и использования в криминальных целях. Уже сейчас имеются примеры их применения при совершении различных преступлений (мошенничество, вымогательство, изготовление порнографических материалов, экстремизм и т.д.).
Изготовление дипфейковых видео, а также их широкое использование в противоправных целях определило вектор дальнейшего изложения материала.
В настоящее время криминально настроенными лицами используются различные виды монтажа видеоизображений, которые условно можно подразделить по следующим основаниям: по типу манипуляций (удаление или добавление части видеопоследовательности; покадровое изменение (редактирование) содержимого видеоизображения; покадровое изменение характеристик видеоизображения; изменение качества (размытие или повышение резкости) видеоизображения; внедрение 3D-объектов; добавление шумов);
по применяемым технологиям (классические, нейросетевые, комбинированные).
Поскольку искусственный интеллект и нейронные сети позволили сделать процесс создания видеоизображений максимально простым, вполне закономерно предположить, что они могут помочь и в вопросах их выявления.
Примеры из зарубежной и отечественной практики указывают на появление опыта их обнаружения, где основополагающее значение для эффективности используемых методов имеет предварительное знание признаков обработки и редактирования исходных данных [2, 3].
В связи с этим уместно отметить, что вопросы совершенствования научно-технического обеспечения деятельности МВД России, в том числе экспертно-криминалистических подразделений, в условиях цифровизации практически всех сфер общественных отношений, бурного развития информационно-телекоммуникационных технологий приобрели особую остроту в силу осознания потенциала исходящих угроз и негативных последствий для человека, общества и государства в целом.
Изучение опыта Экспертно-криминалисти-ческого центра МВД России (далее - ЭКЦ) показало, что модифицированный с помощью нейронных сетей видеоконтент имеет комплекс характерных диагностических признаков [4]. Перечислим часть из них:
выраженные контрастные различия или неестественные границы смежных областей изображения;
несоответствие шумовых шаблонов смежных областей изображения;
наличие похожих участков на изображении; наличие характерных для работы нейронных сетей частот в спектре изображения;
сжатие видеоизображений с применением алгоритма JPEG в два раза и более;
наличие области изображения, сжатого в формате JPEG, мера отклонения матрицы квантования которого отличается от остальной области изображения (покадрово для видеоизображения);
наличие аномалий в видеопоследовательности;
резкие перепады освещенности или контрастности;
различные направления (отсутствие) теней от одного источника освещения;
несоответствие метаданных EXIF предполагаемым условиям съемки;
скачкообразные или неестественные положения, размеры или формы объектов;
наличие в изображении объектов с нарушением линейной перспективы.
А деятельности ЭКЦ МВД России при проведении видеотехнических экспертиз и исследований активно применяются различные способы выявления признаков внутрикадрового монтажа видеоизображений [5]. Данные методы условно можно классифицировать по следующим основаниям:
классические (визуальный анализ; анализ структуры носителя и параметров видеофайла; анализ структуры медиаконтейнера; анализ структуры видеопотока; анализ служебной информации; побитное сравнение кадров; корреляционное сравнение кадров; статистический анализ яркостных и цветоразностных значений пикселей; внутрикадровый анализ с оценкой меры отклонения матрицы квантования; выявление объектов с нарушением линейной перспективы; отслеживание опорных точек лиц и оценка изменений косинусных расстояний между ними; поиск визуальных особенностей глаз, зубов, контуров лиц);
нейросетевые (извлечение набора компактных признаков с применением представлений BOW; извлечение и анализ характеристических признаков с помощью CFFN и CNN; использование матриц различий между соседними кадрами для обнаружения фейков с помощью RNN и LSTM; анализ пространственно-временных особенностей видеопотока с помощью CNN и LSTM; поиск несоответствия разрешений различных областей изображения; применение спектральных данных и классификаторов на основе CNN; классификация с помощью капсульных сетей).
ЭКЦ МВД России является одним из основных функциональных заказчиков научно-тех-
77
нической продукции. При участии ФКУ НПО «Специальная техника и связь» МВД России в интересах ЭКЦ МВД России авторским коллективом (О.Н. Чередник, С.В. Степанов, А.А. Кукурин) из числа сотрудников Акционерного общества «Научно-промышленная компания «Высокие технологии и стратегические системы» (в составе группы компаний «К-Технологии») проведена научно-исследовательская работа «Исследование возможных способов выявления признаков внутрикадрового монтажа видеоизображений (далее - ВКМ), выполненного с помощью нейронных сетей» (далее - НИР).
В качестве основной цели НИР определено повышение уровня научно-технического обеспечения деятельности экспертно-криминалистических подразделений МВД России по линии производства видеотехнических экспертиз и исследований.
НИР предусматривалось выполнение двух этапов: 1) теоретические исследования и выбор направления исследований, проведение патентных исследований; разработка промежуточного отчета о НИР; 2) экспериментальные исследования; проведение патентных исследований; обобщение и оценка результатов исследований; подготовка заключительного отчета о НИР.
В ходе выполнения теоретических патентных исследований были определены: их объект (способы выявления признаков внутрикадрового монтажа видеоизображений, выполненного с помощью нейронных сетей); цель (проведение анализа стратегии охраны результатов интеллектуальной деятельности (далее - РИД), включающего выявление РИД, направленных на правовую охрану; обоснование целесообразности правовой охраны выявленных РИД; исследование патентной чистоты объектов техники; анализ патентной информации для предоставления результатов в отчет о НИР); источники патентного поиска (отечественные базы данных изобретений, полезных моделей, заявок на изобретения, программ для ЭВМ).
По результатам патентного поиска была отобрана и проанализирована патентная и научно-техническая информация, накопленная с 2002 по 2022 г.; выявлено 56 правоустанавливающих документов; подтверждено наличие запатентованных способов и методов выявления признаков внутрикадрового монтажа; в полученных материалах патентного поиска присутствует информация о признаках вну-трикадрового монтажа; наибольший интерес представляет информация по двум патентам «Лаборатории кибербезопасности Сбера» № 2774624 и № 2768797, которые описывают способы и устройства, реализующие обнаружение измененных видеоизображений и изо-
бражений с использованием нейронных сетей. В ходе выполнения НИИ результатов интеллектуальной деятельности, подлежащих регистрации, не получено.
Изучение зарубежного опыта использования какого-либо программного софта, который потенциально возможно применять при выявлении дипфейков, выявило существование различных онлайн-сервисов. Помимо этого, необходимо обратить внимание на проведение конкурсов, таких как «Trusted Media Challenge». Анализ отечественных разработок в области выявления признаков ВКМ свидетельствует о наличии патентов «Лаборатории кибербезо-пасности Сбера», однако при этом программного продукта либо онлайн-сервиса, использующего указанные патенты, на российском рынке не представлено.
В рамках исследований в экспертных группах были определены их цели (установление возможности проведения экспертизы цифровых видеозаписей, созданных с помощью нейронных сетей, содержащихся в видеофайлах распространенных форматов и представленных при отсутствии информации об обстоятельствах их получения, в том числе из интернет-ресурсов) и задачи (определение признакового поля, используемого экспертами, а также уровня обнаружения фейковых видеоизображений экспертами без использования технических средств либо с применением таковых).
Для проведения экспериментальной части исследования были отобраны следующие модели нейронных сетей сверточного типа:
MesoNet (Компактная сеть обнаружения подделки лиц на видео, англ.: «a Compact Facial Video Forgery Detection Network»);
Xception (Глубокое обучение с разделяемыми по глубине свертками, англ.: «Deep Learning with Depthwise Separable Convolutions»);
EfficientNet (Переосмысление масштабирования модели для сверточных нейронных сетей, англ.: «Rethinking Model Scaling for Convolutional Neural Networks»);
ResNet+LSTM (соединения для быстрого доступа).
На первом этапе модели обучаются на больших общедоступных многократно проверенных датасетах (например, Imagenet для классификации изображений), что позволяет им выделять наиболее полные признаковые описания входных объектов, а также получать релевантные «представления об окружающем мире».
На втором этапе предобученные модели до-обучаются для решения конкретной задачи.
Экспертные исследования были проведены в следующем порядке: исследование цифровых видеозаписей в два этапа; анализ собран-
78
ных данных, за исключением анализа метаданных и аудиограмм подготовленных файлов; сравнение результатов исследований первого и второго этапов; подготовка выводов о наличии возможности проведения экспертного исследования цифровых видеозаписей, созданных с помощью нейронных сетей.
В исследованиях приняли участие 70 специалистов фото-, видеотехников экспертно-кри-миналистических подразделений МВД России (из них 32 специалиста приняли участие в двух этапах). Для решения задач эксперты получили разные наборы данных с целью исключения получения случайных результатов.
В ходе проведения исследований в экспертных группах было использовано 264 датасета, включающих манипуляции двух видов: внесение изменений в изображение путем замены объектов; повышение разрешения некоторых объектов на изображении.
Для каждого эксперта, принявшего участие в исследовании, были проанализированы три показателя: «Precision» (показывает точность определения фейков, долю фейков среди всех видео, помеченных как «фейк»); «Recall» (показывает охват фейков, долю правильно помеченных фейков среди предложенных в датасете); «F1» (мера для сравнения результатов, среднее гармоническое двух предыдущих метрик).
В ходе исследования в экспертных группах получены следующие итоги. Среди 32 экспертов, участвовавших в обоих этапах, 15 показали положительные результаты по определению замены объектов. Средний показатель «Precision» составил 84%, а у лучших экспертов этот показатель в среднем равен 90%, при этом показатель «Recall» в среднем составил 50%, у лучших экспертов - 73%. Мера «F1» по двум этапам составила в среднем 56% и у лучших экспертов - 78%.
В рамках практических исследований был проведен сравнительный анализ результатов экспертных исследований с результатами практического применения нейросетевых классификаторов, на основании которого получены следующие данные. Среднее значение показателя при обнаружении фейков экспертами по двум этапам по показателю «F1» равно 56%, у лучших экспертов - 78%, у классификаторов: Xception - 72%, EfficientNet - 81%, MesoNet -66%, ResNet + LSTM - 63%.)
Необходимо обратить внимание на критерии пригодности видеоизображений, ограничивающие использование установленных способов анализа: размер видеоизображения высокого и среднего качества - от 640х360 (360р); размер видеоизображения низкого качества - от 854х480 (480р).
Применение критериев пригодности видеоизображений позволило получить прямую зависимость: при высоком качестве изображений отмечается высокий процент определения фейков как экспертами, так и нейронными классификаторами. Например, среднее значение показателя F1 при применении одного из классификаторов в рамках исследования видеоизображения с качеством 1920х1080 (1080р) составило 65%, в то время как при исследовании видеоизображения с качеством 426х240 (240 р) - 34%.
Проведенные экспертные исследования позволили прийти к следующим выводам.
Существует возможность проведения экспертного исследования цифровых видеозаписей, созданных с помощью нейронных сетей, содержащихся в видеофайлах распространенных форматов и представленных при отсутствии информации об обстоятельствах их получения, в том числе из интернет-ресурсов.
В настоящее время очень мало экспертов, способных максимально точно определить наличие признаков внутрикадрового монтажа, выполненного с использованием нейронных сетей. К уровню их подготовки предъявляются повышенные требования.
Существующего инструментария экспертных исследований для стабильного определения наличия признаков ВКМ с использованием нейронных сетей недостаточно.
Обобщая изложенное, отметим, что процесс выполнения НИР, как и предполагалось, завершился разработкой проекта технического задания (далее - ТЗ) на выполнение опытно- конструкторской работы (далее - ОКР).
Важно обратить внимание на то, что эффективность использования нейросетей при выявлении дипфейков обусловлено исходными реальными данными, формирование которых выступает актуальной задачей для экспер-тно-криминалистических подразделений.
В качестве выводов, сформулированных в результате проведения НИР, необходимо отметить следующее.
В рамках теоретических исследований сформирован перечень диагностических признаков внутрикадрового монтажа видеоизображений, которые могут являться ключевыми в проектировании и разработке программных средств, предназначенных для обнаружения фейков; определены потенциальные способы выявления признаков внутрикадрового монтажа видеоизображений.
В ходе патентных исследований подтверждено наличие запатентованных способов и методов выявления признаков внутрикадрового монтажа.
79
Экспериментальные исследования позволили установить следующее: существующие классификаторы на основе глубоких нейросе-тей в целом способны обнаруживать признаки монтажа видеоизображений, в том числе выполненного с помощью нейронных сетей, с точностью, превышающей среднюю точность экспертов; при использовании классификатора на основе глубоких нейросетей отсутствует возможность указания конкретного признака в качестве причины вынесения решения классификатором; использование программного комплекса классификаторов на основе глубоких нейросетей является необходимым в процессе производства видеотехнических экспертиз.
Разработан прототип, который подтвердил возможность выявления ВКМ, выполненного с помощью нейронных сетей. Результаты работы прототипа выше общего уровня обнаружения видеомонтажа контрольной группой экспертов. При этом средний уровень обнаружений видеомонтажа лучшими экспертами не уступает прототипу. Определены критерии пригодности видеоизображения для эффективной работы прототипа.
Прототип является инструментом, который может помочь эксперту обнаружить признаки ВКМ. Прототип выявляет признаки работы существующих инструментов ВКМ. С учетом постоянного развития этих инструментов будет требоваться постоянное «дообучение» прототипа. При этом важно обратить внимание на необходимость дальнейшего устранения проблемных вопросов его применения: прототип фиксирует любое воздействие нейронных сетей на видеоизображение. Таким образом, при использовании нейронных сетей для повышения качества видеоизображения прототип будет информировать эксперта о наличии нейросетевых признаков, поэтому последнее слово всегда остается за специалистом.
Рассуждая о выявлении дипфейков посредством применения нейросетей, важно иметь в виду, что, как показывает анализ зарубежной юридической литературы, лица, причастные к организованным формам преступной деятельности, осведомлены о формах и методах деятельности правоохранительных органов в данном направлении. Указанная категория лиц активно применяет методы передискретизации, удаления следов датчиков используемого технического устройства, подмены паттернов устройства, введения цифрового шума и т.д.
Изложенные в настоящей статье материалы НИР и имеющийся опыт ЭКЦ МВД России по криминалистическому исследованию видеокон-
тента, модифицированного с использованием нейронных сетей, в целом позволяют сформулировать следующие выводы:
1. Данные об отечественном и зарубежном опыте проведения исследований в области выявления признаков ВКМ, в том числе выполненного с помощью нейронных сетей, а также исследования в ходе НИР подтверждают реализуемость алгоритмов выявления дипфейков с помощью классификаторов на основе глубоких нейросетей с точностью, превышающей средние показатели экспертов.
2. Проведенные практические исследования показывают, что существующие классификаторы на основе глубоких нейросетей в целом способны обнаруживать признаки монтажа видеоизображений, в том числе выполненного с помощью нейросетей.
3. Современный подход к решению задачи выявления признаков ВКМ состоит в глубоком обучении классификатора на различных общедоступных датасетах и дообучении его на новых собственных данных.
4. Использование программного комплекса глубоко обученных классификаторов является необходимостью в процессе производства видеотехнических экспертиз. Это позволит экспертам значительно сократить время проведения экспертиз и сосредоточить усилия на кадрах с наибольшей вероятностью наличия признаков ВКМ и конкретных областях на них для последующего углубленного исследования видеоизображений с помощью специализированного программного обеспечения.
В качестве уточнения к ранее обозначенному выводу отметим, что на основании изложенных теоретических основ для выполнения ОКР по разработке программного комплекса с целью выявления признаков ВКМ с использованием нейросетей подготовлен проект ТЗ на проведение ОКР в 2024-2025 гг. Программный комплекс, разработанный в процессе выполнения ОКР, позволит сократить время анализа видеоизображений, увеличить производительность эксперта в части проведения анализа видеоизображений на наличие ВКМ, повысить уровень научно-технического обеспечения деятельности экспертно-криминалистических подразделений МВД России по линии производства видеотехнических экспертиз и исследований.
Прототип, созданный в ходе проведения НИР, уже вызвал научный и практический интерес у иных правоохранительных органов и неоднократно применялся для определения наличия признаков ВКМ при решении ими оперативно-служебных задач.
80
1. Владимиров В.Ю, Ермолова Е.И., Данилов И. А. Внутрикадровый монтаж фото- и видеоизображений с применением искусственного интеллекта как способ фальсификации доказательств // Развитие учения о противодействии расследованию преступлений и мерах по его преодолению в условиях цифровой трансформации: материалы Междунар. науч.-практ. конф. /под ред. Ю.В. Гаврилина, Ю.В. Шпагиной. М., 2021. С. 127-136.
2. Дронова О. Б. Перспектива создания современных технических средств выявления дипфейков // Судебная экспертиза: российский и международный опыт: материалы VI Междунар. науч.-практ. конф. Волгоград, 2022. С. 189-194.
3. Лёвин А. И. и др. Современное состояние и перспективы разработок в области выявления признаков монтажа видеозаписей // Двойные технологии. 2022. № 3(100). С. 79-82.
4. Проценко Д. Е., Жидков Д.Н. Диагностические признаки внутрикадрового монтажа видеоизображений, выполненного с помощью нейронных сетей // Судебная экспертиза: прошлое, настоящее и взгляд в будущее: материалы Междунар. науч.-практ. конф. СПб., 2021. С. 277-281.
5. Югай Л.Ю. Комплексный подход к использованию специальных познаний в борьбе с дип-фейками // Роль права в обеспечении благополучия человека: материалы XXII Междунар. науч.-практ. конф.: в 5 ч. М., 2022. С. 539-543.
1. Vladimirov V.Yu., Ermolova E.I., Danilov I.A. Intra-frame editing of photo and video images using artificial intelligence as a way of falsifying evidence // The development of the doctrine of countering the investigation of crimes and measures to overcome it in the conditions of digital transformation: proc. of the Intern. sci. and practical conf. / ed. by Yu.V. Gavrilin, Yu.V. Shpagina. Moscow, 2021. P. 127-136.
2. Dronova O.B. The prospect of creating modern technical means of detecting deepfakes // Forensic examination: Russian and international experience: proc. of the Intern. sci. and practical conf. Volgograd, 2022. P. 189-194.
3. Levin A.I. et al. The current state and prospects of developments in the field of detecting signs of video editing // Dual technologies. 2022. No. 3(100). P. 79-82.
4. Protsenko D.E., Zhidkov D.N. Diagnostic signs of intra-frame editing of video images made with the help of neural networks // Forensic examination: past, present and a look into the future: proc. of the Intern. sci. and practical conf.. St. Petersburg, 2021. З. 277-281.
5. Yugai L.Yu. An integrated approach to the use of special knowledge in the fight against deepfakes // The role of law in ensuring human well-being: proc. of the Intern. sci. and practical conf.: in 5 vols. Moscow, 2022. P. 539-543.
СВЕДЕНИЯ ОБ АВТОРАХ
Батоев Владимир Батоевич, кандидат юридических наук, доцент, старший научный сотрудник ФКУ НПО «Специальная техника и связь» МВД России; e-mail: [email protected];
Юможапов Роман Сергеевич, заместитель начальника отдела фото-, видеотехнических и портретных экспертиз и исследований управления инженерно-технических экспертиз, Экспертно-криминалистический центр МВД России; e-mail: [email protected]
INFORMATION ABOUT AUTHORS
V.B. Batoev, Candidate of Sciences in Jurisprudence, Associate Professor, Senior Researcher, Scientifi c and Production Association "Special Equipment and Communications" of the Ministry of the Interior of Russia; e-mail: [email protected];
R.S. Yumozhapov, Deputy Head of the Department of Photo, Video, and Portrait Examinations and Research of the Department of Engineering and Technical Examinations, Forensic Center of the Ministry of the Interior of Russia; e-mail: [email protected]
81