Audio-Video Analysis Method of Public Speaking Videos to Detect Deepfake Threat

Robert Wolański; Karol Jędrasiak

Robert Wolanskia)*, Karol jQdrasiakb)

'> School of Aspirants of the State Fire Service in Krakow / Szkola Aspirantow Panstwowej Strazy Pozarnej w Krakowie b WSB University / Akademia WSB w Dqbrowie Gorniczej ' Corresponding author / Autor korespondencyjny: rwolanski@sapsp.pl

Audio-Video Analysis Method of Public Speaking Videos to Detect Deepfake Threat

Metoda analizy audio-wideo filmów z wyst^pien publicznych w celu wykrycia zagrozenia typu deepfake

ABSTRACT

Aim: The purpose of the article is to present the hypothesis that the use of discrepancies in audiovisual materials can significantly increase the effectiveness of detecting various types of deepfake and related threats. In order to verify this hypothesis, the authors proposed a new method that reveals inconsistencies in both multiple modalities simultaneously and within individual modalities separately, enabling them to effectively distinguish between authentic and altered public speaking videos.

Project and methods: The proposed approach is to integrate audio and visual signals in a so-called fine-grained manner, and then carry out binary classification processes based on calculated adjustments to the classification results of each modality. The method has been tested using various network architectures, in particular Capsule networks - for deep anomaly detection and Swin Transformer - for image classification. Pre-processing included frame extraction and face detection using the MTCNN algorithm, as well as conversion of audio to mel spectrograms to better reflect human auditory perception. The proposed technique was tested on multimodal deepfake datasets, namely FakeAVCeleb and TMC, along with a custom dataset containing 4,700 recordings. The method has shown high performance in identifying deepfake threats in various test scenarios.

Results: The method proposed by the authors achieved better AUC and accuracy compared to other reference methods, confirming its effectiveness in the analysis of multimodal artefacts. The test results confirm that it is effective in detecting modified videos in a variety of test scenarios which can be considered an advance over existing deepfake detection techniques. The results highlight the adaptability of the method in various architectures of feature extraction networks.

Conclusions: The presented method of audiovisual deepfake detection uses fine inconsistencies of multimodal features to distinguish whether the material is authentic or synthetic. It is distinguished by its ability to point out inconsistencies in different types of deepfakes and, within each individual modality, can effectively distinguish authentic content from manipulated counterparts. The adaptability has been confirmed by the successful application of the method in various feature extraction network architectures. Moreover, its effectiveness has been proven in rigorous tests on two different audiovisual deepfake datasets.

Keywords: analysis of audio-video stream, detection of deepfake threats, analysis of public speeches Type of article: original research article

Received: 29.11.2023; Reviewed: 03.12.2023; Accepted: 03.12.2023;

Authors" ORCID IDs: R. Wolanski - 0000-0002-5625-0936; K. Jçdrasiak - 0000-0002-2254-1030; The authors contributed the equally to this article;

Please cite as: SFT Vol. 62 Issue 2, 2023, pp. 172-180, https://doi.org/10.12845/sft.62.2.2023.10;

This is an open access article under the CC BY-SA 4.0 license (https://creativecommons.org/licenses/by-sa/4.0/).

ABSTRAKT

Cel: Celem artykulu jest przedstawienie hipotezy, ze wykorzystanie rozbieznosci w matenalach audiowizualnych moze znacznie zwiçkszyc skutecznosc wykrywania róznych typów deepfake i zwiqzanych z nimi zagrozert. W celu weryfikacji tej hipotezy autorzy zaproponowali nowq metodç, która pozwala na ujawnienie niespójnosci zarówno w wielu modalnosciach jednoczesnie, jak i w obrçbie poszczególnych modalnosci z osobna, umozliwiajqc skuteczne rozróznienie autentycznych i zmienionych filmów z wystqpieniami publicznymi.

Projekt i metody: Zaproponowane podejscie polega na integracji sygnalów dzwiçkowych i wizualnych w tzw. drobnoziarnisty sposób, a nastçpnie prze-prowadzeniu procesów klasyfikacji binarnej na podstawie obliczonych korekt wyników klasyfikacji kazdej modalnosci. Metoda zostala przebadana z wy-korzystaniem róznych architektur sieci, w szczególnosci sieci typu Capsule - do glçbokiego wykrywania anomalii oraz Swin Transformer - do klasyfikacji obrazów. Przetwarzanie wstçpne obejmowalo ekstrakcjç klatek i wykrywanie twarzy przy uzyciu algorytmu MTCNN, a takze konwersjç audio na spektrogramy mel, aby lepiej odzwierciedlic ludzkq percepcjç sluchowq. Zaproponowana technika zostala przetestowana na multimodalnych zbiorach danych deepfake,

a mianowicie FakeAVCeleb i TMC, wraz z niestandardowym zbiorem zawierajqcym 4700 nagrart. Metoda wykazala wysokq skutecznosc w rozpoznawaniu zagrozert deepfake w róznych scenariuszach testowych.

Wyniki: Metoda zaproponowana przez autorów osiqgnçla lepsze AUC i dokladnosc w porównaniu z innymi metodami referencyjnymi, potwierdzajqc swojq skutecznosc w analizie artefaktów multimodalnych. Rezultaty badart potwierdzajq, ze skutecznie pozwala wykryc zmodyfikowane filmy w róznych scenariuszach testowych - co mozna uznac za postçp w porównaniu z istniejqcymi technikami wykrywania deepfake'ów. Wyniki podkreslajq zdolnosc adaptacji metody w róznych architekturach sieci ekstrakcji cech.

Wnioski: Przedstawiona metoda audiowizualnego wykrywania deepfake'ów wykorzystuje drobne niespójnosci cech wielomodalnych do rozrózniania,

czy material jest autentyczny czy syntetyczny. Wyróznia siç ona zdolnosciq do wskazywania niespójnosci w róznych typach deepfakeów i w ramach

kazdej indywidualnej modalnosci potrafi skutecznie odrózniac autentyczne tresci od zmanipulowanych odpowiedników. Mozliwosc adaptacji zostala

potwierdzona przez udane zastosowanie omawianej metody w róznych architekturach sieci ekstrakcji cech. Ponadto jej skutecznosc zostala udowod-

niona w rygorystycznych testach na dwóch róznych audiowizualnych zbiorach danych typu deepfake.

Stowa kluczowe: analiza strumienia audio-wideo, wykrywanie zagrozert typu deepfake, analiza wystqpiert publicznych

Typ artykutu: oryginalny artykul naukowy

Przyjçty: 29.11.2023; Zrecenzowany: 03.12.2023; Zaakceptowany: 03.12.2023;

Identyfikatory ORCID autorów: R. Wolartski - 0000-0002-5625-0936; K. Jçdrasiak - 0000-0002-2254-1030; Autorzy wniesli równy wklad merytoryczny w powstanie artykulu;

Proszç cytowac: SFT Vol. 62 Issue 2, 2023, pp. 172-180, https://doi.org/10.12845/sft.62.2.2023.10; Artykul udostçpniany na licencji CC BY-SA 4.0 (https://creativecommons.org/licenses/by-sa/4.0/).

Introduction

Video content has traditionally been seen as irrefutable proof of reality, being a reliable confirmation of events. However, the development of advanced video manipulation methods has disrupted this state of affairs. Due to the development of deepfake technology and its expansive spread through the Internet and social media, the credibility of video content is now in doubt [1]. High-profile cases of deepfake use, such as the false statement by the Belgian prime minister linking COVID-19 to the climate crisis [2], or a fraudulent video conference by Russian pranksters in which politicians from the UK, Ukraine and the Baltics thought they were having online video chats with Leonid Volkov, Alexei Naval-ny's chief of staff [3], speak volumes about the implications of using this technology. The impact is very serious, as it affects the image of well-known, often influential people, such as politicians.

In response to the emerging threats, deepfake detection methods have been developed - to counter the increasingly sophisticated techniques used by their creators. Deepfake are digital files that are created through manipulation and fabrication of audiovisual content. They are most often created using artificial intelligence algorithms [4], such as generative adversarial networks (GANs), or autoencoders. However, diffusion models and various machine learning algorithms are also used to create convincing deepfakes. The ease with which synthetic films can now be created, especially those that superimpose one person's face over another, raises serious concerns. While digital content fusion technologies [5] have legitimate applications in entertainment, multimedia or education, their potential for abuse in activities such as financial fraud is alarming. This is demonstrated by incidents such as the successful attack on a bank in the United Arab Emirates using AI-synthesized speech [6].

The proliferation of deepfakes containing disinformation poses a serious threat, and cases such as the fake video of Ukrainian President Volodymyr Zelensky [7] illustrate the chaos

Wprowadzenie

Tresci wideo tradycyjnie byty postrzegane jako niezbity dowod rzeczywistosci, bçdqc wiarygodnym potwierdzeniem zdarzen. Jednak rozwoj zaawansowanych metod manipulacji wideo zaburzyt ten stan rzeczy. Z powodu rozwoju technologii deepfake i jej ekspansywnego rozprzestrzeniania poprzez internet oraz media spotecznosciowe, wiarygodnosc tresci wideo jest obecnie przedmiotem wqtpliwosci [1]. Gtosne przypadki wykorzy-stania deepfake, takie jak fatszywe oswiadczenie premiera Belgii tqczqce COVID-19 z kryzysem klimatycznym [2], czy oszukancza wideokonferencja rosyjskich pranksterow, podczas ktorej politycy z Wielkiej Brytanii, Ukrainy i krajow battyckich sqdzili, ze prowa-dzili internetowe wideorozmowy z Leonidem Wotkowem, szefem sztabu Aleksieja Nawalnego [3], mowiq wiele o konsekwencjach uzycia tej technologii. Skutki sq bardzo powazne, poniewaz doty-czq wizerunku znanych, czçsto wptywowych osob, np. politykow.

W odpowiedzi na pojawiajqce siç zagrozenia powstaty metody wykrywania deepfake'ow - majqce przeciwdziatac coraz bardziej wyrafinowanym technikom stosowanym przez ich tworcow. Deepfake to pliki cyfrowe, ktore powstajq na drodze manipulacji i fabrykacji tresci audiowizualnych. Najczçsciej sq tworzone z wykorzystaniem algorytmow sztucznej inteligencji [4], takich jak generatywne sieci przeciwstawne (GAN), czy autoenkodery. Jed-nakze w celu tworzenia przekonujqcych fatszerstw typu deepfake stosuje siç rowniez modele dyfuzji oraz rozne algorytmy uczenia maszynowego. tatwosc, z jakq mozna obecnie tworzyc synte-tyczne filmy, zwtaszcza te, ktore naktadajq twarz jednej osoby na drugq, budzi powazne obawy. Chociaz technologie syntezy tresci cyfrowych [5] majq uzasadnione zastosowania w rozrywce, multi-mediach czy edukacji, to ich potencjat do naduzyc w dziataniach, takich jak oszustwa finansowe, jest alarmujqcy. Swiadczq o tym incydenty, np. skuteczny atak na bank w Zjednoczonych Emiratach Arabskich z wykorzystaniem wypowiedzi zsyntezowanej przez sztucznq inteligencji [6].

they can cause. As a result, deepfake detection has become an essential area of research in the discipline of security engineering. Currently, this research focuses primarily on binary classification to distinguish true content from false one [1]. Traditionally, efforts in this area have focused on single modalities, usually visual or sound artefacts in films. However, as deepfakes evolve to include multimodal fraud - both audio and video - detection mechanisms must also adapt to deal with these increasingly high-tech forgeries.

Current methods of unmasking deepfakes are mainly based on image, video stream or audio analysis. While the multi-modal approach holds promise, it is rarely used in practice, as the results of past attempts to fuse multi-modal signals for deepfake threat recognition have yielded comparable or inferior results to methods that analyse a single modality. In addition, feature fusion techniques often treat different types of deepfake manipulations as homogeneous, potentially disrupting the learning process. Nowadays, in order to create deepfakes, not only easy-to-detect image manipulation techniques like head pasting or mouth shape modification are used anymore. Increasingly, we are dealing with the use of methods developed for professional film dubbing or whole picture generation [8]. The authors of the article posed a research hypothesis that the use of inconsistencies in audiovisual artifacts of various types of deepfake, together with the analysis of all available modalities, will contribute to increasing the effectiveness of recognition of threats of this type. This article presents a method for detecting visual-sound artefacts in four categories of video authenticity. The proposed solution owes its effectiveness to the fusion of audiovisual features, teaching the algorithm in each modality independently and then integrating these results. The results of the conducted tests of the developed method using the available multi-modal datasets showed the worthwhile effectiveness of the proposed method regardless of the test scenario.

Rozprzestrzenianie siç deepfakeów zawierajqcych dezinfor-macjç stanowi powazne zagrozenie, a przypadki, takie jak fat-szywe wideo prezydenta Ukrainy Wotodymyra Zetenskiego [7], ilustrujq chaos, jaki mogq one wywotac. W rezultacie wykrywa-nie deepfakeów stato siç niezbçdnym obszarem badan w dyscy-plinie inzynieria bezpieczenstwa. Obecnie badania te koncentrujq siç przede wszystkim na klasyfikacji binarnej w celu odróznie-nia tresci prawdziwych od fatszywych [1]. Tradycyjnie wysitki w tym zakresie koncentrowaty siç na pojedynczych modalnosciach, zazwyczaj artefaktach wizualnych lub dzwiçkowych w filmach. Jednak w miarç jak deepfake'i ewoluujq, obejmujqc multi-modalne oszustwa - zarówno audio, jak i wideo, dostosowywac siç do radzenia sobie z tymi coraz bardziej zaawansowanymi technologicznie fatszerstwami muszq równiez mechanizmy ich wykrywania.

Obecnie stosowane metody demaskowania deepfakeów bazujq gtównie na analizie obrazu, strumienia wideo lub dzwiçku. Podejscie wielomodalne jest obiecujqce, w praktyce natomiast jest rzadko stosowane, gdyz rezultaty dotychczasowych prób fuzji wielomodalnych sygnatów na potrzeby rozpoznawania zagrozen typu deepfake uzyskiwaty porównywalne lub gorsze rezultaty co metody analizujqce pojedynczq modalnosc. Ponadto techniki fuzji cech czçsto traktujq rózne typy manipulacji deepfake jako jednorodne, potencjalnie zaktócajqc proces uczenia siç. Obecnie w celu stworzenia deepfakeów stosuje siç juz nie tylko tatwe do wykrycia techniki manipulacji obrazem typu przekleje-nie gtowy, czy modyfikacja ksztattu ust. Coraz czçsciej mamy do czynienia z wykorzystaniem metod opracowanych z myslq o pro-fesjonalnym dubbingu filmów lub generacjq catego obrazu [8]. Autorzy artykutu postawili hipotezç badawczq, iz wykorzystanie niespójnosci w artefaktach audiowizualnych róznego rodzaju deepfakeów wraz z analizq wszystkich dostçpnych modalnosci, przyczyni siç do zwiçkszenia skutecznosci rozpoznawania zagrozen tego typu. Niniejszy artykut przedstawia metodç wykrywa-nia artefaktów wizualno-dzwiçkowych w czterech kategoriach autentycznosci wideo. Zaproponowane rozwiqzanie zawdziç-cza swojq skutecznosc fuzji cech audiowizualnych, uczqc algo-rytm w kazdej modalnosci niezaleznie, a nastçpnie integrujqc te wyniki. Rezultaty przeprowadzonych badan opracowanej metody z wykorzystaniem dostçpnych wielomodalnych zbiorów danych wykazaty wartq gtçbszej analizy skutecznosc zaproponowanej metody niezaleznie od scenariusza testowego.

Analysis of the existing solutions

In the escalating battle against deepfake threats, there are two distinct strategies for detecting them: generic methods and specific methods. Approaches that are independent of the identity of the person in the video rely on detecting manipulation through learned visual artefacts or statistical anomalies using methods such as convolutional neural networks (CNNs) [9, 10]. These techniques originally proved effective in detecting the first wave of deepfake threats, characterized by clear artefacts or traces of manipulation. Unfortunately, these methods often fail in the face of modern deepfake threats, characterized by manipulation

Analiza istniejgcych rozwigzañ

W nasilajqcej siç walce z zagrozeniami typu deepfake mozna wyróznic dwie odrçbne strategie ich wykrywania: metody gene-ryczne i metody specyficzne. Podejscia niezalezne od tozsamo-sci osoby na filmie polegajq na wykrywaniu manipulacji poprzez wyuczone artefakty wizualne lub anomalie statystyczne przy uzyciu metod, takich jak konwolucyjne sieci neuronowe (CNN) [9, 10]. Techniki te okazaty siç pierwotnie skuteczne w wykrywaniu pierw-szej fali zagrozen typu deepfake, charakteryzujqcych siç wyraz-nymi artefaktami lub sladami manipulacji. Niestety metody te czç-sto zawodzq w obliczu wspótczesnych zagrozen typu deepfake,

methods that are invisible to the naked eye, or when video or audio quality is poor.

While analysis based on low-level video features has shown promise, it remains vulnerable to video stream quality degradation and sophisticated modification techniques. Analysis based on high-level semantics offers an alternative by targeting distinct anomalies in person-specific features such as eye blinking, head position, physiological signals and others. These higher-level signals can provide clues for authentication and usually allow greater generalization to new fakes. A relatively new research area is the issue of multimodal deepfake detection by combining audio and visual signals. While these approaches provide extensive feature datasets for detection [11], they often do not significantly outperform their unimodal counterparts. This paradox prompted the authors of the publication to conduct further research into more efficient use of multimodal features. The proposed method differs from traditional fusion methods by introducing a fine-grained approach that distinguishes specific inconsistencies in the two modalities of audio and video, rather than treating them as uniform.

charakteryzujqcych siç niewidocznq gotym okiem metodq manipulacji lub gdy jakosc wideo lub audio jest niska.

Chociaz analiza oparta na cechach wizyjnych niskiego poziomu okazata siç obiecujqca, pozostaje podatna na degradacjç jakosci strumienia wideo oraz wyrafinowane techniki modyfikacji. Analiza oparta na semantyce wysokiego poziomu oferuje alternatywç poprzez ukierunkowanie na wyrazne anomalie w cechach specyficz-nych dla danej osoby, takich jak mruganie oczami, pozycja gtowy, sygnaty fizjologiczne i inne. Te sygnaty wyzszego poziomu mogq dostarczyc wskazówek do uwierzytelniania i zazwyczaj pozwa-lajq na wiçksze uogólnienie na nowe podróbki. Relatywnie nowym obszarem badawczym jest zagadnienie wielomodalnego wykrywania deepfake 'ów poprzez potqczenie sygnatów dzwiçkowych i wizual-nych. Chociaz podejscia te dostarczajq obszernych zbiorów danych cech do wykrywania [11], czçsto nie przewyzszajq znaczqco swo-ich jednomodalnych odpowiedników. Paradoks ten sktonit autorów publikacji do dalszych badan nad bardziej wydajnym wykorzystaniem cech multimodalnych. Zaproponowana metoda rózni siç od tradycyjnych metod fuzji poprzez wprowadzenie drobnoziarnistego podejscia, które rozróznia okreslone niespójnosci w dwóch modal-nosciach audio i wideo, zamiast traktowac je jako jednolite.

Proposed solution

The article presents a method for analysing audio-video streams to improve the effectiveness of detecting deepfake manipulation in recordings of public speeches. The developed method is based on integrating audio and visual signals in a finegrained manner, and then performing a binary deepfake classification process with calculated corrections based on the classification results in each modality separately. The proposed two-modal approach aims to exploit the inconsistencies of multimodal deep-fakes, as well as individual artifacts introduced by manipulation or content generation in each modality independently. The beginning of the innovative method is pre-processing, followed by multi-modal feature extraction, and concluded by the adopted multi-task learning strategy.

The pre-processing procedure starts with the extraction of individual images from the input stream, adjusting the process according to the length of the video, thus ensuring standard temporal resolution at the different durations of the analysed recordings of public speeches. In the next step, the MTCNN algorithm [12] for face detection and pruning is introduced, which isolates face regions based on the detected landmarks.

The audio content of the recording is then analysed, which is typically extracted in WAV format, which is a raw representation of the audio. The sound is transformed into a mel spectrogram - a representation that better reflects human auditory perception through frequency mapping. On the mel scale, the perceived distances in height are the same. A frequency range of up to 8,000 Hz is standardized and a uniform duration of 4 seconds is set for all mel spectrograms, thus ensuring consistency across the entire data set.

The next step is to perform feature extraction. This is a particularly important part of the process, in which input data is translated into high-level features that are key to identifying

Proponowane rozwigzanie

Artykut przedstawia metodç analizy strumienia audio-wideo majqcq na celu zwiçkszenie skutecznosci wykrywania manipulacji typu deepfake w nagraniach z wystqpien publicznych. Opracowana metoda opiera siç na integracji sygnatów audio oraz wizualnych w sposób drobnoziarnisty, a nastçpnie przeprowadzeniu binar-nego procesu klasyfikacji deepfake 'ów z uwzglçdnieniem obliczo-nych korekt na podstawie rezultatów klasyfikacji w kazdej modal-nosci osobno. Zaproponowane dwuptaszczyznowe podejscie ma na celu wykorzystanie niespójnosci multimodalnych deepfake'ów, jak równiez indywidualnych artefaktów wprowadzanych na skutek manipulacji lub generacji tresci w kazdej modalnosci niezaleznie. Poczqtek innowacyjnej metody stanowi przetwarzanie wstçpne, nastçpnie przeprowadzana jest wielomodalna ekstrakcja cech, a konczy je przyjçta strategia uczenia wielozadaniowego.

Proces przetwarzania wstçpnego zaczyna siç od ekstrakcji poszczególnych obrazów z wejsciowego strumienia, dosto-sowujqc proces do dtugosci wideo, zapewniajqc w ten sposób standardowq rozdzielczosc czasowq przy róznych czasach trwa-nia analizowanych nagran z wystqpien publicznych. W kolejnym kroku wprowadza siç algorytm MTCNN [12] do wykrywania twa-rzy i przycinania, który izoluje regiony twarzy na podstawie wykry-tych punktów orientacyjnych.

Nastçpnie analizowana jest zawartosc audio nagrania, która typowo jest wyodrçbniana w formacie WAV, bçdqcym surowq reprezentacjq audio. Dzwiçk jest przeksztatcany w spektrogram mel - reprezentacjç, która lepiej odzwierciedla ludzkq percepcjç stuchowq poprzez mapowanie czçstotliwosci. W skali mel postrze-gane odlegtosci w wysokosci sq jednakowe. Standaryzowany jest zakres czçstotliwosci do 8000 Hz i ustawiany jednolity czas trwa-nia wynoszqcy 4 sekundy dla wszystkich spektrogramów mel, zapewniajqc w ten sposób spójnosc w catym zbiorze danych.

distinctive patterns in deepfakes. To do this, pre-processed visual and audio data are fed into deep neural networks, which autonomously learn and extract these relevant features. The proposed approach is independent of the neural network model, demonstrating flexibility for different network architectures. Selecting the optimal network architecture may be an area for further work. The experiments for this article used the Capsule type network architecture [13], known for its effectiveness in so-called deep anomaly detection, and the Swin Transformer architecture [14], known for its good results in image classification.

In the final step of the study, multitask learning was conducted. The adopted framework for the learning process was expressed by combining three loss functions and taking into account the complexity of fine-grained deep identification of fakes combined with binary classification for each modality separately. The total loss function used Ltotal was proposed as a composite of the binary cross entropy losses Laand Lv, for audio and video modalities, respectively, and Lf, a four-class cross entropy loss that includes different types of deepfake. The audiovisual classification task aggregates the output of the video network in multiple frames to extract the overarching video features. Two variants of fusion are examined: features, combining visual and audio elements, and results, averaging the classification results from both networks. The combined computing units are then fed into a four-class classification module for video identification.

Kolejnym krokiem jest przeprowadzenie ekstrakcji cech. Jest to szczególnie wazny element procesu, w którym dane wej-sciowe sq ttumaczone na cechy wysokiego poziomu, kluczowe z punktu widzenia identyfikacji charakterystycznych wzorców w deepfake'ach. W tym celu do gtçbokich sieci neuronowych wpro-wadzane sq wstçpnie przetworzone dane wizualne i dzwiçkowe, które autonomicznie uczq siç i wyodrçbniajq te istotne cechy. Zaproponowane podejscie jest niezalezne od modelu sieci neu-ronowej, wykazujqc elastycznosc dla róznych architektur sieci. Dobór optymalnej architektury sieci moze stanowic obszar dal-szych prac. W eksperymentach na potrzeby niniejszego artykutu wykorzystano architekturç sieci typu Capsule [13], znanq ze swo-jej skutecznosci w tzw. gtçbokim wykrywaniu anomalii oraz archi-tekturç Swin Transformer [14], majqcq dobre rezultat w klasyfikacji obrazów.

W ostatnim kroku badania przeprowadzono uczenie wieloza-daniowe. Przyjçte ramy dla procesu uczenia siç zostaty wyrazone poprzez potqczenie trzech funkcji strat oraz uwzglçdnienie ztozo-nosci drobnoziarnistej gtçbokiej identyfikacji podróbek w potqcze-niu z klasyfikacjq binarnq dla kazdej modalnosci osobno. Wyko-rzystana catkowita funkcja strat Ltotal zostata zaproponowana jako ztozenie binarnych strat entropii krzyzowej Lai Lv, odpowiednio dla modalnosci audio i wideo oraz Lf, czteroklasowej straty entro-pii krzyzowej, która obejmuje rózne typy deepfakeów. W przy-padku zadania klasyfikacji audiowizualnej agregowane sq dane wyjsciowe sieci wideo w wielu klatkach, tak aby wyodrçbnic nad-rzçdne cechy wideo. Badaniu poddawane sq dwa warianty fuzji: funkcji, tqczqcej elementy wizualne i dzwiçkowe, oraz wyników, usredniajqcej wyniki klasyfikacji z obu sieci. W ten sposób potq-czone jednostki obliczeniowe sq nastçpnie wprowadzane do czte-roklasowego modutu klasyfikacyjnego w celu identyfikacji wideo.

Research results

Experimental assessment of the proposed method was carried out on multimodal deepfake datasets: the FakeAVCeleb [11], TMC [15] and an in-house collection. A total of more than 37,000 recordings have been accumulated in all three collections for research work. All three analysed collections covered a wide spectrum of actual public speaking recordings and provided a representative testing ground. The method's test scenarios included recordings representing people from different ethnic groups and genders (see Figure 1). From the FakeAVCeleb collection, 25,500 videos were used for analysis, including 570 real recordings of public speeches made available on the YouTube platform, evenly distributed among the following ethnic groups: Caucasian (Americans), Caucasian (Europeans), Black (Africans), South Asian (Indians) and East Asian (e.g. Chinese, Koreans and Japanese). The division between men and women was 50/50. The fake recordings were generated by the authors of the collection [11]. The videos varied in length and the manipulation techniques used: real audio-true video, fake audio-true video, real audio-fake video, fake audio-fake video. The second used collection [15] contained 6943 recordings divided by the applied manipulation techniques as follows: real recordings 36.92%, real audio-true

Wyniki badañ

Ocena eksperymentalna zaproponowanej metody zostata przeprowadzona na multimodalnych zbiorach danych deepfake:: FakeAVCeleb [11], TMC [15] oraz zbiorze wtasnym. tqcz-nie we wszystkich trzech zbiorach zgromadzono na potrzeby prac badawczych ponad 37 000 nagran. Wszystkie trzy anali-zowane zbiory obejmowaty szerokie spektrum rzeczywistych nagran z wystqpien publicznych i stanowity reprezentatywny poligon doswiadczalny. Scenariusze testowe metody uwzglçd-niaty nagrania reprezentujqce osoby z róznych grup etnicznych i ptci (zob. ryc. 1). Ze zbioru FakeAVCeleb wykorzystano do ana-lizy 25 500 filmów, w tym 570 prawdziwych nagran z wystqpien publicznych udostçpnionych na platformie YouTube, równomier-nie rozdzielonych na nastçpujqce grupy etniczne: rasa kaukaska (Amerykanie), rasa kaukaska (Europejczycy), rasa czarna (Afry-kanie), rasy Azji Potudniowej (Hindusi) i rasy Azji Wschodniej (np. Chinczycy, Koreanczycy i Japonczycy). Podziat pomiçdzy mçz-czyzn i kobiety byt w proporcji 50/50. Nagrania fatszywe zostaty wygenerowane przez autorów zbioru [11]. Filmy róznity siç dtugo-sciq i zastosowanymi technikami manipulacji: prawdziwe audio--prawdziwe wideo, fatszywe audio-prawdziwe wideo, prawdziwe audio-fatszywe wideo, fatszywe audio-fatszywe wideo. Drugi

video 10.80%, real video-fake audio 9.07%, fake video-true audio 22.97%, fake video-fake audio 20.24%. The self-collection contained 5,000 recordings, divided into 1,000 real recordings of public speeches and 4,000 manipulated recordings, equally for each type of the manipulation.

In order to evaluate the effectiveness of the proposed audiovisual deepfake detection method, taking into account different detection strategies using Capsule and Swin Transformer networks, it was compared with established deepfake detection techniques such as MesoInception-4 [16], EfficientNet [17] and FTCN [18], AVoiD-DF [19] and AV-Lip-Sync [20]. The results confirmed the effectiveness of the authors' proposed method for recognizing deepfake threats (see Table 1).

wykorzystany zbior [15] zawierat 6943 nagrania podzielone ze wzgl^du na zastosowane techniki manipulacji w nast^pujqcy spo-sob: nagrania prawdziwe 36,92%, nagrania typu prawdziwe audio--prawdziwe wideo 10,80%, prawdziwe wideo-fatszywe audio 9,07%, fatszywe wideo-prawdziwe audio 22,97%, fatszywe wideo-fatszywe audio 20,24%. Zbior wtasny zawierat 5000 nagran w podziale 1000 nagran prawdziwych z wystqpien publicznych oraz 4000 nagran zmanipulowanych, po rowno dla kazdego typu manipulacji.

W celu oceny skutecznosci zaproponowanej metody wykry-wania audiowizualnego deepfake'u, uwzgl^dniajqcej rozne strategie wykrywania przy uzyciu sieci Capsule i Swin Transformer, dokonano jej porownania z uznanymi technikami gt^bokiego wykrywania podrobek, takimi jak MesoInception-4 [16], Efficient-Net [17] i FTCN [18], AVoiD-DF [19] i AV-Lip-Sync [20]. Uzyskane rezultaty potwierdzity skutecznosc proponowanej przez autorow metody rozpoznawania zagrozen typu deepfake (zob. tabela 1).

Figure 1. Examples of frames from films, showing real and modified elements that are difficult to distinguish with the naked eye Rycina 1. Przyktady kadrow z filmow, przedstawiajgce elementy rzeczywiste i zmodyfikowane, trudne do rozroznienia gotym okiem

Source: Authors' test collections. Zrodto: Zbiory testowe autorow.

Table 1. Test results of analysed deepfake threat detection methods on recordings of public speeches

Tabela 1. Rezultaty testow analizowanych metod detekcji zagrozen typu deepfake na nagraniach z wystgpien publicznych

Method / Metoda AUC ACC

MesoInception 73.25 73.42

FTCN 86.12 68.35

EfficientNet 82.37 75.80

AVoiD-DF 88.56 84.50

AV-Lip-Sync 84.32 93.00

Proposed method / Zaproponowana metoda 96.30 97.40

Source: Own elaboration. Zrodto: Opracowanie wtasne.

The proposed method, like the reference methods, was implemented and tested under identical conditions using the same data sets. A comparison of the results in terms of AUC (area under the ROC curve) and model accuracy shows that the proposed solution performs better than the other models, indicating its effectiveness in detecting multimodal artefacts. It is interesting to note that all methods performed better when trained on the FakeAVCeleb dataset, compared to the TMC dataset and the custom dataset. This may be due to the greater variety of recordings in FakeAVCeleb. TMC's collection contains mostly recordings by Asians, while its own collection contains recordings by Europeans, which may have affected the results.

Proponowana metoda, podobnie jak metody referencyjne, byta realizowana i testowana w identycznych warunkach, uzy-wajqc tych samych zestawow danych. Porownanie wynikow w zakresie AUC (obszar pod krzywq ROC) i doktadnosci modelu pokazuje, ze proponowane rozwiqzanie osiqga lepsze rezultaty niz pozostate modele, co wskazuje na jego skutecznosc w wykry-waniu multimodalnych artefaktow. Interesujqce jest, ze wszyst-kie metody osiqgaty lepsze wyniki, gdy byty trenowane na zbiorze danych FakeAVCeleb, w porownaniu do zbioru TMC i zbioru wta-snego. Moze to wynikac z wi^kszej roznorodnosci nagran w FakeAVCeleb. Zbior TMC zawiera gtownie nagrania Azjatow, a zbior wtasny - Europejczykow, co mogto wptywac na wyniki.

In order to evaluate the ability of the proposed method to generalize, tests of the method's performance were also conducted when the training process was carried out on one set and the tests on the other. Again, the author's method achieved the highest efficiency. The best result (see Table 1) was achieved with the diverse FakeAVCeleb dataset and testing on the TMC dataset. The final stage of testing verified the model's effectiveness against modifications, such as real videos with mismatched audio. For this purpose, cross-validation tests were performed on the TMC dataset. Most of the analysed fake videos were correctly identified by the proposed method. Moreover, it has been labelled as "real video fake audio", highlighting the method's ability to detect this type of inconsistency, commonly found in manipulated videos.

In conclusion, the proposed method demonstrated the effectiveness of detecting modified videos in various test scenarios. This represents an advance over existing deepfake detection techniques.

W celu oceny zdolnosci zaproponowanej metody do generali-zacji przeprowadzono rowniez badania dziatania metody, gdy proces trenowania zostat przeprowadzony na jednym zbiorze, a testy na drugim. Rowniez w tym przypadku autorska metoda osiqgnçta najwyzszq skutecznosc. Najlepszy rezultat (zob. tabela 1) udato siç uzyskano przy roznorodnym zbiorze danych FakeAVCeleb i testowa-niu na zbiorze TMC. W ostatnim etapie testow zweryfikowano sku-tecznosc modelu przeciwko modyfikacjom, takim jak prawdziwe filmy z niedopasowanym dzwiçkiem. W tym celu przeprowadzono testy krzyzowe na zbiorze danych TMC. Wiçkszosc przeanalizowa-nych fatszywych filmow zostata poprawnie zidentyfikowana przez zaproponowanq metodç. Ponadto uzyskata oznaczenie jako real video fake audio (prawdziwe wideo fatszywe audio), co podkresla zdolnosc metody do wykrywania tego typu niespojnosci, powszech-nie wystçpujqcych w zmanipulowanych filmach.

Podsumowujqc, zaproponowana metoda wykazata skutecznosc wykrywania zmodyfikowanych filmow w roznych scenariu-szach testowych. Stanowi to postçp w stosunku do istniejqcych technik detekcji typu deepfake.

Conclusion

The authors of this article presented a method for audiovisual deepfake detection that takes advantage of minor inconsistencies in multimodal features to distinguish whether the material is authentic or synthetic. The proposed approach is distinguished by its ability to identify inconsistencies across different types of deepfakes and within each individual modality. It allows to effectively distinguish authentic content from manipulated counterparts. The adaptability of the presented method has been confirmed by its successful application to various feature extraction network architectures. Its effectiveness has also been confirmed through rigorous testing on two different audiovisual deepfake datasets.

As part of their future work, the authors plan to focus their efforts on developing an audio-video content analysis system based on the proposed method that can be widely used to protect against certain types of deepfake threats. In conclusion, the proposed method sets a sure reference point in detecting forgeries in public speeches, representing a first step toward a safer digital media landscape in which the authenticity of recordings can be verified with greater certainty.

Podsumowanie

Autorzy niniejszego artykutu przedstawili metodç audiowi-zualnego wykrywania deepfake 'ów, która wykorzystuje drobne niespójnosci cech wielomodalnych do rozrózniania, czy mate-riat jest autentyczny, czy syntetyczny. Zaproponowane podejscie wyróznia siç zdolnosciq do wskazywania niespójnosci w róznych typach deepfake 'ów i w ramach kazdej indywidualnej modalnosci. Pozwala na skuteczne odróznianie autentycznych tresci od zmanipulowanych odpowiedników. Zdolnosc przedstawionej metody do adaptacji zostata potwierdzona przez jej udane zastosowanie w róznych architekturach sieci ekstrakcji cech. Jej skutecznosc zostata takze potwierdzona w drodze rygorystycznych testów na dwóch róznych audiowizualnych zbiorach danych typu deepfake.

W ramach dalszej pracy autorzy planujq skupic wysitki na roz-winiçciu na bazie zaproponowanej metody systemu analizy tresci audio-wideo, który bçdzie mozliwy do powszechnego stosowa-nia w celu ochrony przed okreslonymi typami zagrozen deepfake. Podsumowujqc, zaproponowana metoda wyznacza pewny punkt odniesienia w wykrywaniu fatszerstw w wystqpieniach publicznych, stanowiqc pierwszy krok w kierunku bezpieczniejszego krajobrazu mediów cyfrowych, w którym autentycznosc nagran mozna zweryfikowac z wiçkszq pewnosciq.

Acknowledgement

The present work was co-financed as part of the implementation of the project entitled "Interdisciplinary research projects of WSB researchers".

Podziçkowanie

Niniejsza praca byta wspótfinansowana w ramach realizacji projektu pt. „Interdyscyplinarne projekty badawcze pracowników naukowych WSB".

Literature / Literatura

[1] Nguyen T.T., Nguyen Q.V.H., Nguyen D.T., Nguyen D.T., [12] Huynh-The T., Nahavandi S., Nguyen C. M., Deep learning

for deepfakes creation and detection: A survey, „Computer Vision and Image Understanding" 2022, 223, 103525.

[2] https://brusselstimes.com/106320/xr-belgium-posts- [13] deepfake-of-belgian-premier-linking-covid-19-with-clima-te-crisis [dost^p 10.09.2023]

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[3] https://wiadomosci.onet.pl/swiat/politycy-padli-ofia-ra-technologii-deep-fake-pranksterzy-podszywali-sie- [14] -pod/16w1ep7 [dost^p: 04.12.2023].

[4] Wang X., Guo H., Hu S., Chang M.C., Lyu S., Gan-generated faces detection: A survey and new perspectives, „arXiv" 2022, 2202.07145. [15]

[5] Cao Y., Li S., Liu Y., Yan Z., Dai Y., Yu P.S., Sun L. A comprehensive survey of ai-generated content (aigc): A history of generative ai from gan to chatgpt, „arXiv" 2023, 2303.04226.

[6] https://noizz.pl/nauka-i-technologia/sztuczna-inteligen- [16] cja-sklonowali-glos-dyrektora-banku-i-ukradli-miliony/ mnwrnpk [dost^p: 04.12.2023].

[7] https://www.komputerswiat.pl/aktualnosci/wydarzenia/ do-sieci-trafil-deepfake-z-prezydentem-zelenskim-w-falszy- [17] wym-wideo-namawial-do/n40qel7, [dost^p: 04.12.2023].

[8] Xie T., Liao L., Bi C., Tang B., Yin X., Yang J., Ma, Z., Towards realistic visual dubbing with heterogeneous sources, Proce- [18] edings of the 29th ACM International Conference on Multimedia, 2021, 1739-1747.

[9] Amerini I., Galteri L., Caldelli R., Del Bimbo A., Deepfake

video detection through optical flow based cnn, Proceedings [19] of the IEEE/CVF international conference on computer vision workshops, 2019.

[10] Almutairi Z., Elgibreen H., A review of modern audio deepfake detection methods: challenges and future directions, „Algo- [20] rithms" 2022, 15(5), 155.

[11] Khalid H., Tariq S., Kim M., Woo S.S., FakeAVCeleb:A novel audio-video multimodal deepfake dataset, „arXiv" 2021, 2108.05080.

Zhang N., Luo J., Gao W., Research on face detection technology based on MTCNN, International Conference on Computer Network, Electronic and Automation (ICCNEA), 2020, 154-158.

Patrick M.K., Adekoya A.F., Mighty A.A., Edward B.Y., Capsule networks - a survey, „Journal of King Saud University-computer and information sciences" 2022, 34(1), 1295-1310.

Liang J., Cao J., Sun G., Zhang K., Van Gool L., Timofte R., Swinir: Image restoration using swin transformer, Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, 1833-1844.

Chen W., Chua S.L.B., Winkler S., Ng S.K., Trusted Media Challenge Dataset and User Study, Proceedings of the 31st ACM International Conference on Information & Knowledge Management, 2022, 3873-3877.

Afchar D., Nozick V., Yamagishi J., Echizen I., Mesonet: a compact facial video forgery detection network, In 2018 IEEE International Workshop on Information Forensics and Security (WIFS), 2018, 1-7.

Koonce B., Koonce B., EfficientNet. Convolutional Neural Networks with Swift for Tensorflow: Image Recognition and Dataset Categorization, 2021, 109-123. Zheng Y., Bao J., Chen D., Zeng M., Wen F., Exploring temporal coherence for more general video face forgery detection, Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, 15044-15054. Yang W., Zhou X., Chen Z., Guo B., Ba Z., Xia Z., Ren K., AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake, „IEEE Transactions on Information Forensics and Security" 2023, 18, 2015-2029.

Shahzad S.A., Hashmi A., Peng Y.T., Tsao Y., Wang H. M., AV-Lip-Sync+: Leveraging AV-HuBERT to Exploit Multimodal Inconsistency for Video Deepfake Detection, „arXiv" 2023, 2311.02733.

SEN. BRIG. ROBERT MARCIN WOLANSKI, PH.D. ENG. - employee of the School of Aspirants of the State Fire Service in Krakow, Department of the Training Centre for the Protection of Population and Cultural Property. He is a graduate of the AGH University of Science and Technology in Cracow, officer's studies at the Main School of Fire Service, postgraduate studies in the area of wheeled vehicle operation and road accident expertise. He defended his doctoral thesis on infrared and microwave thermal protection technologies and materials at the University of Science and Technology. He conducts scientific work in parallel with his teaching activities through projects and individual research. He focuses on safety engineering issues with a special emphasis on the safety of rescuers. He is the author of a number of publications and a reviewer of recognized publications. In innovation activities, he is co-author of the patent "Method

ST. BRYG. W ST. SP. DR INZ. ROBERT MARCIN WOLANSKI - pra-cownik Szkoty Aspirantow Panstwowej Strazy Pozarnej w Krakowie, Wydziatu Centrum Szkolenia Ochrony Ludnosci i Dobr Kultury. Absolwent Akademii Gorniczo-Hutniczej w Krakowie, studium ofi-cerskiego Szkoty Gtownej Stuzby Pozarniczej, studiow podyplomo-wych z zakresu eksploatacji pojazdow kotowych oraz ekspertyz wypadku drogowego. Obronit pracç doktorskg z zakresu techno-logii i materiatow do produkcji ochron termicznych przed promie-niowaniem podczerwonym i mikrofalowym w Akademii Gorniczo--Hutniczej. Prowadzi rownolegle z dziatalnoscig dydaktyczng prace naukowe w ramach projektow i badan indywidualnych. Koncentruje siç na zagadnieniach inzynierii bezpieczenstwa ze szczegolnym uwzglçdnieniem bezpieczenstwa ratownikow. Jest autorem sze-regu publikacji i recenzentem uznanych wydawnictw. W dziatalnosci

of manufacturing ceramic layers on fabric". He is the initiator of a number of conferences and seminars aimed at the presentation and exchange of scientific and technical ideas in the area of progressive designs, technologies and organizational solutions for reducing the risk of conducting rescue operations. Currently, as an employee of the Civil and Cultural Property Protection Training Centre at the SA PSP Krakow, he continues his activities of promoting, educating and developing initiatives in the area of cultural heritage protection.

KAROL JfDRASIAK, PH.D. - academic teacher, didactician and manager, author of more than 81 scientific publications, including 3 scientific monographs with high citability. The author's scientific experience includes participation in 24 research and development projects, also as a manager. Active participant in 24 scientific conferences and symposia. Expert of the WSL2014-2020 ROP, member of the Steering Committee of the Game INN Sector Program and the Society for Image Processing. As a result of his previous work and cooperation with industry, he participated in the development of 27 claims of intellectual property rights (3 granted patents, 12 patent applications, 12 design registration rights). Specialist in computer vision, computer graphics, artificial intelligence tools, computer, database and sensor system development. Since 2008, he has held management positions in private companies. For many years he was CEO of VR Technology, a company developing algorithms in the area of data analysis, commercializing innovative solutions in virtual reality technology and simulation as well as coaching systems.

innowacyjnej jest wspotautorem patentu „Sposob wytwarzania cera-micznych warstw na tkaninie". Jest inicjatorem szeregu konferen-cji i seminariow ukierunkowanych na prezentacjç i wymianç mysli naukowo-technicznej w obszarze progresywnych konstrukcji, tech-nologii i rozwigzan organizacyjnych w zakresie ograniczenia ryzyka prowadzenia dziatan ratowniczych. Obecnie jako pracownik Centrum Ksztatcenia Ochrony Ludnosci i Dobr Kultury w SA PSP Krakow kon -tynuuje swojg dziatalnosc promowania, edukacji i rozwoju inicjatyw w zakresie ochrony dziedzictwa kulturowego.

DR KAROL JÇDRASIAK - nauczyciel akademicki, dydaktyk i menadzer, autor ponad 81 publikacji naukowych, w tym 3 monografii nauko-wych o wysokiej cytowalnosci. Doswiadczenie naukowe autora obej-muje udziat w 24 projektach badawczo-rozwojowych, w tym takze w charakterze kierownika. Aktywny uczestnik 24 konferencji i sym-pozjow naukowych. Ekspert RPO WSL2014-2020, cztonek Komi-tetu Sterujgcego Programu Sektorowego Game INN oraz Towa-rzystwa Przetwarzania Obrazow. W rezultacie dotychczasowej pracy oraz wspotpracy z przemystem uczestniczyt w opracowaniu 27 zastrzezen prawa wtasnosci intelektualnej (3 przyznane patenty, 12 zgtoszen. patentowych, 12 praw z rejestracji wzoru przemysto-wego). Specjalista w zakresie wizji komputerowej, grafiki kompute-rowej, narzçdzi sztucznej inteligencji, wytwarzania systemow infor-matycznych, bazodanowych i sensorycznych. Od 2008 roku zajmuje stanowiska kierownicze w przedsiçbiorstwach prywatnych. Przez wiele lat byt Prezesem Zarzgdu spotki VR Technology zajmujgcej siç opracowywaniem algorytmow z zakresu analizy danych oraz komer-cjalizacjg innowacyjnych rozwigzan z zakresu technologii wirtual-nej rzeczywistosci oraz systemow symulacyjnych i trenazerowych.

Audio-Video Analysis Method of Public Speaking Videos to Detect Deepfake Threat Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Robert Wolański, Karol Jędrasiak

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Robert Wolański, Karol Jędrasiak

Metoda analizy audio-wideo filmów z wystąpień publicznych w celu wykrycia zagrożenia typu deepfake

Текст научной работы на тему «Audio-Video Analysis Method of Public Speaking Videos to Detect Deepfake Threat»