Научная статья на тему 'УСОВЕРШЕНСТВОВАНИЕ АЛГОРИТМОВ АНТИФРОД-СИСТЕМЫ НА ОСНОВЕ ИСПОЛЬЗОВАНИЯ МЕТОДОВ GRAPH REPRESENTATION LEARNING И СЕТЕЙ CYCLEGAN'

УСОВЕРШЕНСТВОВАНИЕ АЛГОРИТМОВ АНТИФРОД-СИСТЕМЫ НА ОСНОВЕ ИСПОЛЬЗОВАНИЯ МЕТОДОВ GRAPH REPRESENTATION LEARNING И СЕТЕЙ CYCLEGAN Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
664
99
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРОТИВОДЕЙСТВИЕ КИБЕРМОШЕННИЧЕСТВУ / АНТИФРОД-СИСТЕМА / ПРОБЛЕМА ДИСБАЛАНСА КЛАССОВ / ФРОД-МОНИТОРИНГ / ФРОД-АНАЛИТИКА НА БАЗЕ ТЕОРИИ ГРАФОВ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ларионова С. Л., Ряховский Е. Э.

В статье разработаны предложения по усовершенствованию алгоритмов работы антифрод-систем. Так, была разработана модель, которая с использованием технологий обучения графовых представлений способна извлекать структурную информацию из транзакционного графа и адаптировать получившиеся данные к уже имеющимся признакам датасета. Применение указанного подхода позволило увеличить эффективность выявления мошеннических операций на 37% по сравнению с показателями работы классической ML-модели обнаружения мошеннических транзакций. Кроме того, для решения проблемы несбалансированности распределения исходных данных на классы при обучении антифрод-системы был предложен подход к использованию сети CycleGAN для генерации мошеннических транзакций. Была проведена сравнительная оценка показателей эффективности работы антифрод-моделей, разработанных на базе использования графовых признаков и дополненных различными алгоритмами генерации синтетических фродовых кейсов (классические SMOTE, ADASYN и предложенный алгоритм на базе CycleGAN). В результате экспериментов было установлено, что наилучшее качество работы показывает модель с использованием сети CycleGAN, позволившая снизить количество пропущенных мошеннических транзакций на 43%.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ларионова С. Л., Ряховский Е. Э.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IMPROVEMENT OF ANTI-FRAUD SYSTEM ALGORITHMS BASED ON THE USE OF GRAPH REPRESENTATION LEARNING METHODS AND CYCLEGAN

The article presents proposals for improving the algorithms of anti-fraud systems. A model was developed that, using graph representation learning techniques, is able to extract structural information from a transactional graph and adapt the resulting data to the existing features of the dataset. The use of this approach has increased the efficiency of detecting fraudulent transactions by 37% compared to the efficiency of the classic ML-model. Moreover, an approach was proposed to use the CycleGAN to generate fraudulent transactions to solve the unbalanced distribution problem of source data. A comparative evaluation of the effectiveness of anti-fraud models developed on the basis of graph functions and supplemented by various algorithms for generating synthetic fraud cases (classic SMOTE, ADASYN and the proposed algorithm based on the CycleGAN) is carried out. As a result of experiments, it was found that the best quality of work is shown by the model using the CycleGAN network, which reduced the number of missed fraudulent transactions by 43%.

Текст научной работы на тему «УСОВЕРШЕНСТВОВАНИЕ АЛГОРИТМОВ АНТИФРОД-СИСТЕМЫ НА ОСНОВЕ ИСПОЛЬЗОВАНИЯ МЕТОДОВ GRAPH REPRESENTATION LEARNING И СЕТЕЙ CYCLEGAN»

Усовершенствование алгоритмов антифрод-системы

на основе использования методов

Graph Representation Learning и сетей CycleGAN

Ларионова Светлана Львовна

к.т.н., доцент Департамента «Информационная безопасность», Финансовый университет при Правительстве Российской Федерации, [email protected]

Ряховский Егор Эдуардович

студент, Финансовый университет при Правительстве Российской Федерации, [email protected]

В статье разработаны предложения по усовершенствованию алгоритмов работы антифрод-систем. Так, была разработана модель, которая с использованием технологий обучения графовых представлений способна извлекать структурную информацию из транзакционного графа и адаптировать получившиеся данные к уже имеющимся признакам датасета. Применение указанного подхода позволило увеличить эффективность выявления мошеннических операций на 37% по сравнению с показателями работы классической ML-модели обнаружения мошеннических транзакций.

Кроме того, для решения проблемы несбалансированности распределения исходных данных на классы при обучении ан-тифрод-системы был предложен подход к использованию сети CycleGAN для генерации мошеннических транзакций. Была проведена сравнительная оценка показателей эффективности работы антифрод-моделей, разработанных на базе использования графовых признаков и дополненных различными алгоритмами генерации синтетических фродовых кейсов (классические SMOTE, ADASYN и предложенный алгоритм на базе CycleGAN). В результате экспериментов было установлено, что наилучшее качество работы показывает модель с использованием сети CycleGAN, позволившая снизить количество пропущенных мошеннических транзакций на 43%. Ключевые слова: противодействие кибермошенничеству, ан-тифрод-система, проблема дисбаланса классов, фрод-монито-ринг, фрод-аналитика на базе теории графов.

Введение

В настоящее время происходит трансформация бизнес-моделей, реализующих их бизнес-процессов, конкурентоспособность компаний на рынке сегодня определяется эффективностью внедрения и использования цифровых технологий.

Согласно статистике Банка России, в каждом новом году наблюдается стабильный рост объема операций, проводимых через каналы дистанционного банковского обслуживания (ДБО). Так, за минувший 2020 год подобный показатель по отношению к 2019 году вырос на 28%.

Активное использование каналов ДБО, перевод среды взаимодействия клиента с кредитной организацией в виртуальное пространство (киберпространство), глобальный характер межсетевого взаимодействия между кредитной организацией и клиентом неизбежно порождают повышение уровня риска реализации ряда угроз информационной безопасности (ИБ). Согласно статистике Банка России, объем операций по переводу денежных средств, проведенных без согласия клиента, в 2020 году вырос на 52% и составил 91 трлн. рублей.

Ключевым инструментом процесса противодействия операциям без согласия клиента является антифрод-си-стема, использование который, согласно текущей версии 161-ФЗ, является обязательным для всех кредитных организаций, предоставляющих своим клиентам услуги через каналы ДБО. Проведенный анализ статистики по инцидентам, связанным с совершением финансовых операций без согласия клиента через удаленные каналы обслуживания показал, что существующие антиф-род-решения не выявляют на должном уровне операции, которые проводятся без согласия клиента кредитной организации, а значит проблема снижения количества подобных операций преимущественно лежит в области повышения точности определения вероятности события, что операция совершается именно клиентом банка. Задача проведенного исследования - разработать необходимый набор предложений по изменению алгоритмов антифрод-систем с учетом существующих вызовов.

Материалы и методы

Для любой кредитной организации крайне важной задачей в рамках выстраивания своих бизнес-процессов является задача, связанная с анализом своих клиентов. Так, на основе социального положения клиента, его демографической принадлежности, особенностей покупок, оборота денежных средств по счету или карте можно проанализировать особенности потребления клиента, специфику его потребностей и, например, предложить ему наиболее подходящую банковскую услугу или продукт. Помимо описанных выше характеристик для одного конкретного клиента не менее важным аспектом, анализируемым на стороне кредитной

X X

о го А с.

X

го m

о

ю

2 О

м

CS

0

CS

<0

01

о ш m

X

3

<

m О X X

организации, является анализ финансового взаимодействия между клиентами. Основной инструментарий реализации и обеспечения базы для подобного анализа -это граф, вершины которого представляют собой различных клиентов кредитной организаций (или же реквизиты клиентов сторонних кредитных организаций), а ребра подобного графа представляют собой финансовые операции между парой конкретных клиентов кредитной организации.

В отдельных модулях наиболее передовых антиф-род-систем (например, в решении от компании RSA, применяемом в таких крупных российских банках как Сбербанк, ВТБ) заложена возможность построения подобных графов. Однако анализ графовых характеристик вершин и ребер (степени, число соседей между вершинами и т. д.) в данном случае строится на разработке и применении специальных эвристик (например, коэффициент Жаккара, дистанция Адамика/Адара, центральность узла по Кацу), что, очевидно, требует огромных трудозатрат и привлечения большего количества фрод-аналитиков [2]. Кроме того, подобные эвристики зачастую носят крайне локальный характер и затрагивают лишь 1 конкретную вершину и ее ближайшее окружение, так как в режиме реального времени расчет эвристики более высокого порядка в случае большого числа операций не представляется возможным. Именно поэтому для того, чтобы реально качественно повысить точность выявления мошеннический операций, необходим механизм, через которой была бы возможность в автоматическим режиме извлекать характеристики подобного графа, описанного выше, и сразу же их использовать в качестве параметров для модели антифрод-системы.

Классические подходы, применяемые обычно для решения проблемы извлечения структурной информации из графа и последующей передачи в традиционно используемые в антифрод-системах модели машинного обучения (такие как, например, деревья решений, регрессии) и заключающиеся в использовании набора статистических данных, которые описывают сам граф, или в использовании kernel-функции (метод ядра) для графов, имеют ограничение, связанное с отсутствием адаптации новых признаков, извлеченных из структурных характеристик графа, под уже имеющиеся данные, что неизбежно ведет к ухудшению качества работы антиф-род-моделей.

Кроме того, большинством исследователей отмечается, что одной из ключевых проблем в вопросе создания или улучшения моделей антифрод-систем является крайне высокий уровень несбалансированности распределения исходных данных на классы (мошеннических операций всегда, очевидно, сильно меньше, чем легитимных), что в большинстве случаев приводит к подавлению объектами мажоритарного класса объектов миноритарного класса, и, как следствие, к неправильной классификации объектов из миноритарного класса [4]. Классическим подходом, применяемым для решения данной проблемы, является генерация синтетических фродовых транзакций с их последующим перемешиваем с реальными транзакционными данными [5, 6, 7]. На данный момент существует 2 основных и наиболее широко применяемых алгоритма для решения описанной выше задачи: SMOTE (генерация осуществляется вдоль линейного сегмента, объединяющего объекты миноритарного класса) и ADASYN (адаптивный алгоритм, в рамках которого генерация большего количества синтетических объектов происходит на базе тех объектов

миноритарного класса, которые в своих K ближайших соседей имеют большее количество объектов мажоритарного класса), которые показывают достаточно высокую эффективность [8]. Однако и SMOTE, и ADASYN имеют также и ряд недостатков: при работе модели на базе SMOTE игнорируется мажоритарный класс, что в свою очередь может привести к ситуации, в рамках которой отделить объекты одного класса от другого становится практически невозможно. В случае с моделями, построенными на базе использования алгоритма ADASYN возникает другая проблема, связанная с высокой степенью влияния возможных выбросов в наборе данных на итоговый результат (если все K ближайших соседей объекта миноритарного класса являются объектами мажоритарного класса, то вес данного объекта становится крайне большим, а значит вокруг него будет сгенерировано большое количество синтетических объектов, которые также будут представлять собой выбросы). Таким образом, на сегодняшний день проблема поиска эффективного алгоритма для генерация синтетических данных является крайне актуальной.

Результаты разработки

Наиболее перспективный современный подход к решению описанной выше проблемы извлечения структурных графовых характеристик из транзакционного графа и их последующей адаптации к уже имеющимся в наборе данных признакам, представляет собой использование алгоритмов, направленных на обучение представлений графов (в англоязычной научной литературе данный подход называется Graph Representation Learning). Идея, лежащая в основе данного подхода, заключается в кодировании структурной графовой информации в пространство меньшей размерности (эм-беддинг), например, за счет представления вершин или целых подграфов исходного графа в виде точек нового графа с меньшей размерностью, с одновременным контролем геометрических соотношений, которые должны сохранять свое соответствие при переходе от исходного графа к пространству меньшей размерности (например, близкие вершины в получившемся пространстве должны быть так же близки, как и в исходном графе) [9]. Ключевое преимущество данного подхода состоит в самостоятельном поиске оптимального представления исходного графа в пространстве меньшей размерности, то есть в данном случае отсутствует необходимость в разработке и применении специальных эвристик, и, как следствие, это ведет к сокращению временных затрат на анализ информации о клиентах и повышению точности работы моделей. Именно реализация подобного подхода с целью повышения точности выявления мо-шенническихтранзакций и противодействию операциям без согласия клиента и была реализована и рассмотрена далее.

Для оценки эффекта от описанного выше предложения по использованию алгоритмов Graph Representation Learning в задачах противодействия кибермошенниче-ству было принято решение дополнить классическую модель по обнаружению мошеннических операций новыми дополнительными признаками, полученными из результатов работы алгоритмов, направленных на обучение представлений графов, и оценить прирост эффективности выявления моделью мошеннических транзакций по сравнению с начальными показателями, полученными с помощью классических ML-моделей (не учитывающих графовые структурные характеристики связи

между отправителем и получателем денежных средств). Прирост эффективности предлагается рассматривать в части изменения показателя AUC-PR (area under the curve - precision/recall, значение площади под PR-кри-вой (кривой, в рамках которой по оси абсцисс откладывается показатель полноты, отображающий какую долю объектов, принадлежащих к данному классу, из всех объектов данного класса нашел алгоритм, а по оси ординат - показатель точности, характеризующий долю объектов, действительно принадлежащих к данному классу, относительного всех объектов, отнесенных системой к данному классу), представляющее собой средний показатель точности, рассчитанный для каждой пороговой величины полноты), являющийся наиболее часто используемым показателем качества работы моделей в задачах классификации несбалансированного набора данных [10].

Для решения поставленной задачи был выбран фреймворк GraphSAGE, позволяющий обрабатывать и получать эмбеддинги крайне больших графов (сотни миллионов вершин и десятки миллиардов ребер) за счет поддержки распределенного параллельного обучения и возможности порционной загрузки графа в оперативную память [11]. Кроме того, данное решение позволяет обрабатывать графы, которые содержат в себе одновременно вершины различных типов (в данном случае вершинами могут выступать как физические, так и юридические лица).

От сотрудников обследуемой кредитной организации был получен датасет (набор данных), содержащий выборку с обезличенной информацией о переводах клиентов за 4 квартал 2020 года, в котором каждая транзакция характеризуется набором из 114 признаков. Далее на основе информации об отправителе и получателе для каждой транзакции с использованием библиотеки NetworkX (библиотека на языке Python, предназначенная для создания и изучения структурных характеристик сложных сетевых структур, в том числе и графов) был получен граф G (V, E), где V - есть множество вершин данного графа (клиенты банка, а также сторонние реквизиты - карты, счета в других банках), а E - множество ребер (ребро между парой вершин графа существует только в том случае, если за отобранный промежуток времени проводилась хотя бы 1 транзакция между данными клиентами). По каждой транзакции в данном наборе данных содержится итоговый результат ее легитимности (мошенническая/легитимная), в него включены все мошеннические переводы, которые были зафиксированы за данный временной период (как выявленные текущим антифрод-решением, так и пропущенные им).

В ходе проведения эксперимента были разработана программа и выполнены следующие шаги:

1) обучение модели на основе классического алгоритма с последующей оценкой эффективности модели (была оценена эффективность работы модели с помощью описанной выше метрики AUC-PR) - в качестве подобного алгоритма был выбран алгоритм XGBoost, который в рамках многих исследований признается наиболее эффективным алгоритмом в задачах классификации [12,13];

2) построение транзакционного графа на основе данных из исходного набора данных;

3) добавление в набор данных к существующим признакам дополнительных признаков (эмбеддинг вершин графа связей), полученных с помочью применения

фреймворка GraphSAGE (информация о связи между отправителем и получателем перевода, извлеченная из графа, была представлена в виде вектора-строки с размерностью 64 (заданный embedding size - размерность нового пространства, в которое будут размещены вершины графа));

4) обучение модели на основе расширенного набора признаков с последующей оценкой эффективности модели метрикой AUC-PR;

5) сравнение эффективности модели без сгенерированных из графа признаков (построенной в рамках шага 1) и модели, которая использует данные признаки (разработанной в рамках шагов 2-4).

Кроме того, в данной научно-исследовательской работе для решения поставленной выше проблемы дисбаланса классов предлагается использовать сети CycleGAN. Обычно сети на базе CycleGAN используются для обработки и генерации различных изображений, однако потенциал данного инструментария намного шире. В данном случае для решения задачи генерации синтетических мошеннических транзакций предлагается вместо сверточных слоев использовать полносвязные.

В ходе работы сети CycleGAN используется 4 нейросети: генераторы G, F и дискриминаторы Dx, Dy (рисунок 1) [14]. Есть 2 домена с набором объектов: домен X и домен Y, в данном случае под доменом X будет пониматься множество легитимных финансовых операций клиентов, под доменом Y - множество мошеннических операций. Генератор G отвечает за преобразование объекта из домена X в объект домена Y, а генератор F - наоборот из домена Y в домен X. Задача дискриминаторов Dx, Dy заключается в определении вероятности того, что какой-либо конкретный объект принадлежит домену X или Y соответственно, качество работы дискриминатора контролируется с помощью функции потерь. Синтетические объекты, сгенерированные с помощью сети CycleGAN, имеют знак циркумфлекс ("крышечка" над символом).

Функция потерь данной сети состоит из взвешенной суммы 2 следующих типов потерь: состязательные потери и потери согласованности цикла. Состязательные потери (потери между реальным и синтетически сгенерированным объектами) для отображения G:X ^Y рассчитываются по формуле (1):

£GAN(G,Dy,X,Y) =

Еу~Р,а1а(у)[^у(У)] + Ec-p^wtloga - Dy(G(x))],(1)

где x - это легитимная транзакция из домена X, а y -мошенническая транзакция из домена Y.

Dy

Dy

(о)

М

Рисунок 1 - Схема работы сетей на базе ОусШОЛЫ [авторская разработка]

Дискриминатор, в данном случае йу, пытается различить полученную с помощью генератора G синтетическую мошенническую транзакцию б(х) и реальную мо-

X X

о

го А с.

X

го m

о

ю

2 О

м

сч

0 сч

<JD

01

О Ш

m х

<

m о х

X

шенническую транзакцию у. Аналогичным образом вычисляется значение состязательных потерь и для отображения F:Y^X, где уже дискриминатор Dx пытается различить реальную легитимную транзакцию x и синтетическую легитимную транзакцию F(y). Таким образом, в данном случае видно, что цель генераторов G, F состоит в минимизации состязательной функции потери своих "противников" дискриминаторов Dx,Dy, которые, наоборот, постоянно пытаются ее максимизировать.

Однако применение исключительно состязательных потерь не может гарантировать высокую степень качества работы сети, так как в данном случае сеть может отображать один и тот же набор входных объектов X в простую перестановку объектов из домена Y (или наоборот). Для решения данной проблемы применяется расчет потерь согласованности цикла. Функция согласованности цикла представляет собой функцию, которая может переводить объект из одного домена в объект другого домена, а после снова генерировать объект начального домена (см. рисунок 1б-в). Функция согласованности на примере прямого цикла записывается в виде следующей формулы (2):

x^G(x) ^F(G(x))«x (2).

А сама функция потери согласованности цикла вычисляются по формуле (3):

£cyc(G,F) =Ex~pdata(x)[||F(G(x)-x||1]

+ Ey~P,ata(y)[llG(F(y)-ylli] (3).

Полная целевая функция является взвешенной суммой обеих функций состязательных потерь и функции потери согласованности и вычисляется по следующей формуле (4):

£(G,F,Dx,Dy)=£GAN(G,Dy,X,Y) + £GAN(F,Dx,Y,X) + A£cyc(G,F) (4).

Таким образом, для обучения сети CycleGAN необходимо оптимизировать приведенную выше полную целевую функцию потерь (минимизировать потери сетей генераторов и максимизировать потери сетей дискриминаторов), математическая интерпретация данного действия представлена в виде формулы (5):

G*,F* =argminmax£(G,F,Dx,Dy) (5).

G,F Dx,Dy

В ходе проведения эксперимента была разработана программа и выполнены следующие шаги:

1) применение алгоритмов SMOTE и ADASYN для генерации синтетических данных;

2) проектирование и построение генераторов и дискриминаторов сети CycleGAN;

3) проектирование и построение модели CycleGAN, а также задание функций потерь;

4) генерация синтетических данных с помощью построенной модели CycleGAN;

5) оценка и сравнение эффективности моделей, построенных с использованием различных алгоритмов, в общем случае были рассмотрены 5 различных моделей:

- базовая модель;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- модель на основе использование сгенерированных графовых эмбеддингов;

- модель на основе использование сгенерированных графовых эмбеддингов и синтетических данных, полученных с помощью алгоритма SMOTE;

- модель на основе использование сгенерированных графовых эмбеддингов и синтетических данных, полученных с помощью алгоритма ADASYN;

- модель на основе использование сгенерированных графовых эмбеддингов и синтетических данных, полученных с помощью CycleGAN.

Обсуждение

В результате проведенных испытаний было установлено, что добавление в исходный набор данных новых, полученных на основе извлечения из графовой структуры, признаков способствовало довольно существенному повышению качества определения моделью мошеннических операций, показатели метрик AUC-PR и графики precision/recall кривых для обоих случаев (без применения предложенного алгоритма и вместе с ним) представлены на рисунке 2.

Average precision-recall scone XGBoost: Э. 89628S453.5

Average precis 'cn-recall score XGBoost: B. 819749852:4

10 ■

C-9 ■

o.E -

с С- 7 ■ о

g 16 ¿1

05 0.4 ■ 03

Щ

Graphs AGE f featu res Baseline

0.4 0.6

Recall

Рисунок 2 - Показатели качества работы моделей (GraphSage + features) [авторская разработка]

Таким образом, прирост эффективности работы модели составил практически целый процент. Кроме того, были оценены относительные показатели, характеризующие количество и сумму пропущенных мошеннических транзакций на базе старой модели и на базе модели, дополненной новыми признаками: сумма всех операций без согласия клиента конкретно на данных исходных данных снизилась более чем на 84%, а количество пропущенных мошеннических транзакций снизилось практически на 37%.

Average precision-recall score XGBoost: 0.8962884535

Average precision-recall score XGBoost: 0.8197498524

Average precision-recall score XGBoost: 0.896623660©

Average precision-recall score XGBoost: 0.8998371337

Average precision-recall score XGBoost: 0.913071822©

0.9

o.s

с О1

0

1 06 ¿1

05 4

03

Gra phSAGE +■ features Baseline

Gra phSAGE +featiires+SMOTE GTa phSAGE + fa atu res +A DASYN Gra phSAGE -t- fa atu res -t-Cyc I eGA N

02

04

06

Рисунок 3 - Показатели качества работы различных моделей [авторская разработка]

В результате проведенных испытаний также было установлено, что добавление в исходный набор синтетических данных, сгенерированных посредством использования любого из описанных выше алгоритмов, способствует повышению качества определения моделью мошеннических операций, однако так же стоит отметить, что именно применение сети CycleGAN позволило достичь наилучшей эффективности в определении мошеннической операции, показатели метрики AUC-PR и графики precision/recall кривых для всех 5 случаев представлены на рисунке 3.

Таким образом, для данного набора данных наиболее эффективной моделью как с точки зрения количества пропущенного фрода, так и с точки зрения суммы подобных транзакций является модель на основе использование сгенерированных графовых эмбеддингов и синтетических данных, полученных с помощью сети CycleGAN. При сравнительном анализе итоговых результатов ее работы с начальной моделью можно отметить, что количество пропущенных мошеннических операций снизилось почти на 43%, в то время как значение суммы подобных операций снизилось практически на 88%.

Заключение

В рамках данной работы были исследованы возможные подходы к улучшению эффективности работы анти-фрод-систем. В качестве одного из ключевых направлений развития систем противодействия кибермошенни-честву был проанализирован и исследован вопрос применения теории графов к задаче оценки легитимности операций по переводу денежных средств: был предложен подход, заключающийся в построении и анализе транзакционного графа.

Для извлечения структурной информации из графа и ее адаптации к уже имеющимся в наборе данных признакам с целью улучшения точности оценки легитимности транзакции было предложено использование фреймворков для обучения представления графов (GRL). Механизмы, заложенные в подобный класс решений, позволяют построить модель, которая самостоятельно способна найти оптимальное представление исходного графа в пространстве меньшей размерности, а также адаптировать получившиеся результаты под уже имеющиеся в наборе данных признаки.

Для оценки эффекта предложения по обогащению набора данных новыми признаками, отражающими информацию о связи между отправителем и получателем перевода и сгенерированными на основе извлечённых из графа структурных характеристик, была разработана программная реализация 2 моделей: 1 - классическая модель обнаружения мошеннических транзакций, 2 -классическая модель обнаружения мошеннических транзакций, дополненная новыми признаками, полученными из результатов работы GRL-алгоритмов (на базе использования фреймворка GraphSAGE).

После сравнения показателей качества работы описанных выше моделей (с использованием метрики AUC-PR) было установлено, что подход, заключающийся в построении транзакционного графа, последующем извлечении из него структурной информации и обогащении исходного датасета новыми данными, позволяет повысить эффективность работы модели практически на целый процент, что в свою очередь в относительных показателях использованного набора данных отражается

в увеличении эффективности выявления мошеннических операций на 37% и уменьшении суммы операций без согласия клиента более чем на 84%.

Кроме того, была исследована проблема несбалансированности распределения исходных данных, используемых для обучения антифрод-системы, на классы. Было установлено, что наиболее популярные и широко используемые на данный момент алгоритмы для генерации синтетических объектов миноритарного класса (в данном случае синтетических мошеннических транзакций) - SMOTE и ADASYN - имеют очевидные недостатки, а значит проблема поиска эффективного алгоритма для решения описанной выше задачи остается крайне актуальной. Для решения данной проблемы в работе предлагается использовать сети CycleGAN в качестве инструментария для генерации мошеннических кейсов.

В результате эксперимента было установлено, что все модели, которые обучались на увеличенном наборе данных (исходные данные + синтетические мошеннические транзакции), показали большую эффективность, чем модели, для которых начальные данные не были смешены с синтетически сгенерированными объектами. Наибольшую эффективность из всех разработанных моделей показала модель, расширение набора обучающих данных которой было проведено на базе применения сети CycleGAN. Применение данной модели, использующей набор данных с извлеченными из графа структурными характеристиками, который так же был расширен за счет смешивания реальных транзакций с синтетическими, позволило достичь крайне высоких относительных показателей: количество пропущенных мошеннических транзакций снизилось почти на 43%, а сумма подобных операций снизилась на 88%.

Литература

1 НАФИ: более половины россиян пользуются цифровым банкингом [Электронный ресурс] - URL: https://www.banki.ru/news/lenta/?id=10930356 (дата обращения: 29.11.2020).

2 Applications of link prediction in social networks [Электронный ресурс] - URL: https://www.sciencedirect.com/science/article/abs/pii/S108 4804520301909 (дата обращения 06.05.2021).

3 Обработка данных и машинное обучение [Электронный ресурс] - URL: https://www.ibm.com/nj-ru/analytics/machine-learning (дата обращения 06.05.2021).

4 Sampling Approaches for Imbalanced Data Classification Problem in Machine Learning [Электронный ресурс] - URL: https://link.springer.com/chapter/10.1007/978-3-030-29407-6_17 (дата обращения 06.05.2021).

5 An Experimental Study with Imbalanced Classification Approaches for Credit Card Fraud Detection [Электронный ресурс] - URL: https://ieeexplore.ieee.org/document/8756130 (дата обращения 06.05.2021).

6 Editorial: Special Issue on Learning from Imbalanced Data Sets [Электронный ресурс] - URL: https://sci2s.ugr.es/keel/pdf/specific/articulo/edit_intro.pdf (дата обращения 06.05.2021).

7 Effective detection of sophisticated online banking fraud on extremely imbalanced data [Электронный ресурс] - URL: https://link.springer.com/article/10.1007/s11280-012-0178-0 (дата обращения 06.05.2021).

X X

о

го А с.

X

го m

о

ю

2 О

м

CS

0

CS

<0

01

8 ADASYN: Adaptive synthetic sampling approach for imbalanced learning [Электронный ресурс] - URL: https://ieeexplore.ieee.org/abstract/document/4633969 (дата обращения 06.05.2021).

9 Graph Representation Learning: A Survey [Электронный ресурс] - URL: https://arxiv.org/pdf/1909.00958.pdf (дата обращения 05.05.2021).

10 F1 Score vs ROC AUC vs Accuracy vs PR AUC: Which Evaluation Metric Should You Choose? [Электронный ресурс] - URL: https://neptune.ai/blog/f1-score-accuracy-roc-auc-pr-auc (дата обращения 06.05.2021).

11 Inductive Representation Learning on Large Graphs [Электронный ресурс] - URL: https://arxiv.org/abs/1706.02216 (дата обращения 06.05.2021).

12 A Comparative Analysis of XGBoost [Электронный ресурс] - URL: https://arxiv.org/abs/1911.01914 (дата обращения 06.05.2021).

13 XGBoost Algorithm: Long May She Reign [Электронный ресурс] - URL: https://towardsdatascience.com/https-medium-com-vishalmorde-xgboost-algorithm-long-she-may-rein-edd9f99be63d (дата обращения 06.05.2021).

14 Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network [Электронный ресурс] -URL: https://arxiv.org/pdf/1703.10593.pdf (дата обращения 05.05.2021).

15 The Class Imbalance Problem: A Systematic Study [Электронный ресурс] - URL: https://content.iospress.com/articles/intelligent-data-analysis/ida00103 (дата обращения 05.05.2021).

Improvement of anti-fraud system algorithms based on the use of Graph

Representation Learning methods and CycleGAN Larionova S.L., Ryakhovski E.E.

Financial University under the Government of the Russian Federation JEL classification: C10, C50, C60, C61, C80, C87, C90_

The article presents proposals for improving the algorithms of anti-fraud systems. A model was developed that, using graph representation learning techniques, is able to extract structural information from a transactional graph and adapt the resulting data to the existing features of the dataset. The use of this approach has increased the efficiency of detecting fraudulent transactions by 37% compared to the efficiency of the classic ML-model. Moreover, an approach was proposed to use the CycleGAN to generate fraudulent transactions to solve the unbalanced distribution problem of source data. A comparative evaluation of the effectiveness of anti-fraud models developed on the basis of graph functions and supplemented by various algorithms for generating synthetic fraud cases (classic SMOTE, ADASYN and the proposed algorithm based on the CycleGAN) is carried out. As a result of experiments, it was found that the best quality of work is shown by the model using the CycleGAN network, which reduced the number of missed fraudulent transactions by 43%. Keywords: anti-fraud, anti-fraud system, class imbalance problem, fraud monitoring, fraud analysis based on graph theory.

References

1 NAFI: more than half of Russians use digital banking [Electronic resource]

- URL: https://www.banki.ru/news/lenta/?id=10930356 (accessed:

29.11.2020).

2 Applications of predicting links in social networks [Electronic resource] -

URL:

https://www.sciencedirect.com/science/article/abs/pii/S1084804520301 909 (accessed 06.05.2021).

3 Data processing and machine learning [Electronic resource] - URL:

https://www.ibm.com/ru-ru/analytics/machine-learning (accessed

06.05.2021).

4 Approaches to sampling to solve the problem of unbalanced classification

of data in machine learning [Electronic resource] - URL: https://link.springer.com/chapter/10.1007/978-3-030-29407-6_17 (accessed 06.05.2021).

5 Experimental study with unbalanced classification approaches for detecting

credit card fraud [Electronic resource] - URL: https://ieeexplore.ieee.org/document/8756130 (accessed 06.05.2021).

6 Editorial articles: Special issue on training based on unbalanced data sets

[Electronic resource] - URL:

https://sci2s.ugr.es/keel/pdf/specific/articulo/edit_intro.pdf (accessed 06.05.2021).

7 Effective detection of sophisticated fraud in Internet banking on the basis of

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

extremely unbalanced data [Electronic resource] - URL: https://link.springer.com/article/10.1007/s11280-012-0178-0 (accessed 06.05.2021).

8 ADASYN: Adaptive synthetic approach to sampling for imbalanced learning

[Electronic resource] - URL:

https://ieeexplore.ieee.org/abstract/document/4633969 (accessed 06.05.2021).

9 Learning the representation of graphs: A survey [Electronic resource] -

URL: https://arxiv.org/pdf/1909.00958.pdf (accessed 05.05.2021).

10 Assessment F1 vs ROC AUC vs Precision vs PR AUC: Which Metric

Evaluation Should You choose? [Electronic resource] - URL: https://neptune.ai/blog/f1-score-accuracy-roc-auc-pr-auc (accessed 06.05.2021).

11 Inductive learning of representation on large graphs [Electronic resource]

- URL: https://arxiv.org/abs/1706.02216 (accessed 06.05.2021).

12 Comparative analysis of XGBoost [Electronic resource] - URL: https://arxiv.org/abs/1911.01914 (accessed 06.05.2021).

13 Algorithm XGBoost: Long live It [Electronic resource] - URL: https://towardsdatascience.com/https-medium-com-vishalmorde-xgboost-algorithm-long-she-may-rein-edd9f99be63d (accessed 06.05.2021).

14 Unpaired translation of an Image into an image using a cyclically consistent adversarial network [Electronic resource] - URL: https://arxiv.org/pdf/1703.10593.pdf (accessed 05.05.2021).

15 The Class Imbalance Problem: A Systematic Study [Electronic resource]

- URL: https://content.iospress.com/articles/intelligent-data-analysis/ida00103 (accessed 05.05.2021).

О Ш

m x

3

<

m о x

X

i Надоели баннеры? Вы всегда можете отключить рекламу.