Научная статья на тему 'МЕТОДИКА УПРАВЛЕНИЯ АНТИФРОД-СИСТЕМОЙ В ЛОГИСТИЧЕСКОЙ ОТРАСЛИ НА ОСНОВЕ БАЙЕСОВСКОГО КЛАССИФИКАТОРА'

МЕТОДИКА УПРАВЛЕНИЯ АНТИФРОД-СИСТЕМОЙ В ЛОГИСТИЧЕСКОЙ ОТРАСЛИ НА ОСНОВЕ БАЙЕСОВСКОГО КЛАССИФИКАТОРА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
495
136
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СИСТЕМА УПРАВЛЕНИЯ / АНТИФРОД / НАИВНЫЙ БАЙЕСОВСКИЙ КЛАССИФИКАТОР / СИСТЕМА ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ / УРОВНИ ДОВЕРИЯ / МЕЖДУНАРОДНАЯ ЛОГИСТИКА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Романов Д.В., Рындин А.А., Скворцов Ю.С.

Рассматриваются вопросы по разработке эффективной системы управления клиентами для сервиса по международной доставке посылок. Все увеличивающийся поток электронных операций приводит и к увеличению числа потенциально небезопасных транзакций. Компании, осуществляющие услуги через интернет, нуждаются в комплексной антифрод-системе для минимизации экономических, финансовых и репутационных рисков. Система обеспечивает контроль за мошенническими действиями пользователя, хранит историю и ведет статистику по заранее отслеживаемым параметрам, также присутствует оценка клиента, на основании которой будет сделан вывод о правомерности операции. Аналитический модуль системы представляет собой строгий байесовский классификатор, который на основе имеющихся данных по клиенту и транзакциям делает оценку безопасности данной операции. Дано обоснование использования выбранного метода, а также сравнительная характеристика с методами машинного обучения. Модуль управления представляет собой интерфейс для оператора сервиса, который видит историю клиента и оценку его риска, данные по транзакции, и на основе этой информации либо разрешает, либо блокирует операцию. Оценка риска осуществляется с использованием уровня доверия, который в зависимости от действий клиента увеличивается или уменьшается; также от уровня будет зависеть набор действий, который пользователь может выполнять без одобрения сервиса. Антифрод-система разрабатывается под нужды логистической компании, однако при перенастройке параметров проверок может использоваться для любых сервисов с клиентским взаимодействием и электронными операциями

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CONTROL METHODOLOGY OF THE ANTIFRAUD SYSTEM IN LOGISTICS BASED ON THE BAYES CLASSIFIER

The article is devoted to the design of effective control system for the international parcel delivery service. Because of the growth of e-operations, potentially unsafe transactions count is increasing. Companies that provide services over the Internet need a complex antifraud system to minimize economic, financial and reputation risks. The system provides control over fraudulent user actions, stores a history and keeps statistics on monitored parameters; there is also a client’s assessment, which will help to conclude the legality of the operation. The analytical module of the system is a naive Bayes classifier, which makes a security assessment of this operation based on the available data of a client and their transactions. The article gives the justification given for using this approach as well as comparative characteristics with machine learning methods. The control module is an interface for the service operator, who sees the client’s history and risk assessment, transaction data and based on this information he/she either allows or blocks the operation. Risk assessment is implemented using confidence level, which, depending on the actions of a client, increases or decreases, the set of actions that the client can make in the service will depend on this level. Antifraud system is developed for the needs of a logistics company, but can be used for any services with client interaction and electronic operations if we reconfigure parameters

Текст научной работы на тему «МЕТОДИКА УПРАВЛЕНИЯ АНТИФРОД-СИСТЕМОЙ В ЛОГИСТИЧЕСКОЙ ОТРАСЛИ НА ОСНОВЕ БАЙЕСОВСКОГО КЛАССИФИКАТОРА»

DOI 10.25987^Ш2020Л6Л.003 УДК 004.04

МЕТОДИКА УПРАВЛЕНИЯ АНТИФРОД-СИСТЕМОЙ В ЛОГИСТИЧЕСКОЙ ОТРАСЛИ НА ОСНОВЕ БАЙЕСОВСКОГО КЛАССИФИКАТОРА

Д.В. Романов, А.А. Рындин, Ю.С. Скворцов

Воронежский государственный технический университет, г. Воронеж, Россия

Аннотация: рассматриваются вопросы по разработке эффективной системы управления клиентами для сервиса по международной доставке посылок. Все увеличивающийся поток электронных операций приводит и к увеличению числа потенциально небезопасных транзакций. Компании, осуществляющие услуги через интернет, нуждаются в комплексной антифрод-системе для минимизации экономических, финансовых и репутационных рисков. Система обеспечивает контроль за мошенническими действиями пользователя, хранит историю и ведет статистику по заранее отслеживаемым параметрам, также присутствует оценка клиента, на основании которой будет сделан вывод о правомерности операции. Аналитический модуль системы представляет собой строгий байесовский классификатор, который на основе имеющихся данных по клиенту и транзакциям делает оценку безопасности данной операции. Дано обоснование использования выбранного метода, а также сравнительная характеристика с методами машинного обучения. Модуль управления представляет собой интерфейс для оператора сервиса, который видит историю клиента и оценку его риска, данные по транзакции, и на основе этой информации либо разрешает, либо блокирует операцию. Оценка риска осуществляется с использованием уровня доверия, который в зависимости от действий клиента увеличивается или уменьшается; также от уровня будет зависеть набор действий, который пользователь может выполнять без одобрения сервиса. Антифрод-система разрабатывается под нужды логистической компании, однако при перенастройке параметров проверок может использоваться для любых сервисов с клиентским взаимодействием и электронными операциями

Ключевые слова: система управления, антифрод, наивный байесовский классификатор, система поддержки принятия решений, уровни доверия, международная логистика

Введение

В общем смысле антифрод-система (от англ. fraud - мошенничество) представляет собой комплекс действий по мониторингу и предотвращению неправомерных действий в реальном времени, а также управлению клиентами и оценкой степени их риска [1]. Основным двигателем направления исследований в данной области является все возрастающий поток электронных операций и платежей, а основным заказчиком - банковский сектор.

Несмотря на то, что проблема существует около 20 лет, особую активность она приобрела в последние годы. По данным международной консалтинговой компании The Boston Consulting Group (BCG) объем мошеннических транзакций с 2010 по 2018 год увеличился в 30 раз, и вплоть до 2028 года ежегодно будет увеличиваться на 5,9% в год. Компании, занимавшиеся разработками в этом кластере, стали существенно совершенствовать свои наработки, активно внедряя сложные системы искусственного интеллекта, облачные вычисления и передовые алгоритмы распознавания мошенничества.

© Романов Д.В., Рындин А.А., Скворцов Ю.С., 2020

Одними из таких распространенных систем являются FICO Application Fraud Manager, Digital Banking Fraud Detection, FraudWall и SAS Fraud and Security Intelligence. Стали проводится исследования и в России, как одной из развитых стран с объемом электронных операций. Интерес к данному направлению появился и у крупных компаний, таких как Яндекс и Лаборатория Касперского, что в конечном итоге привело к появлению отечественных разработок в области антифрод-защиты.

Помимо этого, проблема антифрода стала проникать и в другие экономические отрасли, так или иначе связанные с банковскими сферами или электронной коммерцией. Для их внутренней работы стали применяться дорогостоящие универсальные разработки, которые не учитывали специфику предметной области отрасли и показывали низкую эффективность, зачастую становясь просто бесполезными. И если крупные компании могли позволить использовать такие системы, то для обычного бизнеса они стали непозволительной роскошью.

Однако рыночная необходимость диктует свои условия, стали появляться как промышленные, так и самописные локальные и проблемно-ориентированные системы, которые не

уступают своим корпоративным аналогам. Ан-тифрод-системы призваны защищать всех участников: пользователей - от кражи данных и денег, компании - от экономических убытков и репутационных рисков, мошенников - от преступлений.

Что касается логистической сферы, то в этой цепочке участвуют покупатель с продавцом, банки, таможня и сам сервис, осуществляющий перевозку [2]. Здесь фигурируют как банковские, так и личные данные клиентов, поэтому каждый этап должен быть под строгим контролем. Учитывая специфику отрасли, необходима комплексная методика управления и эффективный инструмент для защиты от возможных неправомерных действий.

Структура системы

Базовой концепцией для всех антифрод-систем стало следующее [3]:

1. Отслеживание действий клиента.

2. Автоматизированная проверка каждой транзакции (как простые эвристики, так и сложные условия, а также использование методов машинного обучения).

3. Оценка мошеннического риска.

4. Интерфейс для управления пользователями.

5. Хранение истории клиента.

При появлении подозрительного действия система осуществляет проверку, и если она обнаружила данный факт, то сигнализирует фрод-оператору, который предпринимает дальнейшие действия, основываясь на оценке самого действия, а также общей истории клиента.

Для логистической отрасли характерен большой поток действий клиента, вследствие чего проверка может занимать очень много времени, что скажется на общей производительности антифрод-системы. Поэтому предполагается использование трехуровневой модели проверок, которая включает [4]:

1. Глобальные фильтры - составленный экспертами список значений параметров, при точном соответствии которого действие клиента автоматически отклоняется системой.

2. Простые эвристики - набор продукционных правил, условий, при срабатывании которых транзакция помечается как небезопасная.

3. Ядро классификатора - непосредственно алгоритм, относящий активность пользователя к классу безопасности.

Наглядно изобразим логическую модель системы:

транзакция

_А_

глобальные фильтры

простые эвристики

классификация резул ьтат Рис. 1. Схема антифрод-проверок

Основная работа приходится на последний уровень проверок. Именно поэтому важно правильно подобрать инструмент, алгоритм, с помощью которого будет организована данная стадия.

Проблема выбора алгоритма классификации

Прогрессивным ядром классификации в настоящее время принято считать алгоритмы машинного обучения: нейронные сети, логистическую регрессию, метод опорных векторов, дерево решений, построенное методом градиентного роста и другие [1]. Такой подход позволяет, имея обучающую выборку, настроить модель и использовать ее на новых данных для последующей классификации. Действительно, на небольших объемах тестовой выборки такие модели показывают себя достаточно хорошо, точность распознавания составляет порядка 90%.

Однако проблемы появляются при дальнейшей эксплуатации. И основная из них - негибкость к изменениям. Добавление нового параметра оценки сопровождается потерей точности классификации транзакции. Это объясняется тем, что настроенные параметры моделей взаимосвязаны между собой, в то время как реальные показатели зачастую независимы. К примеру, в логистической отрасли используются критерии для адресов доставки и биллинго-вой системы для платежей по заказным услугам, которые априори никак между собой не пересекаются и требуют отдельного рассмотрения. В свою очередь алгоритмы машинного обучения рассматривают их сообща, как бы размывая, обобщая все критерии, т.е. возникает ложная корреляция. Это неизбежно приводит к потере точности распознавания. Также замечено, что при большом количестве таких критериев оценка может быть и противоположной реальному, видимой только эксперту при анализе данных. Вследствие этого подобный под-

ход попросту оказывается бесполезным, уровень автоматизации оценивания не соответствует желаемому. В основном проблема решается переобучением и изменением параметров самой модели, на что требуется и время, и дополнительное тестирование. Тем не менее в ряде случае такой подход будет оправдан.

Альтернативным решением проблемы может служить использование вероятностного классификатора. Байесовский подход к классификации предполагает выбор максимальной апостериорной вероятности, которая вычисляется с помощью функции правдоподобия. Одним из алгоритмов является наивный (строгий) байесовский классификатор. Несмотря на свою примитивность, в задачах классификации именно независимых признаков он показывает правдоподобные результаты и считается эталоном для аналогичных алгоритмов. Также преимуществом данного классификатора являются низкие вычислительные затраты и малое количество данных для обучения, оценки параметров и классификации.

симума [6] - то есть максимально вероятного класса:

РШР(с)

-тар

= arg max

сес P(t)

(2)

Поэтому задача сводится к вычислению вероятности всех классов и выбору максимального из них. Так как вероятность транзакции является константой и не влияет на общее ранжирование классов, то знаменатель формулы можно опустить:

-тар

= argmax[P(t|c)P(c)].

сес

(3)

Каждая транзакция представляет собой набор определяемых признаков, и они независимы между собой, поэтому условную вероятность транзакции можно представить в виде произведения условных вероятностей каждого из этих признаков [7]:

п

Р(£|с) « Р(^1\с)Р(^2\с) ...Р(ып\с) = (4)

Использование наивного байесовского классификатора

В основе наивного байесовского классификатора лежит применение одноименной теоремы Байеса с условием независимости событий, по формуле которого необходимо определить вероятность фрода [5]:

РШ =

РЩР(с) P(t) '

(1)

где Р(с\0 - вероятность, что транзакция £ принадлежит к классу безопасности с (является фродом); Р(ь\с) - вероятность встретить транзакцию £ среди класса с; Р(с) - безусловная вероятность транзакции класса с; Р(0 - безусловная вероятность транзакции £ среди других.

Особенностью данной теоремы является взаимозаменяемость причины и следствия: то есть зная вероятность, по которой конкретная причина приводит к определенному действию, можно вычислить вероятность этого действия при появлении данной причины.

Целью классификации является не определение вероятности, а принадлежность к определенному классу, поэтому для его определения используется оценка апостериорного мак-

Тогда базовую формулу можно представить как:

?таР = arg max сес

п

P(c)J Jp(w;|c)

1=1

(5)

Так как в процессе работы при большом количестве признаков осуществляется умножение очень маленьких чисел, с целью избегания алгебраического переполнения снизу можно воспользоваться свойством логарифма произведения: log ab = log а + log b [8]. Свойство монотонности логарифмической функции не изменит параметры, при которых достигается ее максимум, кроме того значение логарифма для чисел близких к нулю существенно превосходят исходное, что делает их более удобными для дальнейшего анализа. При этом основание логарифма может быть любым. Таким образом, формула приобретает следующий вид:

Стар = argmaX

logP(c)+^logP(wi|c)

(6)

Для того, чтобы определить вероятность класса безопасности, воспользуемся формулой:

Т

P(c)=f,

где Т - общее количество транзакций в выборке; Тс - количество транзакций определенного класса.

Для определения условной вероятности каждого из признаков воспользуемся мультиномиальным распределением [8]:

РЫс) =

Wir

Y.i'svWi'c'

(8)

где WiC - количество раз, в которых признак i встречается в транзакциях текущего класса; V -набор из всех возможных признаков оценки транзакции.

Таким образом, получается отношение количества наблюдаемого признака в транзакции определенного класса.

Использование сглаживания Лапласа

Одной из проблем, связанной с признаками, является добавление нового для анализа. В этом случае значения и Р(ш;|с) будут равны 0, и, следовательно, будет иметь место нулевая вероятность, что делает невозможным классификацию.

Для обхода этого ограничения можно применить сглаживание Лапласа, общий смысл которого заключается в прибавлении каждому признаку некоторого коэффициента размытия г, в рамках нашей задачи примем его за минимальное количество проявления из всех признаков [9]:

РЫс) =

Wic + z

Wic + z

Wic + min Wc

Zi'ev(Wilc+z) IVlz + Yli'evWi/c |V| min Wc + Wv

(9)

В итоге данный подход позволяет установить маленькую, но не нулевую вероятность для нового признака, а для существующих признаков вероятность смещается в сторону менее вероятных исходов.

Наглядно продемонстрируем работу данного подхода. Возьмем несколько признаков и частоту их встречи в мошеннических транзакциях:

Таблица 1

П ример частоты признаков транзакции

Номер Признак Кол-во транзакций

1 Процент неуспешных платежей более 5 3428

2 Более 2-х стран доставки 2731

3 Не привязаны социальные сети 4965

Введем новый признак - 4 - авторизация из 4 и более устройств. Коэффициент размытия в данном случае будет равен 2731. Рассчитываем вероятность для каждого из признаков; при-

мер для 1 (* - с применением размытия Лапласа):

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(Wik) = (Wik)* =

3428

3428 + 2731 +4965 3428 + 2731

4 х 2731 + 3428 + 2731 + 4965 Получаем сводную статистику:

= 0,3; (10)

= 0,28. (11)

Несмещенная оценка ■ Смещенная по Лапласу оценка Рис. 2. График сравнения оценок

На графике видно, что вероятность для нового признака (4) гарантированно ненулевая.

Исходя из этого, формула расчета приобретает вид:

?map = arg max

CEC

IL

Tc V

log-+2, log

1=1

Wic + min Wc

|У| minWc + Y.i'svWi'

(12)

Собирая все вместе, определим модель классификатора. Для него необходима ретроспективная выборка по всем классифицирован-

ным транзакциям, на основе которой вычисляются следующие параметры:

1. Частоты безопасных и мошеннические транзакций.

2. Количество признаков для классификации транзакции.

3. Частоты признаков для каждого из классифицируемых классов.

4. Минимальное количество из встречающихся признаков.

5. Общее количество признаков.

Далее для каждого класса вычисляется вероятность:

тс V log^r+/ log

1 ¿—4SI

Wic + min Wc \V\minWc + Lc'

(13)

где Tc - количество транзакций, принадлежащих к классу с; Т - общее количество транзакций; WiC - сколько раз признак i встречался в классе с; min Wc - минимальное количество из встречающихся признаков; V - количество всех признаков; Lc - суммарное количество признаков в транзакциях класса с; I - множество признаков текущей транзакции.

И в качестве результата выбирается класс с наибольшей вероятностью. К этому классу будет определена транзакция и записана в базе данных, в последующем будет служить в качестве данных для анализа.

Использование доверительных уровней

В зависимости от того, к какому классу транзакция будет отнесена с точки зрения ан-тифрод-системы, она будет соответствующе обработана. Если подозрения не выявились, то клиент продолжает работать с сервисом без ограничений. В противном же случае происходит регистрация события подозрения на фрод, пользователь попадает в очередь проверки экспертом (администратором системы).

Для того, чтобы добропорядочный клиент при случайном подозрении не попадал сразу в блокировку, имеет смысл воспользоваться системой доверительных уровней (или уровней безопасности). Основа метода состоит в изменении оценки пользователя F в зависимости от совершаемых действий, которые также имеют оценочную величину к (причем как положительную, так и отрицательную):

Fn = Pn-i + к-п..

(14)

При этом оценка не может превышать определенные границы I:

^mm — Рп. —

(15)

и в случае превышения принимает их значения: I ■ F < I ■

Lmiw ln ^ Lmin

=i;

п И F > I .

У^тах' ln ^ Lmax

(16)

За основу оценки можно взять усредненное значение границ:

F0 = k0 =

1min + lтах

(17)

В свою очередь диапазон значений разбивается на более мелкие уровни п:

Iтт < ¿1 < ¿2 < < ^п < ^тах> (18)

и после оценки активности пользователя ему в соответствие ставится определенный уровень:

F = I

1 п Ln,

(19)

от которого будет зависеть взаимодействие клиента с сервисом.

Такая простая система позволяет оперативно вычислять наглядную оценку пользователя для администратора, которая поможет ему в принятии дальнейшего решения по этому клиенту.

Для логистической отрасли не требуется большое количество уровней, поэтому достаточно стандартных: низкий, средний и высокий риск фрода в диапазоне от 0 до 100:

1тш = 0; 1тах = 100; = 30; 12 = 70, (20)

где высокий уровень располагается в диапазоне [0;30], средний - (30;70], низкий - (70;100].

Для каждого уровня характерна цветовая гамма для визуального восприятия информации: высокий - красный, средний - нейтральный серый или белый, низкий - зеленый. Администратор видит как текущую оценку пользователя, так и последнюю историю изменения оценок (достаточно 5). В том случае, если система ошибочно определила пользователя к фроду, после анализа данных администратор может отменить оценку, транзакция автоматически отметится как безопасная, а уровень клиента не изменится.

Таким образом, использование уровней безопасности является еще одним слоем оценки пользователя. Он призван более мягко отделять

честных клиентов и мошенников. К примеру, при единожды подозрительной транзакции клиент не сразу переходит на уровень доверия ниже, однако с последующими подобными транзакциями уровень начнет стремительно падать. При этом репутация клиента может и улучшаться за определенные действия в системе, определенные администраторами. Такая гибкая система позволяет оперативно по последним действиям оценить клиента и призвана помочь в разрешении спорных ситуаций.

Параметры и признаки транзакций

В качестве тестовой выборки будем использовать реальные данные по транзакциям, каждая из которых включает в себя следующие параметры [1]:

1. Количество адресов доставки у клиента.

2. Количество адресов доставки в страны с высоким риском фрода (заранее составленный экспертом список).

3. Количество адресов доставки, не соответствующих стране регистрации (определяется при заведении аккаунта).

4. Количество стран доставки.

5. Страна регистрации (определяется по 1Р при заведении аккаунта).

6. Количество авторизаций не из страны регистрации.

7. Общее количество устройств авторизации (определяется по заголовкам НТТР-запроса).

8. Количество добавленных посылок.

9. Количество успешно отправленных посылок.

10. Количество адресов доставки, куда уже были отправлены посылки.

11. Общее количество платежей на акка-

унт.

12. Количество подозрительных операций от платежной системы.

13. Количество стран совершения платежа, отличных от страны регистрации.

14. Количество несовпадений стран банка-эмитента карты от фактической страны совершения платежа (определяется по 1Р).

15. Внесение средств сверх лимита (определяется экспертом).

16. Общее количество заявок на вывод средств.

17. Одобренных заявок на вывод средств.

18. Общее количество подозрений на фрод от системы.

Последний пункт предполагается использовать уже после запуска антифрод-системы в эксплуатацию, поэтому на текущий момент критерий учитываться не будет.

На основании этих данных выделяются следующие признаки для анализа классификатором:

1. Есть адреса доставки в запрещенную страну.

2. Есть адреса доставки не из страны проживания.

3. Более 5 адресов доставки на аккаунт.

4. Более 2-х стран адресов доставки.

5. Более 5% авторизаций не из страны регистрации.

6. 4 и более устройств авторизации.

7. Более 5 добавленных посылок без успешно отправленных.

8. Количество адресов с успешно доставленными посылками вдвое меньше всех добавленных адресов.

9. Количество подозрительных платежных операций более 10%.

10. Более 5% неуспешных платежей.

11. Количество банковских карт, с которых были совершены платежи, больше 2-х.

12. Более 5% несовпадений страны регистрации клиента и банка-эмитента карты платежа.

13. Более 10% стран совершения платежа не соответствуют стране регистрации.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

14. Более 3 попыток пополнения аккаунта сверх установленного лимита.

15. Более 20% неодобренных заявок на вывод средств.

16. Более 1 случая фиксирования подозрения на фрод.

17. Нет привязанного аккаунт в социальной сети.

18. Нет привязанного мобильного телефона.

19. Факт предоставления личной информации (паспорт или иной документ).

20. Оставлен отзыв хотя бы на одну посылку.

21. Факт использования прокси-сервиса (на основании 1Р-адреса).

22. Язык браузера не соответствует языку сайта (на основании НТТР-заголовка).

23. Аккаунт клиента не заполнен (без указания ФИО, даты рождения).

24. Домен электронной почты клиента в «сером» списке.

Значение у признака бинарное: 1 - если у транзакции он есть, 0 - если нет.

Расчет вероятностей

Для примера возьмем данные по пяти признакам:

Таблица 2 Статистика транзакций по классам

№ при- Кол-во фрода Кол-во безопас-

знака ных транзакций

3 207 146

5 1533 572

9 4581 3995

11 784 802

17 4965 748

Таблица 3

Суммарная статистика признаков и кол-ва транзакций по классам

Параметр Фрод Не фрод

Кол-во транзакций с признаками 120436 85709

Суммарное кол-во признаков 12070 6263

Классифицируем транзакцию, у которой есть признаки № 3, 9 и 17 для классов «фрод» (/) и «не фрод» (/):

120436

120436 + 85709 85709

207 + 207 5 х 207 + 12070

4581 + 207 5 х 207 + 12070

4965 + 207 5 х 207 + 12070

-2,56;

120436 + 85709

146 + 146 5 x 146 + 6263

3995 + 146 5 x 146 + 6263

748 + 146 5 х 146 +6263 :

-2,8

(21) (22)

Так как f > f, то такая транзакция будет классифицирована как фрод.

Расчет уровней доверия

После того, как транзакция помечается небезопасной, клиент автоматически попадает на ручную проверку администратором. На данном этапе происходит оценка портрета пользователя по следующим критериям (табл. 4).

Таблица 4 Критерии и величины оценок

Критерий оценки Величина оценки

Оставлен отзыв на доставку, +5

внесение средств на баланс

Успешно отправлена посылка +10

Заполнение профиля, привязка +20

социальной сети

Неуспешный платеж -5

Авторизация с нового устрой- -10

ства или в другой стране

Транзакция отмечена как фрод -30

Для примера возьмем данные пользователя с датой совершения им действий:

1. 12.04.2019 - регистрация аккаунта в логистическом сервисе (50 по умолч.).

2. 12.04.2019 - заполнения профиля клиента (+20).

3. 17.04.2019 - внесение средств через платежную систему (+10).

4. 18.04.2019 - попытка вывода средств, транзакция помечена как фрод (-30).

5. 01.05.2019 - еще одна попытка вывода средств, транзакция также отмечена как небезопасная (-30).

Администратор, заходя на карточку клиента, видит последнюю историю изменения портрета (с визуальным восприятием уровней доверия) и текущую оценку (рис. 3). Очевидно, что аккаунт подозрительный: пресечена попытка так называемого «отмывания» средств, когда клиент вносит деньги с похищенной карты, и пытается вывести на анонимный кошелек, представляясь чужим человеком с формальным профилем в социальной сети.

Рис. 3. Антифрод-статистика для клиента

Таким образом, система корректно определила мошенническую активность, отклонив транзакцию и понизив уровень безопасности клиента.

Анализ результатов

Так как для определения класса транзакции используется простое сравнение оценок и выбор большей, то эта величина не в полной мере отражает точность классификации. Например, необходимо относить к категории небезопасных только те транзакции, у которых вероятность класса «фрод» будет более 60%. Такая вероятностная оценка должна удовлетворять следующим условиям:

1. Оценка лежит в диапазоне от 0 до 1.

2. Сумма всех оценок равна 1.

Для этого необходимо из логарифмических оценок сформировать вероятностное пространство, т.е. избавиться от логарифмов и нормировать сумму по единице [8]:

РШ =

Тс'есе^С

(23)

где дс - логарифмическая оценка класса с.

Таким образом, вероятность фрода для разобранного примера будет выглядеть так:

g — 2'56

g — 2'56 + g-2'86

0,575

(24)

или 57.5%. В нашем случае порог не был бы преодолен, и транзакция не стала бы считаться за мошенническую.

До конца неизвестно, какими проблемами обладает наивный байесовский классификатор, существуют ли более точные алгоритмы вероятностей классификации на имеющихся данных. Однако на тестовой выборке он показывает себя успешно, его можно рекомендовать к использованию в подобных задачах.

После того, как получена и обработана оценка транзакции, в случае обнаружения признаков фрода она влияет на общую оценку клиента в системе. При этом сам клиент попадает в очередь на проверку фрод-оператором. Функции оператора в данном случае всего две:

1. Подтверждение небезопасной транзакции в случае отсутствия признаков фрода.

2. Отклонение транзакции; при многократных зафиксированных случаях - блокировка пользователя.

Для детального анализа для оператора предусмотрен интерфейс истории клиента, где описана каждая транзакция, набор параметров и признаков, по которым проводилась классификация. Логирование действий предполагается использовать на основе документно-ориентированных систем управления базами данных.

Что касается уровней безопасности, то в зависимости от того, на каком сейчас находится клиент, ему разрешены те или иные действия. Например, если у пользователя средний уровень фрод-риска, то система не даст выводить средства в автоматическом режиме. В то же время низкая степень риска позволит совершать оформление посылок вне дома (например, в командировке или отдыхе за границей).

Для управления действиями в зависимости от уровня безопасности можно использовать методику ACL (Access Control List), которая представляет собой матрицу уровней (субъект) и разрешаемых действий:

Таблица 5 Матрица разрешаемых действий

Уровень Дей- Дей- Дей-

риска ствие 1 ствие 2 ствие N

Низкий + + + +

Средний + - + -

Высо- + - - -

кий

В табл. 5 «+» означает, что действие разрешено, а «-» - запрещено.

Таким образом, адаптивная настройка позволяет более гибко подходить к контролю за пользователем и в некоторых случаях сразу одобрять (или запрещать) определенное действие без анализа и классификации всей транзакции, что позволит сэкономить вычислительные ресурсы.

Перспектива развития системы заключается в поиске более точных алгоритмов распознавания фрода, а также совершенствования методики управления клиентами и их активностью.

Заключение

Разрабатываемая антифрод-система позволяет на начальном этапе пресекать мошеннические действия, блокируя дальнейшую активность, и включает себе элементы управления транзакциями и клиентами. Классификация действий возможна как с использованием вероятностного подхода, так и с помощью алгоритмов машинного обучения.

Так как большинство параметров являются практически независимыми, предпочтительным будет использование байесовского классификатора. Результаты исследований показывают преимущество данного подхода в долгосрочной перспективе, а относительная простота реализации и низкие вычислительные затраты являются существенными критериями при использовании его в качестве основного алгоритма «мозга» системы.

Учет предметной специфики с помощью экспертов в данной области позволяет выделить основные критерии проверок, однако и при добавлении новых или изменении существующих система корректно дает оценку и не требует переобучения или дополнительной подстройки. При неизбежном падении точности распознавания с количеством входных данных и исследуемых параметров такой подход позволяет стабильно держать оценку на достаточно высоком уровне, что говорит о полезности практического применения.

Для помощи в принятии решения по клиенту применена система доверительных уровней. Действия клиента влияют на шкалу оценки в обоих направлениях, для каждого из которых определен свой номинал. Использование верхних и нижних границ способствует своевременному реагированию на изменение оценки и миграции между уровнями.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для каждого уровня безопасности определяется конкретный набор разрешающих действий и ограничений. Лицо, принимающее решение, видит и текущие данные по классифицированной транзакции, и графическую историю оценок клиента, что помогает при разрешении спорных ситуаций. Также для него доступна история всех действия для более детального анализа.

Описанные методы управления клиентской активностью могут использоваться в смежных отраслях при соответствующей подстройке признаков классификации действий.

С учетом небольших трудозатрат на разработку и эффективности работы использование антифрод-системы позволяет использовать ее в качестве надежного инструмента для пресечения и своевременного реагирования на любые возникающие попытки мошенничества [2].

Литература

1. Романов Д.В., Рындин Н.А. Проектирование системы обнаружения мошеннических транзакций в сфере международной логистики // Моделирование, оптимизация и информационные технологии. Воронеж: ВИВТ, 2018. № 4 (23). С. 481-493.

2. Романов Д.В. Концепция управления антимошеннической деятельностью в международной логистике // Интеллектуальные информационные системы: тр. между-нар. науч.-практ. конф. Воронеж: ВГТУ, 2018. Ч. 1. С. 158161.

3. Кудряшова О.А., Ильина А.В. Аналитическая система антифрод как комплекс мер для оценки риска финансовых транзакций // Актуальные вопросы экономической теории: развитие и применение в практике российских преобразований: материалы VII междунар. науч.-практ. конф. Уфа: УГАТУ, 2018. С. 193-196.

4. Romanov D.V. The concept of anti-fraud management in international logistics // Антропоцентрические науки: инновационный взгляд на образование и развитие личности: материалы VII междунар. науч.-практ. конф. Воронеж: ИПЦ Научная, 2018. С. 323-324.

5. Палий И.А. Теория вероятностей: учеб. пособие. М.: ИНФРА-М, 2017. 578 с.

6. Mukherjee S., Sharma N. Intrusión Detection using Naive Bayes Classifier with Feature Reduction // Procedia Technology. Elsevier, 2012. Vol. 4 (23). PP. 119-128.

7. Gandhi R. Naive Bayes Classifier. URL: https://towardsdatascience.com/naive-bayes-classifier-81d512f50a7c

8. Баженов Д. Наивный байесовский классификатор. URL: http://bazhenov.me/blog/2012/06/11/naive-bayes.html

9. Нестеров П. Фильтрация смс спама с помощью наивного байесовского классификатора. URL: https://habr.com/ru/post/184574/

Поступила 19.12.2019; принята к публикации 14.02.2020

Информация об авторах

Романов Дмитрий Валерьевич - аспирант кафедры систем автоматизированного проектирования и информационных систем, Воронежский государственный технический университет (394026, Россия, г. Воронеж, Московский проспект, 14), e-mail: fortsq@gmail.com

Рындин Александр Алексеевич - д-р техн. наук, профессор, Воронежский государственный технический университет (394026, Россия, г. Воронеж, Московский проспект, 14), e-mail: alexandr.a.ryndin@me.com

Скворцов Юрий Сергеевич - аспирант кафедры систем автоматизированного проектирования и информационных систем, Воронежский государственный технический университет (394026, Россия, г. Воронеж, Московский проспект, 14), e-mail: zokwild@gmail. com

CONTROL METHODOLOGY OF THE ANTIFRAUD SYSTEM IN LOGISTICS BASED ON THE BAYES CLASSIFIER

D.V. Romanov, A.A. Ryndin, Yu.S. Skvortsov

Voronezh State Technical University, Voronezh, Russia

Abstract: the article is devoted to the design of effective control system for the international parcel delivery service. Because of the growth of e-operations, potentially unsafe transactions count is increasing. Companies that provide services over the Internet need a complex antifraud system to minimize economic, financial and reputation risks. The system provides control over fraudulent user actions, stores a history and keeps statistics on monitored parameters; there is also a client's assessment, which will help to conclude the legality of the operation. The analytical module of the system is a naive Bayes classifier, which makes a security assessment of this operation based on the available data of a client and their transactions. The article gives the justification given for using this approach as well as comparative characteristics with machine learning methods. The control module is an interface for the service operator, who sees the client's history and risk assessment, transaction data and based on this information he/she either allows or blocks the operation. Risk assessment is implemented using confidence level, which, depending on the actions of a client, increases or decreases, the set of actions that the client can make in the service will depend on this level. Antifraud system is developed for the needs of a logistics company, but can be used for any services with client interaction and electronic operations if we reconfigure parameters

Key words: control system, antifraud, naive Bayes classifier, decision support system, confidence levels, international logistics

References

1. Romanov D.V., Ryndin N.A. "Fraudulent transactions detection system design in international logistics", Modeling, optimization and information technology (Modelirovanie, optimizatsiya i informatsionnye tekhnologii), Voronezh, VHT, 2018, no. 4 (23), pp. 481-493

2. Romanov D.V. "The concept of anti-fraud management in international logistics", Intelligent Information Systems: Proc. of the Intern. Scientific-Practical Conf. (Intellektualne informatsionne sistemy: tr. mezhdunar. nauch.-prakt. konf.), Voronezh, VSTU, 2018, part 1, pp. 158-161

3. Kudryashova O.A., Ilyina A.V. "Antifraud analytical system as a set of measures for assessing the risk of financial transactions", Actual Problems ofEconomic Theory: the Development and Application of Russian Transformations in Practice: proceedings of the VII International Conference (Aktyalne voprosy economicheskoy teorii: razvitie i primenenie v praktike rossiyskih preobra-zovaniy: mat. VIImezhdunar. nauch.-prakt. konf.), Ufa, UGATU, 2018, pp. 193-196

4. Romanov D.V. "The concept of anti-fraud management in international logistics", Anthropocentric Sciences: an Innovative View of Education and Personal Development: proc. of the VII international. scientific-practical conf. (Antropotsentricheskie nauki: innovatsionnyy vzglyad na obrazovanie i razvitie lichnosti: mat. VII mezhdunar. nauch.-prakt. konf.), Voronezh, Nauchnaya kniga, 2018, pp. 323-324

5. Paliy I.A. "Probability theory" ("Teoriya veroyatnostey: ucheb.posobie"), Moscow, INFRA-M, 2017, 578 p.

6. Mukherjee S., Sharma N. "Intrusion detection using naive Bayes classifier with feature reduction", Procedia Technology, Elsevier, 2012, vol. 4 (23), pp. 119-128

7. Gandhi R. "Naive Bayes classifier", available at: https://towardsdatascience.com/naive-bayes-classifier-81d512f50a7c

8. Bazhenov D. "Naive Bayes classifier" ("Naivnyy bayesovskiy klassifikator"), available at: http://bazhenov.me/blog/2012/06/11/naive-bayes.html

9. Nesterov P. "Filtering SMS spam using a naive Bayes classifier" ("Fil'tratsiya sms spama s pomoshch'yu naivnogo bayye-sovskogo klassifikatora"), available at: https://habr.com/ru/post/184574/

Submitted 19.12.2019; revised 14.02.2020

Information about the authors

Dmitriy V. Romanov, Graduate student, Voronezh State Technical University (14 Moskovskiy prospekt, Voronezh 394026, Russia), e-mail: fortsq@gmail.com

Aleksandr A. Ryndin, Dr. Sc. (Technical), Professor, Voronezh State Technical University (14 Moskovskiy prospekt, Voronezh 394026, Russia), e-mail: alexandr.a.ryndin@me.com

Yuriy S. Skvortsov, Graduate student, Voronezh State Technical University (14 Moskovskiy prospekt, Voronezh 394026, Russia), e-mail: zokwild@gmail.com

i Надоели баннеры? Вы всегда можете отключить рекламу.