УДК 004.021
ПРИМЕНЕНИЕ НЕЙРОННЫХ СЕТЕЙ ДЛЯ БОРЬБЫ С ТЕЛЕКОММУНИКАЦИОННЫМ МОШЕННИЧЕСТВОМ
© С.Н. Болдырев
Ключевые слова: телекоммуникационное мошенничество; нейронные сети.
Статья описывает целесообразность применения искусственных нейронных сетей для борьбы с телекоммуникационным мошенничеством. Описывается применения различных алгоритмов и приводится их сравнительный анализ.
ОПИСАНИЕ ПРОБЛЕМЫ
Телекоммуникационное мошенничество имеет место, если злоумышленник использует услуги телефонии бесплатно или по сниженной цене [1]. Это проблема мирового масштаба с солидными ежегодными убытками для многих компаний. В целом, убытки от телекоммуникационного мошенничества оцениваются примерно в 55 млрд долл. США [2]. По оценочным данным, в Соединенных Штатах Америки телекоммуникационное мошенничество отбирает у операторов связи примерно 2 % их дохода. В любом случае, как было замечено в [3], сложно провести точную оценку, т. к. некоторые злоумышленники могут никогда не быть вычисленными, поэтому операторы вынуждены признать убытки от мошенничества. Таким образом, телекоммуникационное мошенничество является значимой проблемой, которая должна быть решена любыми доступными средствами. К наиболее распространенным методам мошенничества в области телекоммуникаций относятся подделка подписи, хищение информации документов, удостоверяющих личность, прослушивание телефонных разговоров, осуществляемых через интернет (VoIP), «телефонное клонирование», махинации с взносами и выплатами при работе с телекоммуникационными счетами, мошенничество с предоплатой и постоплатой, а также мошенничество с телефонными системами для частного пользования.
В результате широкого распространения использования средств мобильной коммуникации собираются и хранятся огромные объемы данных. Адекватные информация и знания, полученные из этих баз данных, могут стать сильным оружием в борьбе за безопасность покупателей и сохранение клиентуры, в торговле и пресечении мошенничества. Таким образом, борьба с телекоммуникационным мошенничеством стала высокоприоритетной задачей для большинства телекоммуникационных операторов. Мошенничество является серьезным источником убытков для телекоммуникационной индустрии; более того, оно снижает доверие покупателя к безопасности услуг связи, предоставляемых операторами.
Действенные меры по обнаружению мошенничества и аналитические методы могут сохранить телекоммуникационным операторам много денег, а также помочь вернуть доверие пользователей к их безопасности и конфиденциальности. Системы автоматического обнаружения мошенничества позволят операторам отвечать на нарушения обнаружением, отказом в пользовании услугами и последующим судебным процессом в отношении злоумышленника. Большое количество сетевых соединений делает обнаружение и анализ нарушений довольно сложной задачей.
В общем, чем сложнее служба, тем она более уязвима к мошенничеству. В будущем операторам придется быстро адаптироваться, чтобы удерживать позиции перед вызовами, бросаемыми злоумышленниками. В дополнение, число людей, занятых в сфере услуг, вероятно, будет расти, позволяя методам мошенничества распространяться среди абонентов, желающих обмануть оператора. Обыкновенные подходы к обнаружению и анализу нарушений, такие как система на основе продукционных правил, основанная на пределах для специфических параметров, могут быть достаточными с некоторыми современными типами мошенничества, однако они плохо подходят для борьбы с мириадами новых возможностей. Злоумышленники могут довольно легко менять свои тактики, чтобы избежать обнаружения; например, системы, основанные на ограничении, могут быть обмануты, если злоумышленник будет следить за тем, чтобы время соединения всегда было меньше порога, необходимого для обнаружения.
Поэтому есть нужда в рассмотрении динамических и адаптивных методов обнаружения и анализа нарушений; методы с использованием искусственного интеллекта обещают эффективно решать некоторые из этих проблем.
ПОСТАНОВКА ЗАДАЧИ
За последнее время карточка модуля идентификации абонента (SIM) для сотовых телефонов породила широкий характер использования. Характер использования, помимо обычных, может включать также меж-
дународные звонки и паттерны звонков, зависящие от времени. Неправильное использование может быть обнаружено в рамках общего обзора, например, злоупотребление службами бесплатного вызова экстренными службами.
Некорректное использование можно разделить на две группы.
1. По существу, жульническое; в таких случаях услугами практически никогда не пользуются нормально. Этот тип относительно легко выявить.
2. Использование жульническое лишь в рамках какого-то периода времени для данного телефона.
Для того чтобы выявить нарушения второго типа, необходимо иметь историю использования SIM. Поэтому описательный анализ истории вызовов для каждого абонента может быть использован для получения нужных знаний. Интерпретация посредством кластеризации или группировки подобных паттернов может помочь в выделении подозрительных звонков в рамках мобильной телекоммуникационной сети. Это также может помочь анализу нарушений и анализу паттернов звонков абонентов. Пока данные о звонках абонентов записываются в целях подсчета оплаты, вам будет интересно узнать, что не делается никаких предварительных предположений о данных, указывающих на паттерны звонков злоумышленников. Другими словами, звонки, совершенные в целях биллинга, остаются неотмеченными. Таким образом, требуется, чтобы дальнейший анализ смог выявить потенциально мошенническое использование. Из-за огромного количества звонков практически невозможно провести анализ без изощренных методов и оборудования. Поэтому существует необходимость в разумной помощи методов и оборудования человеку в анализе больших объемов звонков. Один из таких методов - обучение без учителя. Поэтому мы исследуем эту открытую проблему возможности обучения без учителя двух нейронных сетей для получения общей картины звонков, сделанных за некоторый период времени в мобильной телекоммуникационной сети. В нашем исследовании проводится сравнительный анализ и обозреваются возможности применения самоорганизующихся карт (SOM - нейронные сети с прямой связью) и алгоритмов длин с краткосрочной памятью (LSTM) циклической нейронной сети записи историй звонков пользователей для того, чтобы управлять получением описательных данных для паттернов звонков пользователей.
Показатели мошенничества. После выявления возможных сценариев мошенничества необходимо идентифицировать ряд возможных показателей, которые могут быть взяты из данных, имеющихся в сети, для обнаружения мошенничества (примером такого показателя может быть чрезмерное количество международных звонков). Информация о деятельности в сети кодируется в учете стоимости междугородних разговоров на все звонки по сети. Учет стоимости междугородных разговоров - это счет, выданный сетью после каждого вызова, который содержит всю необходимую информацию о вызове. Информация, которую мы используем, это:
- Международный сотовый идентификатор абонента (IMSI, который идентифицирует пользователя однозначно);
- начальная дата вызова;
- отправной момент разговора;
- продолжительность разговора;
- номер, который был вызван;
- тип вызова (национальный или международный).
Различные алгоритмы. Обнаружение входных закономерностей без учителя является значимым применением нейронных сетей с прямой связью (FNN). Типичные реальные входы, тем не менее, не статичны, а являются функциями времени с встроенными закономерностями и избыточной информацией. По этой причине FNN должно игнорировать большой потенциал для более компактного шифрования данных. Поскольку было проделано много работы в области обучения без учителя структур нейронных сетей с прямой связью, остаются теоретически потенциально малоисследованные более мощные сети с обратной связью и входными данными, зависящими от времени.
Самообучающаяся LSTM RNN может проводить более хорошую дифференциацию, чем SOM (структура FFN), для долгосрочных рядов моделирования данных о звонках пользователей. LSTM различает разные виды временных рядов и группирует их в соответствии с многообразием признаков. Упорядоченные признаки могут позднее быть интерпретированы и маркированы в соответствии со специфичными требованиями операторов мобильных услуг. Таким образом, в рамках мобильной телекоммуникационной сети могут быть выделены подозрительные звонки для обнаружения паттернов мошеннических звонков.
Модель, основанная на самоорганизующейся карте. Самоорганизующаяся карта (SOM), разработанная Кохоненом, представляет собой модель нейронной сети для анализа и визуализации многомерных данных. Она является методом проецирования многомерного пространства в пространство с более низкой размерностью, чаще всего, двумерное. SOM тем самым сжимает информацию при одновременном сохранении наиболее важных топологических и / или метрических взаимодействий основных элементов данных на двумерной плоскости. SOMbi уже успешно применялись в разработке адаптивных устройств для различных телекоммуникационных приложений [4].
Базовая модель SOM представляет собой набор типовых векторов с определенной взаимосвязью. Эта взаимосвязь определяется структурированной решеткой, которая может быть линейной, прямоугольной или гексагональной картой расположения элементов. SOM формируется с помощью маленького, конкурентоспособного учебного процесса. Этот процесс начинается, когда среди элементов найдется «победитель», который минимизирует расстояние евклидовой меры между данными «х» и карты элементов m.. Этот элемент характеризуется как наилучшим образом подходящий узел, обозначающийся строчной «с»:
x-mc I = min{ х-m-i 11} i
или
с = arg min {x-m^|}. i
Затем карта элементов обновляется в топологической окрестности элемента-победителя, который определяется в виде решетчатой структуры. Обновление шага может быть выполнено путем применения формулы:
т.(+1) = т. (?)+кс. {Цх^Ут^ (4
где I представляет собой целую, с дискретным време-
нем, координату,
Кі (О
является т. н. районом ядра,
это функция, определяемая вне целых точек. Средняя ширина и форма () определяется «жесткостью» в
«гибкой поверхности», которая будет устанавливаться в данных моментах. Кроме того, последнее значение в квадратных скобках пропорционально градиенту квадрата евклидового расстояния й(х, т1 ) = ||х — т;||2.
Курс обучения а()е [0,1] должен быть убывающей функцией зависимости от времени и функцией взаимосвязи Н X, /), являющейся невозрастающей вокруг элемента-победителя, определенного в топологической решетке на карте элементов. Хорошим кандидатом является «гауссиан» вокруг элемента-победителя, определяемого в зависимости от координаты К в решетке нейронов
Нс (,І ) =
ехр
ГІ -гс
2 ^ / 2<г()2
Некоторые другие функции взаимосвязи рассматриваются в [5]. В ходе тестирования темп обучения и ширина окрестности функции уменьшается, как правило, линейным образом. Карта затем, как правило, сходится к стационарному распределению, которое аппроксимирует вероятность плотности данных.
После ввода предоставленных проверочных данных и имеющихся аналоговых векторов карта откалибрована. Калибровка карты делается для поиска изображений различных входных данных на ней. В практических применениях она сама может быть очевидной для выделения конкретного входного набора данных, который должен быть истолкован и помечен. С помощью предоставления ряда типичных, вручную проанализированных наборов данных, поиска «лучших совпадений» на карте и маркировки элементов карты, соответственно, карта становится откалиброванной. Пока карта получается непрерывной вдоль гипотетической «гибкой» поверхности, ближайшие связи векторов будут аппроксимировать неизвестные входные данные. Целый ряд способов повышения эффективности алгоритма БОМ и ряд из вариантов БОМ приведены в [5].
Самоорганизующиеся карты могут быть визуализируемы с помощью единой дистанционной матрицы, представленной в [6], где кластеризация БОМ представлена с помощью подсчета расстояний между картой «местных» элементов и представляющих их на «серых» уровнях. Другим выбором для визуализации является «картирование» Баттоп’а [7], которое пред-
ставляет собой многомерную карту элементов в пространстве с минимумом глобальных искажений в момент, когда применяется карта.
Предположим, что набор данных содержит звонки 500 неизвестных абонентов в течение 6 месяцев. Данные в первую очередь должны быть нормализованы. Затем мы должны выделить данные о мобильном происхождении звонков. В течение 6 месяцев в общей сложности 227318 звонков поступают от 500 абонентов.
Итоговые обучающие характеристики после нормализации должны содержать следующие поля:
1) абонентский номер (МШВБК),
2) входящие вызовы,
3) идентификатор телефона, используемый абонентом,
4) телефонный код местности для нахождения абонента,
5) дата и время сделанного вызова,
6) длительность вызова.
Абонентский номер не используется в обучении, но используется для выявления БОМ каждого абонента.
Мы создаем особенный вектор для каждого абонента. Они включают в себя входящие звонки, ГО, используемый абонентом, и код места расположения абонента. В целях преобразования их в числовые значения мы строим таблицу частот для каждого из символических данных абонента. Каждый символ в таблице частот для каждого абонента затем будет основан на индивидуальных частотах. Этот рейтинг будет использоваться как соответствующее числовое значение символа.
Поле для даты и времени будет также преобразовано. Оно будет преобразовано в период пика (с 7 утра до 8 вечера) и «вне пика» (с 8 вечера до 7 утра). Пиковый период будет представлен как 1, а «вне пика» представлен как 2. Таким образом, мы будем иметь пятимерный функциональный вектор.
Карты для каждого абонента создаются с помощью стандартного алгоритма БОМ. После обучения число выходов генерируется.
Мы должны проводить различие кластеров, которые указывают на нормальные и ненормальные модели поведения вызовов, на карте. Как правило, кластеры, которые стремятся в углы карты, особенно при больших расстояниях, как представляется, указывают на аномальное поведение, например, необычно долго длятся.
Хотя мы были в состоянии представлять звонок абонента мобильного телефона с помощью БОМ, необходимо отметить, что информация о временном характере операции была потеряна в этом процессе.
Кроме того, тот факт, что различные размеры карты были созданы для разных абонентов, представляет отдельную задачу, которую нужно решать, когда речь заходит о сравнении вызовов различных абонентов.
Разные карты (с теми же размерами) создаются для того же абонента с различными алгоритмами. Это объясняется стохастическим характером БОМ. Это означает, что точность карты зависит от числа итераций БОМ. Тем не менее алгоритм сохраняет топологические свойства карты. Наблюдения, близкие друг к другу в исходном пространстве (по крайней мере, локально), также близки в БОМ.
Самообучение LSTM периодических нейронных сетей. Характерный вектор создается для каждого абонента, как и в предыдущей модели. Поле для данных и времени преобразовывается в дискретное время действия, представленное этой последовательностью. Таким образом, мы имеем пятимерный характеристический вектор. Характеристические вектора для каждого абонента сохраняются в текстовый файл, где они могут быть прочитаны LSTM RNN моделью. Каждый вектор помечается для отслеживания.
LSTM RNN, подготовленное с NEO алгоритмом, состоит из одного «звонкового» блока памяти (это представляется достаточным для того, чтобы получить задание). Единственный линейный исходящий элемент соответствует лишь одному реальному значению для каждой последовательности. Мы используем LSTM сетевую модель с «забытым входом». Эта сеть обучается до тех пор, пока заметно не улучшится результат.
После обучения сеть исходящих вызовов формирует кластеры взаимосвязанных моделей вызовов. Кластеры становятся плотнее в зависимости от числа звонков для каждого абонента.
СРАВНЕНИЕ ДВУХ МОДЕЛЕЙ
В бесконтрольной модели обучение становится возможным в силу избыточности исходного потока данных. Поскольку большинство естественных явлений, которые не случайно избыточны и возникают при распределении данных, подразумевает то, что этот набор не заполнят данные пространства равномерно. Таким образом, с помощью LSTM RNN модели, представляя вызовы абонентов мобильной связи при бесконтрольном типе обучении, мы пытаемся сохранить временной характер последовательности вызовов операций, следовательно, сохраняем избыточность в данных, устанавливая это более точно, чем в SOM модели.
Также отметим, что чем больше количество учебных последовательностей на абонента, тем больше заметно различие. Кроме того, поскольку количество учебных примеров для каждого абонента различается, это представляет собой проблему, когда речь заходит о сравнении вызовов разных абонентов.
Хотя SOM показывает информацию об окрестности элементов при обучении карты, он предоставляет меньше информации о характерных особенностях модели разговора, чем LSTM.
Таким образом, SOM помогает получить представление о данных вызовов и для первоначального поиска потенциальных зависимостей, но LSTM, сохраняя при этом временной порядок последовательности, выявляет черты в смежных моделях вызовов и лучше обеспечивает кластеризацию моделей вызовов, чем SOM, и его результат виден в более доступном виде для человека.
ИТОГИ
Обнаружение и пресечение мошенничества является острой проблемой в силу широкого распространения телекоммуникационных технологий [8-13]. Были рассмотрены различные существующие работы по обнаружению мошенничества в телекоммуникационной сети. Кроме того, было указано, что к обнаружению мошенничества обычно подходят с помощью абсолютного или дифференциального анализа. Мы показали целесообразность использования нейронных сетей, обучающихся без учителя в динамической модели для немаркированных данных о звонках. Это подход, который, по нашим данным, не широко распространен для решения поднятой проблемы.
ЛИТЕРАТУРА
1. Blavette V. Application of intelligent techniques to telecommunication fraud detection // In European Institute for Research and Strategic Studies in Telecommunications, Public Project. 2000. P. 1. May 2001.
2. Media releases // In Communications of Vibrant Solutions, Available at. URL: http://www.vibrantsolutions.com. 2002. April.
3. Barson P., Field S. The detection of fraud in mobile phone networks. Neural Network World, 1996.
4. Kohonen T. The self-organizing map // E. Sanchez-Sinencio and C. Lau, editors. Proceedings of the IEEE. 1990. V. 78. № 9. Р. 1464-1480.
5. Kohonen T. Self-Organizing Maps. Berlin: Springer-Verlag, 2001.
6. Ultsch A. and Siemon H. Kohonen’s self-organizing maps for exploratory data analysis // Proceedings of International Neural Networks Conference (INNC 90), Dordrecht, Netherlands, 1990. Kluwer. Р. 305-308.
7. Sammon J. W. A nonlinear mapping for data structure analysis // IEEE Transactions on Computers. 1969. May. V. 18. № 5. Р. 401-409.
8. Kleiweg P. An extended Kohonen map // University of Groningen, 2001.
9. Burge P., Shawe-Taylor J. Detecting cellular fraud using adaptive prototypes // Proceedings of the AAAI-97 Workshop on AI Approaches to Fraud Detection and Risk Management, Providence, RI, USA, 1997.
10. Self-organization of neurons described by the second maximum entropy principle // Proceedings of the 1st IEE International Conference on Artificial Neural Networks, London, 1989.
11. Hanley J.A., McNeil B.J. A method of comparing the areas under receiver-operating characteristic curves derived from the same cases // Radiology. 1983. V. 148. Р. 839-843.
12. Moreau Y., Verrelst H., Vandewalle J. Detection of mobile phone fraud using supervised neural networks: a first prototype // International Conference on Artificial Neural Networks 97. 1997. Р. 1065-1070.
13. Abidogun O.A. Data mining, fraud detection and mobile telecommunications: call pattern analysis with unsupervised neural networks. August, 2005.
Поступила в редакцию 3 марта 2010 г.
Boldyrev S.N. Application of neural networks for fraud detection in mobile telecommunication networks.
This article describes reasonability of neural networks in fraud detection in mobile telecommunication networks. Also application of different algorithms is described and comparative analysis of these algorithms is given.
Key words: fraud detection in mobile telecommunication networks; neural networks; fraud detection.