Научная статья на тему 'Оптимизация алгоритмов поиска устойчивых групп абонентов систем мобильной радиосвязи'

Оптимизация алгоритмов поиска устойчивых групп абонентов систем мобильной радиосвязи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
114
36
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Аджемов С. С., Терешонок М. В., Чиров Д. С.

Целью поиска ассоциативных правил является нахождение закономерностей между связанными событиями в базах данных. представлены результаты исследований по снижению вычислительных и временных затрат на поиск устойчивых групп абонентов, в процессе которой указанная база данных преобразуется в компактную древовидную структуру. полученная древовидная структура позволяет выполнить декомпозицию одной сложной задачи на множество более простых и избежать затратной процедуры генерации групп кандидатов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Оптимизация алгоритмов поиска устойчивых групп абонентов систем мобильной радиосвязи»

Оптимизация алгоритмов поиска устойчивых групп абонентов систем мобильной радиосвязи

Аджемов С.С.,

начальник НИО МТУСИ, [email protected] Терешонок М.В., аспирант МТУСИ, [email protected] Чиров Д.С.,

ведущий научный сотрудник МТУСИ, [email protected]

ЦЕЛЬЮ ПОИСКА АССОЦИАТИВНЫХ ПРАВИЛ ЯВЛЯЕТСЯ НАХОЖДЕНИЕ ЗАКОНОМЕРНОСТЕЙ МЕЖДУ СВЯЗАННЫМИ СОБЫТИЯМИ В БАЗАХ ДАННЫХ. ПРЕДСТАВЛЕНЫ РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ ПО СНИЖЕНИЮ ВЫЧИСЛИТЕЛЬНЫХ И ВРЕМЕННЫХ ЗАТРАТ НА ПОИСК УСТОЙЧИВЫХ ГРУПП АБОНЕНТОВ, В ПРОЦЕССЕ КОТОРОЙ УКАЗАННАЯ БАЗА ДАННЫХ ПРЕОБРАЗУЕТСЯ В КОМПАКТНУЮ ДРЕВОВИДНУЮ СТРУКТУРУ. ПОЛУЧЕННАЯ ДРЕВОВИДНАЯ СТРУКТУРА ПОЗВОЛЯЕТ ВЫПОЛНИТЬ ДЕКОМПОЗИЦИЮ ОДНОЙ СЛОЖНОЙ ЗАДАЧИ НА МНОЖЕСТВО БОЛЕЕ ПРОСТЫХ И ИЗБЕЖАТЬ ЗАТРАТНОЙ ПРОЦЕДУРЫ ГЕНЕРАЦИИ ГРУПП-КАНДИДАТОВ.

В работе [1] рассматривалась частная задача анализа загрузки сетей сотовой связи, состоящая в определении устойчивых групп абонентов, совершающих совместные перемещения по городу. В работе [1] было предложено решение данной задачи на основе метода поиска ассоциативных правил.

Суть данного подхода заключается в следующем. Для установления аналогии с поиском ассоциативных правил составляется таблица транзакций, для чего используется информация о регистрации абонентов в

различных (географически разнесенных) базовых станциях сети. В качестве анализируемых событий используются события регистрации абонентов сети с уникальными номерами. Соответственно, транзакция в данном случае представляет собой набор событий регистрации абонентов с разными номерами, произошедших одновременно (в пределах заданного временного интервала), и может быть записана в виде (Абонент-Ы, Абонент-К,... Абонент-М). Выбор указанного временного интервала определяется особенностями анализируемой системы связи.

В результате анализа различных алгоритмов поиска ассоциативных правил было установлено, что использование алгоритма арпоп [2] позволяет определять состав и устойчивость групп абонентов. Тем не менее, алгоритм арпоп обладает существенным недостатком, связанным с особенностями генерации кандидатов на роль устойчивых групп абонентов.

При поиске ассоциативных правил при помощи алгоритма арпоп количество пра-вил-кандидатов может быть очень большим [2, 3]. Одним из методов сокращения количества кандидатов является построение дерева транзакций (РР^ее) [4]. Этот метод позволяет находить наборы часто повторяющихся данных, однако он имеет ряд недостатков, таких как игнорирование значения достоверности набора, отсутствие интуитивно понятной логической связи между элементами в наборах. Это приводит к тому, что большое количество правил, генерирующихся на основе данных наборов данных, отбрасывается на стадии проверки. Данный недостаток может быть устранен в результа-

те применения алгоритмов на базе концепции сильных наборов данных, которая позволяет решить проблему генерации большого количества неэффективных правил.

Рассмотрим понятие "сильные наборы данных". Пусть X — непустое подмножество элементов общего множества элементов A:

X *0, X с A.

Обозначим L, как непустой набор данных, формирующий левую часть ассоциативного правила, и R, как непустой набор данных, формирующий правую часть правила:

L ^ R, L *0, R *0, L n R = 0.

Пусть L = Xи R = Y, о >0, Т<100, где о,т — соответственно заданные минимальные пороговые значения поддержки и достоверности [2, 3]. Тогда ассоциативное правило X ^ Y называется допустимым для заданных значений о и Т, если выполняются следующие условия:

Support(X) > у,

Support(X uY) > у,

Support(X uY)

Support (X)

> ф

Здесь под поддержкой набора данных понимается следующая величина:

Support(X) = ^(Х), п

где Ы(Х) — количество транзакций, в которых встречается данный набор X, п — число элементарных событий.

Достоверностью набора X называется величина:

Confidence (X ) =

N (X) N (x У

где Ы(х(.) — количество транзакций, в которых встречается хотя бы одно событие из набора X; Ы(х) — количество транзакций, в которых одновременно встречаются все события из набора X.

Если любые наборы данных X и У множества А = (X и У = А, X п У = 0, |А| > 2) образуют допустимые ассоциативные правила X ^ У для заданных значений О и Т, то множество А называется "сильным набором данных".

Приведем простой пример. Пусть А = {а,Ь,с} — множество, состоящее из трех элементов. Множество всех возможных вариантов разделения А на подмножества, которые представляют собой шаблоны ассоциативных правил, состоит из 12 элементов (см. таблицу).

Если все правила, которые образуют данные наборы, являются допустимыми, то множество А является сильным.

Необходимое и достаточное условие, при котором множество является сильным, имеет следующую формулировку. Пусть имеется множество А = {с^ о2,..., сп}, п>2. Элементы С1, с2,.., сп имеют поддержку $1, ®2,..., V а множество А — поддержку в0. Обозначим О и Т минимальную поддержку и минимальную достоверность соответственно. Отсюда А является сильным множеством, если выполняются условия:

тп > о, (1)

mn

----> ф

mx

(2)

где mn = min {s0, s,,..., sn}, mx = max {s0,

S],..., sn}.

Метод поиска ассоциативньх правил на основе сильньх наборов правил [4] состоит из двух этапов, предполагающих нахождение:

• непересекающихся сильных наборов данных;

• ассоциативных данных.

Поиск непересекающихся сильных наборов даннык

Основная идея данного этапа заключается в нахождении часто встречающихся наборов данных, для которых осуществляется проверка выполнения условий (1) и (2). Если сильный (удовлетворяющий условиям (1) и (2)) набор данных найден, он удаляется из оригинальной базы данных транзакций, после чего процесс поиска повторяется для новой базы.

Пусть D — база данных, которая состоит из N транзакций, а A = {а,, 02,..., ап} — множество элементов, которые часто встречаются в D. Т. е., для A выполняются условия:

Support (a )> у,

Confidence (at )> ф

где at е A, i = 0...|A\.

Очевидно, что сильные наборы данных могут состоять только из элементов множества A

at е Sj, at i sk, j Ф k, at е A.

Результатом работы данной процедуры является множество сильных наборов данных S, которые не пересекаются между собой, т. е.:

V(st n Sj )=0, i Ф j,Si,Sj е S,

Support (st)>у,Confidence (st )> ф

а также множество элементов A', которые не вошли в сильные наборы данных:

A' = {at i (VSj е S)}.

Поиск ассоциативный правил

Входными данными процедуры являются множество непересекающихся сильных наборов данных S = {S,, S2,..., Sn} и множест-

Наборы данных и соответствующие правила для множества A = {a,b,cJ

Наборы данных a,b Правило a => b Наборы данных a, be Правило a => be

b,a b=>a be, a bc=>a

а,с a=>c ab, с ab=>c

с, a c^> a с, ab ab

b,c b=> с ac,b ac=>b

c,b с b b,ac b=> ac

во часто встречающихся элементов А = {о1( а2'--' °т}' которые не входят ни в один сильный набор, т.е. V/,у ^ аі £ SJ.

Результатом работы алгоритма является множество сильных наборов данных, которые могут содержать совместные элементы, и ассоциативные правила, образованные на основе данных наборов.

В данном методе кандидаты длиной к генерируются в результате объединения сильных наборов данных и часто встречающихся элементов:

{u, v}|(1 < i, j < k, u є S, л v є Sj л i Ф j )v v(1 < i < m,l < j < k, u є a л v є S)v v (l < i, j < m, u є ü, л v є aj л i Ф j )

где m — количество часто повторяющихся элементов.

Среди всех кандидатов с помощью (1) и (2) находят множество сильных наборов Lу, которое объединяют с множеством S:

S = S и Ьк,

а элементы, которые входят в Ly, исключают из множества A

A = A\{Lk}.

Этот процесс повторяют для кандидатов большей длины до тех пор, пока Lk = 0. Заключительным этапом процедуры является подсчет улучшения для полученных ассоциативных правил.

За счет описанной процедуры генерации кандидатов данный алгоритм, по сравнению с алгоритмом Apriori позволяет значительно сократить ресурсоёмкость процесса поиска устойчивых групп абонентов систем мобильной радиосвязи. Данное обстоятельство обуславливает рациональность использования данного алгоритма при большой частоте регистраций абонентов в сотах.

Литература

1. Терешонок М.В. Поиск ассоциативных правил при анализе загрузки сетей сотовой связи. — М.: Электросвязь. — 2008. — № 6.

2. Agawal R., Imielinski T., Swami. A Mining Associations between Sets of Items in Massive Databases, Proc. ACM SIGMOD 1993. — рр. 207-216.

3. Agrawal R., Srikant R. Fast Algorithms for Mining Association Rules. Proc. of the 20th Int'l Conference on Very Large Databases, Santiago, Chile, Sept. 1994.

4. Han, J., Pa J., Yin Y. Mining Frequent Patterns without Candidate Generation, Proc. ACM SIGMOD 2000.

i Надоели баннеры? Вы всегда можете отключить рекламу.