Оптимизация алгоритмов поиска устойчивых групп абонентов систем мобильной радиосвязи

Аджемов С.С.; Терешонок М.В.; Чиров Д.С.

Оптимизация алгоритмов поиска устойчивые групп абонентов систем мобильной радиосвязи

Аджемов С.С., Терешонок М.В., Чиров Д.С., МТУСИ

В работе [1] рассматривалась частная задача анализа загрузки сетей сотовой связи, состоящая в определении устойчивых групп абонентов, совершающих совместные перемещения по городу. В работе [1] было предложено решение данной задачи на основе метода поиска ассоциативных правил.

Суть данного подхода заключается в следующем. Для установления аналогии с поиском ассоциативных правил составляется таблица транзакций, для чего используется информация о регистрации абонентов в различных (географически разнесенньх) базовых станциях сети. В качестве анализируемых событий используются события регистрации абонентов сети с уникальными номерами. Соответственно, транзакция в данном случае представляет собой набор событий регистрации абонентов с разными номерами, произошедших одновременно (в пределах заданного временного интервала), и может быть записана в виде (Абонент-Ы, Абонент-К,... Абонент-М). Выбор указанного временного интервала определяется особенностями анализируемой системы связи.

В результате анализа различных алгоритмов поиска ассоциативных правил было установлено, что использование алгоритма аргЫ [2] позволяет определять состав и устойчивость групп абонентов. Тем не менее, алгоритм аргтоИ обладает существенным недостатком, связанным с особенностями генерации кандидатов на роль устойчивых групп абонентов.

При поиске ассоциативных правил при помощи алгоритма аргь оИ количество правил-кандидатов может быть очень большим [2, 3]. Одним из методов сокращения количества кандидатов является построение дерева транзакций (РРгее) [4]. Этот метод позволяет находить наборы часто повторяющихся данных, однако он имеет ряд недостатков, таких как игнорирование значения достоверности набора, отсутствие интуитивно понятной логической связи между элементами в наборах. Это приводит к тому, что большое количество правил, генерирующихся на основе данных наборов данных, отбрасываются на стадии проверки. Данный недостаток может быть устранен в результате применения алгоритмов на базе концепции сильных наборов данных, которая позволяет решить проблему генерации большого количества неэффективных правил.

Рассмотрим понятие "сильные наборы данных". Пусть X непустое подмножество элементов общего множества элементов А

X *0, X с А,

Обозначим I. — как непустой набор данных, формирующий левую часть ассоциативного правила и К — как непустой набор данных, формирующий правую часть правила:

I ^ Я, I *0, Я *0,1 п Я = 0.

Пусть I. = X и К = У, О > 0, Т < 100 , где О, т — соответственно

заданные минимальные пороговые значения поддержки и достоверности [2, 3]. Тогда ассоциативное правило X Y называется допустимым для заданных значений О и Т, если выполняются следующие условия:

Support (X )> о,

Support (X и7)> о,

Support (X и7) >

Support (X )

Здесь под поддержкой набора данных понимается следующая величина:

Support (X ) = —(—), n

где N(X) — количество транзакций, в которых встречается данный набор X, п — число элементарных событий.

Достоверностью набора X называется величина:

, ч — (X)

Confidence (X )=-----------.

V ' —(Xj)'

где N(x) — количество транзакций, в которых встречается хотя бы одно событие из набора X,N(X) — количество транзакций, в которых одновременно встречаются все события из набора X.

Если любые наборы данных X и Y множества A

(X и Y = A, X п Y = 0, |А| > 2)

образуют допустимые ассоциативные правила X ^ Y№ заданных значений О и Т, то множество A называется "сильным набором данных".

Приведем простой пример. Пусть A = {a,b,c} — множество, состоящее из трех элементов. Множество всех возможных вариантов разделения A на подмножества, которые представляют собой шаблоны ассоциативных правил, состоит из 12 элементов (табл. 1).

Если все правила, которые образуют данные наборы, являются допустимыми, то множество A является сильным.

Необходимое и достаточное условие, при котором множество является сильным, имеет следующую формулировку. Пусть имеется множество A = {cj, 02,...,on}, n >2. Элементы Cj, С2,...,ап имеют под-

Таблица 1

Наборы данных и соответствующие правила для множества A = {a,b,c}

Наборы данных Правило Наборы данных Правило

atb а=>Ь а,Ьс а=>Ьс

b,a Ь=> а he,а Ьс=э а

а,с а =>с ab,c ah ^ с

с*а с=>а c.ab с => ah

btc Ь=>с ас.Ь ас=> b

с,Ь с^Ь Ь.ас Ь=>ас

держку з,, $2,~,вг, а множество А — поддержку ^. Обозначим О и т минимальную поддержку и минимальную достоверность соответственно. Отсюда, А является сильным множеством, если выполняются условия:

тп > О, (1)

mn

■>Т

(2)

mx

где mn = min {so, s1,...,sn}, mx = max {so, s,,...,sn}.

Метод поиска ассоциативных правил на основе сильных наборов правил [4] состоит из двух этапов:

• поиск непересекающихся сильных наборов данных;

• поиск ассоциативных данных.

Поиск непересекающихся сильных наборов данных

Основная идея данного этапа заключается в нахождении часто встречающихся наборов данных, для которых осуществляется проверка выполнения условий (1) и (2). Если сильный (удовлетворяющий условиям (1) и (2)) набор данных найден, он удаляется из оригинальной базы данных транзакций, после чего процесс поиска повторяется для новой базы.

Пусть D — база данных, которая состоит из N транзакций, а A = {a,, C2,...,cn} — множество элементов, которые часто встречаются в D. То есть, для A выполняются условия:

Support (at) > О,

Confidence (at )>Т,

где at е A, i = 0... | A |

Очевидно, что сильные наборы данных могут состоять только из элементов множества A:

at е sj, at е sj, j Ф k, ai е A.

Результатом работы данной процедуры является множество сильных наборов данных S, которые не пересекаются между собой, то есть:

V (si п sj )= 0, i Ф j, sj е S,

Support (si)>О, Confidence (si )>Т,

а также множество элементов A', которые не вошли в сильные наборы данных:

Поиск ассоциативных правил

Входными данными процедуры являются множество непересекающихся сильных наборов данных 5 = {5,, $2,...,5п}, и множество часто встречающихся элементов А = {а,, а2,..,ат}, которые не входят ни в один сильный набор, т.е. У і,] ^ ai і Sj.

Результатом работы алгоритма является множество сильных наборов данных, которые могут содержать совместные элементы, и ассоциативные правила, образованные на основе данных наборов.

В данном методе кандидаты длиной к генерируются в результате объединения сильных наборов данных и часто встречающихся элементов:

{и, V}! (1 < г, j < к, и є Бі л V є Sj л і Ф j )

V (і < і < т,1 < j < к, и є а л V є Sj

V (і < і, j < т, и є аг л V є aj л і Ф j )

Ck =

A'={ai Є (Vsj є S )}

где m — количество часто повторяющихся элементов.

Среди всех кандидатов с помощью (1) и (2) находят множество сильных наборов L^, которое объединяют с множеством S:

S = S и 1к,

а элементы, которые входят в L^ исключают из множества A

A = A\{Lk}.

Этот процесс повторяют для кандидатов большей длины до тех пор, пока Lk = 0. Заключительным этапом процедуры является подсчет улучшения для полученных ассоциативных правил.

За счет описанной процедуры генерации кандидатов данный алгоритм, по сравнению с алгоритмом Apriori, позволяет значительно сократить ресурсоёмкость процесса поиска устойчивых групп абонентов систем мобильной радиосвязи. Данное обстоятельство обуславливает рациональность использования данного алгоритма при большой частоте регистраций абонентов в сотах.

Литература

1. Терешонок М.В. Поиск ассоциативных правил при анализе загрузки сетей сотовой связи// Электросвязь, 2008. — № 6.

2. Agrawal R., T. Imiel nski, A. Swami. "Mining Associations between Sets of Items in Massive Databases", Proc.ACM SIGMOD 1993. — рр. 207-216.

3. Agrawal R., Srikant R. Fast Algorithms for Mining Association Rules. Proc. of the 20th Int'l Conference on Very Large Databases, Santiago, Chile, Sept. 1994.

4. Han J., Pe' J, Yin Y. "Mining Frequent Patterns w'thout Candidate Generation", Proc. ACM SIGMOD 2000.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Аджемов С. С., Терешонок М. В., Чиров Д. С.

Текст научной работы на тему «Оптимизация алгоритмов поиска устойчивых групп абонентов систем мобильной радиосвязи»