неир01нф0рматика та штелектуальш системи
неИроинформатика
и интеллектуальные системы
neuroinformatics and intelligent systems
УДК 004.91
Е. В. Бодянский, В. В. Волкова, А. С. Егоров
КЛАСТЕРИЗАЦИЯ МАССИВОВ ТЕКСТОВЫХ ДОКУМЕНТОВ НА ОСНОВЕ АДАПТИВНОЙ НЕЧЕТКОЙ САМООРГАНИЗУЮЩЕЙСЯ
НЕЙРОННОЙ СЕТИ
Предложена адаптивная нечеткая самоорганизующаяся нейронная сеть, настраиваемая с помощью рекуррентного алгоритма самообучения, являющегося обобщением правила обучения Кохонена, и позволяющая находить в реальном времени не только прототипы (центроиды) формируемых кластеров, но и оценивать уровни принадлежности каждого вновь поступившего образа к конкретному кластеру, что позволяет использовать данную архитектуру для кластеризации текстовых документов в условиях взаимно перекрывающихся классов.
ВВЕДЕНИЕ
В общей проблеме интеллектуального анализа данных - Data Mining, Explorary Data Analysis и, особенно, Web-Mining достаточно часто возникает задача поиска и классификации информации, содержащейся в текстовых документах, количество которых в Internet практически неограниченно и постоянно увеличивается. Фактически речь идет об очень больших и непрерывно растущих в реальном времени базах данных, образованных, как правило, не связанными
© Бодянский Е. В., Волкова В. В., Егоров А. С., 2009
между собой текстами самого различного содержания и происхождения, поиск в которых также должен производиться в online режиме.
В настоящее время существует достаточно много подходов к решению этой задачи, однако, большинство из них связано с интенсивным использованием человеческого интеллекта и квалифицированного труда, которые весьма дороги. В связи с этим представляется перспективным использование методов искусственного и вычислительного интеллекта для решения этой задачи в автоматическом режиме без участия человека. Среди таких методов высокую эффективность продемонстрировали искусственные нейронные сети и, прежде всего, самоорганизующиеся карты Т. Кохонена (SOM) [1], положенные в основу систем автоматической классификации больших массивов документов WEBSOM [2, 3] и WEBSOM2 [4]. Эффективность карт Кохонена определяется, прежде всего, их вычислительной простотой и возможностью работы в реальном времени путем последовательной обработки информации по мере ее поступ-
ления. Процесс настройки этих нейросетей реализуется в режиме самообучения на основе принципов «победитель получает все» (WTA) или «победитель получает больше» (WTM), при этом априори предполагается, что структура обрабатываемых данных такова, что образуемые ими кластеры взаимно не пересекаются, т. е. в процессе обучения сети теоретически может быть построена разделяющая гиперповерхность, четко разграничивающая разные классы.
Вместе с тем, при обработке реальных данных часто возникает ситуация, когда один образ-документ принадлежит разным классам, а сами эти классы взаимно пересекаются (перекрываются) [4]. В рамках традиционных самоорганизующихся карт это обстоятельство никак не учитывается, однако может быть рассмотрено с позиций нечеткого кластерного анализа, который к настоящему времени также получил достаточное развитие и распространение [5, 6].
Представляется естественным объединить простоту и быстродействие самоорганизующихся карт Кохо-нена с возможностью работы в условиях взаимно перекрывающихся классов.
Так, в [7, 8] была предложена модификация SOM, в которой нейроны исходной архитектуры, представляющие собой по сути адаптивные линейные ассоциаторы, заменены нечеткими множествами и нечеткими правилами. Данная нейросеть подтвердила эффективность в задачах распознавания образов, однако ее обучение связано с рядом существенных проблем. В [9] была предложена модификация самоорганизующейся карты с нечетким выводом и комбинированным алгоритмом самообучения на основе правил Кохонена и Гроссберга. Недостатком этой сети является наличие свободных параметров алгоритма, неудачный выбор которых может привести к неудовлетворительной кластеризации. В [10] была введена, а в [11] получила развитие, так называемая, нечеткая кластеризующая сеть Кохонена (fuzzy Koho-nen clustering network - FKCN), в основе которой лежит алгоритм нечетких С-средних (fuzzy C-means -FCM) Бездека [12]. Особенностью этой нейро-фаззи сети является пакетный режим обучения, при котором весь массив данных, подлежащий обработке, должен быть задан априори. Таким образом FKCN не может работать в реальном времени, обрабатывая информацию по мере ее поступления.
В связи с этим, в настоящей работе предлагается в качестве альтернативы SOM и FKCN адаптивная нечеткая самоорганизующаяся нейронная сеть, настраиваемая с помощью рекуррентного алгоритма самообучения, являющегося обобщением правила обучения Кохонена, и позволяющая находить в реальном времени не только прототипы (центроиды) формируемых кластеров, но и оценивать уровни принадлежности каждого вновь поступившего образа к конкретному кластеру.
АРХИТЕКТУРА АДАПТИВНОЙ НЕЧЕТКОЙ САМООРГАНИЗУЮЩЕЙСЯ НЕЙРОННОЙ СЕТИ
Архитектура рассматриваемой нечеткой нейронной сети приведена на рис. 1 и содержит единственный слой нейронов М^ г = 1, 2,..., р, отличающихся от традиционных адаптивных линейных ассоциаторов, образующих 80М Кохонена.
На рецепторный слой сети последовательно подаются образы, подлежащие кластеризации, в виде (п х 1)-
т
векторов признаков х(Ь) = (х1(Ь), х2(Ь), ..., хп(Ь)) , где Ь = 1, 2, ..., V имеет смысл или номера образа в обучающей выборке, или текущего дискретного времени. При этом сами векторы признаков х(Ь) формируются на основе усеченных гистограмм частот появления отдельных слов в обрабатываемых текстах [2-4].
Настраиваемые синаптические веса Шц, г = 1, 2,., р; Ц = 1, 2,., п определяют координаты центроидов р взаимно перекрывающихся кластеров ш{(Ь) =
т
= (шг1(Ь), шг2(Ь),..., шгп(Ь)) , а выходом сети, в отличие от 80М, выходной сигнал которой определяется
только нейроном-победителем, является (р х 1 )-век-
т
тор и(Ь) = (и1(Ь), и2(Ь), ..., ир(Ь)) , определяющий уровень принадлежности образа х(Ь) к каждому из р формируемых кластеров и вычисляемый нейронами По латеральным связям нейроны обмениваются координатами шг(Ь), необходимыми для вычисления принадлежностей иг(Ь).
АДАПТИВНЫЙ АЛГОРИТМ САМООБУЧЕНИЯ
В основе самообучения лежит вероятностный алгоритм кластеризации, основанный на оптимизации целевой функции вида [12]
Е(иь m) = £ £ ив(t)||*(t)-
(1)
Рисунок 1 - Адаптивная нечеткая самоорганизующаяся нейронная сеть
2
т
t = 1 i = 1
при ограничениях
X «i(*) = 1>
i = 1
t = 1, 2, ..., V,
0 «i(t)< V,
t = i
i = 1, 2,..., p,
(2)
(3)
где и(£) е [0,1 ], р - неотрицательный параметр, именуемый «фаззификатором», определяющий нечеткую границу между классами и влияющий на уровень нечеткости в окончательном разбиении данных по кластерам.
Применение стандартного аппарата нелинейного программирования, основанного на неопределенных множителях Лагранжа и решении системы уравнений Куна - Таккера, ведет к известному результату
X uP( t) * (t)
(4)
X uP(t)
01 -( t) - <| I2 )1 - p
Ui( t) = -i " - ,
X (|| -(t) - mfll2)1 - P
i = 1
который при ß = 2 совпадает с популярным FCM-ал-горитмом Бездека:
X u2(t)-(t)
t = 1
v 2 ,
X m2(t)
(5)
Ui(t) =
II-(t) - m*
Xi - (t )-
mi( t + 1) = mi (t) = a( t) < (t)(-( t + 1) - mi( t)),
i = 1, 2, ..., p,
«i (t+ 1) =
II- (t + 1 ) - mt ( t + 1 )|| 2 )1 - ß 1 ,
'' 1 1 - R
X Ol - (t + 1) - ml (t + 1 )||2) в
i = 1
(6)
где - параметр шага поиска, влияющий на скорость сходимости и выбираемый обычно из эмпирических соображений в соответствии с условиями Дворецкого [15].
Анализируя (6), можно заметить, что рассматривая сомножитель мв(^ в качестве функции соседства Нс (Х), I, приходим к правилу самообучения Кохонена на основе ШТМ-принципа
mWTM(t + 1) = mWTM(t) + hc(xUit)(-(t + 1) - mWTM(t)),
(7)
где c (-) = arg min {II - - mi|} определяет координаты
i
нейрона-победителя, hc ), i(t) - колоколообразная функция соседства, аргументом которой есть расстояние в принятой метрике между центроидом нейрона-победителя и нейрона Ni.
Заметим также, что в пакетной форме рекуррентной формуле (7) соответствует выражение [4]
X hc(-), i-( t)
*WTM -(t) e vi
Ii =-,
X hc(-), i
-(t) £ Vi
(8)
где Vi определяет множество всех образов, прототи-
*WTM P т, т,
пом которых является mi , N Vi = V.
i = 1
Как видно, формула (8) структурно совпадает с первым выражением в (4), что опять-таки подтверждает близость понятий «принадлежности» и «соседства».
Полагая далее в (6) р = 1, приходим к алгоритму С-средних (hard C-means - HCM), а р = 0 соответствует стандартному WTA-правилу Кохонена для нейрона-победителя:
Именно соотношения (5) положены в основу самообучения ИКСЫ, однако при этом количество обрабатываемых образов V полагается фиксированным.
С целью преодоления этого ограничения в [13, 14] на основе процедуры нелинейного программирования Эрроу - Гурвица был введен вероятностный рекуррентный алгоритм нечеткой кластеризации вида
mWTA(t + 1) = mWTA(t) + a(t)(-(t + 1) - mWTA(t)). (9)
Несложно заметить также, что рекуррентная процедура (9) минимизирует целевую функцию вида
E (mi) = X II-(t )-
-(t) £ Vi
WTA 2
m* =
t = 1
m* =
t = 1
2
2
l = 1
Ее прямая оптимизация ведет к обычной оценке среднего арифметического
X х( Ь)
*WTA х( е Vг
Ш = —V—,
* г
запись которой в рекуррентной форме - к соотношению
WTA,, , ,, WTA,,4. 1 г /-¡-^w WTA,,,,
mi (t +1) = m (t) + — (x( t +1) - m (t)).
Такой выбор параметра шага а(Ь) согласуется с требованиями стохастической аппроксимации и придает результатам ясный физический смысл.
Таким образом, в окончательном виде адаптивный алгоритм самообучения нечеткой самоорганизующейся сети может быть записан в простой форме
м,р( t)
m¡(t + 1) = mi(t) + (x(t + 1) - mi(t)),
tf*idf = tf^log I ^
D
21 df
(10)
i = 1, 2,..., p,
Ui( t + 1) =
\\x (t + 1 ) - mt (t +1 )|| 2 )1 - ß
1 ,
¿ (Ix(t + 1) - m¡(t + 1 )|2)1 - P
i = 1
объединяющей в себе вычислительную простоту и последовательную обработку кохоненовского самообучения с возможностями нечеткой кластеризации.
РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТАЛЬНЫХ
ИССЛЕДОВАНИЙ
В ходе изучения нейросетевых методов кластеризации и разработки адаптивной нечеткой самоорганизующейся нейронной сети были проведены экспериментальные исследования на тестовой выборке, состоящей из 86 текстовых документов, содержащих рефераты статей (abstracts). Документы принадлежат к трем различным категориям: Neural Networks, Semantic Web, Text Mining.
Целью исследования было оценить качество кластеризации традиционной самоорганизующейся нейронной сети Кохонена (SOM) и разработанной в ходе исследования адаптивной нечеткой самоорганизующейся нейронной сети (адаптивная процедура обучения на основе FCM).
Следует отметить, что качество кластеризации сильно зависит от выбранного пространства признаков. Пространство признаков выбиралось по значимости признаков согласно формуле
где tfj - частота встречаемости i-го терма в j-м документе, |D| - мощность обучающего множества, dft -количество документов, в которых встречается i-й терм.
Эксперимент показал, что по мере роста тестового множества нечеткие алгоритмы дают более точные результаты (в среднем 6-8 %) по сравнению с четкой процедурой кластеризации.
Таким образом, было установлено, что в задаче кластеризации документов, принадлежащих нескольким категориям одновременно, нечеткие процедуры дают более точные результаты.
ВЫВОДЫ
Предложен адаптивный алгоритм самообучения нечеткой самоорганизующейся нейронной сети, предназначенной для кластеризации больших массивов текстовых документов, и позволяющий осуществлять в реальном времени нечеткую классификацию данных, последовательно поступающих на обработку. Алгоритм не содержит свободных параметров, прост в реализации и объединяет в себе достоинства самоорганизующихся карт Кохонена и вероятностных процедур нечеткой кластеризации.
ПЕРЕЧЕНЬ ССЫЛОК
1. Kohonen T. Self-Organizing Maps / T. Kohonen // Berlin : Springer-Verlag. - 1995. - 362 p.
2. Kaski S. WEBSOM - Self-organizing maps of document collections / S. Kaski, T. Honkela, K. Lagus, T. Kohonen // Neurocomputing. - 1998. - 21. - P. 101-117.
3. Lagus K. WEBSOM for textual data mining / K. Lagus, T. Honkela, S. Kaski, T. Kohonen // Artificial Intelligence Review. - 1999. - 13. - P. 345-364.
4. Kohonen T. Self organization of a massive document collection / T. Kohonen, S. Kaski, K. Lagus, J. Salojarvi, J. Honkela, V. Paatero, A. Saarela // IEEE Trans. on Ne! ural Networks. - 2000. - 11. - P. 574-585.
5. Hoppner F. Fuzzy-Klusteranalyse. Verfahren fllr die IBil-derkennung, Klassification und Datenanalyse / F. Hop-pner, F. Klawonn, R. Kruse. - Braunschweig : Vieweg. -1996. - 280 s.
6. Ho ppner F. Fuzzy Clustering Analysis: Methods for Classification, Data Analysis, and Image Recognition / F. Ho ppner, F. Klawonn, R. Kruse, T. Runkler. - Chichester : John Willey&Sons. - 1999. - 289 p.
7. Vuorimaa P. Fuzzy self-organizing maps / P. Vuorimaa // Fuzzy Sets and Systems. - 1994. - 66. - P. 223-231.
8. Vuorimaa P. Use of the fuzzy self-organizing maps in pattern recognition / P. Vuorimaa // Proc. 3-rd IEEE Int.Conf. Fuzzy Systems «FUZZ-IEEE'94». - Orlando, USA, 1994. - P. 798-801.
9. Bodyanskiy Ye. Combined learning algorithm for a self-organizing map with fuzzy inference / Ye. Bodyanskiy, Ye. Gorshkov, V. Kolodyazhniy, A. Stephan ; ed. by B. Reusch // Computational Intelligence, Theory and Applications. - Berlin-Heidelberg : Springer, 2005. - P. 641-650.
10. Tsao E. C.-K, Fuzzy Kohonen clus-tering networks / E.C.K. Tsao, J.C. Bezdek, N. R. Pal // Pattern Recognition. -1994. - 27. - P. 757-764.
11. Pascual-Marqui R. D. Smoothly distributed fuzzy C-me-ans: a new self-organizing map / R. D. Pascual-Marqui, A. D. Pascual-Montano, K. Kochi, J. M. Carazo // Pattern Recognition. - 2001. - 34. - P. 2395-2402.
12. BezdekJ. C. Pattern Recognition with Fuzzy Objective Function Algorithms / J. C. Bezdek. // N. Y. : Plenum Press, 1981. - 272 p.
13. Bodyanskiy Ye. Recursive fuzzy clustering algorithms / Ye. Bodyanskiy, V. Kolodyazhniy, A. Stephan // Proc. East West Fuzzy Coll, 2002. - Zittau - Go rlitz : HS, 2002. - P. 164-172.
14. Bodyanskiy Ye. Computational intelligence techniques for data analysis / Ye. Bodyanskiy // Lecture Notes in Informatics. - Bonn : GI, 2005. - P-72. - P. 15-36.
15. Dvoretzky A. On stochastic approximation / A. Dvoretzky // Proc. 3-rd Berkley Symp. Math. Statistics and Probability. - 1956. - 1. - P. 39-55.
Надшшла 31.10.2008
Запропоновано nenimuy нейронну мережу, що самоор-гатзуетъся, яка дозволяе знаходити в реальному naci не лише прототипи (центроЧди) клacmерiв, що форму-
ються, але й оцтювати pieni належност1 кожного образу, що надходить, до конкретного кластеру. Мережа настроюеться за допомогою рекурентного алгоритму самонавчання, що е узагальненням правила навчання Кохонена. Запропонована нечiтка нейронна мережа, що самооргатзуеться, може бути використана для класте-ризацИ текстових документiв в умовах класiв, що вза-емно перекриваються.
A self-organizing fuzzy neural network is proposed. It allows both to deter-mine the prototypes (centroids) of forming clusters and estimate attachment level of each image of certain cluster in real time. The network is tuned by recurrent algorithm of self-learning which is a general Kohonen's learning rule. The proposed neural network can be used in clasterization of te-t documents in overlapping classes conditions.