Научная статья на тему 'Теоретико-графовые методы анализа нечетких социальных сетей'

Теоретико-графовые методы анализа нечетких социальных сетей Текст научной статьи по специальности «Математика»

CC BY
518
67
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Теоретико-графовые методы анализа нечетких социальных сетей»

между термами i и j: чем она меньше, тем более коррелированны эти термы. Однако величина pj все же не совсем подходит для описания силы связи термов i и j, в частности, потому, что она, как легко видеть, не симметрична: Pij^Pji. Поэтому в качестве меры корреляции термов принимается величина pj =

=max(Pij,Pji) , а в программной реализации алгоритма выбирается определенное пороговое значение вероятности, определяющей достоверность связи межу термами.

Рассматриваемый метод удовлетворяет основным свойствам, которыми должна обладать процедура кластерного анализа для того, чтобы быть практически применимой к кластеризации больших массивов текстов вообще и к анализу динамики тематической структуры потока новостей в частности:

• интерпретируемость найденных кластеров в терминах смысла содержания относящихся к ним документов;

• статистическая значимость группирования текстов в кластеры;

• возможность отнесения документа более чем к одному кластеру;

• не более чем логлинейный рост времени работы кластеризатора с увеличением количества текстов;

• минимальная (а лучше вообще отсутствующая) настройка со стороны пользователя.

Рассматриваемый алгоритм может быть комбинирован с алгоритмом выделения из текстов содержащихся в них сущностей. Выделенные сущности используются для формирования решающих правил при построении деревьев решений. Задача выделения блоков структурированной информации (сущностей) из текстовых документов впервые была выделена как отдельная задача text mining в 1995 году [1]. За прошедшие с того времени годы было разработано несколько различных алгоритмов выделения сущностей. Работа любого такого алгоритма заключается в том, что на вход подается текст, написанный на естественном языке, а на выходе формируется информация, соответствующая заранее определенным паттернам, в структурированном виде.

Простейшими видами сущностей являются имена, даты, названия организаций, географические названия. Для их выделения используем регулярные выражения. После выделения сущностей происходит их нормализация, занесение в таблицу сущностей и включение соответствующих им правил в список правил для кластеризации. При этом одним из фла-

гов (признаков) сущностей является их тип, что дает возможность исследовать влияние на результаты кластеризации включения в набор правил сущностей различных типов.

Помимо регулярных выражений, для выделения сущностей в алгоритме используются тезаурус WordNet и набор словарей.

Одна из важнейших областей применения метода автоматической кластеризации текстов с помощью выделения стандартных сущностей и учета совместной встречаемости в документах ключевых терминов - анализ динамики тематической структуры потока новостей.

Применение метода островной кластеризации к публично доступному массиву новостей Reuters-21578 на примере трех типов задач - плоская кластеризация, иерархическая кластеризация и прослеживание динамики тематической структуры - показало, что метод островной кластеризации может успешно решать эти типы задач, давая в каждом случае описание полученных результатов в понятных человеку терминах и позволяя как автоматически выявить тонкую тематическую структуру массива новостей и других документов, так и проследить ее развитие во времени [2].

В настоящее время получены первые результаты тестирования алгоритма на различных массивах информации, показывающие его эффективность в случае наличия достаточно большой встречаемости сущностей в текстовой коллекции. Выделение части простейших типов сущностей возможно и на этапе выбора совместно встречающихся терминов и построения графа связей термов: множества выделяемых сущностей и определяемых на основе высокой частоты совместной встречаемости словосочетаний пересекаются. Есть все основания ожидать, что использование сущностей, выделенных именно на базе словарей (в частности, географических названий), внесет весомый вклад в результат кластеризации.

При программной реализации алгоритма были использованы средства пакета для анализа данных PolyAnalyst [3].

Список литературы

1. Van Zaanen, M., Molla, D. A Named Entity Recogniser for Question Answering, Proceedings PACLING 2007, 2007.

2. Киселев М.В., Пивоваров В.С., Шмулевич М.М. Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к анализу тематической структуры новостного потока, а также ее динамики. // Междунар. сб. науч. раб.: Интернет-математика 2005: автоматическая обработка веб-данных. - М.: Яндекс, 2005.

3. PolyAnalyst data/text mining system. User manual. (http://www.megaputer.com)

ТЕОРЕТИКО-ГРАФОВЫЕ МЕТОДЫ АНАЛИЗА НЕЧЕТКИХ

СОЦИАЛЬНЫХ СЕТЕЙ

Ю.А. Целых (Технологический институт Южного федерального университета, г. Таганрог)

Многие распределенные системы, в частности сети сотовой связи, компьютерные сети и Интернет,

обладают развитой топологией и имеют в своей основе сложные социальные процессы. По мнению

создателя технологии World Wide Web Тима Бернерса Ли, следующим этапом в развитии Всемирной паутины станет «Гигантский глобальный граф» [1]. Такой граф, в отличие от сети, связывающей компьютеры, и Всемирной паутины, связывающей документы, свяжет между собой людей и, благодаря семантическим технологиям, предоставит им сервисы более высокого класса.

Одним из направлений структурного подхода к изучению социальных систем являются методология и методы исследования связей между социальными акторами, получившие название анализ социальных сетей [2]. Социальные сети состоят из конечной совокупности акторов и набора связей между ними. В качестве акторов могут выступать индивиды, социальные группы, события, организации, компьютеры в сети, символы в тексте и т.д. При этом в одну социальную сеть могут входить социальные акторы различных типов, связанные взаимодействиями разного рода и различной степени интенсивности.

Для изучения повторяющихся, регулярных паттернов отношений в социальной сети, структурных взаимосвязей актора и его свойств, а также эквивалентности акторов широко используется математический аппарат теории графов.

Однако данные о социальных акторах и отношениях между ними часто являются неточными, неполными и носят качественный характер, поэтому анализ связей сильно затруднен. С целью формализации неопределенностей введем понятие нечеткой социальной сети [3]. Под нечеткой социальной сетью будем понимать социальную сеть, состоящую из нечетких акторов и нечетких связей между ними.

Граф нечеткой социальной сети

Представим нечеткую социальную сеть в виде нечеткого ориентированного графа G=(X,Ü) [4], в котором нечеткое множество вершин X={<(x)/x>}, =п является совокупностью нечетких социальных

IX=

акторов, а нечеткое множество ориентированных ребер 1&={<^и<х^>/<х^>>}, <х^ >е X2 представляет взаимоотношения или связи между ними. В частном случае, когда ^.(х)=1 для всех хе X , нечеткую степень принадлежности имеют только ребра.

На нечеткие социальные сети естественным образом распространяются понятия четких социальных сетей и предложенные ранее меры центральности, положения и принадлежности к подгруппам: центральность на основе степени; центральность по близости; центральность по посредничеству; центральность на основе собственных векторов; степень; плотность; обхват; диаметр; радиус; средняя длина пути; средняя длина цикла; коэффициент кластеризации [5].

Метрики социальной сети

Одной из первых в теории анализа социальных сетей разрабатывалась идея заметности, или важности вершины в графе. Будем называть меру заметно-

сти социального актора в неориентированном графе центральностью, для входящих связей в ориентированным графе - престижем, для исходящих связей -экспансивностью.

Меры центральности нашли приложение в таких задачах, как выявление лидеров в организациях, установление ключевых фигур в криминальном расследовании, изучение способов распространения заболеваний у людей и животных, анализ соавторства научных публикаций в международных научных сообществах и т.д.

Центральность на основе степени. Простой подход к измерению центральности акторов основывается на понятии степени вершины. Центральность на основе степени тем выше, чем больше число связей вершины с другими вершинами в графе. Вычисления будем производить по формуле: Сй(п^=.

Для сопоставления между собой меры для отдельных вершин можно пронормировать, разделив на максимальную степень вершины в графе:

С^)=^х100.

Актор с высокой центральностью по степени взаимодействует с большим числом других акторов в сети и тем самым может получить доступ к большому числу акторов и повлиять на них.

Вместе с тем мера центральности по степени является локальной характеристикой положения вершины в графе, поскольку учитывает только непосредственных соседей, ближайшую окрестность вершины, и в этом смысле поверхностна.

Центральность по близости. Показатель центральности по близости характеризует центральность вершины на основе расстояния от центрального актора до других вершин графа.

Центральность актора определяется как величина, обратная сумме длин кратчайших путей от данного актора к остальным акторам: -1

Cc(n¡)=

gL(ni'nj)

где N - число вершин в графе.

С позиции центральности по близости заметным является тот актор, который активно взаимодействует с другими акторами либо непосредственно, либо через небольшое число посредников.

Чем меньше число вершин, достижимых из вершины актора, тем ниже показатель центральности. Значение показателя уменьшается с увеличением расстояния между центральным актором и другими акторами.

Заметим, что показатель центральности по близости можно рассчитать только для связного графа. Неопределенность показателя для изолированных вершин, расстояние до которых бесконечно, является главным недостатком центральности по близости.

Центральность по посредничеству. Центральный актор может играть роль посредника при взаимодействии других акторов в сети. Данный подход к оценке центральности актора заключается в нахождении доли кратчайших путей, соединяющих все па-

ры вершин, которые проходят через данную вершину. Вычисления производятся по формуле:

Cb(nj)= Е-j<k

gjk

где gjk- число кратчайших путей

от j до К; gjk(ni) - число кратчайших путей от j до к, проходящих через п1.

Центральность по посредничеству является глобальной характеристикой вершины и имеет более интересную интерпретацию, чем рассмотренные ранее индексы центральности. В отличие от центральности по близости, данный показатель определен и на несвязных неориентированных графах.

Средняя длина пути рассчитывается как среднее арифметическое расстояний между центральной вершиной и остальными вершинами в графе: N

X L(ni,nj)

м j

A(G,ni)=

Средняя длина цикла рассчитывается как среднее арифметическое длин всех циклов в графе. При этом целесообразно рассматривать только циклы длиной > 3.

Коэффициент кластеризации CC(n) измеряет плотность подграфа, состоящего из вершин, находящихся на расстоянии единицы от центрального актора. Другими словами, это мера вероятности того, что «если А знает B, а B знает С, то Л знает С» для фиксированной вершины В. Это эквивалентно процентному отношению замкнутых треугольников в окрестности центрального актора. Для вершин в полном подграфе (клике) коэффициент кластеризации будет равен 1. Для вершины в центре звезды коэффициент кластеризации примет нулевое значение.

Для вычислений будем использовать формулу Е

плотности графа: CC(n)=

■, где N и E - число

^-1)

вершин и ребер в подграфе соответственно.

Степень - это число ребер, инцидентных центральному актору. Для ориентированных графов введем в рассмотрение понятия полустепеней захода (П|) и исхода й- (П|) вершины п на основе поня-

тий образа и прообраза вершины при соответствии:

(п1)=Г-1(Х]) , й- (ni)=|Г(Х|) .

Плотность графа - отношение числа существующих ребер к возможным ребрам в графе.

Плотность для неориентированного графа вычисляется по формуле:

E(G)

N(G)(N(G)-1)

Расчет для ориентированного графа производится по формуле: D(G)=-E(G)-.

2N(G)(N(G)-1)

Заметим, что в мультиграфах плотность может принимать значение больше единицы.

Обхват графа - это длина кратчайшего цикла (>3) в графе.

Диаметр является одной из мер размера графа. Он измеряет максимальное число шагов, необходимых для того, чтобы добраться из одной вершины графа в любую другую вершину:

D(G)=maxj (maxj (L(ni ,nj )).

Другой мерой размера графа является радиус. С позиции радиуса вершина является центральной, если из нее можно добраться в любую другую вершину за минимальное число шагов, в сравнении с остальными вершинами в графе: R(G)=mini(maXj(L(ni,nj)).

В заключение отметим, что в работе представлен основной понятийный аппарат социальных сетей, позволяющий исследовать модели и формализовать неопределенности на основе тории нечетких графов, а также приведен анализ основных мер социальной сети, характеризующих существенные связи и свойства.

Список литературы

1. Глобальный граф. // Поиск. - № 49(967). -2007.

2. Wasserman S., and Faust K. Social Network Analysis: Methods and Applications. - Cambridge University Press,1994.

3. Nair P.S. and Sarasamma S.T. Data Mining Through Fuzzy Social Network Analysis // North American Fuzzy Information Processing Society, 2007.

4. Берштейн Л.С., Боженюк А.В. Нечеткие графы и гиперграфы. - М.: Научный мир, 2005.

5. Holder L.B. and Cook D.J. Mining Graph Data. - Wiley,

2007.

ИНСТРУМЕНТАЛЬНАЯ ОБЪЕКТНАЯ СРЕДА ДЛЯ МОДЕЛИРОВАНИЯ,

ОТЛАДКИ И ЭКСПЕРИМЕНТОВ С ЛИНГВИСТИЧЕСКИМИ АЛГОРИТМАМИ

(Работа выполнена при частичной поддержке РФФИ, грант 06-06-80434)

А.М. Баталина, М.Е. Епифанов

(Российский государственный гуманитарный университет, г. Москва)

При реализации систем лингвистического анализа текста, основанных на правилах, рано или поздно появляется проблема обозримости всей теоретической базы - совокупности правил, их организации в лингвистические алгоритмы и т.п.

Под словом алгоритм понимается совокупность лингвистических правил, связанных между собой так, что в зависимости от результатов применения текущего правила однозначно определено, какое правило следует применить следующим. Кроме

i Надоели баннеры? Вы всегда можете отключить рекламу.