Система автоматизированного построения графа социальной сети
В.И. Носко
На сегодняшний день существует некоторое количество автоматизированных систем классификации и анализа интернет-текстов. Такая услуга оказалась весьма востребована на ниве интернет-продаж, такие сервисы предлагают своим клиентам, например, автоматическую индикацию тональности сообщений. Основаны такие системы, как правило, на соотнесении имеющего текстового фрагмента с заранее составленными тональными словарями.
Безусловно, это направление будет интенсивно развиваться в ближайшие годы, но на данный момент наиболее адекватным инструментом анализа представляется ручная обработка данных мониторинга социальных медиа.
В Северо-Кавказском научном центре высшей школы Южного федерального университета (далее СКНЦ ВШ ЮФУ) разработана программная платформа автоматизированного построения графа социальной сети при помощи обработки интернет страниц социальных сетей. Система применялась для автоматизированного сбора данных в период избирательной кампании в Государственную думу в 2011 году.
Для генерации таблицы упоминаний обработка страниц социальных сетей и блогосферы (парсинг) реализуется с применением модуля Feeds для CMF Drupal с плагином SimpleHTMLDOMparser. В процессе парсинга система обращается к странице с информацией в Интернет и производит выборку данных из DOM дерева HTML в соответствии с набором тегов и каскадной таблицей стилей.
Рассмотрим конфигурацию модуля для импорта в систему комментариев пользователей. Система разработана таким образом, что позволяет разделять собираемую информацию на элементарные части, каждая из которых представляет собой отдельное поле в базе данных. Импорт производится гранулярно, что впоследствии дает возможность гибко фильтровать результаты. В набор собираемых данных (см. рис. 1 ) входят следующие экстракторы (Extractions):
- заголовок комментария;
- автор комментария - никнейм пользователя в сети или блоге;
- автор журнала - запись, к которой относится комментарий;
- комментарий - собственно текст;
- ссылка на комментарий;
- журнал комментатора;
- журнал автора поста;
- дата комментирования - актуальная дата размещения комментария в сети.
Рис. 1. - Настройки экспорта данных в модуле Feeds
Поиск данных производится иерархически:
1. Сначала система инспектирует Root node pattern (корневой образец) и определяет набор повторяющихся элементов на странице.
2. Затем в каждом из таких элементов ведется поиск соответствия паттерна экстрактора комбинации CSS-классов и НТМЕтегов.
В частности, для поля «Автор комментария» необходимо установить паттерн «ul[class='info b-hlist b-hlist-middot'] li a» с атрибутом «plaintext». Такой паттерн обеспечивает погружение в дерево DOM HTML и экспортирует все элементы, которые находятся в ненумерованном списке «ul» с классом «info b-hlist b-hlist-middot» и обернуты тегом «а» (см. рис. 2).
Рис. 2. - Настройка паттерна и атрибутов поля «Автор комментария» в модуле
Feeds
Каждый экспортируемый элемент в системе соответствует предустановленным полям типа материала Feed item (экземпляр фида). Таблица соответствия представлена на
рис. З.
Рис. 3. - Настройка паттерна и атрибутов поля «Автор комментария» в модуле
Feeds
После настройки всех необходимых параметров система начинает парсинг по выбранным ключевым словам. В результате в системе будет сформирована таблица с набором данных о комментариях, представленная на рис. 4: заголовок комментария, дата его импорта в систему, автор комментария, автор блога, к которому относится
комментарий, текст комментария, дата его публикации в сети Интернет, тональность (позитив, негатив, нейтрал), определяемая пользователем системы.
Таблица: комментарии пользователей
Заголовок Дата импорта - Автор комментария Автор журнала Комментарий Дата комментирования Тональность
Выборы. 09/11/2011 -00:37 krasnovski http://krasnovski.liyejournal.coni/ http://krasnovski.livejoumal.com/135924.html?thread=136180 мы требуем от президента Медведева отменить назначенные на <Ь>4</Ь> <Ь>декабря</Ь> <Ь>выборы</Ъ> <Ь>в</Ь> <Ь>Госдуму</Ь> РФ как противоречащие Конституции РФ - б ноября 2011, 12:48 Позитив 0 Негатив 0 Нейтрал 0
Отметим, что для участия в выборах в Государственную Думу партии «ЯБЛОКО» потребовалось
зависимости от выборов в думу.
09/11/2011 Дерево жизни
-00:37 http://atreeJivejoumal.com/
09/11/2011 kirill_markov
- 00:37 http://kirill-markov.livejoumal.com/
09/11/2011 aglazovskiy
- 00:37 hrttp://ailazotfskiv.livejournal.com/
Re: хомячки, т хомячки >
09/11/2011
-00:37
09/11/2011
-00:37
http://mohar
v_otvete
http ://v-otvete. Iivejaurnal.com/
http://atree.livejournal.com/760300.html?thread=157002S Отметим, что для учэстая в <Ь>выборах</Ь> <Ь>в</Ь> Государственную <Ь>Думу</Ь> партии «ЯБЛОКО» потребовалось собрать 157 тысяч подписей по всей стране.
http://v-milov.livejournal.com/363267.htmlFthread-16712195 И все это вне зависимости от <Ь>выборов</Ь> <Ь>в</Ь> <Ь>думу</Ь>.
http://aglazovskiy.livejournal.com/16228.htinlPth read=65124 10 апреля <Ь>2011</Ь> года в Перу были <Ь>вы6оры</Ь>.
http://haeldar.livejoumal.com/1953226.html7th read =45345738 1. <b>B</b> <Ь>Думе</Ь> в своё время не то была представлена, не то участвовала в <Ь>выборах</Ь>, но не прошла (но зарегистрирована была точно)Партия любителей
http://navalny.livejournal.com/640646.html?thread=2697S7526 "На <Ь>выборах</Ь> <Ь>в</Ь> <Ь>Госдуму</Ь> победила партия "Единая Россия" с результатом 65%, при высокой явке избирателей (лохов, которые считают, что у них есть
5 ноября 2011, 19:39
Негатив О Нейтрал О
Позитив О Негатив О Нейтрал О
Позитив О Негатив О Нейтрал О
Позитив О Негатив О Нейтрал О
5 ноября 2011, 14:33
Позитив О Негатив О
Рис. 4. - таблица с данными комментариев Для дальнейшего анализа графа производится экспорт сформированной таблицы в один из поддерживаемых форматов. Для экспорта следует воспользоваться кнопкой ХЬБ, находящейся под таблицей, рис. 5.
Это партии, которые хотят попасть в Думу, должны озаботиться организацией наблюдения http://bel-ok.livejoumal.com/566067.htnilWh гead=1481779 Позитив | 0
09/11/2011 -00:37 bel_ok http://bel-ok.livejournal.com/ bel_ok Это партии, которые хотят попасть <Ь>в</Ь> <Ь>Думу</Ь>, должны озаботиться организацией наблюдения за ходом <Ь>выборов</Ь> и подсчетом голосов. 7 ноября 2011, 23:20 Негатив 0 Нейтрал 0
123456789.. . следующая > последняя »
□
Рис. 5. - кнопки экспорта таблицы В процессе экспорта можно наблюдать за его прогрессом: отображается время, которое необходимо системе для формирования файла и процент выполнения, рис. 6.
Рис. 6. - процесс экспорта данных Результат экспорта - файл, который следует сохранить для дальнейшего анализа графа, рис. 7.
Рис. 7. - результат экспорта Реализации технологии мониторинга агитационных действий с помощью разработанной модели и с использованием описанного алгоритма будут полезны на разных этапах мониторинга социальных сетей и избирательного процесса - как во время избирательных кампаний, так и в периоды между ними. Также возможно применение системы сбора данных и формирования графа в любых сферах деятельности, где структура может быть представлена в виде графа с четко выраженными узлами и связям между ними.
Литература
1. Меркулова, Т.В. Моделирование динамики пользователей социальных сетей [Электронный ресурс] / Т.В. Меркулова, Е.Ю. Кононова. http://www.cyber.kharkov.ua/ соп!еп11та§е8/ 15.model.soc.net.pdf - Загл. с экрана. - Яз. рус.
2. Губанов Д.А. Социальные сети: модели информационного влияния, управления и противоборства [Текст] / Под ред. чл.-кор. РАН Д.А. Новикова / Д.А. Губанов, Д.А. Новиков, А.Г. Чхартишвили. - М.: Изд-во физ.-мат. лит., 2010. - 228 с.
3. Сайт сервиса Яндекс.Поиск по блогам [Электронный ресурс] / 2011. Режим доступа: http://blogs.yandex.ru, свободный. — Загл. с экрана. — Яз.рус.
4. Семантический анализ текста онлайн [Электронный ресурс] / 2011. Режим доступа: http://advego.ru/text/seo, свободный. — Загл. с экрана. — Яз.рус.