Научная статья на тему 'Система автоматизированного построения графа социальной сети'

Система автоматизированного построения графа социальной сети Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
438
103
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГРАФ СОЦИАЛЬНОЙ СЕТИ / ПОСТРОЕНИЕ ГРАФА / ВЫБОРКА ДАННЫХ / МОДУЛЬ FEEDS / ИМПОРТ КОММЕНТАРИЕВ / ГРАФ КОММЕНТАРИЕВ / DRUPAL / SOCIAL NETWORK GRAPH / WEB-PAGE PARSER / DRUPAL CMF / FEEDS MODULE / COMMENTS IMPORTER / COMMENTS GRAPH

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Носко Виктор Ильич

Рассматривается устройство и работа программной платформы автоматизированного сбора данных о графе социальной сети с применением модуля парсинга веб-страниц социальных сетей в Интернет.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — Носко Виктор Ильич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The system of automated construction of the social network graph

To analyze social network graph effectively one needs a web-based tool, to parse network data automatically. In the first part of the paper we descibe a structre of the data we gain, including who comments whom information. Then we explain usage of Drupal CMF with Feeds module to parse network data and save it to database. The data obtained consist of name of the comment author, date posted, journal author, comment text, title of the comment. Prepared graph can be exported for further use.

Текст научной работы на тему «Система автоматизированного построения графа социальной сети»

Система автоматизированного построения графа социальной сети

В.И. Носко

На сегодняшний день существует некоторое количество автоматизированных систем классификации и анализа интернет-текстов. Такая услуга оказалась весьма востребована на ниве интернет-продаж, такие сервисы предлагают своим клиентам, например, автоматическую индикацию тональности сообщений. Основаны такие системы, как правило, на соотнесении имеющего текстового фрагмента с заранее составленными тональными словарями.

Безусловно, это направление будет интенсивно развиваться в ближайшие годы, но на данный момент наиболее адекватным инструментом анализа представляется ручная обработка данных мониторинга социальных медиа.

В Северо-Кавказском научном центре высшей школы Южного федерального университета (далее СКНЦ ВШ ЮФУ) разработана программная платформа автоматизированного построения графа социальной сети при помощи обработки интернет страниц социальных сетей. Система применялась для автоматизированного сбора данных в период избирательной кампании в Государственную думу в 2011 году.

Для генерации таблицы упоминаний обработка страниц социальных сетей и блогосферы (парсинг) реализуется с применением модуля Feeds для CMF Drupal с плагином SimpleHTMLDOMparser. В процессе парсинга система обращается к странице с информацией в Интернет и производит выборку данных из DOM дерева HTML в соответствии с набором тегов и каскадной таблицей стилей.

Рассмотрим конфигурацию модуля для импорта в систему комментариев пользователей. Система разработана таким образом, что позволяет разделять собираемую информацию на элементарные части, каждая из которых представляет собой отдельное поле в базе данных. Импорт производится гранулярно, что впоследствии дает возможность гибко фильтровать результаты. В набор собираемых данных (см. рис. 1 ) входят следующие экстракторы (Extractions):

- заголовок комментария;

- автор комментария - никнейм пользователя в сети или блоге;

- автор журнала - запись, к которой относится комментарий;

- комментарий - собственно текст;

- ссылка на комментарий;

- журнал комментатора;

- журнал автора поста;

- дата комментирования - актуальная дата размещения комментария в сети.

Рис. 1. - Настройки экспорта данных в модуле Feeds

Поиск данных производится иерархически:

1. Сначала система инспектирует Root node pattern (корневой образец) и определяет набор повторяющихся элементов на странице.

2. Затем в каждом из таких элементов ведется поиск соответствия паттерна экстрактора комбинации CSS-классов и НТМЕтегов.

В частности, для поля «Автор комментария» необходимо установить паттерн «ul[class='info b-hlist b-hlist-middot'] li a» с атрибутом «plaintext». Такой паттерн обеспечивает погружение в дерево DOM HTML и экспортирует все элементы, которые находятся в ненумерованном списке «ul» с классом «info b-hlist b-hlist-middot» и обернуты тегом «а» (см. рис. 2).

Рис. 2. - Настройка паттерна и атрибутов поля «Автор комментария» в модуле

Feeds

Каждый экспортируемый элемент в системе соответствует предустановленным полям типа материала Feed item (экземпляр фида). Таблица соответствия представлена на

рис. З.

Рис. 3. - Настройка паттерна и атрибутов поля «Автор комментария» в модуле

Feeds

После настройки всех необходимых параметров система начинает парсинг по выбранным ключевым словам. В результате в системе будет сформирована таблица с набором данных о комментариях, представленная на рис. 4: заголовок комментария, дата его импорта в систему, автор комментария, автор блога, к которому относится

комментарий, текст комментария, дата его публикации в сети Интернет, тональность (позитив, негатив, нейтрал), определяемая пользователем системы.

Таблица: комментарии пользователей

Заголовок Дата импорта - Автор комментария Автор журнала Комментарий Дата комментирования Тональность

Выборы. 09/11/2011 -00:37 krasnovski http://krasnovski.liyejournal.coni/ http://krasnovski.livejoumal.com/135924.html?thread=136180 мы требуем от президента Медведева отменить назначенные на <Ь>4</Ь> <Ь>декабря</Ь> <Ь>выборы</Ъ> <Ь>в</Ь> <Ь>Госдуму</Ь> РФ как противоречащие Конституции РФ - б ноября 2011, 12:48 Позитив 0 Негатив 0 Нейтрал 0

Отметим, что для участия в выборах в Государственную Думу партии «ЯБЛОКО» потребовалось

зависимости от выборов в думу.

09/11/2011 Дерево жизни

-00:37 http://atreeJivejoumal.com/

09/11/2011 kirill_markov

- 00:37 http://kirill-markov.livejoumal.com/

09/11/2011 aglazovskiy

- 00:37 hrttp://ailazotfskiv.livejournal.com/

Re: хомячки, т хомячки &gt;

09/11/2011

-00:37

09/11/2011

-00:37

http://mohar

v_otvete

http ://v-otvete. Iivejaurnal.com/

http://atree.livejournal.com/760300.html?thread=157002S Отметим, что для учэстая в <Ь>выборах</Ь> <Ь>в</Ь> Государственную <Ь>Думу</Ь> партии «ЯБЛОКО» потребовалось собрать 157 тысяч подписей по всей стране.

http://v-milov.livejournal.com/363267.htmlFthread-16712195 И все это вне зависимости от <Ь>выборов</Ь> <Ь>в</Ь> <Ь>думу</Ь>.

http://aglazovskiy.livejournal.com/16228.htinlPth read=65124 10 апреля <Ь>2011</Ь> года в Перу были <Ь>вы6оры</Ь>.

http://haeldar.livejoumal.com/1953226.html7th read =45345738 1. <b>B</b> <Ь>Думе</Ь> в своё время не то была представлена, не то участвовала в <Ь>выборах</Ь>, но не прошла (но зарегистрирована была точно)Партия любителей

http://navalny.livejournal.com/640646.html?thread=2697S7526 "На <Ь>выборах</Ь> <Ь>в</Ь> <Ь>Госдуму</Ь> победила партия "Единая Россия" с результатом 65%, при высокой явке избирателей (лохов, которые считают, что у них есть

5 ноября 2011, 19:39

Негатив О Нейтрал О

Позитив О Негатив О Нейтрал О

Позитив О Негатив О Нейтрал О

Позитив О Негатив О Нейтрал О

5 ноября 2011, 14:33

Позитив О Негатив О

Рис. 4. - таблица с данными комментариев Для дальнейшего анализа графа производится экспорт сформированной таблицы в один из поддерживаемых форматов. Для экспорта следует воспользоваться кнопкой ХЬБ, находящейся под таблицей, рис. 5.

Это партии, которые хотят попасть в Думу, должны озаботиться организацией наблюдения http://bel-ok.livejoumal.com/566067.htnilWh гead=1481779 Позитив | 0

09/11/2011 -00:37 bel_ok http://bel-ok.livejournal.com/ bel_ok Это партии, которые хотят попасть <Ь>в</Ь> <Ь>Думу</Ь>, должны озаботиться организацией наблюдения за ходом <Ь>выборов</Ь> и подсчетом голосов. 7 ноября 2011, 23:20 Негатив 0 Нейтрал 0

123456789.. . следующая > последняя »

Рис. 5. - кнопки экспорта таблицы В процессе экспорта можно наблюдать за его прогрессом: отображается время, которое необходимо системе для формирования файла и процент выполнения, рис. 6.

Рис. 6. - процесс экспорта данных Результат экспорта - файл, который следует сохранить для дальнейшего анализа графа, рис. 7.

Рис. 7. - результат экспорта Реализации технологии мониторинга агитационных действий с помощью разработанной модели и с использованием описанного алгоритма будут полезны на разных этапах мониторинга социальных сетей и избирательного процесса - как во время избирательных кампаний, так и в периоды между ними. Также возможно применение системы сбора данных и формирования графа в любых сферах деятельности, где структура может быть представлена в виде графа с четко выраженными узлами и связям между ними.

Литература

1. Меркулова, Т.В. Моделирование динамики пользователей социальных сетей [Электронный ресурс] / Т.В. Меркулова, Е.Ю. Кононова. http://www.cyber.kharkov.ua/ соп!еп11та§е8/ 15.model.soc.net.pdf - Загл. с экрана. - Яз. рус.

2. Губанов Д.А. Социальные сети: модели информационного влияния, управления и противоборства [Текст] / Под ред. чл.-кор. РАН Д.А. Новикова / Д.А. Губанов, Д.А. Новиков, А.Г. Чхартишвили. - М.: Изд-во физ.-мат. лит., 2010. - 228 с.

3. Сайт сервиса Яндекс.Поиск по блогам [Электронный ресурс] / 2011. Режим доступа: http://blogs.yandex.ru, свободный. — Загл. с экрана. — Яз.рус.

4. Семантический анализ текста онлайн [Электронный ресурс] / 2011. Режим доступа: http://advego.ru/text/seo, свободный. — Загл. с экрана. — Яз.рус.

i Надоели баннеры? Вы всегда можете отключить рекламу.