Научная статья на тему 'АЛГОРИТМ МОНИТОРИНГА БЛОГОСФЕРЫ НА ПРЕДМЕТ ОТНОШЕНИЯ К ПОЛИТИЧЕСКИМ ДЕЯТЕЛЯМ'

АЛГОРИТМ МОНИТОРИНГА БЛОГОСФЕРЫ НА ПРЕДМЕТ ОТНОШЕНИЯ К ПОЛИТИЧЕСКИМ ДЕЯТЕЛЯМ Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
185
38
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
TEXT MINING / АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА / КОНТЕНТ-АНАЛИЗ / МЕДИА-АНАЛИТИКА

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Андросов Алексей Юрьевич, Бородащенко Антон Юрьевич, Кирюхина Анастасия Андреевна

Предложен алгоритм мониторинга блогосферы с применением контент-анализа публикаций блогов, предназначенный для определения общественного мнения относительно политических лидеров государств.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — Андросов Алексей Юрьевич, Бородащенко Антон Юрьевич, Кирюхина Анастасия Андреевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

BLOGOSPHERE MONITORING ALGORITHM ON THE SUBJECT OF RELATIONSHIP TO POLITICAL ACTORS

In the article an algorithm for monitoring the blogosphere using content analysis of blog publications is proposed, designed to determine public opinion regarding political leaders of states.

Текст научной работы на тему «АЛГОРИТМ МОНИТОРИНГА БЛОГОСФЕРЫ НА ПРЕДМЕТ ОТНОШЕНИЯ К ПОЛИТИЧЕСКИМ ДЕЯТЕЛЯМ»

УДК 004.912

АЛГОРИТМ МОНИТОРИНГА БЛОГОСФЕРЫ

НА ПРЕДМЕТ ОТНОШЕНИЯ К ПОЛИТИЧЕСКИМ ДЕЯТЕЛЯМ

А.Ю. Андросов, А.Ю. Бородащенко, А. А. Кирюхина

Предложен алгоритм мониторинга блогосферы с применением контент-анализа публикаций блогов, предназначенный для определения общественного мнения относительно политических лидеров государств.

Ключевые слова: text mining, автоматическая обработка текста, контент-анализ, медиа-аналитика.

В эпоху цифровизации общества с каждым годом наблюдается увеличение числа пользователей сети Интернет. Как показывают социологические исследования [1], за последние десять лет люди чаще пользуются такими источниками получения информации, как новостные сайты в интернете, форумы, блоги и социальные сети.

Тема политики занимает лидирующие позиции в интересах общества [1]. Средства массовой информации активно участвуют в составлении представлений о политической обстановке в государстве и деятельности высших должностных лиц. Однако в наши дни Интернет вытесняет традиционные СМИ на второй план в системе регулировании общественного сознания. Социальные сети, форумы и блоги становятся новыми механизмами в формировании мнения о политических деятелях.

Имидж субъектов политической деятельности - это образ, который сформировался в общественном сознании. Компонентами политического имиджа являются личная привлекательность, биография (легенда), характер, стиль поведения, идеи, образ мысли и деятельность. Составляющие имиджа политического лидера можно формировать с помощью средств массовой информации, средств агитации и пропаганды.

Блоги являются общедоступной платформой для самовыражения, они могут содержать и проправительственные высказывания, и оппозиционные. Авторы, высказывающиеся в поддержку власти, формируют положительные представления о политических лидерах, а антиправительственные блоггеры могут оказывать негативное влияние на мнение о должностных лицах.

Молодые люди чаще посещают блоги и социальные сети, чем старшее поколение, а именно молодежь легко поддается манипуляциям сознания. Это вызывает необходимость мониторинга блогов на предмет выявления ложной или пропагандистской информации, оказывающей негативное влияние на мнение о высших должностных лицах, государственных мероприятиях, важных событиях общественной жизни.

Текстовая информация является основой коммуникации в блогах, поэтому для исследования их содержимого применимы методы анализа текста (рис. 1).

Контент-анализ - метод анализа содержания текста, который заключается в выделении категорий анализа и подсчета их появления в информационном массиве.

Интент-анализ - подход к изучению предметных направленностей субъекта на некоторый объект. Метод заключается в выборе обсуждаемых тем, определении связей между объектами, оценке групп объектов и подсчета интегральных значений для каждого объекта.

Дискурс-анализ - набор техник толкования текстов как продуктов речевой деятельности при определенных общественно-политических обстоятельствах.

Фоносемантический анализ - исследование текста на основе его звучания без учета содержания.

Нарративный анализ - соотнесение реальных событий с написанными в тексте. Оценивание происходит по категориям субъект-действие-объект.

Графематический анализ является основой для последующего морфологического и синтаксического анализа. С его помощью происходит разделение текста, выделение устойчивых выражений, поиска специфичных слов, предложений, абзацев.

Морфологический анализ служит для определения множества морфологических интерпретаций слов текста, которые состоят из набора граммем, леммы и морфологической части речи.

Рис. 1. Методы анализа текста

Синтаксический анализ предоставляет возможность получить синтаксическую структуру предложений в виде дерева зависимостей. Заключается в сопоставлении последовательности лексем языка и формальной грамматикой.

Семантический анализ направлен на построение семантической структуры предложения, которая состоит из узлов и отношений.

Экспертная оценка текста включает в себя экспертизы, проводимые в различных целях [2].

Задача мониторинга блогосферы решается различными системами медиа-аналитики, анализа СМИ и социальных сетей, сервисах анализа репутации бренда, в которых используются совокупность методов анализа текста. Приведем примеры таких информационных систем:

1. Brand Analytics - это онлайн-сервис мониторинга и проведения медиа-анализа СМИ, способствующий актуализации маркетинговых активностей и позиционирования бренда.

2. Медиа-сервис СКАН - это система комплексного управления репутацией и анализа новостей, позволяющая отслеживать сообщения в СМИ и соцсетях в режиме реального времени.

3. Медиалогия для SMM - это интеллектуальный онлайн-сервис анализа социальных медиа и интернет СМИ, позволяющий автоматически отслеживать интересующие события на основании настроенной пользователем фильтрации.

4. Онлайн-сервис IQBuzz - это система онлайн-мониторинга с возможностью углубленного анализа информации на базе сообщений из интернет-медиа: социальных сетей, Интернет-СМИ, блогов, онлайн-видео.

5. Онлайн-сервис Angry Analytics - это система для мониторинга и аналитики соцмедиа с целью обеспечения задач клиентского сервиса [3].

В рассмотренных программных продуктах используется метод контент-анализа, однако системы не имеют бесплатных версий, а пробные и демо-версии имеют ограничения реализуемых возможностей и поэтому целесообразно разработать алгоритм, выполняющий задачи мониторинга блогосферы, и который впоследствии может быть интегрирован в ведомственные системы.

Для решения задачи мониторинга блогосферы на предмет отношения к политическим деятелям целесообразно применить метод контент-анализа. Выбор сделан исходя из того, что данный метод широко используется для решения схожих задач, понятен и удобен в использовании.

Контент-анализ - метод качественно-количественного анализа содержания документов с целью выявления или измерения различных фактов и тенденций, отраженных в этих документах.

В основе метода - система категоризации, согласно которой и происходит количественный анализ языковых единиц, например, частота встречаемости слов [4].

В практическом применении контент-анализа выделяют несколько стадий (рис.2).

I. Выбор текстов

Кодирование текстов

Интерпретация результатов

• Выбор источников,

подлежащих изучению, определяется набором заданных критериев

• Выбор сообщений:

ограниченная выборка, взятая из большего массива информации

• Представление результатов в виде таблиц, диаграмм и графиков

• Анализ данных

в соответствии с целями и задачами конкретного исследования

• Выявление единиц анализа (отдельный элемент или признак того сообщения, которое изучается)

• Выявление единиц счета (могут совпадать со смысловыми единицами или носить специфический характер)

• Процедура подсчета

(приемы классификации по выделенным группировкам)

Рис. 2. Существующий процесс контент-анализа

В начале исследования формулируются тема, задачи и предположения, выбираются категории анализа - наиболее общие, ключевые понятия, соответствующие задачам анализа. На практике наиболее часто пользуются системой категорий - тема, автор, цели, герой, жанр, знак.

Когда категории сформулированы, выбирается единица анализа -отдельная часть текста или лингвистическая единица речи, которые служат признаком объекта исследования.

Зачастую в качестве единиц анализа выбираются предложение, суждение, тема, автор, герой, социальная ситуация, сообщение в целом. В сложных видах контент-анализа могут использоваться не одна, а несколько единиц анализа. Изолированно взятые единицы анализа могут быть неправильно истолкованы, поэтому целесообразно рассматривать более широкие лингвистические или содержательные структуры, контекстуальные единицы.

Для количественного анализа необходимо установить единицу счета - величину взаимосвязи текстовых и нетекстовых явлений, такие как частота их появления: число строк, площадь в кв. см, количество рисунков с определенным сюжетом, минуты, время вещания, длительность трансляции по ТВ [5].

Результаты подсчета чаще всего оформляются в виде кодировочной таблицы. Ее тип определяется исследователем. Например, аналитик составляет таблицу [6], в которой каждая категория предполагает ряд признаков, по которым определяется содержание текста (рис. 3).

Единицы анализа Единицы анализа Единицы счёта Единицы счёта

Категории Подкатегории Частота упоминания абсолютная, раз Частота упоминания относительная, %

1 Категория 01 подкатегория 15 32

02 подкатегория 7 15

03 подкатегория 25 53

Рис. 3. Пример таблицы контент-анализа

93

Структурная схема процесса контент-анализа блогосферы на предмет отношения к политическим деятелям, включающая 4 этапа, представлена на рис. 4.

Этап 1 Этап 2 Этап 3 Этап 4

Рис. 4. Структурная схема процесса контент-анализа блогосферы

На первом этапе загружается массив публикаций из блогов и выбор документов. На втором этапе происходит разделение каждого текста на отдельные слова для дальнейших операций проверки в словарях тональности и рубрик. На третьем этапе по результатам подсчетов попадания слов в словари подводится итог за текст каждой публикации. На четвертом этапе данные представляются в виде вычисленных процентов и построенных графиков, по виду которых можно сделать выводы об отношении авторов блогов к политическим субъектам и проследить во времени динамику изменения заинтересованности по темам.

На основе рассмотренной схемы разработан алгоритм мониторинга блогосфе-ры (рис.5).

Рис. 5. Алгоритм мониторинга блогосферы

94

В блоке 1 происходит загрузка массива публикаций блогов. В блоке 2 совершается выбор текстового документа для анализа в программе. В блоке 3 весь текст разделяется на отдельные слова, а в блоке 4 отсеиваются служебные и выделяются ключевые слова. В блоке 5 происходит поиск выделенных из текста слов в словарях положительной и отрицательной тональности и рубрикаторе. В блоках 6-7 осуществляется подсчет количества слов, найденных в тональных словарях, и вычисление соотношения положительных и отрицательных оценок к общему числу значимых слов. В блоке 8 считается процентное соотношение количества ключевых слов, относящихся к каждой категории (рубрике). В блоке 9 отражаются полученные коэффициенты и распределение слов по категориям в табличном и графическом виде, что позволяет сформулировать выводы о содержании публикации блога и отношении автора к интересующей теме.

На основе алгоритма был разработан макет программы мониторинга блогосферы (рис. 6).

Файл Словари Анализ Помощь

Гос.деятель Тема Частота %

Москва 2 8 "

Политика S 32

Собянин Власть 7 28

Реконструкция г 8

Снос il 44

Вакцинация i 4 g

-.¡-тельные

Отрицательные! §

1 - несправедливый

2 - недовольный

3 - небезопасный_

Гос.деятель Тема Частота * 1

Газпром 14 ш i

Экономика 9 36

Миллер Северный поток 9 36

Газопровод 12 48

Санкции 3 12

Строительство 4 к m

Тональность 2

Положительные

Рис. 6. Экранная форма макета программы

Анализируя полученные результаты, можно прийти к выводу, что в загруженном массиве публикаций блогосферы большая часть сообщений о программе мэра Москвы Сергея Собянина по реновации имеет отрицательную тональность, что связано с нежеланием жителей переселяться против собственной воли или в другие районы города. Сообщения относительно проекта «Северный поток» носят положительный характер, поскольку строительство газопровода имеет множество политических и экономических плюсов для страны.

Таким образом, в статье предложен алгоритм мониторинга блогов, который дает возможность определить отношение автора к политическим субъектам, получивший практическую проверку на программном макете, а также повысить полноту и точность процесса мониторинга блогосферы.

Список литературы

1. ФОМ: Результаты опросов общественного мнения о политике, экономике и повседневной жизни россиян. [Электронный ресурс] URL: http s ://fom. ru/ SMI-i -internet/14256 (дата обращения: 08.10.2020).

95

2. Митина О.В., Евдокименко А.С. Формализованные методы исследования текстов: опыт применения к анализу технической документации // Вестник Томского Государственного Университета: сб. статей. Томск, 2010. С. 122-124.

3. Системы медиа-аналитики (СМА). [Электронный ресурс] URL: https://soware.ru/categories/media-analytics-systems (дата обращения: 12.10.2020).

4. Семёнова А.В., Корсунская М.В. Контент-анализ СМИ: проблемы и опыт применения / Под ред. В.А. Мансурова. М.: Институт социологии РАН, 2010. 324 с.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Денисенко В.Н., Чеботарева Е.Ю. Современные психолингвистические методы анализа речевой коммуникации: учебное пособие. М.: РУДН, 2008. 258 с.

6. Интернет-энциклопедия Википедия. [Электронный ресурс] URL: https://ru.wikipedia.org/ (дата обращения: 12.12.2020).

Андросов Алексей Юрьевич, канд. техн. наук, сотрудник, saperl [email protected], Россия, Орел, Академия Федеральной службы охраны Российской Федерации,

Бородащенко Антон Юрьевич, канд. техн. наук, сотрудник, [email protected], Россия, Орел, Академия Федеральной службы охраны Российской Федерации,

Кирюхина Анастасия Андреевна, сотрудник, nastya humm amail.ru, Россия, Орел, Академия Федеральной службы охраны Российской Федерации

BLOGOSPHERE MONITORING ALGORITHM ON THE SUBJECT OF RELATIONSHIP TO POLITICAL ACTORS

A.Yu. Androsov, A.Yu. Borodaschenko, A.A. Kiryukhina

In the article an algorithm for monitoring the blogosphere using content analysis of blog publications is proposed, designed to determine public opinion regarding political leaders of states.

Key words: text mining, automatic text processing, content analysis, media analytics.

Androsov Aleksei Yurevich, candidate of technical sciences, researcher, saperl [email protected], Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation,

Borodaschenko Anton Yurevich, candidate of technical sciences, researcher, bay55amail. ru, Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation,

Kiryukhina Anastasia Andreevna, researcher, nastya_bumm@mail. ru, Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation

i Надоели баннеры? Вы всегда можете отключить рекламу.