Научная статья на тему 'Алгоритм определения тональности публикаций СМИ к должностным лицам государственных органов'

Алгоритм определения тональности публикаций СМИ к должностным лицам государственных органов Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
974
76
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
TEXT MINING / АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА / СЕНТИМЕНТ-АНАЛИЗ / ТОНАЛЬНОСТЬ ТЕКСТА / AUTOMATIC TEXT PROCESSING / SENTIMENT ANALYSIS / TEXT TONALITY

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Андросов Алексей Юрьевич, Бородащенко Антон Юрьевич, Леонидова Ксения Сергеевна

Предложен алгоритм определения тональности публикаций средств массовой информации по запросу пользователя, предназначенный для определения тональности отношения автора публикации к должностным лицам органов государственной власти.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — Андросов Алексей Юрьевич, Бородащенко Антон Юрьевич, Леонидова Ксения Сергеевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ALGORITHM FOR DETERMINING THE TONE OF MEDIA PUBLICATIONS TO PUBLIC OFFICIALS

An algorithm for determining the tone of mass media publications at the user's request is proposed. This algorithm is designed to determine the tone of the author's attitude to public officials.

Текст научной работы на тему «Алгоритм определения тональности публикаций СМИ к должностным лицам государственных органов»

УДК 004.912

АЛГОРИТМ ОПРЕДЕЛЕНИЯ ТОНАЛЬНОСТИ ПУБЛИКАЦИЙ СМИ К ДОЛЖНОСТНЫМ ЛИЦАМ ГОСУДАРСТВЕННЫХ

ОРГАНОВ

А.Ю. Андросов, А.Ю. Бородащенко, К.С. Леонидова

Предложен алгоритм определения тональности публикаций средств массовой информации по запросу пользователя, предназначенный для определения тональности отношения автора публикации к должностным лицам органов государственной власти.

Ключевые слова: text mining, автоматическая обработка текста, сентимент-анализ, тональность текста.

Для поддержки деятельности государственных органов в современных условиях, необходимо обеспечивать их достоверной и независимой информацией о социально-экономических и общественно-политических процессах, происходящих в регионах (субъектах) Российской Федерации, в том числе информацией об отношении авторов публикаций, к должностным лицам федерального и регионального уровней. Одним из основных способов получения такой информации является анализ публикаций средств массовой информации (СМИ).

Задача анализа тональности текстов в отношении должностных лиц органов государственной власти, заключается в выявлении правдоподобного и точного отношения автора публикаций к деятельности представителей власти. Например, при планировании поездок Президента РФ в регионы страны крайне необходимо учесть и довести до него, отношение населения того или иного субъекта к представителям законодательной и исполнительной власти, к Президенту и его полномочным представителям. Все это свидетельствует об актуальности рассматриваемой задачи.

Значительное число открытых СМИ, высокие требования к качеству информации, предоставляемой потребителю, обуславливают необходимость применения современных технологий обработки текстовых данных, таких как Data, Text и Web Mining.

Под Text Mining понимается технология выбора из текста наиболее ключевой и значимой для пользователей информации [1], это вид поиска, который в отличии от традиционных подходов не только находит списки документов, формально релевантных запросам, но и обеспечивает понимание смысла текстов, что облегчает пользователям «просеивание» огромного количества неструктурированной информации [2].

В настоящее время одним из направлений автоматической обработки текстов является анализ тональности (сентимент-анализ, sentiment analysis) [3] - подраздел Text Mining, обеспечивающий автоматическое извлечение субъективных мнений из текста. Данная задача требует применения известных методов не только поиска информации, но и вычислительной лингвистики, исследует не столько содержание текста, сколько его то-

47

нальность. Говоря о тональности текста, следует выделять три параметра: субъект тональности (автора текста), тональную оценку и объект тональности (предмет, о котором высказывается мнение, тональная оценка).

Таким образом, основной задачей сентимент-анализ (СА) является автоматическое структурирование текстовых данных и определение отзывов на них, т.е. объектом изучения СА являются выраженные в текстовой форме эмоции, мнения и оценки людей о каких-либо сущностях [4].

Для решения задачи автоматического определения тональности текста на практике используются следующие методы [5]:

1) на основе правил с использованием шаблонов (rule-based with patterns). Подход заключается в генерации правил, на основе которых будет определяться тональность текста. Для этого текст разбивается на слова или последовательности слов (^-grams). Затем полученные данные используются для выделения часто встречающихся шаблонов, которым присваивается положительная или отрицательная оценка. Выделенные шаблоны применяются при создании правил вида «ЕСЛИ «условие», ТО «заключение»»;

2) машинное обучение без учителя (unsupervised learning). Данный подход основан на идее, что наибольший вес в тексте имеют термины, которые чаще встречаются в этом тексте и в то же время присутствуют в небольшом количестве текстов всей коллекции. Выделив данные термины и определив их тональность, можно сделать вывод о тональности всего текста;

3) машинное обучение с учителем (supervised learning). В этом подходе требуется наличие обучающей коллекции размеченных в рамках эмо-тивного пространства текстов, на базе которой строится статистический или вероятностный классификатор (например, байесовский);

4) гибридный метод (hybrid method). Данный подход сочетает все или несколько из рассмотренных выше принципов и заключается в применении классификаторов на их основе в определенной последовательности;

5) метод, основанный на теоретико-графовых моделях. Метод основан на предположении, что слова в документе не равнозначны. Некоторые слова текста имеют большой вес, а значит сильно влияют на тональность и наоборот.

Существует довольно большое число готовых систем анализа тональностей и поиска мнений, как отечественного, так и зарубежного производства. Рассмотрим некоторые из них [5]:

1) Stanford NLP - открытая демо-модель Стэнфордского университета, позволяющая определять тональность для рецензий на фильмы. Работа системы основана на применении рекурсивных нейронных сетей. Поддерживает тексты исключительно на английском языке.

2) Sentiment14 - решение для анализатора тональностей системы микроблогов Twitter. Позволяет получить пользователю в ответ на свой запрос подборку позитивных, негативных или нейтральных микросообщений. Визуализирует соответствующий результат при помощи инфографи-ки. Сервис работает только с английским и испанским языками.

48

3) 30dB - свободная платформа. Аналогично Sentiment14 принимает на вход запрос и выдает эмоциональные мнения относительно полученной темы. В качестве данных для анализа используются такие социальные сети как Twitter и Facebook, а также Google+. В качестве дополнительной опции позволяет сравнивать эмотивную составляющую двух введенных тем сразу. Поддерживает только английский язык.

4) ВААЛ [6] - российская разработка, позволяющая прогнозировать эффект неосознаваемого воздействия текстов на массовую аудиторию, анализировать тексты с точки зрения такого воздействия, выявлять лич-ностно-психологические качества авторов текста, осуществлять эмоционально-лексический и контент-анализ текстов, производить автоматическую категоризацию текста.

5) «Аналитический курьер» и «X-files» - разработаны компанией «Ай-Теко» [7]. Компонент определения тональности текста реализует метод, основанный на словарях и правилах. Данная система выдает пользователю массив размеченных предложений. В предложениях размечаются объекты тональности и цепочка слов, несущая в себе тональность для каждого предложения. Для подсчета общей тональности используется ряд специальных правил, а тональность оценивается по тернарной шкале позитивный/ негативный /нейтральный.

Таким образом, одним из основных способов решения данной задачи, является метод на основе правил с использованием словарей, по которым в текстах, полученных по материалам СМИ, выделяются наиболее часто встречающиеся слова и классифицируются по соответствующим признакам. Не смотря на имеющиеся недостатки данного способа проведения тонального анализа массива документов (необходимость формирования словарей для каждой предметной областей, привлечение специалистов-филологов и т.д.), он позволяет получить высокие значения полноты и точности анализа.

Задача построения тонального портрета должностного лица, может быть решена за четыре этапа (рис. 1). Для проведения СА было составлено три словаря по общественно-политической тематике, которые включают в себя около 300 основ слов положительно окрашенной лексики, 390 основ отрицательно окрашенных слов и 240 нейтрально окрашенных.

Г" ---2-й этап----

Лемматизация

*

Морфологичес-

кий анализ

г

Определение

частей речи

1

---3-й этап---

Разметка слов по словарям тональной лексики

I

Объединение слов в тональные цепочки

Выделение

объекта тональности

Су м м иро ван ие оценок слов предложения

Построение тональной оценки

----4-й этап----

Интерпретация результатов

' I

Вывод результатов

Рис. 1. Структурная схема задачи определения тональности текста

49

В состав словарей входят, например, такие слова: словарь положительной тональности:

- авторитетный;

- адекватный;

- благодарный;

- внимательный;

- достойный;

- защищенный;

- гарантированный;

- дружелюбный;

- и др.

словарь нейтральной тональности:

- абсолютный;

- вербальный;

- государственный;

- гражданский;

- деловой;

- законный;

- идеологический;

- коммунистический;

- мобильный;

- основной;

- и др.

словарь отрицательной тональности:

- абсурдный;

- безнравственный;

- варварский;

- губительный;

- дискриминирующий;

- злоупотребляющий;

- коррупционный;

- катастрофический;

- ложный;

- и др.

В соответствии со схемой производится поиск элементов из словаря в тексте, и в случае обнаружения слову приписывается соответствующая оценка «+ 1», «- 1» или «= 1». После того как будет проанализирован весь текст, делается вывод о тональности отношения автора документа или публикации СМИ к представителям государственных органов.

В соответствии со схемой на первом этапе происходит загрузка информации из СУБД, которая пополняется и обновляется путем загрузки публикаций СМИ. На втором этапе работает лингвистический партер, выполняющий лемматизацию и морфологический анализ, определяющий части речи каждого слова. Затем все слова размечаются по словарным спискам тональной лексики (третий этап). После этого запускается первичный синтаксический анализ: слова и словосочетания объединяются в тональные

50

цепочки. Далее в предложении выделяются объекты тональности. На последующем этапе суммируются оценки каждого слова предложения. Исходя из соотношения негативной, позитивной и нейтральной составляющей оценки определяется тональность текстового документа в отношении выделенного объекта.

На основе предложенной схемы, разработан алгоритм определения тональности публикаций СМИ (рис. 2).

Рис. 2. Алгоритм определения тональности публикаций СМИ

Блок 1 используется для загрузки массива публикаций средств массовой информации. В блоке 2 осуществляется непосредственный выбор документа для загрузки в программный макет. Далее в блоках 3-4 осуществляется разбиение текста на отдельные слова и выделение из них ключевых. В блоке 5 происходит сравнение выделенных ключевых слов из предложенных системе публикаций, со словами имеющимися в тональных словарях, а уже в блоке 6 им присваиваются конкретные тональные значения. На следующих этапах, в блоках 7-8, в результате выявления единиц, имеющих тональную окраску, происходит расчет процентного соотношения положительных, нейтральных и отрицательный слов. После этого, на следующем этапе в блоке 9, выбранной для анализа публикации присваивается вероятностная тональная оценка, по которой пользователь про-

51

граммного продукта делает заключение. В блоке 10 производится вывод о тональности анализируемого текста, в котором наглядно показывается, какие слова несут эмоциональную нагрузку, так как они окрашены в соответствующие цвета (зеленый - положительная тональность, синий -нейтральная, красный - негативная).

Экранные формы пользовательского интерфейса прототипа программного модуля сентимент-анализа представлены на рис. 3.

Программа анализа тональности СМИ Файл Словари Слова в текстах Анализ Будут предприняты все меры, чтобы курское здравоохранение изменилось к лучшему

Такой вывод озвучил врио губернатора Курской области Роман Старовойт по итогам встречи с руководителем Федеральной службы по надзору в сфере здравоохранения Михаилом Мурашко.

Руководитель Росздравнадзора прибыл в регион по приглашению врио губернатора, чтобы обеспечить экспертную оценку сферы здравоохранения Курской области и выработать предложения по дальнейшей работе.

Напомним, что в конце прошлого года в адрес главы региона поступил целый ряд замечаний от областной прокуратуры. Нам было очень важно мнение наших федеральных коллег, чтобы понять на каких основных направлениях необходимо сконцентрировать свои действия. Мы детально рассмотрели все замечания и предложения, их достаточно много, работа предстоит серьезная. Уверен, что нам удастся за короткий промежуток времени основные проблемы решить, - подчеркнул Роман Старовойт.

По словам Михаила Мурашко, визиту в Курскую область предшествовал детальный анализ показателей и состояния организаций здравоохранения региона.

В ходе рабочей поездка глава Росздравнадзора ознакомился с деятельностью онкологического и наркологического диспансеров, перинатального центра, областной клинической больницы. Он высоко оценил и состояние учреждений, и оснащение их современным оборудованием, и подготовку кадров, подчеркнув, что курский профильный вуз считается одним из лучших в стране.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Но есть и проблемные моменты. Один из них - система построения помощи, начиная от первого звена. Иными словами, сельское население должно иметь быстрый доступ, в том числе и к медицинской помощи областных организаций. А областные учреждения в свою очередь должны активнее работать с ЦРБ, уделять особое внимание тяжелым пациентам, оказывать помощь по отбору нуждающихся в плановом лечении. Как пример эффективной работы в этом направлении руководитель Росздравнадзора привел перинатальный центр, который обладает всеми необходимыми компетенциями.

Высокую оценку Михаил Альбертович дал и онкологическому диспансеру. По его словам, после завершении строительства, это будет одно из лучших учреждений в стране, укомплектованное ультрасовременным оборудованием мирового уровня.

В ходе встречи прозвучало, что в ближайшее время для региона закупят 12 мобильных комплексов, которые будут выезжать в отдаленные населенные пункты для проведения ранней диагностики заболеваний и консультирования. Также планируется закупить дополнительное ангиографическое оборудование, что позволит эффективнее обслуживать пациентов, которые получают хирургическую помощь при остром инфаркте миокарда.

Большинство имеющихся в регионе проблем носят организационный характер и вполне преодолимы. Что касается финансовой составляющей, то по поручению Президента РФ в рамках национального проекта в сфере здравоохранения будут выделяться серьёзные федеральные средства. Они будут направлены, как на создание инфраструктуры, так и впервые на системное финансирование текущих расходов. И с учетом возможностей региона это даст хороший результат, - выразил уверенность Михаил Мурашко.

Кэф +: 0,46 Кэф -: 0,16 Кэф = : 0,38

1 -IЧ-"-1

Рис. 3. Экранная форма прототипа программы

Таким образом, в статье предложен алгоритм определения тональности публикаций СМИ к должностным лицам государственных органов, получивший практическую проверку на программном макете и позволяющий определить тональность отношения автора к должностным лицам, а также повысить полноту, точность и оперативность обработки публикаций СМИ.

Список литературы

1. Ландэ Д.В. Основы интеграции информационных потоков. Киев, 2006. 240 с.

2. Ландэ Д.В., Снарский, А. А., Безсуднов, А.В. Интернетика. Навигация в сложных сетях. Модели и алгоритмы. Либроком, 2009. 264 с.

3. Посевкин Р.В. Автоматизация сентимент-анализа текста: монография. LAP Lambert Academic Publishing, 2014. 76 с.

4. Позельская А.Г., Соловьев А.Н. Метод определения эмоций в текстах на русском языке // Материалы Международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2011». М.: Изд-во РГГУ, 2011. 510 с.

5. Клековкина М.В., Котельников Е.В. Метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики [Электронный ресурс]. URL: http://ceur-ws.org/Vol-934/paper15 .pdf (дата обращения: 10.01.2020).

6. ВААЛ - Система контент-анализа текста [Электронный ресурс] URL: http://www.vaal.ru/ (дата обращения: 10.12.2019).

7. Система извлечения знаний из текстов «Аналитический курьер». Айтеко. [Электронный ресурс]. URL: http://www.i-teco.ru/ac.html (дата обращения: 10.12.2019).

Андросов Алексей Юрьевич, канд. техн. наук, сотрудник, pioneerl 76@yandex.ru, Россия, Орел, Академия Федеральной службы охраны Российской Федерации,

Бородащенко Антон Юрьевич, канд. техн. наук, сотрудник, bay55@mail.ru, Россия, Орел, Академия Федеральной службы охраны Российской Федерации,

Леонидова Ксения Сергеевна, сотрудник, leonidovaadispostable. com, Россия, Орел, Академия Федеральной службы охраны Российской Федерации

ALGORITHM FOR DETERMINING THE TONE OF MEDIA PUBLICATIONS TO PUBLIC

OFFICIALS

A.Yu. Androsov, A.Yu. Borodascchenko. K.S. Leonidova

An algorithm for determining the tone of mass media publications at the user's request is proposed. This algorithm is designed to determine the tone of the author's attitude to public officials.

Key words: text mining, automatic text processing, sentiment analysis, text tonality.

Androsov Aleksei Yurevich, candidate of technical sciences, researcher, pioneerl 76ayandex.ru, Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation,

Borodaschenko Anton Yurevich, candidate of technical sciences, researcher, bay55amail. ru, Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation,

Leonidova Kseniya Sergeevna, researcher, leonidovaadispostahle.com, Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation

i Надоели баннеры? Вы всегда можете отключить рекламу.