Key words: mathematical modeling, information processing, excavator, mining, bits, teeth, excavator bucket, research.
GrigoryevMaksim Sergeevich, student, [email protected], Russia, Tula, Tula State University
УДК 004.912
DOI: 10.24412/2071-6168-2022-2-252-258
РАЗРАБОТКА АЛГОРИТМА КОНТЕНТ-АНАЛИЗА ПУБЛИКАЦИЙ СРЕДСТВ МАССОВОЙ ИНФОРМАЦИИ О ДЕЯТЕЛЬНОСТИ ДОЛЖНОСТНЫХ ЛИЦ ГОСУДАРСТВЕННЫХ ОРГАНОВ
А.Ю. Андросов, А.Ю. Бородащенко, С.А. Дряблов, А.М. Карманеев
Предложен алгоритм контент-анализа публикаций средств массовой информации, освещающих деятельность должностных лиц государственных органов на предмет определения тональностиотношения к ним.
Ключевые слова: textmining, автоматическая обработка текста, контент-анализ.
Работа посвящена вопросуопределения отношения граждан кдеятельности должностных лиц государственных органовна основе публикацийсредств массовой информации. Данна-язадача являетсяэлементом системы мониторинга общественного мнения, проводимого социологическими агентствамина основе анализа документов СМИ.
В настоящее время средства массовой информации являются одним из инструментов формирования мнения населения. В газетах, журналах, на телевидении, в интернет-источниках освещаются события, происходящие во всех сферах нашей жизни. При этом ежегодно наблюдается увеличение числа пользователей сети Интернет. Люди все чаще пользуются такими источниками получения информации, как новостные сайты, форумы, блоги, в которых непрерывно формируются большие массивы текстовых сообщений, в том числе о деятельности должностных лиц государственных органов.Анализ публикаций СМИ, представляющий собой систематическое исследование содержания как первичных, так и вторичных источников данных, позволяет выявлять релевантную потребностям пользователя информацию, что и определяет актуальность решаемой задачи.
Значительное число открытых СМИ, высокие требования к качеству информации, предоставляемой заказчику, обуславливают необходимость применения современных технологий обработки текстовых данных, таких как Data,Web и TextMining.
Datamining-собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Основу методов Datamining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики [1].
WebMining- это подраздел методов интеллектуального анализа данных для автоматического обнаружения веб-документов и сервисов, извлечения знаний из контента документов или их описания из веб-ресурсов и выявления общих закономерностей в Интернет (рис. 1) [2].
Под TextMining - понимается технология выбора значимой (ключевой) информации для пользователя. Технология позволяет автоматизировать анализ больших объемов неструктурированной информации. TextMining- это вид поиска, основанный на статистических и линг-вистическихметодах, включающих методы искусственного интеллекта и обеспечивающих проведение смыслового анализа - понимание смысла текста [3].
252
Web Mining
1 F
Извлечение веб-контента Анализ использования веб-ре сур сов Извлечение веб-структур
• Текстовые документы • Гипертекстов ые документы • Структура ссылок • Журналы сервера • Журналы браузера
Рис. 1. Сравнение между категориями \VebMining по основным решаемым задачам
Современные систем TextMiningактивно применяют для выявления в тексте фактов, понятий, автоматической классификации и индексирования, создания аннотаций и рефератов (рис. 2). Также решаются задачипостроения тезаурусов и семантических карт.
Классификация
Построение
Кластеризация семантических
сетей
Суммаризация
Извлечение фактов, понятий
Ответ на запросы
Тематическое индексирование
Поиск по ключевым словам
Рис. 2. Основные элементы TextMining
Одним из элементов TextMining является контент-анализ, который заключаетсяв нахождения в тексте определенных содержательных понятий(единиц анализа), выявление частоты их встречаемости и её изменения во времени. Контент-анализ в рамках обработки и анализа электронных информационных массивов - относительно новое направление, которое предусматривает анализ наборов текстовых документов. Принято распределение методологий контент-анализа на две области: качественную и количественную. Основа количественного контент-анализа - частота появления в документах определенных характеристик содержания. Качественный контент-анализ основан на самом факте присутствия или отсутствия в тексте одной или нескольких характеристик содержания[4].Для решения задачи, контент-анализа публикаций средств массовой информации о деятельности высших должностных лиц, целесообразно применять количественныйметодпоиска по ключевым словами словосочетаниям.Существует довольно большое число коммерческих систем анализа, основанных на данном методе. Приведем примеры некоторых из них:
1) Key Collector - Программа поможет собрать и организовать семантическое ядро, избавит от рутины в процессах и подготовит отчеты по самым эффективным запросам. Программа поддерживает работу с десятками сервисов и позволяет получать данные более чем из 20 источников, включая популярные поисковые системы, системы аналитики и платные сервисы по подписке[5].
2) Магадан - программа для сбора ключевых слов от Яндекса. Составление семантического ядра, подготовка рекламных кампаний в контексте, маркетинговый анализ- всё это можно сделать в программе. Кстати, у Магадана есть две версии: бесплатная «LITE» и «PRO», которая стоит 1 500 рублей [6].
3) Keyso.so- инструмент для анализа поисковых запросов, в котором также есть бесплатная версия, в которой вы найдёте дополняющие фразы, базы запросов, сравнение сайтов, чистку неявных дублей, анализ конкурентов по фразам и так далее. Инструмент работает для русскоязычного интернета, поэтому сбор семантики происходит из Яндекса и Google. Стоимость платного тарифа начинается от 1 500 тысяч в месяц[7].
4) Букварикс-Web-сайтпредоставляет простой подбор слов (поиск по одному слову) и расширенный (поиск по списку ключевых слов). Сервис поможет найти семантическое ядро конкурентов, собирать частотность запросов, группировать словоформы при анализе уникальных слов [8]. Недостатком данных приложений является тот факт, что большинство из них платные, а бесплатные предоставляют ограниченный функционал.
Декомпозицию процесса контент-анализа публикаций СМИ о деятельности должностных лицможно представить в виде контекстной диаграммы в программе ErwmProcessModeler в нотации IDEF0. Для подробного описания всех этапов исследования произведена декомпозиция процесса на три подпроцесса (рис. 3):
1. Сбор публикаций. На данном этапе производится сбор и привидение оригинальных текстовых данных к единой форме с помощью, технического парсера сайта, и добавления публикаций в базу данных.
2. Обработка публикаций. С помощью алгоритмов обработки текстовых данных производится анализ текста публикации, путем выбора и отнесения слов и словосочетаний к тематическим словарям.
3. Построение мнения о публикации. Мнение о публикации, в частности о должностном лице, строится на основе упоминания о немв тексте.
Рис. 3. Диаграмма декомпозиции первого уровня задачи, контент-анализа публикаций средств массовой информации о деятельности должностньх лиц
Таким образом основным является методом контент-анализаявляется поискпо ключевым словам, объединённых в тематические словари. В словарях присутствуют данные с фамилией, именем, отчеством и должностью. Алгоритм работающий на данном методе сравнивает каждое слово публикации с содержанием словарей. При обнаружении совпадения анализируемая публикация помечается в базе данных тегом данного должностного лица. Если совпадений обнаружено не было, то данная публикация пропускается и алгоритм переходит к анализу следующей публикации СМИ.Алгоритм был усовершенствован путем внедрения метода морфологического анализа, лемматизации и добавление в базу не только основных слов, но и их измененные путем перестановки букв формы.Пример словаря изображен на рис. 4.
На основе функциональной схемы процесса предложенаструктурная схема процесса контент-анализа публикаций средств массовой информации, касающихся деятельности должностных лиц, включающийчетыре основных этапа (рис. 5).
На первом этапе выполняется загрузка текстовой информации из новостных сайтов
СМИ.
На втором этапе происходит обработка информации, путем работы лингвистического партера, выполняющий лемматизациюи морфологический анализ.
На третьем этапе весь массив слов сопоставляется с тематическими словарями и запускается синтаксический анализ: поиск совпадений слов публикации с содержанием словаря. Далее исходя из присутствия совпаденийприсваивается тег и определяется мнение о публикации.
На четвёртом этапе происходит интерпретация и вывод результатов.
Система обработки информации
ФИО вдл
Должность
Александр Александрович Авдеев Рем ига Александр Александрович
Кузин Вячеслав Павлович Коротаев Михаил Юрьевич
Врио Губернатор Владимирской области Первый заместитель Губернатора Владимирской области
Первый заместитель Губернатора области, директор департамента финансов, бюджетной и налоговой политики
Заместитель Губернатора Владимирской области, руководитель представительства администрации Владимирской области при Правительстве Российской Федерэци
Рис. 4. Пример тематического словаря с ФИО и должностью
Рис. 5. Структурная схема контент-анализа
На рис. 6 представлен алгоритм контент-анализа публикаций, СМИ, освещающих деятельности должностных лиц. Блок 1 используется для загрузки массива публикаций средств массовой информации с помощью технического парсера. В блоке 2 происходит разбиение всего текста публикации на отдельные слова. Далее в блоках 3-4 осуществляется лемматизация и морфологический анализ слов текста. В блоке 5 каждое слово текста публикации сравнивается с ключевыми словами из тематических словарей. При обнаружении совпадении,публикации присваивается тег ВДЛ происходящем на 6 этапе. В блоках 7-8 публикации присваивается тональная оценка и рассчитывается общее число публикаций по каждому тегу. В блоке9 производиться вывод об упоминании должностного лица в публикации.
Экранные формы пользовательского интерфейса прототипа программного модуля контент-анализа представлены на рис. 7 и 8.
Проведен сравнительный анализ результатов работы систем аналогов и разработанного макета. Упомянутые программы-аналоги не решают в полной мере задачу контент-анализа публикаций СМИ о деятельности должностных лиц, так как в них не выделяется конкретный объект для анализа. К средствам, решающиманалогичную задачу, можно отнести информационно-поисковые системы(ИПС) Яндекс и Google. Однако последние больше ориентированы на обработку поисковых запросов, а не решение задач контент-анализа. Основным недостатком ИПС является тот факт, что ответ системы не всегда соответствует потребностям пользователя. Зачастую необходимо проанализировать множество сайтов, чтобы найти нужную информацию.
^ Начало
Порсин публиккуй СШ
Разбиение текста но слова
Лемют/.заиря
Морфалогмеашй сиата
Сровнгииетенхго с ключевь/ии словами
Прхвииеание тега публикации
' Прьсеоиэание пу6линацл1(7А1 версяпмхтной ггонап&ойС14&*<и
Яхчет^с/илесгпво пубпимщл/потегу
Вшутшщия результата
конец ^
Рис. 6. Алгоритм контент-анализа
Система обработки информации
ВДЛ. А А V Период: М»ЖП "о 0.»»Й
[ • . ОЯОЗ
[9 г влщнте
¿1
о о
Мяюст* Вищ»»«» СГ7 Ж>}0Л
#АА Полдтнд
в А А- Поллтнм
Рис. 7. Экранная форма пользовательского интерфейса
Система обработки информации
ПувЛииадм ^ РИЛ
О
ОТ ЙМ1 Твнпж , уыцЛ: ■: .-Ч
Рис. 8. Экранная форма пользовательского интерфейса
256
Ш
Таким образом, авторами предложен алгоритм контент-анализа, получивший практическую проверку на программном макете и позволяющий в целом повысить качество обработки публикаций СМИ. Прототип позволяет пользователюотбирать публикации СМИ одолжностных лицах государственных органовза заданный промежуток времени, а также оценивать их тональность.
Список литературы
1. Datamining - википедия [Электронный ресурс] URL: https://ru.wikipedia.org/wiki/Data_mining (дата обращения: 10.12.2021).
2. Webmining - википедия [Электронный ресурс] URL: https://ru.wikipedia.org/wiki/Web mining (дата обращения: 10.12.2021).
3. Ландэ Д.В. Основы интеграции информационных потоков. Киев, 2006. 240 с.
4. Ландэ Д.В. Теория информационного поиска. Киев, 2006. 42 с.
5. KeyCollector- программа для интернет-маркетинга [Электронный ресурс] URL: https://www.key-collector.ru (дата обращения: 10.12.2021).
6. Парсер ключевых слов Магадан [Электронный ресурс] URL: https://magadanparser.ru (дата обращения: 10.12.2021).
7. Keys.so - сервис анализа конкурентов [Электронный ресурс] URL: https://www.keys.so (дата обращения: 10.12.2021).
8. Подбор ключевых слов Букварикс [Электронный ресурс] URL: https://www.bukvarix.com (дата обращения: 10.12.2021).
9. Таршис Е.Я. Контент-анализ: Принципы методологии. (Построение теоретической базы. Онтология, аналитика и феноменология текста. Программы исследования). Изд. 3-е, стереотип. М.: URSS, 2021. 174 с.
Андросов Алексей Юрьевич, канд. техн. наук, сотрудник, [email protected], Россия, Орел, Академия Федеральной службы охраны Российской Федерации,
Бородащенко Антон Юрьевич, канд. техн. наук, сотрудник, [email protected], Россия, Орел, Академия Федеральной службы охраны Российской Федерации,
Дряблов Сергей Александрович, сотрудник, [email protected], Россия, Орел, Академия Федеральной службы охраны Российской Федерации,
Карманеев Александр Михайлович, сотрудник, [email protected], Россия, Орел, Академия Федеральной службы охраны Российской Федерации
DEVELOPMENT OF AN ALGORITHM FOR CONTENT ANALYSIS OF MASS MEDIA PUBLICATIONS ON THE ACTIVITIES OF GOVERNMENT OFFICIALS
A.Yu. Androsov, A.Yu. Borodaschenko, A.M. Karmaneev, S.A. Dryablov
The algorithm of content analysis ofpublications of mass media covering the activities of officials of state bodies in order to determine the tonality of attitude to them is proposed.
Key words: textmining, automatic text processing, content analysis.
Androsov Alexey Yurevich, candidate of technical sciences, researcher, [email protected], Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation,
Borodaschenko Anton Yurevich, candidate of technical sciences, researcher, [email protected], Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation,
Karmaneev Aleksandr Mihailovich, researcher, [email protected], Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation,
Dryablov Sergey Alexandrovich, researcher, [email protected], Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation
257