Gorshkov Alexey Nikolaevich, candidate of technical sciences, employee, Russia, Orel, Academy of the Federal Security Service of the Russian Federation,
Bolshebratsky Kirill Mikhailovich, employee, [email protected], Russia, Orel, Academy of the Federal Security Service of the Russian Federation
УДК 004.85
DOI: 10.24412/2071-6168-2023-11-106-107
ПОДХОД К МОНИТОРИНГУ ЭЛЕКТОРАЛЬНЫХ НАСТРОЕНИЙ И ФОРМИРОВАНИЮ СОЦИАЛЬНОГО ПОРТРЕТА КАНДИДАТА В ХОДЕ ИЗБИРАТЕЛЬНОЙ КАМПАНИИ С ИСПОЛЬЗОВАНИЕМ ДАННЫХ ИЗ
ОТКРЫТЫХ ИСТОЧНИКОВ
А.А. Воробьев, А.Ю. Андросов, Д.К. Черный, Д.А. Беляев
Предложен подход к мониторингу электоральных настроений и формированию социального портрета кандидата в ходе избирательной кампании на основе машинного обучения с использованием данных, полученных из открытых источников, обеспечивающий повышение достоверности и полноты требуемой информации.
Ключевые слова: социальный портрет, электоральное настроение, социальная сеть, датасет, нейронные сети, машинное обучение.
Известно, что на всех этапах избирательной кампании сотрудниками избирательной комиссии реализуется деятельность по подготовке и проведению выборов различного уровня. Для этого используется ряд информационных систем, обеспечивающих сбор, обработку и анализ информации, полученной из различных источников (закрытых и открытых) для поддержки решения множества задач, в том числе связанных с мониторингом электоральных настроений и формированием социального портрета кандидатов [6, 14].
Так при мониторинге электоральных настроений [1] выявляется отношение граждан к политическим процессам, выборам и кандидатам, включая их предпочтения, уровень доверия, ожидания и намерения относительно голосования на выборах различных уровней - от местных до федеральных. Это позволяет оценить уровень политической активности, гражданской ответственности и участия населения в формировании органов власти и принятии важных для государства решений.
На сегодняшний день мониторинг электоральных настроений осуществляется в основном с помощью социологических опросов населения в виде интервью или телефонных опросов. Анкета такого опроса, чаще всего содержит вопрос: "Скажите пожалуйста, какой политической партии (кандидату) Вы симпатизируете?". После проведения опроса, ответы респондентов подсчитываются в процентном соотношении и составляется рейтинг кандидатов, который отражает электоральные предпочтения населения в каждом субъекте РФ или в целом по стране. Однако, учитывая, то что вопросы по выборной тематике относят к сенситивным, т.е. возможен большой процент неопределившихся респондентов, то и выводы, полученные на таких выборках с пропусками, становятся менее достоверными. Для повышения достоверности в работе предлагается использовать дополнительный источник информации -социальные сети. В последние годы из-за наличия большого количества пользователей и уровня их вовлеченности, социальные сети стали более эффективным инструментом для охвата различных слоев населения, которые ранее не были доступны при проведении социологических опросов [2]. Кроме того, современные методы обработки естественного языка позволяют извлекать из публикаций социальных сетей социально значимую информацию, которая лежит в основе предлагаемого авторами подхода.
В настоящее время анализ публикаций из открытых источников сети Интернет часто реализуется специалистами исходя из лингвистического подхода, заключающимся в определении тональности текста, то есть его эмоциональной окраски, на основе анализа частот встречаемости слов из заранее составленных словарей [3].
Кроме лингвистического подхода на практике к оценке тональности текста часто применяют следующие методы: машинное обучение с учителем, без учителя и статистические методы. Так, метод обучения с учителем использует данные с публикациями, которые содержат предопределенные тональности независимо от их предметной области. При обучении с учителем применяются нейронные сети, которые вносят существенные улучшения в обработку естественного языка, и что приводит к более точной оценки тональности. Статистические методы применяются при подсчете количества слов в тексте, определении средней длины предложения, изучения корреляции между определенными словами и реакциями пользователей. Краткий сравнительный анализ вышеперечисленных методов к оценке тональности представлен в таблице [4].
Сравнение методов оценки тональности показало, что наиболее подходящим среди них для решения сформулированной ранее проблемы является метод, основанный на машинном обучении с учителем, так как по большинству рассматриваемых признаков он превосходит другие [5].
На первоначальном этапе предлагаемого подхода к мониторингу электоральных настроений необходимо отобрать публикации социальных сетей по интересующим тематикам. Для этого сформированы ряд ключевых слов для поиска: "фамилия и инициалы кандидата", "выборы", "предвыборная кампания", "избиратели", "голосование", "ход выборов", "политические партии", "явка избирателей".
На следующем этапе осуществляется обработка полученных данных при помощи выбранного ранее метода машинного обучения с учителем.
После обработки публикаций социальных сетей получается набор текстов с выявленными тональностями. Для того чтобы интерпретировать полученные данные предлагается использовать индекс, который будет отражать изменение направленности общественного мнения по теме электоральных настроений.
Таблица 1
Сравнение методов оценки тональности__
-----Методы Признаки " ------ Статистические методы Машинное обучение с учителем Машинное обучение без учителя
Точность - + -
Возможность обработки естественного языка + + -
Оперативность - + +
Простота + - -
Индекс строится, но основе учета положительных (публикации с положительной тональностью) и негативных (публикации с негативной тональностью) упоминаний о кандидате в социальных медиа за определенный промежуток времени:
7 _ 2 все положительные упоминания- 2 все негативные упоминания
^ — ^ (1)
2 все упоминания о кандидате
Индекс Z изменяет свою величину от -1 (при условии, что все упоминания о кандидате негативные) до +1 (при условии, что все упоминания о кандидате положительные) [4]
Для примера приводится вычисление индекса (выражения 2-4) направленности мнения по данным представленным в таблице 2.
Мнение избирателей, выраженное в сообщениях социальных сетей
Таблица 2
Кандидат, за которого намерены голосовать Количество положительных упоминаний в социальных медиа Количество негативных упоминаний в социальных медиа Количество нейтральных упоминаний
Кандидат А 1452 752 401
Кандидат Б 895 302 148
Кандидат В 365 405 207
1452+752+401 „ 895-302 - . .
1п =-= 0,44;
А 895+302+148 '
г, = 365"405 = -0,04 .
1 365+405+207
= =0,27; (2)
1 Л СО -¡-ЧСУ .¡.Л П1 ' ' 4 7
(3)
(4)
В первом и втором случае присутствует значительная положительная, а в третьем незначительная отрицательная направленность электоральных настроений населения. Исходя из полученных результатов можно составить рейтинг кандидатов, который будет наглядно отражать направленность электоральных предпочтений населения на момент проведения исследования.
Для сравнения подходов к мониторингу избирательной кампании на основе анализа результатов социологических опросов и на основе составления индекса при помощи анализа социальных сетей использовались данные, полученные в ходе избирательной кампании губернатора Рязанской области в 2022 году. Результат сравнения представлен в таблице 3.
Сравнение подходов к мониторингу электоральных' настроений
Таблица 3
Рейтинг составленный перед выборами на основе анализа результатов социологического опроса Рейтинг составленный перед выборами на основе расчета индекса Результаты выборов
Павел Малков (Единая Россия) - 82,4 % Павел Малков (Единая Россия) - 0,74 Павел Малков (Единая Россия) - 85,55 %
Дмитрий Репников (КПРФ) - 6,6 % Денис Сидоров (КПРФ) - 0,17 Денис Сидоров (КПРФ) - 5,68 %
Денис Сидоров (КПРФ) - 4,7 % Дмитрий Репников (КПРФ) - 0,14 Дмитрий Репников (КПРФ) - 3,6 %
Наталья Рубина - 3,3 % Наталья Рубина - 0,1 Наталья Рубина - 2,7 %
Григорий Парсентьев - 3 % Григорий Парсентьев - 0,08 Григорий Парсентьев - 2,22 %
Анализ результатов сравнительного анализа показал, что использование подхода, рассчитываемого индекс направленности общественного мнения, основанного на методе машинного обучения с учителем и применяемого к сообщениям социальных сетей, позволил получить более корректный отранжированный список кандидатов по сравнению со списком, полученным классическим подходом и основанном на социологических опросах.
Одной из актуальных задач, также решаемых избирательной комиссией является формирование социального портрета кандидата, содержащего информацию о возрасте, поле, образовании, социальном статусе, интересах, политических предпочтениях и особенно об уровне дохода [7], где последняя информация подлежит обязательной проверке по ее достоверности [13] и таким образом позволит в том числе противодействовать коррупции [9]. Известно, что коррупция в настоящее время рассматривается как одно из самых больших препятствий для социально-экономического и общественно-политического развития России и за последние годы количество исследований её причин и способов борьбы с ней постоянно растет.
Для борьбы с коррупцией используются разные способы и одним из них является составление социального портрета для отбора кандидатов на выборах различного уровня на основе анализа сообщений в социальных сетях. Для решения этой задачи, как ранее было сказано используется государственная информационная система «Посейдон», однако информация, используемая в ее работе, в основном строится на закрытых источниках. В работе предлагается использовать в качестве открытого источника информации - социальные сети и подход по автоматизации процессов сбора, обработки и анализа создаваемых в них сообщений.
Так на предварительном этапе при составлении социального портрета кандидата предлагается выполнить сбор текстовой информации, связанной с интересующим кандидатом из социальных сетей и сформировать датасет документов в виде предварительно структурированного массива данных. В таком массиве у каждого объекта имеются конкретные свойства: признаки, связи между объектами или определённое место в выборке данных [8].
На следующем этапе выполняется предобработка датасета. Основная цель предобработки датасета - получить чистый, структурированный и готовый к использованию набор данных, который можно использовать для анализа или обучения моделей машинного обучения. Без предобработки датасета данные могут содержать ошибки, пропуски, дубликаты, выбросы и другие проблемы, которые могут существенно повлиять на результаты анализа или обучения моделей [10].
В дальнейшем на основе предварительно обработанных текстовых сообщений определяется оценка важности слова в документе относительно датасета. Для выполнения этого шага применяется метод TF-IDF, позволяющей эффективно выделять нужные признаки в текстовых данных и обеспечить качественную классификацию сообщений [11].
После применения метода TF-IDF в работе выбран и используется метод опорных векторов ^УМ), который является более эффективным для классификации текстов с большим количеством признаков по сравнению с другими решениями [12]. Для успешного выполнения этого этапа требуется заранее определить классы сообщений, по которым будет производиться классификация. В таблице 4 представлены рассматриваемые в работе классы коррупционной деятельности.
Таблица 4
Классы коррупционной деятельности_
Название полей Результат
Кандидаты Кандидат №
Классы коррупционной деятельности
Демонстрация стиля жизни не соответствующего доходу. -
Дарение подарков и оказание неслужебных услуг кандидатом/-у. -
Быстрый рост дохода. -
Покупка имущества, не соответствующего доходу. -
У кандидата № обнаружены N признаков коррупционной деятельности -
После определения классов классификации происходит обучение SVM модели путем предоставления матрицы признаков и соответствующих меток классов на вход классификатора.
Для подтверждения возможности формирования социального портрета кандидата с использованием сообщений в социальных сетях был выполнен эксперимент, включающий поиск признаков коррупционной деятельности для действующего губернатора одного из регионов РФ, который показал следующие результаты, представленные в таблице 5.
Таблица 5
Социальный портрет кандидата_
Название полей Результат
Кандидаты Кандидат №1
Классы коррупционной деятельности
Демонстрация стиля жизни не соответствующего доходу. Не обнаружено
Дарение подарков и оказание неслужебных услуг кандидатом/у. Обнаружено
Быстрый рост дохода. Не обнаружено
Покупка имущества, не соответствующего доходу. Обнаружено
У кандидата №1 обнаружено два признака коррупционной деятельности. Присутствуют признаки коррупционной деятельности: - Дарение подарков и оказание неслужебных услуг кандида-том/-у: - Подарен кандидату автомобиль премиум класса от компании «№>; - Покупка имущества, не соответствующего доходу: - Покупка квартиры в элитном жилом комплексе «№> в городе Москва
Таким образом предложенный подход к мониторингу электоральных настроений и формированию социального портрета на основе анализа сообщений в социальных сетях позволил повысить достоверность и полноту информации о кандидатах и результатах мониторинга электоральных настроений в ходе избирательной кампании.
Список литературы
1. Горшков М.К., Шереги Ф.Э. Прикладная социология: методология и методы. Институт социологии РАН, 2011. 372 с.
2. Klasnja M., Barbera P., Beauchamp N., Nagler J., and Tucer A. Measuring Public Opinion with Social Media Data. Oxford Handbooks Online, 2017. 32 p.
3. Воробьев А.А. Методика сбора и обработки социологической информации из сети интернет // А.А. Воробьев, А.М. Рыбак, Р.А. Середкин, А.Ю. Андросов, Б. И. Соловьев // Известия Тульского государственного университета. Технические науки. 2022. Вып. 2. С. 208-213.
4. Kim D., Chung C.J., Eom K. Measuring Online Public Opinion for Decision Making: Application of Deep Learning on Political Context. Sustainability 2022. 14 p.
5. Ногин В. Линейная свертка в многокритериальной оптимизации, 2014. 10 с.
6. Исмелов Н. Государственная автоматизированная система «Выборы» как средство автоматизации избирательного процесса, 2016. 3 с.
7. Социальный портрет человека: определение и особенности [Электронный ресурс] URL: https://alfacasting.ru/faq/socialnyi-portret-celoveka-opredelenie-i-osobennosti (дата обращения 09.08.2023).
8. Для чего аналитику данных датасет и где его взять [Электронный ресурс] URL: https://practicum.yandex.ru/blog/dataset-dlya-mashinnogo-obucheniya-i-analiza (дата обращения: 15.08.2022).
9. Федеральный закон от 25.12.2008 N 273-ФЗ (ред. от 10.07.2023) "О противодействии коррупции". М.,
2023.
10. ML Предварительная обработка данных на Python [Электронный ресурс] URL: https://www. geeksforgeeks. org/data-preprocessing-machine-learning-python (дата обращения 10.06.2023).
11. Извлечение признаков из текстовых данных с использованием TF-IDF [Электронный ресурс] URL: https://habr.com/ru/companies/otus/articles/755772 (дата обращения: 15.08.2023).
12. SVM. Подробный разбор метода опорных векторов, реализация на python [Электронный ресурс] URL: https://habr.com/ru/companies/ods/articles/484148 (дата обращения: 15.08.2023).
13. Указ Президента РФ от 06.06.2013 N 546 (ред. от 26.06.2023) "О проверке достоверности сведений об имуществе и обязательствах имущественного характера за пределами территории Российской Федерации...". М., 2023.
14. «Посейдон» выловит коррупционеров [Электронный ресурс] URL: https://www.kommersant.ru/doc/5329955 (дата обращения: 15.08.2023).
Воробьев Андрей Анатольевич, канд. техн. наук, доцент, сотрудник, [email protected], Россия, Орел, Академия Федеральной службы охраны Российской Федерации,
Андросов Алексей Юрьевич, канд. техн. наук, сотрудник, [email protected], Россия, Орел, Академия Федеральной службы охраны Российской Федерации,
Беляев Даниил Александрович, сотрудник, [email protected], Россия, Орел, Академия Федеральной службы охраны Российской Федерации,
Черный Данил Константинович, сотрудник, [email protected], Россия, Орел, Академия Федеральной службы охраны Российской Федерации
AN APPROACH TO MONITORING ELECTORAL SENTIMENTS AND FORMING A SOCIAL PORTRAIT OF A CANDIDATE DURING AN ELECTION CAMPAIGN USING DATA FROM OPEN SOURCES
A.A. Vorobyev, D.K. Cherny, D.A. Belyaev
An approach to monitoring electoral sentiments and forming a social portrait of a candidate during an election campaign based on machine learning using data obtained from open sources is proposed, which provides an increase in the reliability and completeness of the required information.
Key words: social portrait, electoral mood, social network, dataset, neural networks, machine learning.
Vorobyev Andrey Anatolyevich, candidate of technical sciences, docent, employee, [email protected], Russia, Orel, Academy of the Federal Security Service of the Russian Federation,
Androsov Aleksei Yurevich, candidate of technical sciences, researcher, [email protected], Russia, Orel, Academy of the Federal Security Service of the Russian Federation,
Belyaev Daniil Alexandrovich, employee, [email protected], Russia, Orel, Academy of the Federal Security Service of the Russian Federation,
Cherny Danil Konstantinovich, employee, [email protected], Russia, Orel, Academy of the Federal Security Service of the Russian Federation