УДК 004.912
DOI: 10.24412/2071-6168-2024-2-166-167
РАЗРАБОТКА АЛГОРИТМА ВЫЯВЛЕНИЯ ЗНАЧИМЫХ СОБЫТИЙ ДНЯ ИЗ ПОТОКА НОВОСТЕЙ
А.Ю. Бородащенко, Е.А. Коленкин, Е.А. Сазонова
Предложен алгоритм выявления значимых событий дня на основе применения методов кластеризации
DBSCAN.
Ключевые слова: обработка текста, кластеризация, классификация, значимое событие, новости.
Работа посвящена решению задачи выявления значимых событий дня из публикаций средств массовой информации, что позволяет классифицировать поток поступающих новостей по степени их важности.
В современном мире способность выявлять и анализировать значимые события дня становится ключевым фактором успеха для предприятий и организаций, которые нуждаются в применении инструментов, позволяющих оперативно реагировать на актуальные тренды, конкурентные угрозы и риски, а также выбирать направления дальнейшего развития. Информационные технологии, такие как Data, Text и Web Mining давно уже стали фундаментальными элементами успешного управления в современной бизнес-среде, где информация является ключевым активом и источником конкурентного преимущества. На современном уровне развития сети Интернет все более и более востребованным становится сбор информации из всевозможных источников, в том числе социальных сетей, так как в них обеспечивается охват большой аудитории, включающей разнообразные социальные слои и возрастные категорий граждан, а пользователи «смелы» и «правдивы».
В качестве средства массовой информации (СМИ) выбрана широко распространенная кроссплатформен-ная система мгновенного обмена сообщениями Telegram. Обоснованность выбора данной платформы заключается в высоких темпах её развития [1] (рис. 1). За последние пять лет аудитория Telegram выросла в 3,5 раза, а с 2014 года, года его появления, количество пользователей Telegram увеличилось более чем в 20 раз. Аудитория Telegram растет более чем на 40% каждый год.
I АУДИТОРИЯ TELEGRAM ПО ГОДАМ
гели Telegram, в миллиона!
Рис. 1. График активных пользователей в кроссплатформенной системе мгновенного обмена сообщениями
Telegram в период с 2014 по 2023 г.
Кроме того, согласно исследованию Statista [1] (рис. 2) в 2023 году 80% пользователей выбирали Telegram с целью получения актуальных новостей, что, несомненно, важно при решении задачи исследования.
ПОЧЕМУ ВЫ ИСПОЛЬЗУЕТЕ TELEGRAM?
Опрос 50 000 пользователей Telegram, апрель 2023 г. ^Щг
Читаю новости
Для личного общения Для обмена файлами и
музыки, фильмов и
Рис. 2. График распределения ресурсов пользования в кроссплатформенной системе мгновенного обмена сообщениями Telegram
Характеристики информационных потоков, циркулирующих в СМИ, определяются событиями, происходящими в реальном мире. Если событие важное, значимое, то обязательно о нем будут много писать и говорить достаточно длительное время. Поэтому задача первичного выявления значимых событий из потока новостей является в каком-то смысле задачей предсказания дальнейшего увеличения множества подобных сообщений, что актуально как с научной, так и практической точки зрения. Исследуемая задача состоит в разработке такого алгоритма выявления значимых событий, который на основе ретроспективного подхода к изучению текущих потоков новостей позволят получить наилучшее соответствие между публикациями о значимых событиях и сюжетами, которые будут широко освещаться в последующем.
Развитие Интернет и социальных сетей выявили новые ключевые особенности получения новостной информации [2]:
1. Информационная перегрузка: мир перенасыщен информацией. Люди сталкиваются с огромным объемом данных каждый день. Актуальный алгоритм для выявления значимых событий помогает бороться с информационной перегрузкой, позволяя пользователю или аналитикам фокусироваться на наиболее важных событиях.
2. Социальные медиа как ключевой источник: социальные сети стали важным источником новостей и обсуждений событий. Анализ потока новостей из социальных медиа помогает понять общественное мнение и реакцию на события. Это особенно актуально в контексте политики и общественной безопасности.
3. Спрос на реакцию в реальном времени: события развиваются быстро, и для многих организаций и государственных структур важно иметь возможность реагировать на них в реальном времени. Алгоритмы выявления значимых событий должны быть способными оперативно определять актуальные и важные темы.
4. Современные технологии: с развитием машинного обучения и обработки естественного языка, существует огромный потенциал для создания более точных и эффективных алгоритмов анализа информации. Это делает тему актуальной для исследования и разработки новых методов.
Распространение фейковых новостей: современные информационные платформы столкнулись с проблемой распространения фейковых новостей и дезинформации. Разработка алгоритма, способного выявлять значимые события и фильтровать недостоверные информационные источники, может помочь бороться с этой проблемой и обеспечить более достоверную информацию.
На рисунке 3 представлен пример новостной ленты кроссплатформенной системы мгновенного обмена сообщениями Telegram, включающий публикации telegram-канала о происходящих в мире событиях. Каждая публикация представляет собой блок текста, выражающего какую-либо мысль автора. Имея множество таких публикаций можно проанализировать самые различные аспекты жизни общества, оценить степень социальной напряженности, наблюдать ответную реакцию общества на применение тех или иных мер воздействий, контролировать результаты выполнения целевых программ и национальных проектов, отношение населения к деятельности органов государственной власти.
Рис. 3. Пример новостной ленты кроссплатформенной системы мгновенного обмена сообщениями Telegram
Выявление значимых событий дня из потока новостей включает в себя несколько этапов и методов, предназначенных для автоматического определения и фильтрации событий, которые наиболее важны и актуальны. Начальным этапом является сбор данных из источников информации (новостные сайты, социальные сети, блоги и другие источники). Этот этап может также включать в себя фильтрацию данных по тематическим запросам или ключевым словам, чтобы сузить поток данных до более узкой и интересующей области. Полученные данные предварительно обрабатываются для удаления шума и структурирования информации. На этом этапе могут использоваться методы обработки естественного языка (NLP) для извлечения текстовых данных и метаданных, таких как дата и источник. Для каждой новой публикации или сообщения оценивается актуальность. Это может включать в себя анализ времени публикации и сравнение с текущими новостями. Документы, которые давно опубликованы или не имеют актуальной информации, могут быть исключены. Следующим шагом является выявление схожих по смыслу и тематике документов. Способствовать этому могут методы машинного обучения, векторное представление текста и алгоритмы кластеризации, которые используются для группировки документов в кластеры. Каждый кластер оценивается на важность и релевантность. Это может включать в себя анализ числа документов в кластере, авторитетности источников, а также использование специальных метрик для определения степени важности. Алгоритм должен быть способен обновляться в режиме реального времени и периодически проверять наличие новых событий, что позволит поддерживать актуальность выявленных событий. В качестве результатов работы алгоритма могут быть данные, представленные в виде дашборда, графиков или списков, что облегчает их восприятие и анализ для пользователей.
Для решения задачи выявления значимых событий дня были рассмотрены следующие существующие
подходы.
В работах [3, 4] предлагается подход, основанный на технологии контент-мониторинга (рис. 4), базирующейся на таких предположениях о документах, содержащих информацию о новых событиях:
а) минимальное время, прошедшее с момента публикации документа;
б) близость лексического состава документа к лексическому составу массива документов за небольшой промежуток времени (массив оперативных новостей);
в) существенное различие лексического состава документа от лексического состава массива документов за значительный период времени - окна наблюдения;
г) наличие в документе терминов, входящих в плюс-словарь (включающий важные для содержания новостей слова типа «теракт», «конфликт», «сенсация» и т.п.);
д) высокий ранг «авторитетности» источника, а также допустимости лексики заглавий новостей (определяемых экспертами).
е) отсутствие дублирования информации.
Рис. 4. Определение новых событий дня - элемент технологии контент-мониторинга
Солтоном [5] была предложена модель векторно-пространственного представления документов и традиционных методов кластеризации. Текстовые документы предполагается обрабатывать в соответствие со следующим алгоритмом:
1. Первому рассматриваемому документу ставится в соответствие первый кластер. Каждый кластер представляется вектором термов (ключевых слов), входящих в документы этого кластера. Нормированный различным образом вектор термов принято называть центроидом. Иногда центроидом называют документ, самый близкий по некоторому критерию к вектору термов данного кластера, что не меняет сути данного алгоритма.
2. Каждый следующий документ сравнивается с центроидами существующих кластеров (для этого вводится некоторая мера близости).
3. Если документ достаточно близок к некоторому кластеру, то он приписывается этому кластеру, после чего происходит пересчет соответствующего центроида.
4. Если документ не близок к существующим кластерам, то происходит формирование нового кластера, которому приписывается данный документ.
5. Временной диапазон рассматриваемых документов принято называть «окном наблюдения». Кластеры, все документы которых выходят за пределы окна наблюдения, выносятся за рамки рассмотрения.
На основе рассмотренных подходов к выявлению значимых событий дня, предлагается авторское решение, адаптированный под «значимые события» и другие важные факторы (рис. 5). На вход поступают отобранные по тематике сообщества социальных сетей. В первом подпроцессе происходит сбор текстовых данных, их очистка и запись в базу данных. На второй этап поступают текстовые данные, готовые к обработке. На данном шаге происходит лемматизация и векторизация слов, а затем их кластеризация. После чего, происходит расчет среднего распространения публикации внутри одного кластера. На последнем этапе происходит прогнозирование значимых событий дня на основе рассчитанных ранее параметров и формируется новостная лента со значимыми событиями дня.
Рис. 5. Функциональная модель процесса выявления значимых событий дня
169
Для описания процесса деятельности используется язык UML. Предполагается наличие 3 агентов в диаграмме прецедентов (рис. 6): Пользователь, Отчет, БД. Пользователю предоставляется возможность запустить процессы: сбора и обработки публикаций новостных телеграм каналов, а также вывода значимых событий дня на информационную панель. Без участия пользователя данные процессы не запустятся. По окончании вышеуказанных процессов результаты их работы сохраняются в базу данных. Также есть возможность указать дату и вид значимых событий при выводе их на информационную панель. После вывода событий предлагается сформировать отчет.
На основе диаграммы разработан алгоритм работы системы выявления значимых событий дня (рис. 7).
Рис. 7. Алгоритм выявления значимых событий дня
Первоначальной задачей является получение URL адресов телеграмм-каналов, с которых будет происходить сбор новостных публикаций за последние сутки. После чего с указанных телеграмм-каналов путем парсинга собираются публикации, вместе с количеством просмотров, лайков и репостов, а также названием телеграм канала и сохраняются в csv файл. Далее начинается процесс подготовки текстов к их обработке и выявлению значимых событий дня, который заключается в очистке текстов от csv-разметки, метаданных и служебных слов. После происходит процесс обработки текстов данных, а именно на первом процессе обработки тексты подвергаются векторизации, при помощи которой формируется матрица слов в массиве документов. Далее происходит процесс кластеризации обработанных текстов, на основании которого определяются количество источников для каждого сообщения. После кластеризации происходит расчет еще одного параметра, а именно средней скорости распространения публикации. На основании рассчитанных параметров происходит прогнозирование и выявление значимых событий дня. Выявленные значимые события сохраняются в базу данных. Далее следует этап формирования визуального представления выявленных событий.
В качестве алгоритма кластеризации был выбран алгоритм DBSCAN, поскольку данный алгоритм имеет ряд преимуществ, которые в большей степени подходят для нашей работы.
Реализация описанного алгоритма в виде программного модуля позволяет расширить возможности систем выявления значимых событий дня, что повысит в целом качество обработки текстовой информации для дальнейшей работы с ней. Экранная форма пользовательского интерфейса макета программы выявления значимых событий дня приведена на рисунке 8.
Выберите дату и вид новостей
Значимые события за 28 октября 2023 г.
F-г::Jü''ki Раньше всех. Ну почти,
поглимим: пр«погрь1: подпилим т^ютпрссмвтры: iiiiii
iM 'fV, r-,V-F4
^ |Греннинн1 Гцщин Тапя Зртин
Кижсгонгумятмосьдощиолжо крензпра.'ичн в Гв« назвав нп резней
|*Г1 н-> II Н-; Г|1И. не 1-й I- I Tame IMIIII-- -■! -'-II' ,..-, -Willi
Г1р|-ЗИ£Л1ГТ Гц. II и. n..,HiMnWF.V .vim I I
дннм р^рн пи ttpitiHU dtjpiM. i.-n^H и -rmiL-imii г, [.TwtyBG n
»ропаруАТЭТОрР! Длга - rii"n I» октября Lüi> г 1ИН
Readovka
inrui-u.i I Г1роп*=гры:
JJiiUgf STSilU
Рис. 8. Макет программы выявления значимых событий дня
Таким образом, в работе предложен алгоритм выявления значимых событий дня, получивший практическую проверку на программном макете. Направлением дальнейших является совершенствование предложенных решений.
В целом задачи выявления, отслеживания и группировки событий на основе анализа новостей являются актуальными, имеют большое практическое значение и могут оперативно решаться с использованием онлайн-доступа к существующим поисковым системам и сервисам.
Список литературы
1. Статистика Telegram в 2023 г. - инклиент [Электронный ресурс], 2023. Режим доступа: https://inclient.ru/telegram-stats/.
2. Воронкин А.С. Социальные сети: эволюция, структура, анализ - Луганск, 2019. - 675 с.
3. Ландэ, Д.В. Выявления новых событий дня из потока новостей [Электронный ресурс] / Диалог-21, 2023. Режим доступа https://www.dialog-21.ru/media/1873/52.pdf - свободный.
4. Ландэ, Д.В. Теория информационного поиска. Киев, 2006. 42 с.
5. Научные статьи и отчеты - Компания Яндекс [Электронный ресурс] / Сегалович И. Как работают поисковые системы. М.: "Яндекс", 2023. Режим доступа к ресурсу http://download.yandex.ru/company/iworld-3.pdf, свободный.
Бородащенко Антон Юрьевич, канд. техн. наук, доцент, сотрудник, [email protected]. Россия, Орел, Академия Федеральной службы охраны Российской Федерации,
Коленкин Егор Алексеевич, сотрудник, [email protected]. Россия, Орел, Академия Федеральной службы охраны Российской Федерации,
Сазонова Елена Александровна, канд. пед. наук, сотрудник, [email protected]. Россия, Орел, Академия Федеральной службы охраны Российской Федерации
DEVELOPMENT OF AN ALGORITHM FOR CLASSIFYING SHORT TEXT MESSAGES OF NEWS FEEDS OF SOCIAL
NETWORKS
A.Yu. Borodashchenko, I.E. Belkin, E.A. Sazonova
An algorithm for classifying short text messages based on the use of classification dictionaries is proposed. Key words: reference dictionary, automatic text classification, classifier.
Borodashchenko Anton Yurievich, candidate of technical sciences, docent employee, bay55@mail. ru, Russia, Orel, Academy of the Federal Security Service of the Russian Federation,
Kolenkin Egor Alekseevich, employee, igorbel12345@gmail. com, Russia, Orel, Academy of the Federal Security Service of the Russian Federation,
Sazonova Elena Aleksandrovna, candidate of pedagogical sciences, employee, [email protected], Russia, Orel, Academy of the Federal Security Service of the Russian Federation
УДК 69.059
Б01: 10.24412/2071-6168-2024-2-172-173
ИССЛЕДОВАНИЕ ОРГАНИЗАЦИОННО-ТЕХНИЧЕСКИХ РЕШЕНИЙ ПРИ ПРОВЕДЕНИИ КАПИТАЛЬНОГО РЕМОНТА МНОГОКВАРТИРНЫХ ЖИЛЫХ ДОМОВ
А.А. Лапидус, Т.Х. Бидов, А.О. Хубаев
Рассматриваются ключевые финансовые и технологические проблемы организации капитального ремонта в Российской Федерации. Представлены результаты изучения и анализа опыта проведения капитального ремонта многоквартирных жилых домов в различных регионах Российской Федерации. Исследование в данной статье направлено на изучение и оптимизацию организационно-технических решений при капитальном ремонте многоквартирных жилых домов. Целью исследования является совершенствование организации процессов проведения капитального ремонта многоквартирных жилых домов на всех этапах жизненного цикла. Научная гипотеза заключается в предположении возможности повышения эффективности капитального ремонта многоквартирных жилых домов. Сформирована и описана методика исследования, а также составлена программа сбора данных. Представлены результаты проведенного исследования. Определены дальнейшие этапы и пути исследования.
Ключевые слова: капитальный ремонт, многоквартирные жилые дома, оптимизация, организационно-технологические решения, типизация, натурные исследования.
В настоящее время процесс капитального ремонта зданий и инфраструктуры является важным элементом обеспечения их долгосрочной функциональности и безопасности. [1] Однако несмотря на его важность, отсутствие четко установленных современных норм, стандартов и подходов для проведения капитального ремонта может привести к различным проблемам, включая непредвиденные затраты, качественные недочеты и задержки в сроках выполнения работ. [2]
Понятие капитального ремонта в Российской Федерации появилось относительно недавно, поэтому процесс проведения капитального ремонта на всех его этапах жизненного цикла сопровождается различным сложностями и проблемами. [3] В связи с этим исследования по данной тема являются актуальными. Тема капитального ремонта уже активно изучается научным сообществом. Опубликовано множество научных статей. [4-8] Наше исследование будет направлено на изучение и оптимизацию организационно-технических решений при капитальном ремонте многоквартирных жилых домов.
Рассматривая опыт различных регионов Российской Федерации, мы выделили ключевые моменты, которые помогут сформировать эффективные организационно-технические решения, которые будут способствовать повышению качества и надежности капитального ремонта, а также срока выполнения работ.
Командой научных сотрудников из НИУ МГСУ ведутся активные исследования в области оптимизации и повышения эффективности капитального ремонта. [9-11] Эти исследования направлены на изучение существующих практик и подходов в различных регионах, анализ существующих стандартов и нормативов, применяемых в области капитального ремонта жилых многоквартирных домов. Целью исследования является совершенствование организации процессов проведения капитального ремонта на всех этапах жизненного цикла. Научная гипотеза заключается в предположении возможности повышения эффективности капитального ремонта на основе алгоритма принятия организационно-технических решений. [12-16] Для достижения поставленной цели необходимо решить большое количество задач, которые были структурированы на определенные последовательные группы задач. В начале исследования необходимо было проанализировать действующие нормативно-технические документы, регламентирующие вопросы проведения капитального ремонта многоквартирных домов. [17,18] В процессе анализа необходимо было решить следующие задачи:
- описать действующую процедуру определения потребности (необходимости) в капитальном ремонте многоквартирного дома;
- выполнить анализ действующего законодательства Российской Федерации;