УДК 004.912
АЛГОРИТМ ДИНАМИЧЕСКОЙ КЛАСТЕРИЗАЦИИ СООБЩЕНИЙ СРЕДСТВ МАССОВОЙ ИНФОРМАЦИИ СЕТИ ИНТЕРНЕТ ПО СЮЖЕТНЫМ ЛИНИЯМ
Потемкин Алексей Владимирович
кандидат технических наук, сотрудник ФГКВОУ ВО «Академия Федеральной службы охраны Российской Федерации», г. Орёл
[email protected] ул. Приборостроительная, д.35, г. Орел, Россия, 302034 +7(4862)54-94-64
Бородащенко Антон Юрьевич
кандидат технических наук, сотрудник ФГКВОУ ВО «Академия Федеральной службы охраны Российской Федерации», г. Орёл
ул. Приборостроительная, д.35, г. Орел, Россия, 302034 +7(4862)54-94-64
Аннотация: Предлагается алгоритм кластеризации текстов сообщений средств массовой информации сети Интернет, являющийся модификацией известных подходов, основанных на ключевых словах. Предложенный алгоритм может использоваться для динамической кластеризации новостных сообщений по сюжетным линиям в режиме онлайн. Сюжетные линии представляют собой совокупность сообщений по одному событию или явлению. Это достигается описанными в статье модификациями существующих подходов. Рассмотрена реализация данного алгоритма, подробно описаны особенности реализации, существенно сокращающие ресурсоемкость при мониторинге нескольких тысяч средств массовой информации сети Интернет. Использование данного алгоритма позволяет существенно сократить размерность решения задачи информационно-аналитической обработки материалов средств массовой информации. К таким задачам относятся: определение актуальной «повестки дня» на заданном интервале времени, анализ тематических информационных потоков, поиск упоминаний персон или брендов в текстах новостей.
Ключевые слова: текст; сообщение; средство массовой информации; новость; тема; сюжет; Интернет.
redactor@ progress-human.com
Введение
Сеть Интернет - сложная система, выполняющая не только информационные и коммуникационные функции, но и непосредственно влияющая на жизнь общества.[1] Средства массовой информации (СМИ) сети Интернет являются значимым сегментом информационного пространства. На сегодняшний день количество сообщений в сутки достигает более сорока тысяч. При этом СМИ сети Интернет, которые публикуют данный контент, зарегистрированы в реестре «Перечень наименований, зарегистрированных СМИ» Роскомнадзора под следующими наименованиями: электронные периодические издания, сетевые издания и сайты информационных агентств. СМИ сети. При этом их суммарное количество составляет 10193, что составляет примерно одну восьмую от общего количества СМИ.
В массиве собранных данных наибольший интерес, как правило, представляют именованные сущности, такие как персоны. При этом достаточно много информации об объекте наблюдения может быть представлено в сети в неструктурированных текстах. Таким образом, с одной стороны существуют открытые ресурсы - онтологии, такие, например, как Freebase, DBPedia и др., связанные между собой, в которых отражена в структурированном виде информация о разных объектах реального мира и их отношениях. С другой стороны, современный контент, доступный в сети, характеризуется высоким уровнем мобильности [2]: ни один ресурс не в состоянии отразить информацию о вновь возникающих в информационном поле объектах, о персонах и организациях, связанных с ними. Возникает необходимость достаточно оперативного извлечения информации.
Обзор существующих подходов
Кластеризацией текстовых сообщений называется процесс автоматического распределения множества документов по группам на основании схожести их содержания. [3] Большое количество сообщений СМИ сети Интернет обуславливает необходимость динамической кластеризации сообщений в режиме онлайн, т.к. анализ данного контента производится в основном в актуальный момент времени.
При решении задачи кластеризации можно выделить следующие основные этапы:
- предварительная обработка текстов сообщений, включающая их загрузку, удаление html-разметки и стоп-слов, приведение к нормальной форме, формирование промежуточного представления - модели текста, пригодного для обработки индекса;
- расчет схожести (близости) текстов между собой и актуальными новостными сюжетами на основании индексов;
redactor@ progress-human.com
- кластеризация текстов, которая заключается в поиске наиболее близким сообщениям СМИ или уже сформированным новостным сюжетам.
Алгоритм динамической кластеризации сообщений СМИ сети Интернет
В работе 3 представлен обзор методов кластеризации текстов. Для обработки большого количества текстов в онлайн-режиме целесообразно использовать алгоритмы на основе ключевых слов, например [4], обладающие низкой ресурсоемкостью. Рис. 1: Декомпозиция формирования сюжета
Синтаксис языка SQL
Методы
обработки
сообщений
Структурированная в БД текстовая информация
Набор сообщений с меткой
В процессе формирования сюжета сообщений электронных СМИ (рисунок 1) производится загрузка текстовой информации в оперативную память, а затем поэтапно осуществляется обработка текста: удаляются знаки препинания и служебные слова с использованием словаря «стоп-слов». После этого все слова, содержащиеся в тексте, приводятся к начальной форме. Для обработки сообщений СМИ сети Интернет используется © А.В. Потемкин, А.Ю.Бородащенко 3
наименее ресурсоемкий стеммер Портера. После чего программа осуществляет выделение ключевых слов с помощью меры TF*IDF и производится сравнение с уже имеющимися ключевыми словами, хранящимися в базе данных. В результате, по ключевым словам, тексту присваивается метка сюжета, если ключевые слова совпали или формируется новый сюжет. При этом под сюжетом понимается совокупность публикаций Интернет-СМИ, освещающих одно событие или явление. [5, 6]
Алгоритм динамической кластеризации сообщений СМИ сети интернет по сюжетным линиям в виде блок-схемы представлен на рисунке 2.
Программная реализация данного алгоритма имеет следующие особенности:
- используется СУБД MSSQL Server 2012 для хранения актуальных необработанных сообщений;
- в таблице базы данных хранится словарь основ слов с указанными значениями обратной частоты IDF в ранее собранных текстах СМИ и присвоенными каждому слову уникальными числовыми идентификаторами. Это позволяет после определения основ слов оперировать с текстами как с массивами чисел, соответствующих уникальным идентификаторам в базе данных. Кроме того, используется существенно меньший объем оперативной памяти.
Временная сложность алгоритма определяется как сумма временных сложностей каждого из этапов алгоритма с учетом размера входных данных:
где ^ - временная стоимость соответствующего шага алгоритма, п, ц, г, у - размер входных данных.
Из формулы видно, что функция времени работы алгоритма имеет линейную зависимость от размера входных данных, следовательно, алгоритм имеет вычислительную сложность О(п).
Тобщ = Ci-8 + T1 + Т(r> q w)2 + T(y> w)3 ) • n
(1)
Рис. 2: Алгоритм динамической кластеризации сообщений СМИ сети Интернет по сюжетным линиям
2 \Д>
t=0,max str ;0
3
Запрос из БД необработанное о текста
4
Преобразование исходного текста в массив mas_pred
Нет
k=0,nax_nas;0
Число не
обработанных строк больше 0
Court Row($words)>0
max_str=OourttRaw($words)
WHERE words = 0
Обновляем
метку в БД
8
Определение
ключевых слов с
использованием
меры TTF*IDF
words = 1
1 j
10
mas_pred[k]==t rue
11 Нет
Вставка слова в таблицу
12
k
13
Проверяем наличие слова в таблице ключевьх слов
Запрос из БД количества сюжетов
ORw($suzheti)- число сюжетов
Вставка данных в БД с номером max suzh=1
z=0,max_suzh;0
Выбор z сюжета max_suzh- номер последнего сюжета
Выбор k Элемента массива mas_pred maxjras- номер последнего элемента массива ras_pred
Вставка данных в БД с номером сюжета
Вставка данных в БД с номером max suzh+1
20
9
z
21
redactor@ progress-human.com
Заключение
Программная реализация разработанного алгоритма позволяет производить кластеризацию текстовых сообщений СМИ сети Интернет в режиме онлайн на одном компьютере класса «рабочая станция», в отличие от многих современных подходов [7-10], требующих для этого серверные мощности или работающих в отложенном режиме.
Использование данного алгоритма позволяет существенно сократить размерность решения задачи информационно-аналитической обработки материалов средств массовой информации [11, 12]. К таким задачам относятся: определение актуальной «повестки дня» на заданном интервале времени, анализ тематических информационных потоков, поиск упоминаний персон или брендов в текстах новостей.
Литература
1. Интернет в России: динамика проникновения. Осень 2015 / [Электронный ресурс] Режим доступа: http://fom.ru/SMI-i-intemet/ 12497
2. Ландэ Д.В. Моделирование динамики информационных потоков // Фундаментальные исследования. - 2012.- № 6 (3). - C. 652-654.
3. Кушнарев Д.А. Классификация алгоритмов кластеризации текстовых документов // Карповские научные чтения: сб. науч. ст. Вып. 5: в 2 ч. Ч. 1- Минск: «Белорусский Дом печати», 2011. - С.179-183.
4. Нету Anaya-Sanchez, Aurora Pons-Porrata, and Rafael Berlanga-Llavori A document clustering algorithm for discovering topics, Pattern Recognition Letters/ Vol: 31, No: 6, рр: 502510, Арп1 2010.
5. Додонов А.Г., Ландэ Д.В. Методика аналитического исследования динамики событий на основе мониторинга веб-ресурсов сети Интернет // Информационные технологии и безопасность: основы обеспечения информационной безопасности: Материалы международной научной конференции ИТБ-2014. - Киев: ИПРИ НАН Украины. - 2014. - С. 3-17.
6. Додонов А.Г., Ландэ Д.В. Моделирование и анализ тематических информационных потоков // Информационное противодействие угрозам терроризма. - 2013. - № 20. - C. 52-59.
7. Романенко А.А. Кластеризация коллекции текстов //Машинное обучение и анализ данных. 2012. Т. 1. № 3. С. 305-310.
8. Крейнес М.Г., Афонин А.А. Кластеризация текстовых коллекций: помощь при содержательном поиске и аналитический инструмент // Интернет-порталы: содержание и технологии. Вып. 4. М.: Просвещение, 2007. С. 510-537.
redactor@ progress-human.com
9. Жихалкина Н. Ф. Динамический подход к задаче кластеризации //Математические структуры и моделирование. - 2000. - №. 1 (5).
10. Адуенко А. А., Кузьмин А. А., Стрижов В. В. Выбор признаков и оптимизация метрики при кластеризации коллекции документов //Известия Тульского государственного университета. Естественные науки. - 2012. - №. 3.
11. Потемкин А. В. Мониторинг информационных потоков распространения сообщений в глобальных информационных сетях Интернет // Вестник компьютерных и информационных технологий.-2015. - № 10. - С. 44-49.
12. Бородащенко А. Ю., Потемкин А. В., Сазонова Е. А., Шекшуев С. В. Алгоритм поиска схожих публикаций средств массовой информации [Электронный ресурс] // Интернет-журнал «Науковедение». - 2015, №4. Режим доступа: http://naukovedenie.ru/PDF/74TVN415.pdf
DYNAMIC CLUSTERING ALGORITHM MEDIA REPORTS
INTERNET IN STORYLINES
Alexey Potemkin PhD in The Academy of the Federal Guard Service of the Russian Federation
Orel, Russia
Anton Borodaschenco PhD in The Academy of the Federal Guard Service of the Russian Federation
Orel, Russia
Abstract. It is proposed to message text clustering algorithm Internet media information, which is a modification of known approaches based on key words. The proposed algorithm can be used for dynamic clustering of news reports on storylines online. Storylines are a set of messages for one event or phenomenon. This is achieved as described in the article modifications of existing approaches. We consider the implementation of this algorithm is described in detail features of the implementation, greatly reducing resource consumption when monitoring thousands of Internet media information. Using this algorithm can significantly reduce the dimension of the solution to the problem of information-analytical processing of media materials. These problems include: the definition of an actual «agenda» at a predetermined time interval, analysis of case information flows, people search for references or brands in news texts.
Key words: text; message; mass media; news; topic; subject; Internet.
redactor@ progress-human.com
References
1. The Internet in Russia: the dynamics of penetration. Autumn 2015' 2016, Public Opinion Foundation, retrieved 27 June 2016, http://fom.ru/SMI-i-internet/11889.
2. Lande D.V. Modeling the dynamics of information flows // Modern problems of science and education. - 2012. - № 6 (part 3) - P. 652-654
3. Kushnarev D.A. Classification algorithms for clustering text documents // Karpovskiy scientific readings. - 2011. - № 5(part 1) - P.179-183.
4. Нему Anaya-Sanchez, Aurora Pons-Porrata, and Rafael Berlanga-Llavori A document clustering algorithm for discovering topics, Pattern Recognition Letters/ Vol: 31, No: 6, рр: 502510, Арп1 2010.
5. Dodonov A.G., Lande D.V. Methods of an analytical study of the dynamics of events based on the monitoring of the Internet Web Resources // Information technology and security: the basics of information security. - Kiev: IPRI NAN Ukraine. - 2014. - P. 3-17.
6. Dodonov A.G., Lande D.V. Modeling and analysis case information flows // Information counteraction to the terrorism threats. - 2013. - № 20. - P. 52-59.
7. Romanenko A.A. Feature selection and stepwise logistic regression for credit scoring // Machine Learning and Data Analysis. 2012. Т. 1. № 3. P. 305-310.
8. Kreines M.G., Afonin A.A. Clustering of text collections: help with a content search and analysis tool // Internet portals: content and technology. P. 4. 2007. P. 510-537.
9. Zhigalkina N.F. A dynamic approach to the problem of clustering // Mathematical structure and modeling. - 2000. - №. 1 (5).
10. Aduenko A.A., Kuzmin A.A., Strijov V.V. Feature selection and metrics' optimisation when clustering documents collection // News of the Tula State University: natural sciences. - 2012. -№.3.
11. Potemkin A. V. Monitor the flow of dissemination messages on global information networks Internet // Herald of computer and information technologies.-2015. - № 10. - P. 44-49.
12. Borodaschenco A.Y., Potemkin A.V., Sazonova E.A., Shekshuev S.V. The mass media similar publication finding algorithm // Internet magazine «Naukovedenie». - 2015, №4. http://naukovedenie.ru/PDF/74TVN415.pdf
Contact
Alexey Potemkin
The Academy of the Federal Guard Service of the Russian Federation 302034, Russia, Orel, Priborostroitel'naya St., 35
redactor@ progress-human.com
[email protected] Anton Borodaschenco
The Academy of the Federal Guard Service of the Russian Federation
302034, Russia, Orel, Priborostroitel'naya St., 35