УДК 004.62
DOI: 10.24412/2071-6168-2022-2-418-426
АДАПТИВНЫЕ АЛГОРИТМЫ ЗАГРУЗКИ ТЕКСТОВЫХ СООБЩЕНИЙ В СИСТЕМЕ МОНИТОРИНГА СОЦИАЛЬНЫХ МЕДИА РЕСУРСОВ
А.А. Овсянников, А.А. Смирнов
Авторы статьи разработали и исследовали алгоритмы загрузки текстовых сообщений новостных сайтов и социальных сетей. Разработанные алгоритмы используются в системе загрузки текстовых сообщений и позволяют собирать электронные публикации в коллекцию подстраиваясь под работу источника (новостного сайта, социальной сети, блога, системы обмена сообщениями). Алгоритмы загрузки сообщений осуществляют прогнозирование появления новых сообщений и генерируют управляющие команды для возможности балансирования своевременности загрузки сообщений и использования ресурсов системы загрузки. Предложенные решения позволили за счет дополнительной информации об источниках публикации новостных сообщений перераспределять ресурсы системы загрузки, повышая ее эффективность.
Ключевые слова: система мониторинга, сбор данных, интеллектуальный анализ данных, адаптивные системы, загрузка сообщений, прогнозирование появления сообщений.
Одним из этапов мониторинга текстовых сообщений сети интернет является доставка сообщений из новостного источника в локальное хранилище потребителей информации. Эти действия осуществляет система загрузки текстовых сообщений. Работа данной системы обеспечивает своевременность доставки потребителю информации, находящейся в открытом доступе. Однако рост количества источников мониторинга, случайный характер публикации сообщений, сложность извлечения информации из источников создают дополнительную нагрузку на систему загрузки текстовых сообщений, что требует развития подходов автоматического сбора и обработки текстовых сообщений новостных источников сети Интернет.
В настоящее время разрабатываются и используются системы мониторинга социальных медиа-ресурсов [1] для решения задач по поиску и анализу новостной информации сети Интернет. Подходы к сбору информации в Интернет (Web-mining) описаны в [2, 3]. Дальнейшая обработка и преобразование информации предполагает (но не обязывает) поиск дубликатов [4], классификацию [5], кластеризацию [6], извлечение ключевых понятий [7], определение тональности [8] и другие виды обработки текстовых данных. Исследованию систем мониторинга Интернет-ресурсов посвящены работы [9, 10, 11].
Системы мониторинга новостных ресурсов осуществляют загрузку и обработку текстовых сообщений. Развиваясь данные системы охватывают все большее количество источников текстовой информации: новостных агентств, социальных сетей, блогов содержащих разнородную информацию и генерирующих контент различного объема и временного распределения. Проблемам оптимизации поиска ресурсов и адаптации сбора данных посвящены работы [12, 13]. Ранее, в статье [14] авторы рассмотрели модели генерации контента новостными источниками, что позволило определить алгоритмы, подходящие для загрузки текстовых сообщений источников с различными режимами работы.
Для взаимодействия с различными типами источников генерации контента были разработаны и исследованы 4 алгоритма загрузки:
1) алгоритм с фиксированным интервалом загрузки;
2) алгоритм с динамическим интервалом загрузки с оптимизацией по количеству сообщений;
3) алгоритм загрузки сообщений с прогнозированием времени загрузки (EMA-алгоритм);
4) алгоритм загрузки сообщений с прогнозированием времени загрузки с учетом цикличности (метод Хольта-Уинтерса).
Далее в статье рассматриваются и сравниваются алгоритмы загрузки текстовых сообщений новостных источников с фиксированным временным интервалом между опросом источников, применяемым в современных системах сбора текстовых сообщений, алгоритма с адаптивным временным интервалом, рассчитываемым в процессе загрузки текстовых сообщений,
418
на основе анализа характеристик источников и алгоритма загрузки сообщений на основе прогнозных значений интервалов между загрузками сообщений (2 варианта: без учета цикличности и с учетом цикличности).
Сравнение осуществлялось по следующим показателям, характеризующим работу системы загрузки:
- время доставки - среднее время между публикацией сообщений и доставкой в локальное хранилище;
- ресурсоемкость - использование ресурсов ПЭВМ и канала передачи данных.
Алгоритм с фиксированным интервалом (Fixed) осуществляет загрузку новостных
сообщений с постоянным интервалом между загрузками. Временная диаграмма работы данного алгоритма представлена на рис. 1. Достоинствами алгоритма является простота реализации, стабильная работа. Недостатком является невозможность адаптации к источнику со "сложным" поведением (с изменением частоты и равномерности публикации сообщений). Для данного алгоритма на начальном этапе задан фиксированный интервал между загрузками 1фиксИнт. Расчет времени следующей загрузки осуществляется по формуле (1).
ТЗагрЫ ~ ТЗагрЫ-1 + ¿ОжидМ-1 , (1)
где T3azpN - время следующей загрузки новостных сообщений, ТЗагрН_1 - время предыдущей загрузки, t Ожидк _1 - интервал ожидания до следующей загрузки.
Рис. 1. Временная диаграмма работы алгоритма загрузки сообщений с фиксированным интервалом
Формула (2) показывает расчет интервала ожидания
t = t — t
1ОжидЫ ФиксИнт 1 ЗагрЫ'
(2)
где t0^dN - интервал ожидания до следующей загрузки новостных сообщений, t3azpN - время
загрузки новостных сообщений, 1фиксИнт - фиксированный интервал между загрузками новостных сообщений.
Алгоритм с динамическим интервалом загрузки (Adaptive) с оптимизацией по количеству сообщений подстраивается к частоте публикаций сообщений, таким образом, чтобы осуществлять загрузку приближенного к некоторому заданному количеству новостей. Временная диаграмма работы алгоритма загрузки сообщений с адаптацией к производительности источника представлена на рис. 2.
Рис. 2. Временная диаграмма работы алгоритма загрузки сообщений с адаптацией
к производительности источника
Достоинство алгоритма заключается в подстройке частоты загрузки под частоту публикации. Данный алгоритм позволяет эффективно расходовать ресурсы канала передачи данных и ПЭВМ (память, время процессора) при достаточно невысоком времени доставки новостных сообщений.
Время очередной загрузки вычисляется по формуле (3).
ТЗагрЫ ~ ТЗагрЫ—1 + ^АдаптИнтЫ, (3)
где ТЗагрМ - время очередной загрузки новостных сообщений, ТЗагрМ—1 - время предыдущей загрузки новостных сообщений, гАдаптИнтЫ - адаптивный интервал рассчитываемый по формуле 4.
. I ^АдпптИнт + ^ ДельтаУвел если, ПЗагр > ПЗад (4)
^ АдаптИнт ~ | г — г еси п ^ п , (4)
У1 АдпптИнт — 1 ДельтаУменьш еСЛи, ПЗагр < ПЗад
где гДельтаУвел - временной интервал на который увеличивается адаптивный интервал гАдаптИнт , рассчитывается по формуле (5), а гдельтаУменьш - временной интервал на который уменьшается адаптивный интервал, рассчитывается по формуле (6).
^ ДельтаУвел КУвел г АдапmИнm,
(5)
г = К ■ г <6)
ДельтаУмеьш Уменьш АдаптИнт'
где КУвел и КУменьш - коэффициенты адаптивного интервала загрузки, влияющие на увеличение или уменьшение гДельта интервала.
При работе алгоритма адаптивный интервал стремится к такому оптимальному интервалу гАдаптИнт ^ гОпти, при котором количество загруженных новостных сообщений стремится
к заданному количеству пЗагр ^ пЗад. Увеличение параметра пЗад позволяет сократить количество загрузок новостей снижая оперативность доставки текстовых сообщений. Уменьшение данного параметра - повышает оперативность доставки, при этом увеличивая потребление ресурсов ПЭВМ.
Алгоритм прогнозирования времени загрузки (ЕМА) стремится найти зависимость будущего значения частоты публикации сообщений от прошлых значений для расчета времени (периодичности) осуществления загрузки сообщений. Алгоритм основан на ЕМА модели прогнозирования [15]. ЕМА-модель относится к группе авто-регрессионных моделей прогнозирования. Данная модель проводит выявление и анализ временного ряда с помощью его сглаживания (рассчитывает значение экспоненциального скользящего среднего), в основу его заложена идея постоянного пересмотра прогнозных значений при поступлении фактических данных.
Функция модели имеет вид представленный в формуле (7):
ЕМА(г) = а- 7 (г) + (1 — а)* ЕМА(г — 1), (7)
где ЕМА(г)- значение экспоненциального скользящего среднего в точке (г) , 7 (г)- значение временного ряда в момент времени (г) , а - коэффициент сглаживания данных, изменяется в интервале [0,1], а ЕМА(г — 1)- значение экспоненциального скользящего среднего в точке (г — 1) (предыдущее значение временного ряда).
Достоинствами ЕМА-модели являются: возможность учета весов исходных данных в зависимости от их устаревания и простота вычислительных операций (процессорная ресурсо-емкость). Настройка данного метода заключается в подстройке параметра альфа, влияющего на вклад значений (чем больше альфа, тем больше вклад последних значений и тем быстрее убывает вклад начальных значений), а также в определении какого объема выборку следует находить, чтобы получить наименьшую ошибку прогноза. И хотя существуют модели дающие более точный прогноз (нейросетевые, на опорных векторах, на нечеткой логике), сложность их реализации и ресурсоемкость, в данном случае, вынуждает нас использовать вычислительно менее сложную ЕМА-модель прогнозирования.
Прогнозирование осуществляется по временным рядам полученным из характеристик сообщений новостных агентств или пользователей социальной сети, следовательно, возможно предположить, что прогнозные модели должны учитывать сезонную составляющую, так как частота и периодичность публикации сообщений может зависеть от времени суток, от дня недели, вплоть до текущего сезона. Человеческий фактор оказывает влияние на частоту публикаций и может учитываться в моделях прогнозирования с выделением признака цикличности (сезонности).
Типичное распределение частоты публикации сообщений для источника (в данном случае выбран источник РИА Новости) представлен на рис. 3. На данном рисунке возможно увидеть цикличность частоты (цикл 7 дней) публикации новостей по дням недели, интервал отображения составляет 14 дней с разрешением 1 час (рис. 3, а). Видно снижение количества сообщений в выходные дни. Среднее количество сообщений по часам в течение дня приведено на рисунке (рис. 3, б). Для большинства источников типичным является снижение или отсутствие сообщений в ночное время и увеличение количества сообщений в рабочие часы. На отдельных источниках видно снижение количества сообщений в обеденный перерыв, около 12-14 часов.
Поскольку исходные данные содержат тенденцию сезонности по дням недели (рис. 3, а) и часам (рис. 3, б), то вместо модели ЕМА, лучше будет работать метод Хольта-Уинтерса, который учитывает «сезонность» в данных.
Частота публикации сообщений
Распределение сообщений по часам
|||||||||
12. N07 14. N0« 16. N0* 18. Ыо« 20. N07 22. N07 24. N07
Источник: РИА Новости
О 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 б)
Рис 3. Источник РИА новости: а - частота публикации сообщений по дням; б - средняя частота публикации сообщений по часам
Алгоритм прогнозирования времени загрузки с учетом цикличности по методу Хольта-Уинтерса [15, 16] описывается следующей системой уравнений:
YT+т = (аТ + тЬТ) + с
т—$+т
а = а(^ — с—,) + (1 — а)(а—! + Ь{—1) Ь = р(а, — а—1) + (1 — с — а) +(1 — г)с—*
(8)
где s - шаг сезонности в модели, , Ь1: и - параметры модели, а, Р, у е (0,1) - постоянные сглаживания, т - номер периода. По первой формуле системы уравнений рассчитываются прогнозные значения для заданного номера периода, вторая формула системы уравнения описывает сглаженный ряд, третья формула системы уравнений позволяет оценить тренд, четвертая формула системы уравнений служит для оценки сезонности.
Преимуществом данной модели является простота реализации, наличие сезонной составляющей, возможность учитывать тенденции в рядах исходных данных. К сложностям применения стоит отнести снижение точности на сильно волатильных данных и необходимость подбора коэффициентов сглаживания.
В процессе проведения испытаний алгоритмов использовалась база новостных источников с информационным фондом более 3 млн. сообщений по более чем 450 источникам собранная за период (1 год) с начала 2020 года по конец 2021 года. Для проверки работы алгоритмов загрузки новостных сообщений из базы были отобраны типичные представители новостных источников (см. Табл. 1) с различной частотой публикации сообщений в день.
Для проверки алгоритмов построена имитационная модель технологического процесса генерации новостных сообщений, использующая реальные данные о времени публикации сообщений и учитывающая объем загрузки данных по сообщению, используемое процессорное время, рассчитывающая «временной лаг» загрузки (время прошедшее от публикации сообщения до загрузки сообщения в хранилище). Чем ниже время доставки сообщения в систему от момента публикации, тем быстрее сообщение может быть просмотрено оператором. Возможно сократить «временной лаг» доставки сообщения увеличив частоту опроса источника сообще-
ний, т.е. уменьшить интервал между загрузками. Тем не менее, это неизбежно приведет к увеличению объема закачиваемых данных, объема используемой памяти системой загрузки, количества обращений к источнику. В случае, если количество источников очень велико, например загрузка сообщений по пользователям социальных сетей, то система загрузки может не успеть загрузить текстовые сообщения за отведенное время или могут сработать ограничения источника сообщений (социальные сети имеют ограничения на количество загрузок в единицу времени). Использование предложенных алгоритмов позволяет привязать интервал загрузок сообщений к количеству продуцируемого контента источником сообщений и динамически менять интервал в зависимости от частоты публикации источника. Таким образом, источники с высокой частотой публикации в текущий момент времени загружаются чаще, а источники с низким количеством публикаций загружаются реже, освобождая ресурсы системы (процессорное время, пропускную способность канала) для загрузки других источников текстовых сообщений. Такое перераспределение ресурсов системы загрузки позволяет повысить эффективность системы, что было подтверждено при анализе экспериментальных данных ниже.
Таблица 1
Характеристики отобранных новостных источников_
№ Название источника Сайт Новостей в год Средняя частота сообщений в день
1 РИА новости ria.ru 115560 365
2 Москва 24 m24.ru 49785 130
3 Петрозаводск говорит ptzgovorit.ru 16464 40
4 Кавказский узел kavkaz-uzel.ru 8541 24
5 Коми Онлайн komionline.ru 3437 10
Опрос источника сообщений производится следующим образом. При наступлении времени очередной загрузки текстовых сообщений производится загрузка «индексной» страницы со списком сообщений. Под «индексной» страницей подразумевается страница на которой содержится список заголовков сообщений с ссылками на страницы с новостями. Затем список сообщений сверяется с базой и производится загрузка только отсутствующих сообщений. Вследствие этого, объем полученной информации за текущую загрузку складывается из объема «индексной» страницы и объемов страниц сообщений. Применительно к новостным агентствам, объем загруженной информации больше зависит от количества включенных в страницу скриптов, тегов разметки, различных блоков, рекламы и т.д., тогда как сам объем текста новости бывает незначителен, по сравнению с общим объемом страницы. Если с момента последней загрузки новых сообщений не появилось, то объем текущей загрузки состоит только из индексной страницы. Таким образом, для конкретного источника за сутки может не появится ни одной новости, а при интервале загрузки каждые 10 минут и объеме индексной страницы 200 Кб, через канал загрузки будет пропущен объем составляющий 28.1 Мб данных. Соответственно, 1000 таких источников потребует уже 27.44 Гб информации в сутки, при этом не загрузив не одной новости. Для таких источников следует увеличивать интервал между загрузками сообщений.
В процессе проведения испытаний, на пяти отобранных источниках (см. табл. 1), были проверены разработанные алгоритма. Для РИА новости значение интервала загрузки менялось от 5 до 60 минут, соответственно задержка доставки сообщений системой загрузки изменялась от 180 до 1860 секунд. Изменение объема передаваемых по каналам загрузки данных изменилось примерно в 2 раза и составило 53.3Гб для интервала в 5 минут и 25.1Гб для интервала в 60 минут. При проверке на других источниках средняя задержка доставки сообщений не изменялась, снижались только объемы загружаемых данных и использование процессорного времени. Таким образом средний «временной лаг» зависит только от частоты загрузки и не зависит от производительности источника новостных сообщений. Вместе с тем чем ниже частота публикации источника, тем чаще происходят запросы текстовых сообщений без загрузки новых сообщений. Т.е. если за сутки выходит всего 2 новости, а опрос идет каждые 10 минут, то за сутки из 144 запросов информации только 2 (если новости публикуются с интервалом больше 10 минут) вернутся с информацией, а остальные запросы будут загружать «индексную» страницу без загрузки сообщений.
Для того чтобы убрать загрузки без новостей, необходимо частоту загрузок текстовых сообщений установить в соответствии с частотой публикации сообщений на ресурсах публикации. Для этого был разработан адаптивный алгоритм загрузки сообщений. Использование
422
адаптивного алгоритма позволило уменьшать интервал между загрузками при повышении частоты публикации текстовых сообщений и увеличивать интервал при снижении частоты публикации (см. таб 2). Соответственно на ресурсах с высокой частотой публикации адаптивный алгоритм загружал текстовые сообщения чаще, чем на ресурсах, где сообщения публиковались редко. К недостаткам данного алгоритма следует отнести задержку уменьшения интервала загрузки при резком возрастании количества новостей, например в утренние часы. Уменьшить этот недостаток возможно подбором коэффициентов изменения адаптивного интервала загрузки.
Следующим испытываемым алгоритмом является алгоритм прогнозирования времени загрузки. ЕМА-алгоритм прогнозирования показал результаты сопоставимые с адаптивным алгоритмом и если днем интервалы уменьшались и практически совпадали с интервалами фиксированного алгоритма, то в ночное время, при снижении частоты публикации сообщений, алгоритм увеличивал интервал между загрузками сохраняя ресурсы системы (см. табл. 2). Авторами было замечено, что недостаток ЕМА алгоритма совпадает с адаптивным алгоритмом -это запаздывание механизма уменьшения интервалов в утренние часы при резком увеличении частоты публикации, что приводило к увеличению «временного лага» - интервала между публикацией и загрузкой и снижало эффективность алгоритма. Однако, если в адаптивном алгоритме этот недостаток компенсировался настройками коэффициента адаптации, то в ЕМА-алгоритме подстройка коэффициента альфа (степени влияния вклада последних значений временного ряда) не приводило к существенному улучшению рабочих характеристик алгоритма.
По мнению авторов, наилучшим образом проявил себя алгоритм Хольта-Уинтерса, позволяющий учитывать сезонную составляющую. При расчетах совместно учитывались две сезонных составляющих, дневная и недельная, с нарастающим трендом.
Прогнозные значения и их соответствие реальным данным можно наблюдать на графике (см. рис. 4).
Рис. 4. График соответствия расчётных значений количества новостей от прогнозных по методу Хольта-Уинтерса
Полученные в ходе испытаний алгоритмов значения рабочих характеристик: времени доставки, использование времени процессора, использование канала передачи данных, по отобранным источникам (табл. 1) сведены в табл. 2.
Таблица 2
Сравнение алгоритмов _
Алгоритм Среднее время доставки сообщения (сек) Процессорное время (сек) Использование канала передачи данных (Мб)
Fixed 330 142331 22721
Adaptive 647 65813 11510
EMA 730 94264 15679
HU 361 54734 9888
Основным алгоритмом, относительно которого проводились сравнения, выступает алгоритм с фиксированным интервалом между загрузками - Fixed. Алгоритм EMA позволяет уменьшить использование времени задействования процессора и пропускной способности ка-
423
нала передачи данных, но при этом сильно теряет в среднем времени доставки сообщения. Адаптивный алгоритм уменьшает использование процессорного времени и канала передачи данных в 2 раза, но при этом время доставки увеличивается вдвое по сравнению с алгоритмом с фиксированным интервалом. Наилучшие результаты показал алгоритм реализующий метод Хольта-Уинтерса, при незначительно увеличившемся времени доставки сообщений, использование времени процессора уменьшилось в 2.6 раза, а загрузка канала передачи данных снизилась в 2.3 раза.
В заключение необходимо отметить, что опытная эксплуатация системы загрузки текстовых сообщений с разработанными алгоритмами обеспечивает дополнительные возможности по сбору электронных публикаций в коллекцию по мере их появления в не однотипных Интернет-ресурсах, контроль времени появления и доставки текстовых сообщений в пользовательские коллекции, перераспределение технических и вычислительных ресурсов системы загрузки в зависимости от ожидаемой работы Интернет-источников.
Направлением дальнейших исследований является преодоление ограничений предлагаемых алгоритмов и совершенствование адаптивных и прогнозных механизмов синхронизации с источниками новостных сообщений.
Список литературы
1. Беляев К.В., Босов А.В., Краюшкин Д.В. Обзор и сравнительный анализ информационно-аналитических систем. М.: ИПИ РАН, 2008. 136 с.
2. Барсегян А.А., Куприянов М.С., Холод И.И., Тесс М.Д., Елизаров С.И. Анализ данных и процессов: учеб. пособие. СПб.: БХВ-Петербург, 2009. 512 с.
3. Аверченков В.И., Рощин С.М. Мониторинг и системный анализ информации в сети Интернет. Брянск: Брянский государственный технический университет, 2012. 160 с.
4. Андреев А.М., Березкин Д.В., Козлов И.А., Симаков К.В. Многокритериальный метод выявления нечетких дубликатов в потоке текстовых сообщений // Системы и средства информатики. 2015. Т. 25. № 1. С. 34-53. DOI 10.14357/08696527150103.
5. Акимов Д.А., Редькин О.К., Садыков И.В. Подход к классификации интернет-страниц по степени их информативности // Вестник МГТУ МИРЭА. 2015, № 4-1 (9). С. 206217.
6. Пархоменко П.А., Григорьев А.А., Астраханцев Н.А. Обзор и экспериментальное сравнение методов кластеризации текстов // Труды Института системного программирования РАН. 2017. Т. 29. № 2. С. 161-200. DOI 10.15514/ISPRAS-2017-29(2)-6.
7. Астраханце Н.А. Автоматическое извлечение терминов из коллекции текстов предметной области с помощью Википедии // Труды Института системного программирования РАН. 2014. Т. 26. № 4. С. 7-20. DOI 10.15514/ISPRAS-2014-26(4)-1.
8. Горбушин Д.А., Гринченков Д.В., Мохов В.А., Нгуен Ф.Х. Системный анализ подходов к решению задачи идентификации тональности текста // Известия высших учебных заведений. Северо-Кавказский регион. Технические науки. 2016. № 2(190). С. 36-41. DOI 10.17213/0321-2653-2016-2-36-41.
9. Трусов В.А. Разработка системы мониторинга средств массовой инофрмации // Информационные ресурсы России. 2015. №4. С. 2-6.
10. Белоусов Р.Л., Сороковой Н.К., Моторков А.А. Концептуальная модель системы мониторинга и анализа данных интернет-ресурсов // T-Comm: Телекоммуникации и транспорт. 2015. Т. 9. № 10. С. 50-54.
11. Андреещев Д.С., Зайцев Е.В. Особенности обработки информации при мониторинге СМИ // Оборонный комплекс - научно-техническому прогрессу России. 2019. № 2(142). С. 8-14.
12. Аюков С.В., Бартунов О.С., Родичев Е.Б. Оптимизация сканирования ресурсов Интернет поисковой машиной с помощью оценок скорости изменения документов // Научный сервис в сети Интернет: сб. материалов всероссийской научн. конф., Новороссийск, 23-28 сентября 2002 г. МГУ им. М.В. Ломоносова. С. 133-137.
13. Печников А.А., Чернобровкин Д.И. Адаптивный краулер для поиска и сбора внешних гиперссылок // Управление большими системами. № 36., 2012. С. 301-315.
14. Смирнов А.А., Овсянников А.А. Модели генерации контента новостных источников в систетме мониторинга социальных медиа-ресурсов // Научные ведомости БелГУ. Экономика Информатика., 2016. №23 (244). Вып. 40. С. 112-116.
424
15. Кильдишев Г.С., Френкель А.А. Анализ временных рядов и прогнозирование. М.: Статистика, 1973. 104 с.
16. Holt C.C. Forecasting trends and seasonals by exponentially weighted moving averages, ONR Research Memorandum, Carnegie Institute of Technology, 1957. 52.
17. Winters P.R. Forecasting sales by exponentially weighted moving averages, Management Science, 1960. 6, P. 324-342
Овсянников Анатолий Анатольевич, канд. техн. наук, доц., сотрудник, ovsyannikov.aa@mail.ru, Россия, Орел, Академия Федеральной службы охраны Российской Федерации,
Смирнов Алексей Александрович, сотрудник, al2smi@gmail.com, Россия, Орел, Академия Федеральной службы охраны Российской Федерации
ADAPTIVE ALGORITHMS FOR DOWNLOADING TEXT MESSAGES IN A SISTEM OF MONITORING SOCIAL MEDIA RESOURCES
A.A. Ovsyannikov, A.A. Smirnov
The authors of the article have developed and researched algorithms for downloading text messages from news sites and social networks. The developed algorithms are used in the text message loading system and allow you to collect electronic publications into a collection, adapting to the work of the source (news site, social network, blog, messaging system). Message loading algorithms predict the appearance of new messages and generate control commands to balance the timeliness of message loading and the use of the resources of the loading system. The proposed solutions made it possible to redistribute the resources of the download system due to additional information about the sources of publication of news reports, increasing its efficiency.
Key words: monitoring system, data collection, data mining, adaptive systems, message loading, message prediction.
Ovsyannikov Anatoliy Anatolevich, candidate of technical sciences, docent, employee, ovsyannikov.aa@mail.ru, Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation,
Smirnov Alexey Alexandrovich, employee, al2smi@gmail.com, Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation