Теоретические вопросы информатики, прикладной математики, компьютерных наук и когнитивно-информационных технологий
УДК 519.21
Жуков Д.О., Новикова О.А., Алёшкин А.С.
Московский технологический! университет МИРЭА, г. Москва, Россия
ВОЗМОЖНОСТЬ ИСПОЛЬЗОВАНИЯ МЕТОДОВ ПОЧТИ - ПЕРИОДИЧЕСКИХ ФУНКЦИЙ, ВЕЙВЛЕТ АНАЛИЗА И ТЕОРИИ САМОПОДОБИЯ ХЁРСТА ДЛЯ ПРОГНОЗИРОВАНИЯ НОВОСТНЫХ СОБЫТИЙ В ИНФОРМАЦИОННОМ ПРОСТРАНСТВЕ
Аннотация
В представленной работе рассматривается возможность применения методов почти -периодических функций, вейвлет анализа и теории самоподобия Хёрста для анализа спектров поведения с течением времени векторов, задающих положение кластеров новостных сообщений в информационном пространстве. Суть предлагаемого авторами подхода заключается в применении методов математической лингвистики (разметка текста, нормализация, комментирование) для создания словаря и коллекции новостных текстовых сообщений, привязанных к шкале времени. Это позволяет, используя стандартные методы, создать для каждой новости её векторное представление. Для всей совокупности векторов в представленной статье предлагается ввести понятие директора (условной оси, характеризующей основное направление всех векторов). Изменение с течением времени метрики (косинус угла) векторов, задающих положение центров кластеров относительно директора, образуют спектры информационных процессов, анализ которых с помощью методов почти - периодических функций, вейвлет анализа и теории самоподобия Хёрста может позволить выявить наличие повторяемости некоторых групп социальных событий, и тем самым прогнозировать их возможное проявление в будущем.
Ключевые слова
Информационное пространство, вектор новости, кластеризация новостей, директор информационного пространства, спектр информационного процесса, метод почти -периодических функций, самоподобие, метод Хёрста, вейвлет анализ.
Zhukov D.O., Novikova O.A., Alyoshkin A.S.
Moscow Technological University MIREA, Moscow, Russia
FEASIBILITY OF USING METHODS OF ALMOST PERIODIC FUNCTIONS, WAVELET ANALYSIS AND HURST SELF-SIMILARITY FOR PREDICTING NEWS EVENTS IN THE
INFORMATION SPACE
Abstract
In the present paper we consider the feasibility of using methods of almost periodic functions, wavelet analysis and Hurst self-similarity to analyze in length of time the behavior spectra of vectors defining the position of the news reports clusters in the information space. The essence of the authors approach is to apply the methods of mathematical linguistics (text markup, normalization, comment) to create a dictionary and a collection of news text messages tied to the time scale. This makes it possible to create a vector representation for each newsletter, using standard methods. It is proposed to introduce the concept of a director (a conditional axis characterizing the basic direction of all vectors) for the entire set of vectors presented in the article. Time progress in metrics (cosine of the angle) of the vectors defining the position of the clusters centers relative to directors form
spectra of information processes. The analysis by the methods of almost - periodic functions, wavelet analysis and Hurst self-similarity can help identify the presence of recurrence of certain social events groups, and thus predict their possible manifestation in the future.
Keywords
Information space; news vector; news clustering; a director of the information space; information process spectrum; method of almost periodic functions; self-similarity; Hurst method; wavelet analysis.
Введение
Решение задач прогнозирования поведения систем и протекающих в них процессов является очень важным для различных областей деятельности, начиная с технических объектов и заканчивая социальными структурами. В настоящее время наименее проработанными (вследствие большей сложности) являются вопросы прогнозирования поведения социальных и экономических систем, поскольку наличие человеческого фактора создает не только стохастичность (случайность), но и неопределенность (недетерминированность
возможных реализации состоянии и выборе путеи их реализации).
В настоящее время существует выдвинутая Нассимом Николасом Талебом теория, в которой рассматривается природа возникновения и реализации неожиданных информационных событии.
В своеи теории Нассим Талеб предполагает, что человечество не способно успешно прогнозировать свое будущее, а уверенность в своих знаниях опережает сами знания и порождает феномен «сверхуверенности».
Поскольку в реальном мире существуют причинно-следственные связи, то на наш взгляд нельзя однозначно утверждать, что данная задача не имеет решения, и в представленной нами работе мы попытаемся обозначить некоторые возможные пути ее решения.
Краткий обзор существующих моделей прогнозирования процессов в экономических, социальных и технических системах
Прежде чем описать предлагаемый нами подход необходимо кратко рассмотреть некоторые существующие методы и модели, применяемые для прогнозирования развития процессов в технических, экономических и социальных системах.
Одним из важных инструментов прогнозирования является имитационное моделирование и использование математического аппарата искусственных нейронных сетеи. В работе [1] это использовалось для решения вопроса оценки запасов и прогнозирования извлечения нефти, что находится в пограничной области между техническими и экономическими системами.
Нелинейные модели прогноза на основе нейронной сети и комбинации различных экономических параметров часто используются для прогнозирования развития отдельных отраслеи экономики и их влияния на глобальные системы. В работе [2] этот подход был применен для прогнозирования влияния в 2012 - 2020 годах на экономику Китая в механизации сельского хозяйства. Результаты показывают, что требование полнои мощности сельскохозяйственных машин для экономики будет составлять 1232298,2 МВт к 2015 году (что полностью подтвердилось) и 1560579,6 МВт к 2020 г.
Некоторую аналогию между техническими и экономическими системами можно наити, например, при рассмотрении процесса возникновения так называемой разладки. В процессе своего функционирования технические системы могут испытывать, в частности, случайные широкополосные и сложно-периодические возмущения (так называемые ритм-сигналы), не подпадающие ни под один из известных законов распределения случайных величин, что может привести к аномальному состоянию технической системы (разладке). Большинство традиционных методов и моделей для выявления разладок основываются на предположении, что вероятностные
характеристики выходного ритм-сигнала у исправного технического объекта с течением времени не изменяются, т.е. измеренный стохастический сигнал является стационарным, и основаны на преобразовании Фурье (Fast Fourier Transform (FFT), помимо которого еще достаточно часто используются методы, основанные на распределение Вигнера-Вилля, веивлет-преобразование и преобразование Гильберта-Хуанга. Однако ритм-сигналы могут носить сложньш нестационарный характер, что приводит к невозможности применения традиционных методов выявления разладок и их прогнозированию.
В некоторых экономических процессах, например биржевая торговля, часто наблюдается явление неожиданной смены тренда, что по сути также является разладкои системы, для прогнозирования которой сейчас используются методы технического анализа, основанные на многомерном статистическом анализе, а также фундаментальный анализ.
Обсуждая математическое моделирование и прогнозирование развития процессов в экономических и социальных системах можно обратить внимание на работы россиискои научнои школы академика А.А. Петрова, чл. - корр. И.Г. Поспелова [3] и профессора Ф.Т. Алескерова [4], посвященные теории выбора (модель интервального выбора, модель коллективного выбора, основанные на рассмотрении классов бинарных отношении, таких как слабые бипорядки, простые и простершие полупорядки, на основе которых может быть построена поведенческая модель биржи.
Для прогнозирования развития рынков и оценки их потенциала можно использовать кластерный анализ и математический аппарат цепеи Маркова. В работе [5] показано, что формирующиеся рынки могут быть разделены с помощью кластерного анализа на группы в зависимости от имеющихся у них атрибутов, а переходы между группами (кластерами) могут быть описаны с помощью цепеи Маркова. Это позволяет прогнозировать эволюцию
развивающихся рынков.
Прогнозирование стабильности финансовых систем, устойчивости и уязвимости можно осуществить, используя стохастические имитационные модели, что в ряде случаев дает очень хорошие результаты, согласующиеся с практикой. В частности, такои подход был применен в работе [6]. Результаты исследования показывают улучшение стабильности румынской финансовой системы в период 1999-2007 гг., а рассчитанный с использованием стохастической имитационной модели совокупный индекс отражает финансовые завихрения румынского банковского кризиса 1998-1999 годов и ипотечного кризиса 2007 года.
Модели, использующие нелинейные степенные зависимости, могут быть применены для описания динамики колебания цен на высоколиквидные товары, а также демографических изменении в обществе [7].
Следует подчеркнуть, что задача прогнозирования в социальных системах и информационном пространстве существенным образом отличается от прогнозирования процессов в экономических и технических системах.
В настоящее время основные работы в области прогнозирования социальных и информационных процессов направлены на описание поведения пользователей в социальных сетях и сети интернет, и не рассматривают возможности прогнозирования реализации каких-либо новостных событии в информационном пространстве, что является очень важным.
В работе [8] авторы показывают, что существующие алгоритмы рекомендации выбора
новостей (прогнозирование предпочтении! пользователей!) редко учитывают, что со временем характеристики поведения пользователей, просматривающих новости становятся
упорядоченными. Поэтому эффективность традиционных алгоритмов рекомендации выбора новостеи не достаточно хороша в предсказании следующей новостной статьи, которую выберет пользователь. Чтобы решить эту проблему, авторы работы [8] предлагают упорядоченный во времени совместный алгоритм фильтрации рекомендации (TOCF), которьш принимает во внимание характеристики последовательности деиствии пользователей во времени. Кроме того, в [8] предложен метод, позволяющий вычислить подобие поведения среди различных пользователей
Для выбора контента, интересного большинству активных пользователей (по сути это тоже является прогнозированием их предпочтении), социальные сети используют различные алгоритмы фильтрации (CF). Для решения этои задачи имеется широкий спектр схем CF. Однако большинство из них не может решить проблему так называемого "холодного" запуска, которая обозначает ситуацию, что социальным сетям не удается наити рекомендации для прогнозирования выбора контента новыми пользователями. С этои целью авторы [9] предлагают Ы-кластеризацию и комплексный Е№и метод решения проблемы "холодного" запуска. Чтобы идентифицировать источники оценки для рекомендации, используется [9] понятие популярных элементов и экспертных оценок. Для того чтобы уменьшить размерность матрицы оценки, BiFu усиливает метод Ы-кластеризации, а для преодоления разреженности данных и разнообразия оценки используется метод сглаживания.
Некоторые вопросы прогнозирования и управления действиями пользователей в социальных сетях на основе анализа моделей стохастической динамики происходящих процессов описаны в работе [10]. Авторы рассматривают социальную сеть, в которой происходит стохастический обмен знаниями на основе предпочтении, опыта, доверия и дружеских отношении при наличие узлов обмана. Используя метрику доверия, авторы оценили, как при определенных условиях можно прогнозировать поведение и манипулировать доверием в некоторых нетривиальных случаях.
Существенное распространение для
моделирования и прогнозирования развития процессов в социальных сетях получило применение клеточных автоматов. В работе [11] авторы показывают, что поведение социальной системы может зависеть от свойств внешней среды и структуры поведения, которая
описывается с помощью четырех параметров в поведении: разнообразие, связность,
взаимозависимость, и адаптируемость. В этои статье было показано, что поведение становится более упорядоченным и целенаправленным при увеличении взаимозависимости и адаптивности, и таким образом можно его прогнозировать и управлять им, влияя на соответствующие параметры.
Авторы работы [12] изучали влияние структуры сетеи (случайные структуры, маленькие миры, цикл, колесо, звезда, иерархическая), в которых функционируют клеточные автоматы, и правил их поведения на динамику процессов в социальных сетях. Было показано, что при одинаковых правилах взаимодействия клеток динамика процессов сильно зависит от топологии сети (неупорядоченные структуры оказывают тормозящее влияние и наибольшая скорость наблюдается в регулярных структурах). Таким образом, при прогнозировании протекания процессов в социальных сетях крайне важно учитывать их топологию.
В работе [13] была рассмотрена модель поведения клеточного автомата, на основе модели Изинга. Данньш подход был применен к прогнозированию социального поведения людеи двух типов: конформистов (идущих за большинством) и нонконформистов
(демонстрируют индивидуальные предпочтения). По мнению авторов, такая модель может быть полезна при прогнозировании поведения игроков на бирже. Авторы используют понятие информационной энтропии для состоянии клеточного автомата как коллективной переменной, позволяющей сравнивать как детерминированное поведение, так и вероятностное поведение (на основании модели среднего поля и бифуркационных диаграмм).
В работе [14] для решения задачи прогнозирования авторы изучают временные зависимости в потоках событии и вводят кусочно-постоянную аппроксимацию их интенсивности, применяя Баиесовскии подход и распределение Пуассона к описанию выборки важности будущих событии. Это позволяет построить нелинейные временные зависимости для предсказания будущих событии с использованием деревьев решении. Однако, авторы не рассматривают наличие памяти информационного пространства и возможность его самоорганизации, что является, на наш взгляд, очень важным для прогнозирования редких событии.
В работе [15] для описания структуры новостного информационного пространства вводится понятие директора - условной оси, положение которой определяется усреднением направлении векторов, задающих положение
центров всех новостных кластеров. Направление директора может быть рассчитано с помощью метода наименьших квадратов для отклонения углов векторов, задающих положение центров информационных кластеров от условного направления, которое принимается за директор. Авторы [15] предлагают прогнозировать возможные события в социальном информационном пространстве на основе анализа самоподобия в поведении директоров с использованием модели Херста, на основании этого выявлять наличие периодичности в их поведении, и таким образом прогнозировать повторяемость.
Отмечая существенные успехи, достигнутые в прогнозировании поведения процессов для технических и экономических систем, нельзя не обратить внимание на то, что для социальных систем и новостных событии существенный прогресс в даннои области отсутствует, а механистическое перенесение методов и подходов технических и экономических наук не дает желаемых результатов.
Априори все данные, которые можно использовать для прогнозирования новостных событии, являются по своему характеру гетерогенными (имеют разныи формат представления и единицы измерения), и применение существующих методов и подходов интеллектуального анализа данных (Big Data) не приносит ощутимых результатов, поскольку имеющиеся инструменты очистки, извлечения и анализа данных, скорее всего, не позволяет извлекать сами знания, уничтожая их скрытые (латентные) связи.
Постановка задачи исследования
При создании модели прогнозирования новостных событии необходим математический аппарат, который позволил бы формализовать характер данных и привести их к единой шкале измерении. Очевидно, что нельзя в однои модели проводить вычислительные операции, например, над лингвистическими оценками и величинами метрической шкалы без использования процедур отображения на формальное безразмерное множество.
Общая схема предлагаемых нами методов для прогнозирования новостных событии заключается в следующем:
1. Первоначально создается коллекция текстовых документов (новости, статьи научного, культурного и т.д. характера, и иные документы), составляющая информационное пространство. Каждыи документ коллекции по описываемому в нем событию имеет привязку к шкале времени (база документов является темпоральной). На основе существующих методик математической лингвистики (разметка текста, нормализация, ком-
ментирование) и словаря коллекции можно создать формализованное векторное описание информационного пространства, представляющего в исходном виде набор текстов на естественных языках. Это позволит решить проблему разнородности данных и единиц измерения параметров различных процессов, и все данные формализуются единым образом в виде векторов.
2. Для прогнозирования событии, которые могут произойти в будущем, можно провести анализ самоподобия и повторяемости с течением времени изменении в векторном информационном пространстве описываемых событии с помощью теории Херста и модели почти-периодических функции.
Методика исследования
При создании модели прогнозирования новостных событии необходим математический аппарат, который позволил бы формализовать характер данных и привести их к единой шкале измерении. Очевидно, что нельзя в однои модели проводить вычислительные операции, например над лингвистическими оценками и величинами метрической шкалы, без использования процедур отображения на формальное безразмерное множество. Для этого можно использовать существующие методы математической лингвистики (разметка текста, нормализация, комментирование), что позволяет формализовать (в виде векторов) описание информационного пространства, исходно представляющего набор текстов на естественных языках. Разметка текста (линеаризация) необходима для распознавания и извлечения слов-терминов (термов) и составных терминов (термов) из исходного текста. При разметке учитывается пунктуация и переносы слов, и игнорируются стоп-слова
(малоинформативные, но часто встречающиеся в текстах слова, например предлоги, союзы, причастия, междометия и т.д.).
При нормализации из исходного текста удаляется грамматическая информация (падежи, числа, глагольные виды и времена, залоги причастии, род и так далее).
Комментирование текста необходимо, потому что, одно и то же слово в тексте может быть употреблено в различных значениях. Комментирования заключаются в добавлении в документ метаданных с информацией о части речи, о наличии у слова других значении и синтаксического разбора предложения.
После разметки, нормализации и комментирования текстов каждыи документ коллекции информационного пространства представляется набором термов (терминов), которые в него входят, и их частотами вхождения, что позволяет создать векторную модель каждого документа. Векторная модель основывается на
гипотезе (statistical semantics hypothesis) о том, что: статистические зависимости употребления слов и терминов (термов) могут быть использованы для нахождения заложенного в текст смысла [16]. Согласно гипотезе о скрытых связях, пары слов, которые встречаются в похожих моделях, стремятся иметь близкую семантическую зависимость [17].
Пусть общее количество имеющихся различных уникальных термов равно m (термы могут быть пронумерованы от 1 до m), а число имеющихся в коллекции текстовых документов равно n (документы могут быть пронумерованы от 1 до n). Тогда данному документу (обозначим его Xi, i -принимает значения от 1 до n), которьш содержит некоторое число термов (терминов), их порядок в наборе не важен) можно поставить в соответствие вектор Xi={to1, ^2, Шз, •••• toj ••• шт}, где первыи элемент соответствует числу (частоте) вхождении в документ первого термина, второи - второго, третии - третьего и т.д. Каждая ш tej может принимать любое положительное значение от 0. Все Xi образуют матрицу, большинство значении элементов которой равны 0 (матрица является разреженной). Таким образом, каждыи документ коллекции является точкои в многомерном пространстве (вектора в векторном пространстве, размерности Rm). Близко лежащие друг к другу точки соответствуют семантически схожим документам, что позволяет сделать кластеризацию информационного пространства по смысловым группам близких по значению документов (провести тематическое разделение). При этом каждая такая группа (кластер) текстовых документов может быть описана вектором, задающим положение центра. Данныи подход используется, например, в задачах классификации и отнесении сообщении новостной ленты к определенной группе и весьма эффективен с точки зрения экономии вычислительных ресурсов.
Для кластеризации текстовых документов в основном используются следующие виды алгоритмов: алгоритм k-средних, Scatter-Gather, BIRCH и алгоритмы иерархической кластеризации.
В линеиных алгоритмах [18] первоначально множество кластеров считается пустым, а для каждого нового сообщения выполняются следующие операции:
• оцениваются расстояния от вектора нового документа до центров всех кластеров;
• если минимальное расстояние больше некоторого наперед заданного числа, то новое сообщение помещается в отдельный кластер;
• если нет, то в один (или несколько ближаиших);
• пересчитываются центры измененных кластеров.
Для классификации текстовых документов может быть использован латентно-семантический анализ ^А) [16], который предназначен для извлечения контекстно-зависимых значении лексических единиц на основе факторного анализа и статистической обработки больших корпусов текстов. В качестве метрик при кластеризации можно использовать, как косинус угла между векторами, так и работать напрямую с расстоянием между векторами.
Отметим, что коллекция текстовых документов и описывающие их вектора, должны являться темпоральной базои данных (каждыи вектор по заключенному в нем информационному смыслу привязан к шкале времени (дате описываемого события)).
Для всеи совокупности векторов мы предлагаем ввести понятие директора (условной оси, характеризующей основное направление всех векторов) или внешней оси (которые задаются один раз и не изменяются с течением времени). Появление новых информационных событии и исчезновение возникших ранее, будет приводить к изменению положении центров смысловых кластеров. Изменение с течением времени метрики (косинус угла) векторов, задающих положение центров кластеров относительно директора (или произвольно заданной внешней оси), будет создавать спектры информационных процессов, анализ которых с помощью методов почти-периодических функции, веивлет анализа и самоподобия Херста может позволить выявить наличие повторяемости некоторых групп социальных информационных событии, и тем самым сделать возможным прогнозирование их проявления в будущем.
Структура новостного информационного пространства
Используя формализованные представления данных в информационном пространстве, попробуем создать метод прогнозирования новостных событии, основанный на предположении о том, что процессы, протекающие в пространстве информационных событии, могут обладать свойством самоподобия.
В представленной работе мы описываем разработанный нами для прогнозирования информационных событии подход, суть которого состоит в следующем:
1. Учитывая, что в реальном мире существуют множественные причинно-следственные связи, то при отображении событии в информационное пространство эти связи также должны хотя бы частично сохраняться (правило сохранения причинно-следственных связей при любых отображениях).
2. Любое событие может быть описано в информационном пространстве некоторым новостным кластером, имеющим свои собственные ха-
рактеристики (правило кластеризации информации). В любои момент времени в информационном пространстве существует множество различных новостных кластеров (см. рис. 1). Информационное пространство является "зеркалом" физического мира, отображающего его основные свойства и взаимосвязи событии.
3. С течением времени новостные кластеры могут изменяться или исчезать, и эти изменения могут быть описаны в рамках динамических моделей
4. Информационные процессы могут быть описаны с помощью спектров, которые по своеи сути, характеризуют изменение его метрики с течением времени. Помимо метрики, определяемой как угол между директором и вектором, задающим положение центра информационного кластера, в данныи момент времени можно использовать и иные метрики. Например, изменение объема (площади поверхности) фигуры кластера в информационном пространстве или еще энтропийную метрику. Важно отметить, что любая из используемых метрик будет являться одномерной функцией от времени.
В зависимости от выраженности структуры для анализа спектров может быть использована теория почти периодических функции, веивлет анализ и теория самоподобия Херста. Применение метода Фурье для анализа спектров информационных процессов является
ограниченным в силу того, что реальные процессы по механизмам их формирования могут не являться суперпозицией гармонических колебании, а иметь нелинеиныи характер, что не учитывается в существующих методиках обработки данных и приводит к потери информации о реальных процессах или получению ошибочных результатов. Несоответствие исследуемого процесса гармоническим
колебаниям компенсируется в спектральном анализе простым увеличением числа гармонических компонент, что только еще больше затрудняет интерпретацию получаемых результатов. В результате разложение в ряд Фурье может давать значимую систематическую ошибку из-за несоответствия методов обработки свойствам реальных данных. В данном случае необходимо использовать методы анализа на основе почти-периодических функции [19], веивлет преобразованиях [20] и теории самоподобия Херста [21].
Для анализа информационных процессов, спектр которых близок или хотя бы имеет отдаленное подобие с гармоническими процессами (степень сходства в данном случае заслуживает отдельного обсуждения), можно использовать метод почти-периодических функция или веивлет анализ, а всех остальных теорию самоподобия.
Информационное пространство R
Реальное фшнческое пространство
Рис. 1. Отображение событий из реального физического пространства в информационное и образование новостных кластеров
Использование метода почти -периодических функций в анализе информационных процессов
Исследование спектра информационного процесса (зависимости метрики, задающей положение смыслового информационного процесса от времени) можно провести, используя метод почти-периодических функции [19], в котором определение периодических компонент в спектре достигается преобразованием исходного ряда в новьш ряд по формуле (1): x(tk)=ln{y(tk-Atm)*y(tk+Atm)/y2(tk)}, где y(tk-Atm), y(tk), y(tk+Atm) -значения метрики процесса в соответствующие моменты времени, tk - моменты регистрации измеряемой характеристики, Atk - фиксированный пробньш временнои интервал. Результатом преобразования является ряд x(tk) с близким к нулю значением математического ожидания. Для определения наиболее близких к периодам значении параметров колебании воспользуемся методом сдвиговых функции. Применение сдвиговых функции, основанных на метриках функционального анализа и теории почти-периодических функции, позволяет эффективно определять значения близких к периодам (почти-периодам). Частным случаем таких функции является (2): a(Tk)=1/(n-k)*E | x(tj+Tk)-x(tj) | (вычисляется от j=1 до (n-k)), где n- количество точек исходного ряда, Tk - пробная сдвижка.
Система почти-периодов т функции x(t) может быть определена как совокупность локальных минимумов сдвиговой функции: T=arg min а(т) с условием: тга,„<т<тгааг, где rmin и гтш - естественные пределы поиска периода, выбираемые таким образом, что, с однои стороны, отбрасываются т < Tmin, при которых функция а(т) может принимать малые значения из-за инерционности функции X(t), и, с другои стороны, отбрасываются т > ттах, при которых определение средней а(т) становится ненадежным из-за малого числа членов суммирования в выражении (2).
Для выявления трендовои составляющей в наблюдаемых данных, соответствующих исходному ряду, необходимо использовать методы,
позволяющие, во-первых, избежать навязывания определенной зависимости предполагаемому тренду, во-вторых, согласовать методы выделения тренда с уже найденными характеристиками процесса.
Целесообразно за основу выделения тренда взять метод, при котором из исследуемых данных исключаются колебания, присутствующие в исходном ряду. В качестве способа выделения трендовои составляющей можно использовать метод скользящей средней (3): у*(^)=[1/т]-£у^+т), где суммирование производится от -т/2 до + т/2, а у*00 - значения трендовои составляющей у(£), соответствующее середине интервала усреднения, т - количество элементов, по которым ведется усреднение.
Помимо метода почти-периодических функции мы предполагаем, что повторяемость процессов в информационном пространстве, а значит и их прогнозирование может быть исследовано на основе теории веивлетов и самоподобия Херста.
Вейвлет анализ информационных процессов
Преимущество веивлет анализа перед анализом Фурье состоит в том, что он позволяет проследить за изменением спектра процесса с течением времени и определить преобладающие частоты [20]. Веивлет анализ дает хорошие результаты для исследования временных спектров с изменяющимся спектральным составом. Веивлеты объединяют в себе свойства подобия и локализации по частоте и времени. Семейство веивлет функции должно удовлетворять следующим требованиям:
1. Допустимость. Анализирующий веивлет ф(£) (материнский веивлет) должен иметь нулевое
среднее значение:
J G(x,p)dx J ty(t)dt = 0
2. Подобие. Все семейство веивлет функции может быть получено из анализирующего веивлета путем масштабного преобразования и
' t-ь'
сдвига:
tya,b(t ) =
a
Семейство веивлет
является двухпараметрическим: а - масштаб (растяжение/сжатие) параметр b - положение (сдвиг)
функции параметр функции, функции.
3. Обратимость. Существует обратное преобразования, однозначно восстанавливающее исходную функцию по ее веивлет -преобразованию.
4. Регулярность. Функция фИ должна быть локализована.
Для целеи анализа (лучшего разрешения) спектров информационных процессов,
спектральный состав которых может меняться с течением времени может быть использован в качестве анализирующего (материнского)
x.-0
комплексный! вейвлет Морле: ф ^ ) = ехр {^Г"+^
который! сжимаем или растягиваем функцию как целое, не нарушая подобия отдельных функции семейства.
Учитывая, что спектр информационного процесса описывается одномерной метрикой от времени, то мы предлагаем использовать следующее вейвлет преобразование:
\-Ь
ш (a,b) = ak J f (t )V
dt .
Для
данного
преобразования должно выполняться обращение, имеющее следующий вид:
f (t)
C- J J
ш (a,b)
V
t-b
dadb
> 0 а
Показатель степени масштабного множителя к выбирается в зависимости от целеи анализа. При к=-1 равные значения веивлет-коэффициентов ш(а,Ь) соответствуют равным амплитудам пульсации сигнала, независимо от масштаба пульсации. Соответственно для Сф должно
выполняться условие:
_ г V (ш)
CV =J
da<^ , где
фМ= 7 ф(t)e->atdt, ф(Х) - комплексная функция
Морле, удовлетворяющая условиям (1)-(4). Вейвлет - анализ позволяет восстановить полную эволюцию спектрального сигнала во времени.
Для анализа спектров информационных процессов и на этапе разложения сигнала по веивлетам, и на этапе восстановления исходного сигнала по его вейвлет образу условие
=7° Ф(а)
\а>\
Cv =J
-da
"мягким" условием вида: CV =J
можно заменить более
ip(ш)* ф(ш)
|ш|
-da где
вместо одного из веивлетов можно использовать сингулярную функцию (например, 5 - функцию), не являющуюся веивлетом. Это приводит к повышению точности анализа.
Выявление самоподобия информационных процессов с помощью теории Хёрста
При анализе временной зависимости метрики информационного процесса, для его описания может быть применена теория самоподобия Херста [21], суть которой заключается в том, что непрерывный стохастический процесс Y(t) считается статистически самоподобным с параметром Херста (Hurst) H (0,5<H<1), если для любого положительного числа а, случайные процессы Y(t) и a-HY(at) будут иметь одинаковые статистические свойства. Значение H=0.5 показывает отсутствие самоподобности, а значения H, близкие к единице, показывают ее большую степень.
Для выборочного случайного набора Xj (j=1, N) можно определить выборочное среднее M=[1/N]-£Xj, (суммирование ведется по j от 1 до N); выборочную дисперсию S n= [1/N]-£(Xj-M)2 (суммирование ведется по j от 1 до N) и и интегральное отклонение Dj=EXk-jM (суммирование ведется по k от 1 до j). Изменчивость самоподобного процесса СП на интервале N определяется как неубывающая функция длины интервала Rn=maxDj-minDj (1<j<N)
Херстом было показано, что для большинства естественных процессов при больших значениях N выполняется соотношение: RN/SN~{N/2}H или log (Rw/SN)~H-log(N/2), где H - параметр Херста.
Степень самоподобия процесса можно оценить путем построения графика отношения log(RN/SN) в зависимости от log(N/2) при разных N и вычислить величину H как тангенс угла наклона полученной линии. Следует заметить, что полученное множество точек не будут лежать на однои линии, поэтому их следует аппроксимировать линией, например, по методу наименьших квадратов. Данная методика определения параметра Херста получила название R/S-метод. R/S-метод дает лишь приближенное значение показателя Херста, поэтому для его вычисления целесообразно пользоваться несколькими методиками и сравнения полученных результатов. Например на основе периодограмм-ного анализа. Для самоподобного процесса X={xj} вычисляется периодограмма:
lN(w)=[1/(2nN)}-£xk-exp(jkw), w[0; п], (суммирование ведется по k от 1 до j), где N - количество отсчетов временного ряда. Учитывая, что самоподобие влияет на характер спектра S(w), должен получаться график зависимости спектральной плотности вида: in(w) ~[w]1-2h, при Из последнего выражения следует, что множество случайных точек {log[lN(w)]; log(w)} будет располагаться ли-неино с коэффициентом наклона линии 1-2 H. На практике для вычисления оценки должны использоваться только нижние 10% частот, т.к. описанное выше поведение справедливо только для области частот, близких к нулю. Основным недостатком данного метода является большой объем вычислении при построении оценки показателя Херста.
Самоподобные процессы принято разделять на два класса: точно самоподобные и асимптотически самоподобные. Различие между этими двумя классами заключается в том, что для функции автокорреляции точно самоподобных процессов выполняется условие: R(Yk)=R(Yq), а для асимптотически самоподобных: R(Yk)^R(Yq), при k^q. Дисперсия для обоих классов процессов определяется одинаковым образом: D(Yk)=D(Yq)/ke
—( Yk)= —(в— , где в - параметр самоподобия (
0<в<1), связанный с параметром Херста следующим соотношением: в = 2(1- Н) , а к -величина блока разбиения исходных данных.
Коэффициент Херста находится по зависимости
логарифма среднего значения дисперсии от логарифма величины блоков m разбиения исходной выборки данных. При наличии самоподобия, полученная зависимость должна иметь линеиньш вид. Таким образом, если аппроксимировать логарифмические зависимости линеинои функцией, то с помощью метода наименьших квадратов можно вычислить коэффициенты данного линейного уравнения и коэффициент корреляции данных с линеинои зависимостью. Тангенс угла наклона линеинои зависимости связан с параметром Херста (Hurst) H.
Теория самоподобия Херста находит применение во многих областях науки и техники, например [22] таких, как анализ флуктуации скорости в высокои турбулентности и числа
Реинольдса при течениях, а также коэффициента диффузии, трафика передачи данных в компьютерных сетях [23].
Работа выполнена за счет финансирования Министерством образования и науки Российской Федерации конкурсной части государственных заданий высшим учебным заведениям и научным организациям по выполнению инициативных научных проектов, номер проекта 28.2635.2017/ПЧ, наименование «Разработка моделей
стохастической самоорганизации
слабоструктурированной информации и реализации памяти при прогнозировании новостных событий на основе массивов естественно-языковых текстов».
Литература
1. Bansal Y., Ertekin T.,. Karpyn Z., Ayala L., Nejad A., Suleen F., Balogun O., Liebmann D., Sun Q. Forecasting well performance in a discontinuous tight oil reservoir using Artificial Neural Networks. Society of Petroleum Engineers - SPE USA, Unconventional Resources Conference 2013, Pages 239-250, SPE USA Unconventional Resources Conference 2013; The Woodlands, TX; United States; 10 April 2012 through 12 April 2012; Code 98227 (2013).
2. Ju J.Y, Zhu R.X., Geng, L. Forecasting and analysis the demand of agricultural mechanization for economic development Advanced Materials Research. Volume 694 697, Pages 3512-3515, 4th International Conference on Manufacturing Science and Engineering, ICMSE 2013; Dalian; China; 30 March 2013 through 31 March 2013; Code 97229, (2013).
3. Петров А.А., Поспелов И.Г. Математические модели экономики России. // Вестник РАН, Т.79, № 6, - С. 492-506, (2009).
4. Алескеров Ф. Т. Индексы влияния, учитывающие предпочтения участников по созданию коалиции!, Доклады РАН.- т. 414, № 5. - P. 594—597, (2007).
5. Huo D. Cluster analysis of market potential in emerging markets: A dynamic research based on Markov chain. Romanian Journal of Economic Forecasting, Volume 16, Issue 4, Pages 218-231, (2013).
6. Albulescu C.T. Forecasting the Romanian financial system stability using a stochastic simulation model. Romanian Journal of Economic Forecasting, Volume 13, Issue 1, Pages 81-98, (2010).
7. Akaev A.A., Sadovnichy V.B., Korotayev A.C. On the dynamics of the world demographic transition and financial-economic crises forecasts., European Physical Journal: Special Topics, Volume 205, Issue 1, Pages 355-373, (2012).
8. Yingyuan Xiao, Pengqiang Ai, Ching-hsien Hsu, Hongya Wang, Xu Jiao. Time-ordered Collaborative Filtering for News Recommendation. / / China Communication. - Vol. 12, № 12. - P. 53-62.
9. Daqiang Zhang, Ching-Hsien Hsu, Min Chen, Quan Chen, Naixue Xiong, Jaime Lloret. Cold-Start Recommendation Using Bi-Clustering and Fusion for Large-Scale Social Recommender Systems. // IEEE Transactions on Emerging Topics in Computing.- Vol. 2, № 2. - P.239-250, (2014).
10. Allodi, L., Chiodi, L., Cremonini, M. Modifying trust dynamics through cooperation and defection in evolving social networks. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), (2011).
11. Hay, J., Flynn, D. How external environment and internal structure change the behavior of discrete systems. Complex Systems., 25 (1), pp. 39-49, (2016).
12. Hay, J., Flynn, D. The effect of network structure on individual behavior. Complex Systems., 23 (4), pp. 295-311, (2014).
13. Bagnoli, F., Rechtman, R. Topological bifurcations in a model society of reasonable contrarians. Physical Review E - Statistical, Nonlinear, and Soft Matter Physics, 88(6), 062914, (2013).
14. Asela Gunawardana, Christopher Meek, Puyang Xu. A Model for Temporal Dependencies in Event Streams. / Microsoft Research, -P. 1-8, (2011).
15. Zhukov D.O., Lesko S.A. Trends, self-similarity and forecasting of news events in the information domain, its structure and director. // 2015 IEEE International Conference on Smart City/SocialCom/SustainCom together with DataCom 2015 and SC2 2015, December 19-21, Chengdu, Sichuan, China, P. 870-873, 978-1-5090-1893-2/15, DOI 10.1109/SmartCity.2015.178, (2015).
16. Feldman R., Sanger J. The Text Mining Handbok. Cambridge: Cambridge University Press, (2007).
17. Turney, P. D. The latent relation mapping engine: Algorithm and experiments. / / Journal of Artificial Intelligence Research, 33, pp. 615-655, (2008).
18. Costa G., Mango G., and Ortale R. An incremental clustering scheme for data de-duplication // Data Mining and Knowledge Discoverym, Vol. 20. No. 1. pp. 152-187, (2010).
19. Левитан Б. М., Почти-периодические функции, М., (1953).
20. Grossman A., Morlet J. Decomposition of Hardy functions into square integrable wavelets of constant shape / / SIAM J. Math. 1984. Vol. 15, No. 4, P. 723-736.
21. Цыбаков Б.С. Модель телетрафика на основе самоподобного случайного процесса. Москва, - 31 с., (1999).
22. Anvari M.A., Aghamohammadi C.A, Dashti-Naserabadi H.A., Salehi E.A., Behjat E.A., Qorbani M.A., Khazaei Nezhad M.A., Zirak M.A., Hadjihosseini A.B., Peinke J.B., Tabar M.R.R. Stochastic nature of series of waiting times. Physical Review E - Statistical, Nonlinear, and Soft Matter Physics, Volume 87, Issue 6, Article number 062139, (2013).
23. Walter Willinger, Murad S. Taqqu, Robert Sherman and Daniel V. Wilson, "Self-Similarity Through High-Variability: Statistical Analysis of Ethernet LAN Traffic at the Source Level". IEEE/ACM Transactions on Networking, Vol. 5, No. 1, (1997).
References
1. Bansal Y., Ertekin T.,. Karpyn Z., Ayala L., Nejad A., Suleen F., Balogun O., Liebmann D., Sun Q. Forecasting well performance in a
discontinuous tight oil reservoir using Artificial Neural Networks. Society of Petroleum Engineers - SPE USA, Unconventional Resources Conference 2013, Pages 239-250, SPE USA Unconventional Resources Conference 2013; The Woodlands, TX; United States; 10 April 2012 through 12 April 2012; Code 98227 (2013).
2. Ju J.Y, Zhu R.X., Geng, L. Forecasting and analysis the demand of agricultural mechanization for economic development Advanced Materials Research. Volume 694 697, Pages 3512-3515, 4th International Conference on Manufacturing Science and Engineering, ICMSE 2013; Dalian; China; 30 March 2013 through 31 March 2013; Code 97229, (2013).
3. Petrov A.A., Pospelov I.G. Mathematical models of the economy of Russia // Herald of the RAS, T.79, number 6, - pp 492-506, (2009).
4. Aleskerov F.T. Indexes of influence considering preferences of the participants to build coalitions Reports RAN.- t 414, № 5. -. P. 594-597, (2007).
5. Huo D. Cluster analysis of market potential in emerging markets: A dynamic research based on Markov chain. Romanian Journal of Economic Forecasting, Volume 16, Issue 4, Pages 218-231, (2013).
6. Albulescu C.T. Forecasting the Romanian financial system stability using a stochastic simulation model. Romanian Journal of Economic Forecasting, Volume 13, Issue 1, Pages 81-98, (2010).
7. Akaev A.A., Sadovnichy V.B., Korotayev A.C. On the dynamics of the world demographic transition and financial-economic crises forecasts., European Physical Journal: Special Topics, Volume 205, Issue 1, Pages 355-373, (2012).
8. Yingyuan Xiao, Pengqiang Ai, Ching-hsien Hsu, Hongya Wang, Xu Jiao. Time-ordered Collaborative Filtering for News Recommendation. / / China Communication. - Vol. 12, № 12. - P. 53-62.
9. Daqiang Zhang, Ching-Hsien Hsu, Min Chen, Quan Chen, Naixue Xiong, Jaime Lloret. Cold-Start Recommendation Using Bi-Clustering and Fusion for Large-Scale Social Recommender Systems. // IEEE Transactions on Emerging Topics in Computing.- Vol. 2, № 2. - P.239-250, (2014).
10. Allodi, L., Chiodi, L., Cremonini, M. Modifying trust dynamics through cooperation and defection in evolving social networks. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), (2011).
11. Hay, J., Flynn, D. How external environment and internal structure change the behavior of discrete systems. Complex Systems., 25 (1), pp. 39-49, (2016).
12. Hay, J., Flynn, D. The effect of network structure on individual behavior. Complex Systems., 23 (4), pp. 295-311, (2014).
13. Bagnoli, F., Rechtman, R. Topological bifurcations in a model society of reasonable contrarians. Physical Review E - Statistical, Nonlinear, and Soft Matter Physics, 88(6), 062914, (2013).
14. Asela Gunawardana, Christopher Meek, Puyang Xu. A Model for Temporal Dependencies in Event Streams. / Microsoft Research, -P. 1-8, (2011).
15. Zhukov D.O., Lesko S.A. Trends, self-similarity and forecasting of news events in the information domain, its structure and director. // 2015 IEEE International Conference on Smart City/SocialCom/SustainCom together with DataCom 2015 and SC2 2015, December 19-21, Chengdu, Sichuan, China, P. 870-873, 978-1-5090-1893-2/15, DOI 10.1109/SmartCity.2015.178, (2015).
16. Feldman R., Sanger J. The Text Mining Handbok. Cambridge: Cambridge University Press, (2007).
17. Turney, P. D. The latent relation mapping engine: Algorithm and experiments. / / Journal of Artificial Intelligence Research, 33, pp. 615-655, (2008).
18. Costa G., Mango G., and Ortale R. An incremental clustering scheme for data de-duplication // Data Mining and Knowledge Discoverym, Vol. 20. No. 1. pp. 152-187, (2010).
19. Levitan B.M. Almost periodic functions, M., (1953).
20. Grossman A., Morlet J. Decomposition of Hardy functions into square integrable wavelets of constant shape / / SIAM J. Math. 1984. Vol. 15, No. 4, P. 723-736.
21. Tsybakov B.S. Teletraffic model based on self-similar random process. Moscow, - 31 (1999).
22. Anvari M.A., Aghamohammadi C.A, Dashti-Naserabadi H.A., Salehi E.A., Behjat E.A., Qorbani M.A., Khazaei Nezhad M.A., Zirak M.A., Hadjihosseini A.B., Peinke J.B., Tabar M.R.R. Stochastic nature of series of waiting times. Physical Review E - Statistical, Nonlinear, and Soft Matter Physics, Volume 87, Issue 6, Article number 062139, (2013).
23. Walter Willinger, Murad S. Taqqu, Robert Sherman and Daniel V. Wilson, "Self-Similarity Through High-Variability: Statistical Analysis of Ethernet LAN Traffic at the Source Level". IEEE/ACM Transactions on Networking, Vol. 5, No. 1, (1997).
Поступила: 2.03.2017
Об авторах:
Жуков Дмитрий Олегович, доктор технических наук, профессор, заместитель директора по научнои работе института комплексной безопасности и специального приборостроения, Московский технологически университет МИРЭА, [email protected]
Новикова Ольга Александровна, соискатель, заместитель заведующего аспирантурой, Московский технологически университет МИРЭА, [email protected]
Алёшкин Антон Сергеевич, кандидат технических наук, доцент кафедры автоматизированных систем управления института комплексной безопасности и специального приборостроения, Московский технологически университет МИРЭА, [email protected]
Note on the authors:
Zhukov Dmitriy, doctor of technical sciences, professor, Deputy Director for Research of The Institute of Comprehensive Security and Special Instrumentation, Moscow Technological University MIREA, [email protected]
Novikova Olga, Competitor, deputy head of postgraduate study, Moscow Technological University MIREA, [email protected]
Alyoshkin Anton, Candidate of technical sciences, Associate Professor of the Department of Automated Control Systems of the Institute of Comprehensive Security and Special Instrumentation, Moscow Technological University MIREA, [email protected]