Научная статья на тему 'ФУНКЦИОНАЛЬНОЕ МОДЕЛИРОВАНИЕ ФЛУКТУАЦИЙ ИНФОРМАЦИОННОЙ СРЕДЫ ОТРАСЛЕЙ ЭКОНОМИКИ В РАЗРЕЗЕ ТЕМАТИЧЕСКИХ КЛАСТЕРОВ'

ФУНКЦИОНАЛЬНОЕ МОДЕЛИРОВАНИЕ ФЛУКТУАЦИЙ ИНФОРМАЦИОННОЙ СРЕДЫ ОТРАСЛЕЙ ЭКОНОМИКИ В РАЗРЕЗЕ ТЕМАТИЧЕСКИХ КЛАСТЕРОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
14
1
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
Информационная среда / гауссовские смеси / гамма распределение / тематические кластеры / информационные флуктуации / Informational environment / Gaussian mixtures / gamma distribution / thematic clusters / information fluctuations

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Конников Е.А., Родионов Д.Г.

На современной этапе развития экономики уровень взаимопроникновения отраслей достиг того уровня, при котором система функций, описывающая экономические процесса, стремится к хаотической. В связи с этим особую значимость приобретает процесс непрерывного мониторинга состояния отраслевой устойчивости и прогноз основных метрик развития и риска. Базовым источником высокочастотной информации подобного характера может выступать информационная среда, квантификация которой позволит получить совокупности тематических кластеров, эффективно описывающих те или иные экономические свойства. В рамках данной статьи представлены результаты исследования процесса функционального моделирования флуктуаций информационной среды отраслей экономики в разрезе тематических кластеров. Полученная в результате методика позволяет характеризовать относительные свойства отдельных тематических кластеров, что, в свою очередь, позволяет трактовать как степень присутствия тематики в информационной среде отрасли, так и специфику их универсальности и уникальности.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FUNCTIONAL MODELING OF FLUCTUATIONS IN THE INFORMATIONAL ENVIRONMENT OF ECONOMIC SECTORS THROUGH THEMATIC CLUSTERS

At the current stage of economic development, the level of interpenetration between industries has reached a point where the system of functions describing economic processes tends towards chaos. Consequently, the continuous monitoring of sectoral stability and the forecast of key development metrics and risks has become of particular importance. High-frequency information sources, such as the informational environment, can serve as a fundamental source of data of this nature. Quantifying this information environment allows for the creation of thematic clusters that effectively describe various economic properties. This article presents the results of research on the functional modeling process of fluctuations in the informational environment of economic sectors based on thematic clusters. The methodology developed provides a characterization of the relative properties of specific thematic clusters, enabling the interpretation of both the presence and the nature of thematic content within the information environment of the industry, thus highlighting their universality and uniqueness.

Текст научной работы на тему «ФУНКЦИОНАЛЬНОЕ МОДЕЛИРОВАНИЕ ФЛУКТУАЦИЙ ИНФОРМАЦИОННОЙ СРЕДЫ ОТРАСЛЕЙ ЭКОНОМИКИ В РАЗРЕЗЕ ТЕМАТИЧЕСКИХ КЛАСТЕРОВ»

Конников Е.А., Родионов Д.Г.

ФУНКЦИОНАЛЬНОЕ МОДЕЛИРОВАНИЕ ФЛУКТУАЦИЙ ИНФОРМАЦИОННОЙ СРЕДЫ ОТРАСЛЕЙ ЭКОНОМИКИ В РАЗРЕЗЕ ТЕМАТИЧЕСКИХ КЛАСТЕРОВ

Аннотация. На современной этапе развития экономики уровень взаимопроникновения отраслей достиг того уровня, при котором система функций, описывающая экономические процесса, стремится к хаотической. В связи с этим особую значимость приобретает процесс непрерывного мониторинга состояния отраслевой устойчивости и прогноз основных метрик развития и риска. Базовым источником высокочастотной информации подобного характера может выступать информационная среда, квантификация которой позволит получить совокупности тематических кластеров, эффективно описывающих те или иные экономические свойства. В рамках данной статьи представлены результаты исследования процесса функционального моделирования флуктуаций информационной среды отраслей экономики в разрезе тематических кластеров. Полученная в результате методика позволяет характеризовать относительные свойства отдельных тематических кластеров, что, в свою очередь, позволяет трактовать как степень присутствия тематики в информационной среде отрасли, так и специфику их универсальности и уникальности.

Ключевые слова. Информационная среда, гауссовские смеси, гамма распределение, тематические кластеры, информационные флуктуации.

Konnikov E.A., Rodionov D.G.

FUNCTIONAL MODELING OF FLUCTUATIONS IN THE INFORMATIONAL ENVIRONMENT OF ECONOMIC SECTORS THROUGH THEMATIC CLUSTERS

Abstract. At the current stage of economic development, the level of interpenetration between industries has reached a point where the system of functions describing economic processes tends towards chaos. Consequently, the continuous monitoring of sectoral stability and the forecast of key development metrics and risks has become of particular importance. High-frequency information sources, such as the informational environment, can serve as a fundamental source ofdata of this nature. Quantifying this information environment allows for the creation of thematic clusters that effectively describe various economic properties. This article presents the results of research on the functional modeling process of fluctuations in the informational environment of economic sectors based on thematic clusters. The methodology developed provides a characterization of the relative properties of specific thematic clusters, enabling the interpretation of both the presence and the nature of thematic content within the information environment of the industry, thus highlighting their universality and uniqueness.

ГРНТИ 06.35.51 EDN KDIJFM

© Конников Е.А., Родионов Д.Г., 2023

Евгений Александрович Конников - кандидат экономических наук, доцент Высшей инженерно-экономической школы Санкт-Петербургского политехнического университета Петра Великого.

Дмитрий Григорьевич Родионов - доктор экономических наук, профессор, директор Высшей инженерно-экономической школы Санкт-Петербургского политехнического университета Петра Великого.

Контактные данные для связи с авторами (Конников Е.А.): 195251, Санкт-Петербург, ул. Политехническая, д. 29 (Russia, St.Petersburg, Polytechnicheskaya, 29). Тел.: +7 (981) 017-92-30. Е-mail: konnikov.evgeniy@gmail.com. Статья поступила в редакцию 15.09.2023.

Keywords. Informational environment, Gaussian mixtures, gamma distribution, thematic clusters, information fluctuations.

Введение

Информационная среда является одним из наиболее динамичных источников высокочастотной информации, описывающей экономические процессы и явления. Функциональное моделирование флуктуа-ций информационной среды позволит исследовать как статичные свойства распределения содержательных и тональных свойств тематических категорий, так и их динамические изменения. Одной из ключевых проблем данного процесса является мультиформатная специфика данных, представленных в информационной среде. В информационной среде данные могут быть представлены таких форматах как:

1. Текстовый формат. Данные могут быть представлены в виде последовательности символов, интерпретируемых как естественная информация.

2. Числовой формат. Данные могут быть представлены в виде чисел, выступающих в качестве элементов математических вычислений и сравнительного описания.

3. Графический формат. Данные могут быть представлены в виде визуальных элементов, таких как диаграммы, графики, схемы и изображения, интерпретируемых так же, как естественная информация.

4. Аудио и видео форматы. Данные могут также быть представлены в виде аудио- и видеозаписей, что дает возможность воспринимать информацию в динамике.

5. Бинарный формат. Данные могут быть представлены в двоичной форме, используемой для хранения и передачи информации в машинной форме.

6. Структурированный формат. Данные могут быть представлены в структурированном виде, таком как таблицы, базы данных и т.д. Содержательно, нужно отметить, что данный формат является лишь способом представления текстовой и числовой информации.

Одним из наиболее универсальных является текстовый формат представления данных, так как при относительной емкости он позволяет эффективно передавать содержательные свойства заложенного посыла. Однако, для целей математической обработки текстовая информация требует квантификации. Существует множество способов квантификации текста, наиболее универсальным для целей идентификации содержательного посыла является представление текста в виде вектора. Существуют различные методы для представления текста в виде вектора, наиболее популярными из которых являются [4]:

1. Мешок слов (Bag-of-Words, BoW). В рамках данного метода представления текста каждый элемент текстового корпуса рассматривается как совокупность элементарных единиц (слов или словосочетаний). В качестве значения каждой координаты выступает частота встречаемости соответствующей элементарной единицы. Таким образом, каждый элемент текстового корпуса представляется в виде разреженного вектора, где ненулевые элементы указывают на наличие соответствующих слов в документе. Также в качестве альтернативы частоте встречаемости слова может выступать показатель TF-IDF (Term Frequency-Inverse Document Frequency). Данный показатель позволяет в дополнение к частоте встречаемости слов учитывать их важность в контексте всего корпуса. В результате слова, которые часто встречаются в данном документе, но редко встречаются в других документах, получают более высокий вес, что позволяет лучше отразить их значимость [5].

2. Word2Vec. Данный метод создает непрерывные векторные представления (эмбеддинги) для слов, учитывая их семантический и контекстуальный контекст в текстовом корпусе. В результате каждое слово представляется вектором фиксированной размерности, где близкие по смыслу слова имеют близкие векторы.

3. FastText. Данный метод основан на Word2Vec и учитывает морфемы вместо отдельных слов, что позволяет учитывать семантику и значения разных частей слова. Таким образом, даже для незнакомых или редких слов FastText может предоставить подходящее векторное представление на основе его составных частей [1, 9].

Материалы и методы

В рамках данного исследования решено использовать метод Word2Vec в сочетании с TF-IDF метрикой, что позволит представить каждый элемент информационной среды как часть общего относительно кон-

текста. Кластеризация полученной по результатам матрицы позволит идентифицировать основные тематически кластеры и степень их присутствия в каждом их элементов информационной среды. Алгоритм описанного процесса представлен на рисунке 1.

Квантификация

1. Формирование матрицы размерностью N на М, где N - совокупность документов в текстовом корпуса, а М ■ число уникальных слов в текстовом корпусе.

2. Расчет показателя значимости для каждого из элементов матрицы.

ТР - ЮБ =

- * 1о§

Где:

1. щ - частота встречаемости слова Г в конкретном документе. 2- Ек пк ~ общее число слов в конкретном документе.

3. |0| - число документов.

4. |{йг е Д|£ £ йг}| - число документов, в которых встречается слово ь

Рис. 1. Алгоритм описания информационной среды отрасли совокупностью тематических кластеров Результаты и их обсуждение

В качестве примера рассмотрим информационную среду атомной энергетики, представленную новостным массивом. Источником информации в данном случае выступает портал «Атомная энергия 2.0». По результатам парсинга было извлечено 10 589 информационных единиц за период с 5 августа 2021 года по 27 сентября 2022 года. В рамках кластеризации было выделено 3 тематических кластера. Распределение уровня присутствия каждого их кластеров в информационной среде атомной энергетики представлена на рисунке 2.

Как можно видеть, каждое из распределение обладает двумя пиками. Данное свойство является универсальным для информационной среды экономических отраслей, так как неизбежно имеют место более или менее концентрированные информационные единицы с точки зрения присутствия в них той или иной тематики. Таким образом, свойства пиков можно разделить:

1. Пик минимизации - характеризует интенсивность отсутствия того или иного тематического кластера в информационной среде отрасли.

2. Пик максимизации - характеризует интенсивность присутствия того или иного тематического кластера в информационной среде отрасли.

Таким образом, функциональное моделирование не может вестись посредством стандартных распределений. Существует несколько распределений, которые могут иметь два пика. Одним из наиболее известных примеров является распределение смеси (мультимодальное распределение). Распределение смеси состоит из комбинации двух или более плотностей вероятности. Некоторые распределения смеси с двумя пиками, которые часто используются, включают [10]:

1. Смесь нормальных распределений. Данное распределение состоит из комбинации двух или более нормальных распределений, каждое из которых имеет свои параметры среднего значения и стандартного отклонения. Смесь нормальных распределений может быть настроена таким образом, что получается двойной пик в плотности вероятности [7].

2. Логистическое распределение с двумя пиками. Логистическое распределение с двумя пиками является примером распределения смеси, в котором два пика имеют форму логистического распределения, но различаются по параметрам масштаба и сдвига.

3. Распределение Коши с двумя пиками. Распределение Коши известно тем, что у него нет дисперсии, а его плотность вероятности воспринимается «тяжелыми хвостами». Распределение Коши может также иметь два пика, где посередине наблюдается узкое плато [2].

00 02 0.4 Об 0.6 0.0 0.2 04 Об 0.8 ОС 0.2 0.4 06 0.8

Кластер 1 Кластер 2 Кластер 3

Рис. 2. Распределение присутствия тематических кластеров в информационной среде атомной энергетики

Если обратить внимание на представленные на рисунке 2 диаграммы, можно заключить что сдвиг описывающих функций должен быть максимальным, для чего, в свою очередь, эффективнее всего может быть использовано гамма распределение. Так или иначе, но первичным этапом в данном случае является реализация алгоритма моделирования гауссовской смеси. Математически данный алгоритм работает следующим образом:

1. Инициализация. Сначала задается количество компонент К в модели GMM и производится инициализация параметров модели. Каждая компонента определяется с помощью среднего значения компонент смеси /лк для к = 1,..., К (каждое среднее значение является вектором размерности й), ковариационной матрицы компонент смеси для к = 1,..., К (каждая ковариационная матрица является квадратной матрицей размерности й X й) и веса компонент смеси пк для к = 1, ...,К, который определяет вклад каждой компоненты в смесь (веса пк должны быть неотрицательными и их сумма должна быть равна 1). Объединенная матрица весов, средних значений и ковариационных матриц: 0 = (п^ ...,пк; ¡л^ ^ ...^к).

2. Е-шаг. На данном этапе происходит вычисление апостериорной вероятности (принадлежности) каждого образца к каждой компоненте GMM, с использованием текущих параметров модели. Это делается с помощью формулы Байеса и плотности вероятности многомерного нормального распределения. Апостериорная вероятность у(гпк) определяет вероятность того, что образец хп принадлежит к-ой компоненте: у(гпк) = пк* Ы(хп; ¡лк; Ек)/^=1^ * Ы(хп; ¡л¡; где М(хп; ¡лк; £к) - функция плотности вероятности многомерного нормального распределения для компоненты к, а гпк - скрытая переменная, указывающая, принадлежит ли образец хп компоненте к.

3. M-шаг. На данном этапе выполняют обновление параметров модели GMM, используя апостериорные вероятности у(гпк) и текущие образцы данных, а именно:

а) вычисление нового веса компоненты: вес обновляется как средневзвешенное апостериорных вероятностей принадлежности образцов к компоненте: п^ = * Лп=1* у(2пк), где N - общее количество образцов данных;

б) вычисление нового среднего значения компоненты. Среднее значение компоненты обновляется путем взвешенного среднего значений образцов с их апостериорными вероятностями принадлежности

к компоненте: ^ =

(Л%=1* У(гпк)*хп). !%=1* г(гпк) ;

в) вычисление новой ковариационной матрицы компоненты. Ковариационная матрица обновляется путем вычисления взвешенной ковариационной матрицы образцов и их апостериорных вероятностей

V (!%=1* У(гпк)*(хп-^к)Т)

принадлежности к компоненте: Лк = -^-7—ч-.

Лп=1* У(гпк)

4. Итерации. Шаги Е и М выполняются итеративно до достижения заданного критерия остановки, такого как максимальное число итераций или сходимость параметров модели.

5. Использование модели.

Гамма распределение является двухпараметрических и характеризуется формой и масштабом, что позволяет настроить сдвиг относительно каждого из выделенных пиков. Функция плотности гамма распределения имеет следующий вид:

((у) =

у ваГ(к)

где, в свою очередь, a является формой распределения, а 0 - сдвигом. В условиях моделирования гаус-совской смеси параметры гамма распределения могут быть заданы как производные от средней и дисперсии идентифицированных вариаций:

а=ЕК; 0=^ Лк Ик

Таким образом, описанный алгоритм может быть дополнен процедурой аппроксимации. Наиболее целесообразным для данных целей может выступать метод максимального правдоподобия. Метод максимального правдоподобия - статистический метод, который используется для оценки параметров математической модели по наблюдаемым данным. Основная идея метода заключается в поиске значений параметров модели, которые максимизируют вероятность (или плотность вероятности) наблюдаемых данных. Метод реализуется посредствам следующего алгоритма [8]:

1. Определение модели. В первую очередь необходимо выбрать математическую модель, которая предположительно описывает данные. В зависимости от контекста и задачи это может быть распределение вероятности, линейная регрессия, нейронная сеть и т.д.

2. Формулировка функции правдоподобия. Данная функция представляет вероятность наблюдаемых данных при заданных параметрах модели. Она, как правило, получается путем перемножения вероятностей (или плотностей вероятности) для каждого наблюдения. Цель состоит в том, чтобы найти значения параметров, при которых функция правдоподобия достигает максимума.

3. Максимизация функции правдоподобия. Для поиска оптимальных значений параметров модели применяются методы оптимизации, такие как градиентный спуск или метод Ньютона. Данные методы находят значения параметров, при которых функция правдоподобия достигает максимума. Обычно используется логарифмическая функция правдоподобия, так как она проще для оптимизации и не меняет положения максимума.

4. Оценка параметров. После максимизации функции правдоподобия определяются оценки параметров, которые максимизируют вероятность наблюдаемых данных. Данные значения параметров представляют оптимальные значения, которые наилучшим образом соответствуют данным и описывают выбранную модель [3].

Альтернативными методами оценки параметров являются методы оценки моментов и методы байесовской оценки. Каждый из этих методов имеет свои особенности. Метод оценки моментов предполагает, что параметры модели находятся путем приравнивания теоретических моментов распределения к

выборочным моментам. Этот метод основан на использовании моментов для оценки параметров и не требует формулировки функции правдоподобия.

Байесовская оценка параметров, с другой стороны, использует байесовский подход, включающий априорное распределение параметров модели и обновление этого распределения на основе данных. Байесовская оценка предоставляет распределение по параметрам модели, а не единственные оценки параметров. Выбор метода оценки параметров зависит от контекста задачи и предположений о данных. Метод максимального правдоподобия является широко используемым методом оценки параметров в статистике и машинном обучении в силу его простоты и эффективности [6]. Результаты применения описанной методологии представлены на рисунке 3.

Рис. 3. Функциональное моделирование флуктуаций информационной среды отраслей экономики

в разрезе тематических кластеров

Заключение

Полученные результаты позволяют характеризовать относительные свойства каждого из выделенных тематических кластеров, что, в свою очередь, позволяет трактовать как степень присутствия тематики в информационной среде отрасли, так и специфику универсальности и уникальности.

Благодарности

Работы выполнены в рамках реализации проекта «Разработка методологии формирования инструментальной базы анализа и моделирования пространственного социально-экономического развития систем в условиях цифровизации с опорой на внутренние резервы» (FSEG-2023-0008).

ИСПОЛЬЗОВАННЫЕ ИСТОЧНИКИ

1. Апресян Ю.Д. Типы информации для поверхностно-семантического компонента модели смысл. Institut für Slawistik der Universität Wien, 1980.

2. Дмитриев Н.Д. и др. Построение и тестирование модели оценки экономической эффективности от внедрения бережливых технологий в корпоративной среде // Бизнес. Образование. Право. 2023. № 2 (63). С. 90-97.

3. Ибрагимова А.Р., Горшенин А.К. О глубоких гауссовских моделях в задачах машинного обучения // Интеллектуальные системы. Теория и приложения. 2021. Т. 25, № 4. С. 121-124.

4. Конников Е.А. и др. Влияние информационной среды региональной социально-экономической системы на потребление алкоголя населением // Информационные системы и технологии. 2021. № 3 (125). С. 44-49.

5. Кравченко Ю.А., Мансур А.М., Хуссайн М.Ж. Векторизация текста с использованием методов интеллектуального анализа данных // Известия Южного федерального университета. Технические науки. 2021. № 2 (219). С. 154-167.

6. Мазалов В.В., Никитина Н.Н. Метод максимального правдоподобия для выделения сообществ в коммуникационных сетях // Вестник Санкт-Петербургского университета. Прикладная математика. Информатика. Процессы управления. 2018. № 3. С. 200-214.

7. Малюгин В.И., Васильков М.Е. Эконометрическое прогнозирование состояния экономических систем в условиях функциональной неоднородности моделей // Экономика, моделирование, прогнозирование. 2010. № 4. С. 266-277.

8. Прохоров Ю.В., Королев В.Ю., Бенинг В.Е. Аналитические методы математической теории риска, основанные на смешанных гауссовских моделях // Вестник Московского университета. Серия 15. Вычислительная математика и кибернетика. 2005. № S. С. 94-112.

9. Родионов Д.Г. и др. Автоматизированный алгоритм квантификации информационной среды финансового рынка // Экономические науки. 2022. № 212. С. 134-139.

10. Тырсин А.Н., Сурина А.А. Модели управления риском в гауссовских стохастических системах // Информатика и её применения. 2018. Т. 12, № 2. С. 50-59

i Надоели баннеры? Вы всегда можете отключить рекламу.