Научная статья на тему 'ФОРМАЛИЗАЦИЯ БАЗОВЫХ ПРОЦЕССОВ И МАТЕМАТИЧЕСКАЯ МОДЕЛЬ СИСТЕМЫ МОНИТОРИНГА И АНАЛИЗА ПУБЛИКАЦИЙ ЭЛЕКТРОННЫХ СМИ'

ФОРМАЛИЗАЦИЯ БАЗОВЫХ ПРОЦЕССОВ И МАТЕМАТИЧЕСКАЯ МОДЕЛЬ СИСТЕМЫ МОНИТОРИНГА И АНАЛИЗА ПУБЛИКАЦИЙ ЭЛЕКТРОННЫХ СМИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
93
39
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОНИТОРИНГ ИНФОРМАЦИИ СМИ / АНАЛИЗ ДАННЫХ / СИСТЕМА МОНИТОРИНГА И АНАЛИЗА ДАННЫХ / АНАЛИЗ ТЕКСТА / МАТЕМАТИЧЕСКАЯ МОДЕЛЬ СИСТЕМЫ / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / НЕЙРОСЕТЕВЫЕ МЕТОДЫ / СИСТЕМНЫЙ АНАЛИЗ / КЛАССИФИКАЦИЯ ТЕКСТОВ / КЛАСТЕРИЗАЦИЯ ТЕКСТОВ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Комаров Виталий Николаевич, Рощин Сергей Михайлович

В статье описан подход формализации базовых процессов и построения математической модели для системы сбора и анализа данных из электронных СМИ. Авторы, в рамках проведения научного исследования, занимаются созданием системы, в том числе ведется разработка новых алгоритмов, методов и подходов сбора и анализа текстовой информации из новостных интернет-источников. Основным направлением в исследовании рассматривается применение методов интеллектуального анализа текстовых данных на основе технологии искусственных нейронных сетей, методов обработки естественного языка, text mining, машинного обучения и обработки больших данных. Цель исследования. Разработать формализованное описание модели системы мониторинга и анализа текстовой информации электронных новостных СМИ методами математического моделирования. Методы и инструментарий исследования. Предложено использование инструментария методологии математического моделирования с методами системного анализа. Для исследования системы применены такие методы системного анализа, как абстрагирование, формализация, композиция и декомпозиция, структурирование и реструктурирование, моделирование, распознавание и идентификация. Система рассматривается как формализованная модель автоматического классификатора и кластеризатора набора текстовых документов на естественном языке в виде алгебраической системы. Для решения задач классификации и кластеризации текстов предложено применять методы машинного обучения на основе нейросетевых подходов. Структура системы и составляющие её процессы, а также процессы взаимодействующие с системой извне, представлены в виде формализованного математического описания. Результаты. Разработанное формализованное математическое описание модели системы наглядно показывает взаимосвязь компонентов системы между собой, а также внутренние процессы. Применяемый подход позволяет детализировать представление системы на основе ее декомпозиции на подсистемы и модули. Все это дает возможность упорядочить последовательности этапов создания системы и декомпозировать их на отдельные этапы работ. Заключение. Результаты, полученные в ходе проведенного исследования, позволяют перейти к следующему этапу жизненного цикла разрабатываемой информационной системы - ее программной разработке.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Комаров Виталий Николаевич, Рощин Сергей Михайлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FORMALIZATION OF BASIC PROCESSES AND MATHEMATICAL MODEL OF THE SYSTEM FOR MONITORING AND ANALYSIS OF PUBLICATIONS OF ELECTRONIC MEDIA

The article describes an approach to formalizing basic processes and building a mathematical model for a system for collecting and analyzing data from electronic media. The authors, as part of a scientific study, are creating a system, including the development of new algorithms, methods and approaches for collecting and analyzing textual information from Internet news sources. The main direction of the study is the application of methods for the mining of text data based on the technology of artificial neural networks, methods of natural language processing, text mining, machine learning and big data processing. Purpose of the study. To develop a formalized description of the model of the system for monitoring and analyzing the text information of electronic news media using the methods of mathematical modeling. Research methods and tools. The use of the toolkit of the methodology of mathematical modeling, with the methods of system analysis is proposed. To study the system, such methods of system analysis as abstraction, formalization, composition and decomposition, structuring and restructuring, modeling, recognition and identification were used. The system is considered as a formalized model of an automatic classifier and clusterizer for a set of text documents in a natural language in the form of an algebraic system. To solve the problems of classification and clustering of texts, it is proposed to apply machine learning methods based on neural network approaches. The structure of the system and its constituent processes, as well as processes interacting with the system from outside, are presented in the form of a formalized mathematical description. Results. The developed formalized mathematical description of the system model clearly shows the interconnection of the system components with each other, as well as internal processes. The applied approach makes it possible to detail the representation of the system based on its decomposition into subsystems and modules. All this makes it possible to streamline the sequence of stages of creating a system and decompose them into separate stages of work. Conclusion. The results obtained in the course of the study allow us to move on to the next stage of the life cycle of the information system being developed - its software development.

Текст научной работы на тему «ФОРМАЛИЗАЦИЯ БАЗОВЫХ ПРОЦЕССОВ И МАТЕМАТИЧЕСКАЯ МОДЕЛЬ СИСТЕМЫ МОНИТОРИНГА И АНАЛИЗА ПУБЛИКАЦИЙ ЭЛЕКТРОННЫХ СМИ»

УДК 004.853 DOI: 10.14529/^сг210403

ФОРМАЛИЗАЦИЯ БАЗОВЫХ ПРОЦЕССОВ И МАТЕМАТИЧЕСКАЯ МОДЕЛЬ СИСТЕМЫ МОНИТОРИНГА И АНАЛИЗА ПУБЛИКАЦИЙ ЭЛЕКТРОННЫХ СМИ

В.Н. Комаров1, С.М. Рощин2

1 Уральский колледж строительства, архитектуры и предпринимательства, г. Екатеринбург, Россия,

2 Брянский государственный инженерно-технологический университет, г. Брянск, Россия

В статье описан подход формализации базовых процессов и построения математической модели для системы сбора и анализа данных из электронных СМИ. Авторы, в рамках проведения научного исследования, занимаются созданием системы, в том числе ведется разработка новых алгоритмов, методов и подходов сбора и анализа текстовой информации из новостных интернет-источников. Основным направлением в исследовании рассматривается применение методов интеллектуального анализа текстовых данных на основе технологии искусственных нейронных сетей, методов обработки естественного языка, text mining, машинного обучения и обработки больших данных. Цель исследования. Разработать формализованное описание модели системы мониторинга и анализа текстовой информации электронных новостных СМИ методами математического моделирования. Методы и инструментарий исследования. Предложено использование инструментария методологии математического моделирования с методами системного анализа. Для исследования системы применены такие методы системного анализа, как абстрагирование, формализация, композиция и декомпозиция, структурирование и реструктурирование, моделирование, распознавание и идентификация. Система рассматривается как формализованная модель автоматического классификатора и класте-ризатора набора текстовых документов на естественном языке в виде алгебраической системы. Для решения задач классификации и кластеризации текстов предложено применять методы машинного обучения на основе нейросетевых подходов. Структура системы и составляющие её процессы, а также процессы взаимодействующие с системой извне, представлены в виде формализованного математического описания. Результаты. Разработанное формализованное математическое описание модели системы наглядно показывает взаимосвязь компонентов системы между собой, а также внутренние процессы. Применяемый подход позволяет детализировать представление системы на основе ее декомпозиции на подсистемы и модули. Все это дает возможность упорядочить последовательности этапов создания системы и декомпозировать их на отдельные этапы работ. Заключение. Результаты, полученные в ходе проведенного исследования, позволяют перейти к следующему этапу жизненного цикла разрабатываемой информационной системы - ее программной разработке.

Ключевые слова: мониторинг информации СМИ, анализ данных, система мониторинга и анализа данных, анализ текста, математическая модель системы, интеллектуальный анализ данных, нейросетевые методы, системный анализ, классификация текстов, кластеризация текстов.

Введение

Ранее, в рамках диссертационного исследования, авторы в статьях [1, 2] исследовали вопросы воздействия современных электронных новостных интернет-источников на общество, в частности на оборонно-промышленные предприятия нашей страны. Были представлены обобщенный алгоритм работы и структура создаваемой автоматизированной системы мониторинга и анализа текстовой информации в электронных СМИ.

В статье [3] авторы показали моделирование системы методами модельно-ориентированного системного инжиниринга.

В настоящей статье показано формализованное представление базовых процессов системы и её математическая модель.

1. Формализация базовых процессов системы

Многообразие различных процессов, протекающих в любой системе или с которыми она взаимодействует из вне, затруднительно изучить без создания упрощенной модели. Однако упрощение должно включать процессы наиболее значимые для изучения [4]. Именно поэтому применительно к разрабатываемой авторами системе мониторинга и анализа текстовой информации из электронных СМИ, целесообразно рассмотреть лишь основные, базовые процессы, протекающие как в самой системе, так и взаимодействующие с ней извне.

Ключевыми методами в задаче анализа текстовой информации являются классификация и кластеризация, поскольку другие функции системы, например, определение эмоциональной окраски текста, также сводятся к классификации [5, 6].

В виде алгебраической системы формализованную модель автоматического классификатора текстовых данных, позволяющую применять методы классификации, применяемые в данной работе, можно описать как кортеж [7]:

R = < С, Т, F, ЯС, f >, (1.1)

где С - множество тематических рубрик; Т - выборка текстов из рубрик С; F - множество описаний тематических рубрик; ЯС - отношение на С х F, соотносящее тематические рубрики и соответствующие им описания; /- операция классификации - отображение Т ^ 2С, такое что /(1) = с,

где г - текст из Т, а се 2С - элемент множества всех подмножеств С, т. е. множество тематических рубрик из С. Таким образом, отображение /позволяет каждому документу множества Т поставить в соответствие некоторую тематическую рубрику из С.

Модель автоматического классификатора документов текстовых коллекций на естественном языке представляет собой систему Я. Построение классификатора подразумевает частичное или полное формирование С, F, ЯС, / на основе некоторых априорных данных. На практике это означает, что экспертом формируется иерархия тематических рубрик. Описания тематических рубрик могут создаваться вручную, в виде правил соотнесения документов к тематическим рубрикам по определенным признакам или автоматически, на основе методов машинного обучения. Тогда в качестве обучающего множества выступает набор документов, ранее сопоставленных с категориями Т0 с помощью экспертных оценок.

Задачу кластеризации в общем случае можно выразить следующим образом [8].

Дано:

1) множество текстов Т = (1, г2,..., };

2) количество кластеров К, предполагаемое или желательное в имеющемся наборе;

3) целевая функция, позволяющая оценить качество кластеризации.

Определяем соответствие у:Т ^{1,..., К}, при котором будет достигаться минимум или

максимум (экстремум) целевой функции. Целевая функция определяется в терминах сходства или расстояния между документами. Сходство документов выражается в виде одной из функций тематического сходства или в значениях на одних и тех же осях векторного пространства. Тематическое сходство определяется как косинусное или евклидово расстояния в векторном пространстве.

Получаемые при мониторинге новостные сообщения представляют собой большие объемы текстовых данных в неструктурированном или слабоструктурированном виде. Для обработки таких данных в настоящее время широкое распространение получило направление машинного обучения с применением нейросетевых методов [9]. Преимущество данных методов перед традиционными в следующем [10]:

1) обучаемость и самообучаемость;

2) быстродействие за счет распараллеливания вычислений;

3) устойчивость к шумам во входных данных.

Решение задач классификации и кластеризации текстов, целесообразно проводить с применением этих методов. Первостепенно для обучения системы необходимо произвести разметку имеющейся коллекции текстовых документов Т и каждому учебному тексту назначить метку класса, которому он соответствует. Кроме того, нужно определить способ формализации этих

данных, т. е. показать соответствие функции f из множества текстовых документов T в пространстве признаков X:

f: T ^ X, (1.2)

где f - функция излечения признаков (feature extraction).

После определения f и построения пространства признаков X, каждому тексту из T ставится в соответствие точка из Х, что дает возможность разделить все точки Х на подмножества.

Таким образом, поиск схожих текстовых документов сводится к задаче кластеризации точек из X, а распределение текстов по тематическим рубрикам сводиться к задаче классификации точек из X [11].

Формализовано, требуется создать представление g из множества вектор-признаков X во множество меток L:

g :X ^L. (1.3)

В результате, задача обработки текста сводится:

а) к извлечению признаков;

б) распределению пространства признаков на части.

2. Математическая модель системы

Математическая модель является математическим аналогом проектируемого объекта и описывает зависимость между исходными данными и искомыми величинами [12]. Её построение позволяет структурировать процессы, протекающие в системе при её функционировании, что даст возможность перейти к натурному физическому построению компонентов системы и обеспечению их взаимодействия. Для этого целесообразно применить методы математического моделирования.

Построение математической модели предполагает следующие этапы [13]:

1) составление описания, как в целом функционирует система;

2) описание, какие подсистемы и элементы входят в систему, как они взаимодействуют между собой, описание их функционирования и характеристик, а также начальных условий;

3) определение, какие внешние факторы перечня могут оказывать влияние на систему;

4) выбор характеристик системы, которые определяют степень ее соответствия заявленным требованиям;

5) составление формального математического описания системы;

6) построение математической модели системы.

Работа по первым четырем пунктам была описана авторами в предыдущих работах [14, 15]. Далее представлен процесс разработки формальной математической модели разрабатываемой системы.

Входными параметрами для работы системы являются информационные текстовые сообщения, получаемые из множества новостных источников в сети Интернет [16, 17].

Обозначим данное множество сообщений, получаемых из одного информационного источника - RSS-канала, как

Mn = {m^ m2, m Ь (21)

где каждое сообщение m, представляет собой кортеж, состоящий из идентификатора ii, заголовка hi, основного текста сообщения ti, ссылки на источник li, даты публикации d:

= < ii, hi, ti, li, di >; (2.2)

множество источников сообщений:

Ln ={A, 12, •, h}; (2.3)

множество тематических рубрик сообщений:

Cn ={C1, C2, •, C}, (2.4)

тогда модель собранной коллекции текстовых документов T будет представлять собой кортеж:

Tn =<Mn, Ln, Cn >. (2.5)

Совокупность компонентов (модулей и блоков) системы мониторинга и анализа публикаций можно описать в виде:

Kn = < B, A, S, V, E >, (2.6)

где B - модуль мониторинга с блоками парсинга RSS-каналов brss, сайтов bsite и социальных сетей

bsoc•

B = {brss , bsite, bsoc }; (2.7)

модуль аналитики A с блоками предварительной обработки текста apre-proc, извлечения информации aextr, text mining atm, обработки естественного языка anlp, нейросетевых моделей aneuro:

A = {apre-proc , aextr , atm , anlp , aneuro } ; (28)

модуль хранения S с блоками необработанных данных srd, обработанных данных spd, метаданных smd, исторических данных shd:

S = {srd, spd, smd, shd }; (29)

модуль вывода V с блоками текстового представления vtxt, табличного vtb и графического vg: V = {vtxt, Vb, Vg}; (2.10)

модуль управления системой E с блоками административного eadm, и экспертного уровня eexp:

E = {eadm , eexp }. (2.11)

Взаимодействие системы с источниками информации при сборе текстовых данных (процесс мониторинга) можно представить как функцию

f: B ^ L. (2.12)

Процесс анализа текстовых данных можно обозначить как взаимодействие модуля аналитики системы с полученными данными:

f: A ^M. (2.13)

Процесс хранения данных в хранилище можно показать как

f: S ^Mstr, (2.14)

где Mstr - структурированные данные.

Взаимодействие пользователя c системой можно показать как

f: E ^ Kn. (2.15)

Рассмотрим протекающие ключевые процессы в модулях системы при её функционировании. Модуль мониторинга B посылает сформированное пользователем через модуль управления Е множество запросов Qn множеству источников Ln.

f: e ^ B ^ Qn ^ Ln. (2.16)

Результатом запросов является полученное множество сообщений Mn, которое передаётся в блок предварительной обработки apre-proc модуля аналитики A, а затем в блок обработанных данных spd, модуля хранения S.

f: A ^Mn. (2.17)

Полученные данные могут и без предварительной обработки помещаться в блок необработанных данных srd модуля хранения с целью их накопления.

f: S ^Mn. (2.18)

На следующем этапе данные выгружаются из блока необработанные данных в модуль аналитики, где проходят предварительную обработку в блоке apre-proc, затем, исходя из того, какой результат необходимо получить, предаются в блоки извлечения информации aextr, text mining atm, обработки естественного языка anlp, нейросетевых моделей aneuro. Задействование различных блоков определяется пользователем.

В блоке предварительной обработки apre-proc применяются как по отдельности, так и комплексно, следующие методы:

- токенизация - разбивка текста на отдельные токены (абзацы, предложения, слова, символы, знаки пунктуации и т. д.), обозначим этот метод как ftoken (mi);

- удаление неинформативных, малоинформативных слов (стоп-слов), обозначим этот метод

как fstop (mi);

- удаление числовых символов - fnum (mi ) ;

- приведение регистра - преобразование всех символов слов к верхнему или нижнему регистру - fregistr (m,);

- стемминг - нахождение основы слов - fstemm (mi ) ;

- лемматизация - приведения словоформ текста к леммам - нормальной (словарной) форме -

flemm (mi) .

Таким образом, процесс предварительной обработки текста в системе можно показать, как кортеж применяемых методов:

fpre -proc ( m ) = < ftoken (mi ), fstop ( mi ), fnum (mi ), fregistr ( mi ), fstemm (mi ), flemm (mi ) > .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(2.19)

В блоке извлечения информации aextr применяются, как по отдельности, так и комплексно, следующие методы:

- метод извлечения именованных сущностей, таких как имена людей, названий организаций,

событий и Т. п.) - fname (m,) ;

- метод разрешение кореференции fco_ref (mt ) - поиск связей нескольких разных отсылок

в тексте к одному реальному объекту;

- метод извлечения фактов (события, мнения, отзывы, объявления, контактные данные и

т. п.) - ffact(m);

- метод аннотирования текста fabstr (mi ) - преобразование текста с целью получения его краткого описания.

Таким образом, процесс извлечения информации из текста в системе можно показать как кортеж методов:

fextr (m, ) = < fname (m, ), fco-ref (m, ), ffact (m, ), fabstr (m, ) > . (2.20)

В блоке методов text mining atm применяются как по отдельности, так и комплексно, следующие методы:

- классификация (категоризация) - fciass (mi ) ;

- кластеризация - fclaster (m,) .

Описанный ранее блок извлечения информации aextr также использует методы, относящиеся к text mining. В разрабатываемой системе целесообразно разделить описанные методы, оставив в блоке atm только два ключевых - классификацию и кластеризацию, поскольку данные методы будут использоваться и в других блоках, таких как обработка естественного языка anlp и нейросе-тевые модели aneuro.

Таким образом, процессы блока методов text mining atm можно показать как

ftm ( m ) = < fciass (mi ), fclaster (mi ) > . (2.21)

В блоке методов обработки естественного языка anlp применяются как по отдельности, так и комплексно, следующие методы:

- векторизация данных методом «Мешок слов» [ 18] (Bag of words (BOW)) - fBow (mi ) ;

- векторизация данных методом TF-IDF [19] - fTF_IDF (mi ) ;

- оценка тональности текста (Sentiment Analysis) [20] - fsent (mi ) .

Описанный ранее блок предварительной обработки apre-proc также использует методы, относящиеся к обработке естественного языка. Разделение этих методов по двум блокам системы обусловлено тем, что предварительная обработка, с выделенными в ней методами, необходима для работы других блоков и модулей.

Таким образом, процессы блока anlp можно показать как

fnip ( m ) = < fBOW (mi ), fTF-IDF (mi ), fsent (mi ) > . (2.22)

В блоке методов нейросетевых моделей aneuro применяются как по отдельности, так и комплексно, следующие методы на основе машинного обучения:

- классификация (категоризация) - fclass ML (mt ) ;

- класстеризация - fdaster _ ML (m);

- оценка тональности текста - fsent ML (mt) .

Таким образом, процессы блока aneuro можно показать как

fneuro (mi ) = < fclass _ML (mi ), fclaster _ML (mi ), fsent _ML (mi ) > . (2.23)

Заключение

Приведенное формализованное описание базовых процессов, протекающих в разрабатываемой системе мониторинга и анализа информации электронных СМИ и их математическое описание даёт четкое представление о ней и позволяет перейти к следующему этапу разработки - программной реализации системы.

Литература

1. Комаров, В.Н. Мониторинг и системный анализ информации электронных СМИ для промышленных предприятий / В.Н. Комаров, С.М. Рощин // Наукоемкие технологии и интеллектуальные системы: сб. ст. по итогам Междунар. науч.-практ. конф. - Самара: ООО «Агентство международных исследований», 2018. - С. 36-40.

2. Комаров, В.Н. Разработка архитектуры системы мониторинга и анализа публикаций в сети интернет / В.Н. Комаров, С.М. Рощин // Передовые инновационные разработки. Перспективы и опыт использования, проблемы внедрения в производство: сб. науч. ст. по итогам девятой междунар. науч. конф. (31 октября 2019 г.). Ч. 2. - Казань: ООО «Конверт», 2019. -С. 27-29.

3. Комаров, В.Н. Моделирование системы мониторинга и анализа информации электронных СМИ методами модельно-ориентированного системного инжиниринга / В.Н. Комаров, С.М. Рощин // Вестник ЮУрГУ. Серия «Компьютерные технологии, управление, радиоэлектроника». -2021 - Т. 21, № 1 - С. 12-22. DOI: 10.14529/ctcr210102

4. Зайцева, Н.А. Математическое моделирование: учеб. пособие / Н.А. Зайцева. - М.: РУТ (МИИТ), 2017. - 110 с.

5. Аверченков, В.И. Мониторинг и системный анализ информации в сети Интернет /

B.И. Аверченков, С.М. Рощин. - Брянск: БГТУ, 2012. - 160 с.

6. Анализ данных и процессов / А.А. Барсегян, М.С. Куприянов, И.И. Холод и др. - 3-е изд., перераб. и доп. - СПб.: БХВ-Петербург, 2009. - 512 с.

7. Борисов, Е.С. Классификатор текстов на естественном языке / Е.С. Борисов. -http://mechanoid.kiev.ua/neural-net-classifier-text.html (дата обращения: 5.08.2021).

8. Дюк, В.А. Применение технологий интеллектуального анализа данных в естественнонаучных, технических и гуманитарных областях / В.А. Дюк, А.В. Флегонтов, И.К. Фомина // Известия российского государственного педагогического университета им. А.И. Герцена. - 2011. -№ 138. - С. 77-87.

9. Акимов, Д.А. Подход к классификации интернет-страниц по степени их информативности / Д.А. Акимов, О.К. Редькин, И.В. Садыков // Вестник МГТУ МИРЭА. - 2015, № 4-1 (9). -

C. 206-217.

10. Созыкин, А.В. Анализ текстов с помощью рекуррентных нейронных сетей / А.В. Созы-кин. - https://www.youtube.com/watch?v=7Tx_cewjhGQ (дата обращения: 05.08.2021).

11. Архипенко, К. Рекуррентные нейронные сети в задачах анализа текстов / К. Архипенко. -https://docplayer.ru/42578505-Rekurrentnye-neyronnye-seti-v-zadachah-analiza-tekstov.html (дата обращения: 10.08.2021).

12. Трусов, П.В. Введение в математическое моделирование / П.В. Трусов. - М. : Университетская книга; Логос, 2007. - 440 с.

13. Русаков, А.М. Исследование и моделирование сложных систем / А.М. Русаков. - М. : Мос-ков. гос. ун-т приборостроения и информатики, 2014. - 90 с.

14. Комаров, В.Н. Структура и обобщенный алгоритм работы системы мониторинга и анализа публикаций электронных СМИ / В.Н. Комаров, С.М. Рощин //XXI век: итоги прошлого и проблемы настоящего плюс. - 2019. - Т. 8, № 4 (48). - С. 61-66.

15. Комаров, В.Н. Мониторинг и системный анализ информации электронных СМИ для предприятий оборонно-промышленного комплекса России / В.Н. Комаров, С.М. Рощин //XXI век: итоги прошлого и проблемы настоящего плюс. - 2019. - Т. 8, № 2 (46). - С. 22-25.

16. Борисов, Е.С. Автоматизированная обработка текстов на естественном языке, с использованием инструментов языка Python / Е.С. Борисов. - http://mechanoid.kiev.ua/ml-text-proc.html (дата обращения: 10.08.2021).

17. Васильев, Ю. Обработка естественного языка. Python и spaCy на практике /Ю. Васильев. - СПб.: Питер, 2021. - 256 с.

18. Система формирования знаний в среде интернет: моногр. / В.И. Аверченков, А.В. Забо-леева-Зотова, Ю.М. Казаков и др. - 3-е изд., стереотип. -М.: ФЛИНТА, 2016. - 181 с.

19. Вершинин, В.Е. Решение задач обработки естественного языка на основе нейросетевых моделей / В.Е. Вершинин, Е.В. Вершинин // Международная научно-практическая конференция НИЦ Аэтерна, 2018. - С. 54-59.

20. Витковский, А.В. Применение рекурсивных нейронных сетей для анализа тональности текста /А.В. Витковский, А.В. Жвакина // 54-я научная конференция аспирантов, магистрантов и студентов БГУИР, 2018. - С. 152-153.

Комаров Виталий Николаевич, преподаватель, Уральский колледж строительства, архитектуры и предпринимательства, г. Екатеринбург; komaroffvn@mail.ru.

Рощин Сергей Михайлович, канд. техн. наук, доцент кафедры информационных технологий, Брянский государственный инженерно-технологический университет, г. Брянск; roschinsm@ya.ru.

Поступила вредакцияю 15 августа 2021 г.

DOI: 10.14529/ctcr210403

FORMALIZATION OF BASIC PROCESSES AND MATHEMATICAL MODEL OF THE SYSTEM FOR MONITORING AND ANALYSIS OF PUBLICATIONS OF ELECTRONIC MEDIA

V.N. Komarov1, komaroffvn@mail.ru, S.M. Roschin2, roschinsm@ya.ru

1 Ural College of Construction, Architecture and Business, Ekaterinburg, Russian Federation,

2 Bryansk State Engineering Technological University, Bryansk, Russian Federation

The article describes an approach to formalizing basic processes and building a mathematical model for a system for collecting and analyzing data from electronic media. The authors, as part of a scientific study, are creating a system, including the development of new algorithms, methods and approaches for collecting and analyzing textual information from Internet news sources. The main direction of the study is the application of methods for the mining of text data based on the technology of artificial neural networks, methods of natural language processing, text mining, machine learning and big data processing. Purpose of the study. To develop a formalized description of the model of the system for monitoring and analyzing the text information of electronic news media using the methods of mathematical modeling. Research methods and tools. The use of the toolkit of the methodology of mathematical modeling, with the methods of system analysis is proposed. To study the system, such methods of system analysis as abstraction, formalization, composition and decomposition, structuring and restructuring, modeling, recognition and identification were used. The system is considered as a formalized model of an automatic classifier and clusterizer for a set of text documents in a natural language in the form of an algebraic system. To solve the problems of classi-

fication and clustering of texts, it is proposed to apply machine learning methods based on neural network approaches. The structure of the system and its constituent processes, as well as processes interacting with the system from outside, are presented in the form of a formalized mathematical description. Results. The developed formalized mathematical description of the system model clearly shows the interconnection of the system components with each other, as well as internal processes. The applied approach makes it possible to detail the representation of the system based on its decomposition into subsystems and modules. All this makes it possible to streamline the sequence of stages of creating a system and decompose them into separate stages of work. Conclusion. The results obtained in the course of the study allow us to move on to the next stage of the life cycle of the information system being developed - its software development.

Keywords: media information monitoring, data analysis, monitoring and data analysis system, text analysis, mathematical model of the system, data mining, neural network methods, system analysis, text classification, text clustering.

References

1. Komarov V.N., Roshchin S.M. [Monitoring and system analysis of electronic media information for industrial enterprises]. Naukoemkie tekhnologii i intellektual'nye sistemy [Science-intensive technologies and intelligent systems]. Samara, LLC "Agency for International Studies" Publ., 2018, pp. 36-40. (in Russ.)

2. Komarov V.N., Roshchin S.M. [Development of the architecture of the system for monitoring and analyzing publications on the Internet]. Peredovyye innovatsionnyye razrabotki. Perspektivy i opyt ispol'zovaniya, problemy vnedreniya v proizvodstvo [Advanced innovative developments. Prospects and experience of use, problems of implementation in production]. Kazan, LLC "Convert" Publ., 2019, pp. 27-29. (in Russ.)

3. Komarov V.N., Roshchin S.M. Modeling of the System of Monitoring and Analysis of Information of Electronic Media by Methods of Model Based System Engineering. Bulletin of the South Ural State University. Ser. Computer Technologies, Automatic Control, Radio Electronics, 2021, vol. 21, no. 1, pp. 12-22. (in Russ.) DOI: 10.14529/ctcr210102

4. Zaitseva N.A. Matematicheskoe modelirovanie [Mathematical modeling]. Moscow, RUT (MIIT), 2017.110 p.

5. Averchenkov V.I., Roshchin S.M. Monitoring i sistemnyy analiz informatsii v seti Internet [Monitoring and system analysis of information on the Internet]. Bryansk, BSTU Publ., 2012. 160 p.

6. Barsegyan A.A., Kupriyanov M.S., Holod I.I., Tess M.D., Elizarov S.I. Analiz dannykh i protsessov [Data and process analysis]. St. Petersburg, BHV-Peterburg Publ., 2009. 512 p.

7. Borisov E.S. Klassifikator tekstov na estestvennom yazyke [Classifier of texts in natural language]. Available at: http://mechanoid.kiev.ua/neural-net-classifier-text.html (accessed 08.05.2021).

8. Dyuk V.A., Flegontov A.V., Fomina I.K. [Application of data mining technologies in natural science, technical and humanitarian fields]. Izvestia: Herzen University Journal of Humanities & Sciences, 2011, no. 138, pp. 77-87. (in Russ.)

9. Akimov D.A., Redkin O.K., Sadykov I.V. The approach to the web pages classification based on their informativity. Bulletin of MSTUMIREA, 2015, no. 4-1 (9), pp. 206-217. (in Russ.)

10. Sozykin A.V. Analiz tekstov s pomoshch'yu rekurrentnykh neyronnykh setey [Analysis of texts using recurrent neural networks]. Available at: https://www.youtube.com/watsh?v=7Tx_cewjhGQ (accessed 08.05.2021).

11. Arkhipenko K. Rekurrentnyye neyronnyye seti v zadachakh analiza tekstov [Recurrent neural networks in text analysis problems]. Available at: https://docplayer.ru/42578505-Rekurrentnye-neyronnye-seti-v-zadachah-analiza-tekstov.html (accessed 08.10.2021).

12. Trusov P.V. Vvedeniye v matematicheskoye modelirovaniye [Introduction to mathematical modeling]. Moscow, University book, Logos, 2007. 440 p.

13. Rusakov A.M. Issledovaniye i modelirovaniye slozhnykh sistem [Research and modeling of complex systems]. Moscow, Moscow State University of Instrument Engineering and Informatics, 2014. 90 p.

14. Komarov V.N., Roshchin S.M. Structure and generalized algorithm of the system of monitoring and analysis of electronic media publications. XXI century: the results of the past and the problems of the present plus, 2019, vol. 8, no. 4 (48), pp. 61-66. (in Russ.)

15. Komarov V.N., Roshchin S.M. Monitoring and system analysis of information electronic media for enterprises of the military-industrial complex of Russia. XXI century: the results of the past and the problems of the present plus, 2019, vol. 8, no. 2 (46), pp. 22-25. (in Russ.)

16. Borisov E.S. Avtomatizirovannaya obrabotka tekstov na estestvennom yazyke, s ispol'zovaniyem instrumentov yazyka Python [Automated processing of texts in natural language using Python tools]. Available at: http://mechanoid.kiev.ua/ml-text-proc.html (accessed 08.10.2021).

17. Vasil'yev Yu. Obrabotka estestvennogo yazyka. Python i spaCy na praktike [Natural language processing. Python and spaCy in practice]. St. Petersburg, Piter Publ., 2021. 256 p.

18. Averchenkov V.I., Zaboleyeva-Zotova A.V., Kazakov Yu.M., Leonov E.A., Roshchin S.M. Sistema formirovaniya znaniy v srede internet [The system of knowledge formation in the Internet environment]. Moscow, FLINTA Publ., 2016. 181 p.

19. Vershinin V.E., Vershinin E.V. [Solving natural language processing problems based on neural network models]. International Scientific and Practical Conference of SIC Aeterna, 2018, pp. 54-59. (in Russ.)

20. Vitkovsky A.V., Zhvakina A.V. [Application of recursive neural networks for text sentiment analysis]. 54th scientific conference of graduate students, undergraduates and students of BSUIR, 2018, pp. 152-153. (in Russ.)

Received 15 August 2021

ОБРАЗЕЦ ЦИТИРОВАНИЯ

FOR CITATION

Комаров, В.Н. Формализация базовых процессов и математическая модель системы мониторинга и анализа публикаций электронных СМИ / В.Н. Комаров, С.М. Рощин // Вестник ЮУрГУ. Серия «Компьютерные технологии, управление, радиоэлектроника». - 2021. - Т. 21, № 4. - С. 28-36. DOI: 10.14529Мсг210403

Komarov V.N., Roschin S.M. Formalization of Basic Processes and Mathematical Model of the System for Monitoring and Analysis of Publications of Electronic Media. Bulletin of the South Ural State University. Ser. Computer Technologies, Automatic Control, Radio Electronics, 2021, vol. 21, no. 4, pp. 28-36. (in Russ.) DOI: 10.14529/ctcr210403

i Надоели баннеры? Вы всегда можете отключить рекламу.