Научная статья на тему 'ТЕХНОЛОГИИ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ПЛОХО СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ ДЛЯ ЗАДАЧ УПРАВЛЕНИЯ В НЕСТАБИЛЬНЫХ СРЕДАХ ПОГРУЖЕНИЯ'

ТЕХНОЛОГИИ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ПЛОХО СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ ДЛЯ ЗАДАЧ УПРАВЛЕНИЯ В НЕСТАБИЛЬНЫХ СРЕДАХ ПОГРУЖЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
76
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПЛОХО СТРУКТУРИРОВАННАЯ ИНФОРМАЦИЯ / ИЗВЛЕЧЕНИЕ ЗНАНИЙ / ТЕКСТОВЫЕ ДОКУМЕНТЫ / НЕСТАБИЛЬНАЯ СРЕДА ПОГРУЖЕНИЯ / ПОИСКОВЫЕ ТЕХНОЛОГИИ / СТАТИСТИЧЕСКИЕ ТЕХНОЛОГИИ / ЭЛЕКТРОННЫЕ РЫНКИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мусаев Александр Азерович, Григорьев Дмитрий Алексеевич

Рассмотрена задача автоматического извлечения знаний из плохо структурированных текстовых данных в интересах задачи управления в нестабильных средах погружения. Представлен краткий анализ современного состояния технологий извлечения знаний из тестовых сообщений. Осуществлена формализованная постановка задачи извлечения знаний из текстовой информации в интересах задачи управления с учетом особенностей среды погружения. Разработаны структуры автоматизированной системы предобработки текстовых документов и полигона обучающих данных. Представлены варианты создания поисковых и статистических технологий извлечения знаний их текстовых сообщений в интересах задачи проактивного управления в нестабильных. средах погружения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Мусаев Александр Азерович, Григорьев Дмитрий Алексеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

TECHNOLOGIES FOR AUTOMATIC KNOWLEDGE EXTRACTION FROM POORLY STRUCTURED INFORMATION FOR MANAGEMENT TASKS IN UNSTABLE IMMERSION ENVIRONMENTS

The problem of automatic knowledge extraction from poorly structured text data is considered. The application uses the task of proactive management in unstable immersion environments. A brief overview and critical analysis of the current state of knowledge extraction technologies from text messages are presented. A formalized formulation of the task of extracting knowledge from textual information was carried out. The structures of an automated system for preprocessing text documents and a training data polygon were developed. Options for creating search and statistical technologies for extracting knowledge from text messages are presented

Текст научной работы на тему «ТЕХНОЛОГИИ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ПЛОХО СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ ДЛЯ ЗАДАЧ УПРАВЛЕНИЯ В НЕСТАБИЛЬНЫХ СРЕДАХ ПОГРУЖЕНИЯ»

II. ИНФОРМАЦИОННЫЕ СИСТЕМЫ.АВТОМАТИЗАЦИЯ И СИСТЕМЫ

УПРАВЛЕНИЯ

УДК 004.5

Musaev A.A.1, Grigoriev D.A.2

TECHNOLOGIES FOR AUTOMATIC KNOWLEDGE EXTRACTION FROM POORLY STRUCTURED INFORMATION FOR MANAGEMENT TASKS IN UNSTABLE IMMERSION ENVIRONMENTS

1Saint-Petersburg State Institute of Technology, St Petersburg, Russia amusaev@technolog.edu.ru 2Saint-Petersburg State University, St Petersburg, Russia, d.a.grigoriev@spbu.ru

The problem of automatic knowledge extraction from poorly structured text data is considered. The application uses the task of proactive management in unstable immersion environments. A brief overview and critical analysis of the current state of knowledge extraction technologies from text messages are presented. A mathematical formulation of the task of extracting knowledge from textual information was carried out. The structures of an automated system for preprocessing text documents and a training data polygon were developed. Options for creating search and statistical technologies for extracting knowledge from text messages are presented.

Key words: poorly structured information, knowledge extraction, text documents, unstable immersion environment, search technologies, statistical technologies, electronic markets

DOI 10.36807/1998-9849-2022-63-89-68-77

Введение. Общая постановка задачи извлечения знаний из плохо структурированных данных в интересах задачи управления активами в нестабильных средах погружения Современные технологии извлечения знаний (KE, knowledge extraction) из текстовых сообщений основаны на формировании признакового пространства параметров, различные области значений которого отвечают вариантам решений, наиболее эффективным с точки зрения семантической дискриминации анализируемых текстов [1-7].

В качестве примера в настоящей работе рассмотрена задача выявления контента из текстовых документов, относящаяся к общей проблеме прогнозирования динамики котировок финансовых инструментов. Источником документов является поток текстовых сообщений, циркулирующих в WEB. В большинстве случаев указанные документы представляют собой аналитические сообщения, подготовленные финансовыми экспертами и содержащие сведения, используемые при формировании проактивных

Мусаев А. А.1, Григорьев Д. А.2

ТЕХНОЛОГИИ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ПЛОХО СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ ДЛЯ ЗАДАЧ УПРАВЛЕНИЯ В НЕСТАБИЛЬНЫХ СРЕДАХ ПОГРУЖЕНИЯ

1Санкт-Петербургский государственный технологический институт, Санкт-Петербург, Россия, amusaev@technolog. edu.ru

2Санкт-Петербургский государственный университет (СПБГУ), Санкт-Петербург, Россия, d.a.grigoriev@spbu.ru

Рассмотрена задача автоматического извлечения знаний из плохо структурированных текстовых данных в интересах задачи управления в нестабильных средах погружения. Представлен краткий анализ современного состояния технологий извлечения знаний из тестовых сообщений. Осуществлена формализованная постановка задачи извлечения знаний из текстовой информации в интересах задачи управления с учетом особенностей среды погружения. Разработаны структуры автоматизированной системы предобработки текстовых документов и полигона обучающих данных. Представлены варианты создания поисковых и статистических технологий извлечения знаний их текстовых сообщений в интересах задачи проактивного управления в нестабильных средах погружения.

Ключевые слова: плохо структурированная информация, извлечение знаний, текстовые документы, нестабильная среда погружения, поисковые технологии, статистические технологии, электронные рынки

Дата поступления - 9 ноября 2022 года Дата принятия - 17 ноября 2022 года

(т. е. основанных на прогнозе) управляющих решений на рынках капитала.

В дальнейшем для аналитических обзоров и других текстовых сообщений, относящихся к выбранной предметной области, будем использовать общий термин - документ.

В условиях рыночного хаоса [8, 9] трудно ожидать получения достоверных экспертных прогнозов. Основой для разработки таких прогнозов являются методы фундаментального анализа текущих финансовых, экономических, политических и других событий в мире. Причины низкого качества этих прогнозов достаточно понятны и связаны с неполнотой и неточностью информации, имеющейся в распоряжении эксперта. Субъективным фактором, влияющим на низкую эффективность экспертного прогнозирования, являются когнитивные способности людей. Мозг человека с трудом справляется с анализом влияния 3-5 независимых факторов. В то же время процесс ценообразования финансовых инструментов складывается под воздействием сотен и тысяч не полностью известных и взаимозависимых факторов с неизвестными функциями влияния на стоимость актива.

Следует учесть и другие особенности человече-

ского фактора. Любой финансовый аналитик, несколько раз допустивший ошибки с четкими однозначными прогнозами динамики котировок, быстро осваивает технологию предсказаний древних оракулов. Результаты анализа ожидаемых изменений финансовой ситуации приводятся в латентной (скрытой) форме, допускающей неоднозначные, порою взаимоисключающие толкования.

В случае принятия гипотезы о том, что полезная информация в этих отчетах все-таки существует, возникает задача автоматического извлечения полезных сведений путем совместной обработки совокупности текстовых документов, как с явной, так и с латентной формой представления знаний.

Необходимые для решения задач управления активами полезные знания, содержащиеся в текстовом документе, можно разделить на две категории. В первом случае путем совместной обработки совокупности текстовых документов формируется прогноз котировки рабочего финансового инструмента, однозначно определяющий параметры управления. Во втором случае формируется более «мягкое», обобщенное решение, относящееся к ожидаемой эволюции сегмента рынка, включающего в себя рабочий финансовый инструмент. Такой подход называется анализом настроений (тональности), сен-тимент-анализом или «раскопками мнений» (Opinion Mining) [10-12 и др.].

Следует заметить, что в случае латентной формы представления контента, второй подход становится основным. Однако даже в случае однозначной и правильной оценки динамики развития выбранного сегмента рынка, неопределенность относительно конкретного финансового инструмента из выбранного сегмента остается достаточно значительной. В условиях рыночного хаоса всегда сохраняется значимая вероятность локального тренда конкретного актива, противоположного по отношению к общей усредненной динамике рыночного сегмента, к которому этот инструмент относится.

В связи с этим возникает необходимость в разработке специализированных методов сентимент-анализа, учитывающих специфические особенности конкретных финансовых инструментов (entity extraction). Иными словами, речь идет о целевом использовании анализа тональностей (target sentiment), частично описанном, например, в [13]. Решение данного прикладного вопроса извлечения знаний усугубляется неопределенностью, обусловленной выбором совокупности финансовых инструментов, определяющих сегмент рынка. В частности, наиболее естественной метрикой, определяющей отнесение группы инструментов к данному сегменту рынка, является степень взаимной коррелированности динамики их котировок. Однако, если оценивать корреляцию на большом временном интервале ретроспективных данных, то оценка получается устойчивой, но она не в полной мере отражает локальную взаимную динамику котировок. При уменьшении интервала времени, на котором осуществляется оценивание корреляционных связей, решение теряет устойчивость и приобретает свойства, характерные для динамического хаоса.

Особенности решения извлечения знаний из текстовых документов, описывающих прогнозируемую динамику многомерных хаотических процессов, рассмотрены в настоящей статье.

Современное состояния технологий извлечения знаний из тестовых

сообщений

Процессы обработки и анализа связаны с теорией лексикографии и включает в себя следующие разделы обработки естественного языка (NLP, natural language processing) [14-17 и др.]:

1. Морфологический анализ, позволяющий выделять морфемы или наименьшие значимые языковые еди-

ницы.

К морфемам относится значимая часть слова, или корень слова, и его вспомогательная часть или аффикс. Аффиксы подразделяются на префиксы и постфиксы, которые располагаются соответственно до и после корня. В русском языке префиксы - это приставки, а постфиксы - это суффиксы и окончания. Морфологический анализ состоит в сопоставлении словоформ (слов текста) и их лексем (словарных форм).

Таким образом, морфологический анализ позволяет перейти от множества словесных форм к унифицированной форме, к его корню, что существенно упрощает задачу компьютерного KE. В технологиях предобработки текстовых документов такое преобразование называется стемизацией. С точки зрения компьютерного обработки текста, морфологический анализ позволяет осуществить POS-тегирование (proof of stake, «подтверждение доли»), т.е. каждому слову текста соответствует часть речи и набор морфологических характеристик.

2. Синтаксический анализ позволяет выявить структуру синтаксических отношений между словами предложения. При этом синтаксический анализатор использует словарь определений слов (лексикон) и набор синтаксических правил (грамматику). Простой лексикон содержит только синтаксическую категорию каждого слова, простая грамматика описывает правила, которые указывают только то, как синтаксические категории могут быть объединены для формирования фраз разных типов. При этом не все системы NLP требуют полного разбора предложений, то есть проведения полного синтаксического анализа.

3. Семантический и прагматический виды анализа состоят в понимании смысла высказывания. Понимание представляет собой крайне сложный, плохо формализуемый процесс семантической интерпретацией в контексте высказывания, который зависит от результатов предыдущих этапов NLP, от лексической информации, контекста и здравого смысла.

Проектирование семантического интерпретатора предполагает решение тех же проблем, с которыми приходится сталкиваться при построении синтаксического анализатора, в частности, с проблемой семантической двусмысленности. В простейшем случае работу интерпретатора можно свести к задаче классификации, т.е. распознавании предполагаемой семантической интерпретации высказывания в конкретном контексте среди множества возможных интерпретаций этого предложения. При этом остается открытым вопрос, какой именно должна быть конечная интерпретация высказывания. Практические системы NLP, как правило, используют семантические представления, предназначенные для конкретной предметной области.

Семантический анализ связывает смысл с изолированными высказываниями (предложениями), прагматический анализ интерпретирует результаты семантического анализа с точки зрения конкретного контекста. В некоторых случаях прагматический анализ находит соответствие реальным объектам или событиям, которые существуют в данном контексте, со ссылками на объекты, полученными в ходе семантического анализа.

Формализованная постановка задачи извлечения знаний из текстовой информации в интересах управления активами с учетом особенностей хаотической среды погружения

Задача извлечения знаний, необходимых для формирования управляющих решений, может быть формализована на основе традиционной кибернетической модели, представленной триадой M={U, X, Y}, где U -множество входных процессов, X - множество состояния объекта управления (ОУ) и R - множество выходных

процессов [18-20]. Структурная схема процесса управления представлена на рис.1.

Рис. 1. Структурная схема процесса управления активами с использованием аналитических исследований

В рассмотренных в статье примерах источниками информации при формировании управляющих решений служат как знания, извлекаемые из потоков документов, циркулирующих в WEB, так хорошо структурированные числовые данные, полученные в процессе мониторинга ОУ (рабочего финансового инструмента, используемого в процессе торгов) и среды его погружения.

Под средой погружения в контексте настоящей работы понимаются электронные рынки капитала (валютный, фондовый, сырьевой). Коммуникация со средой погружения осуществляется посредством виртуальной информационной платформы, реализующей процессы рыночных торгов.

Важно отметить, что среда погружения ОУ является нестабильной и быстро изменяется под влиянием сотен и тысяч слабо прогнозируемых внешних факторов (экономических, политических, социальных, психологических, военных и т.п.). Для описания рядов наблюдения, полученных в процессе мониторинга стоимости финансового инструмента, используется аддитивная стохастическая модель [21-22] с дискретными отсчетами временем k = 1,..., N

yk

■ x„ + v„, k=

k k'

(1)

в которой х, к=1, ..., п представляет собой системную составляющую, используемую в процессе выработки управляющих решений, а V,, к=1, ..., п - шумовую составляющую.

Как уже отмечалось, в роли ОУ выступает некоторый финансовый инструмент, используемый в процессе трейдинга. Входными воздействиями для ОУ являются управляющие сигналы ик, к = 1,..., N и возмущения со стороны среды погружения к = 1,., N. Динамика указанных возмущений описывакется процессом изменения вектора состояния среды ХМк, к = 1,., N, которое, в свою очередь, осуществляется под влиянием большого числа плохо прогнозируемых возмущающих факторов. При этом локальные управляющие воздействия, реализуемые в процессе торгов, в большинстве случаев не существенно влияют на среду погружения, т.е. на состояние рынка. Исключения составляют редкие ситуации очень крупных, трендообразующих операций, приводящие к возникновению локальных тенденций.

Эффективность операции по управлению активом определяется через разность стоимости финансового инструмента в моменты входа и выхода с торговой площадки. Пустьук, к = 1,., N - последовательность наблюдений, отвечающая заданному интервалу времени управления активами Т = пА£, где At - выбранный интервал между отсчетами времени. В течение указанного интервала времени в процессе трейдинга осуществляется М торговых операций, каждая из которых определяется моментами

трейдера является выбор или определение последовательности управлений и* = (и*, j = 1,., М), позволяющих получить максимальный выигрыш

U': Gain(U*) = £ y, (kopen) - y} (kdose) = max} , (2)

где U0 - множество допустимых управлений.

Таким образом, управляющее решение в простейшем случае определяется правилами для определения времени открытия и закрытия позиции u.. = (kopen, kclose), j = 1,..., M, и, в некоторых случаях, величинами лотов.

Источником информации для формирования управляющего решения являются два основных потока информации:

1. Цифровой поток результатов мониторинга состояния ОУ {y , j=1,..., NY} и среды его погружения {YM., j=1,., Nк}; j

2. Поток плохо структурированных текстовых документов {D, j=1,...ND}, включающий в себя новостную информацию, аналитические обзоры и прогнозы, относящиеся, как к ОУ и среде его погружения - рынку капитала, так и к метасреде, влияющей на состояние рынков.

Формирование управляющих решений, основанные на обработке цифровых потоков структурированной информации чаще всего осуществляется средствами технического анализа [8, 9]. Соответствующие технологии охватывают практически все разделы прикладной математики и современные методы компьютерной обработки данных.

Альтернативный подход, основанный на фундаментальном экономическом анализе, формирует результаты своих исследований в форме текстовых аналитических отчетов, содержащих в явной или неявной форме прогноз развития интегральных показателей рынков капитала, эволюции котировок отдельных финансовых инструментов и рекомендации по управлению активами.

De facto, при формировании управляющих решений трейдер пользуется одновременно результатами обоим видов анализа, как это показано на рис. 1. Фундаментальный анализ содержит доступную экономическую интерпретацию своих выводов, однако он всегда не полон, ограничен и не учитывает многих факторов, которые в силу стечения различных обстоятельств могут оказаться значимыми или даже доминирующими. Напротив, технический анализ осуществляется над ретроспективными данными, учитывающими всю совокупность факторов влияния. Однако спекулятивная природа рынка делает наблюдаемые процессы неустойчивыми, когда незначительные возмущения приводят к совершенно непрогнозируемой, часто неадекватной реакции рынка. В результате этого системная составляющая рынка носит характер хаотического процесса [8-9, 23-26 и др.], что приводит к слабой прогнозируемости рядов наблюдений и существенному разрушению самих основ вероятностно-статистической парадигмы, базирующейся на гипотезе о повторяемости опыта.

В процессе спекулятивного трейдинга осуществляется интеграция всей доступной информации и, используя здравый смысл, опыт и интуицию эксперта, формируется управляющее решение. Однако в последние годы все большая часть торговых операций осуществляется торговыми роботами, алгоритмическая платформа которых базируется на математических методах анализа данных. В связи с этим возникает проблема построения эффективных торговых роботов на основе мультиэкс-пертных систем [27], в которых помимо технического анализа будут использоваться знания, автоматически извлекаемые из потока электронных текстовых сообщений, циркулирующих в WEB

их начала и завершения (k

openn close■

) j = 1,., M. Задачей

n

Автоматизированная система предобработки текстовых документов и формирования полигона обучающих

данных

Предварительным этапом для реализации процедуры автоматического KE из текстовых сообщений является формирование полигона обучающих данных, включающих в себя множество текстовых документов, поступающих, в основном, с сайтов финансовых и брокерских компаний. Как правило, для естественных языков (NL, nature language) характерна нечеткая форма представления информации. Например, при решении задачи прогнозирования динамики котировок эксперт использует достаточно размытые фразы типа «сильный тренд», «слабый тренд», «боковое движение», «флэт» и т.п. У каждого могут быть свои предпочтения при выборе эпитетов, соответствий динамике процесса и т.п. В связи с этим размытые фразы в документе заменяются числовым кодом варианта нечеткого решения.

В качестве примера рассмотрим ситуацию, когда множество вариантов возможных априорных нечетких решений описывается 5-элементным массивом чисел

R(D) = {-2, -1, 0, 1, 2} , (3)

где «-2» соответствует решению о наличии сильного негативного тренда, «-1» - среднего или слабого негативного тренда, «0» - бокового тренда (или отсутствие тренда), «1» - наличие среднего или слабого положительного тренда, «2» - наличие сильного положительного тренда.

Нечеткость решений, определяемых NL фразами, требует интервальной статистической интерпретации. С этой целью группами профессиональных экспертов определяется соответствие диапазонов наклона линейного тренда (amin, а. )l. l = 1,...,5 на выбранном интервале на-блюденияшн аибол ее распространенным фразам, используемым экспертами в аналитических отчетах.

Числовой код апостериорной информации R(X), отражающей реальный процесс развития ситуации, сформировать значительно проще, т.к. в распоряжении администратора полигона данных уже имеются ряды наблюдений, отвечающие интервалу времени, на котором осуществлялся прогноз. В связи с этим достаточно оценить наклон линейного тренда а , используя, например, традиционный метод наименьших квадратов (МНК), и сопоставить его с ранее выбранным набором диапазонов (а , amln)r l = 1,...,5. Номер диапазона, отвечающего найденной оценки а , определяет значение числового кода апостериорной информации R(X), соответствующего выбранному временному интервалу наблюдений. Тогда вероятностная оценка качества экспертизы P(Exp) будет оцениваться частотой правильных решений, т.е. частотой случаев, когда код априорных решений эксперта R(D) для данного документа совпадает с кодом соответствующих ему апостериорных выводов R(X).

Более точное решение можно получить при взвешенной частотной оценке качества экспертизы, в которой в качестве весового коэффициента выступает величина обратно пропорциональная разности между априорным и апостериорным значениями кода тренда.

Полигон данных представляет собой развивающуюся структуру, пополняемую в процессе каждой экспертизы, и служит «учителем» при решении задач классификации, лежащих в основе вычислительных процедур KE и формирования управляющих решений.

Предварительная обработка текста: особенности реализации

Предварительная обработка сообщений является одним из ключевых компонентов во многих алгоритмах интеллектуального анализа текста (TM, Text Mining). Процесс предварительной обработки включает в себя такие задачи как токенизация, фильтрация, лемматизация,

стемминг и сегментация данных.

Токенизация состоит в разбиении последовательности символов на словоформы (части слова, слова, сочетания слов или их частей), называемые токенами. При решении задачи анализа текстовых документов на основе поисковых и статистических методов токенизация производится путем просмотра текста скользящими окнами наблюдения с различным числом символов в окне. Очевидно, что многие из выделенных словоформ не содержат никакой полезной информации с точки зрения задачи KE. Поэтому токенизацию имеет смысл производить только на последнем этапе предобработки после очистки от шумовых символов. В контексте настоящей работы то-кенизация включена в этап основной обработки текста и используется при оценке числовых характеристик квалификационных признаков.

Фильтрация представляет собой процесс удаления или отбраковки отдельных символов и словоформ, не используемых или мешающих процессу KE. В простейшем случае осуществляется удаление так называемых стоп-слов, перечень которых образует отдельный список, включающий текстовые формы, которые часто встречаются в тексте и не содержат существенной информации о содержании (предлоги, союзы, междометия, пропуски и т.п.). В электронных текстах удаляются HTML или XML теги.

Лемматизация представляет собой специальный вид морфологического анализа текста, позволяющий группировать и приводить близкие по смыслу слова к единой, унифицированной форме - лемме. Например, все глаголы приводятся к единой безличной форме в настоящем времени, все существительные - к общему корню слова и т.п.

Стемминг - это процедура выделения основы слова, учитывающая его морфологическую структуру и отсекающая сервисные части слова, такие, как суффиксы, префиксы и окончания.

Сегментация состоит в разбиении текста на предложения. Разделение предложений обычно осуществляется знаками пунктуации. В частности, используются такие знаки препинания, как точки, вопросительные знаки, восклицательные знаки. Однако эти маркеры могут быть и неоднозначны. Например, в сочетании "А.С. Пушкин" точки обозначают сокращения, а не конец предложения.

Представленные типы процедур предобработки достаточно хорошо унифицированы и входят во многое инструментально-ориентированные программные комплексы, решающие проблемы Text Mining. Однако при решении конкретных задач, например, таких, как оценивание динамики котировок конкретного финансового инструмента в течение следующих суток, применение всего перечисленного комплекса может оказаться не только избыточным, но и вредным. Например, лемматизация и стемминг могут отбросить усилительные предлоги и суффиксы, указывающие на наличие сильного тренда заданного направления, что влечет потерю важной для последующего управления информации.

В контексте поставленной задачи формирования нечеткого решения вида (3) предобработка сводиться к следующему набору процедур:

1. Сегментация текста документа;

2. Отбраковка документов, не содержащих полезной информации;

3. Отбраковка предложений, не содержащих полезной информации;

4. Селекция и предварительная паспортизация документов, содержащих полезную информацию;

5. Фильтрация предложений, содержащих полезную информацию - ликвидация пробелов, знаков препинания и стоп-слов.

6. Специальный расширенный стемминг, сохраняющий части слова, усиливающие смысловой контент.

Остальные функции предобработки в неявном

виде включены в алгоритм просмотра документа, используемый для выявления характеристических признаков контента.

Извлечения знаний их текстовых сообщений, содержащих решение в явном виде: Общие сведения

Входными данными для системы KE из текстовых сообщений являются множеством документов {D., j=1,...,ND}, каждый из которых однозначно ассоциирован с конкретным экспертом из множества {Exp.., i=1,...,NE}. В общем случае задача сводится к построению некоторого функционального оператора FKE, отображающего совокупность текстовой информации {D.., i = 1,...,ND} в знания.

Дальнейшая формализация задачи KE невозможна без конкретизации понятия «знание». Такая конкретизация неизбежно ведет к сужению общности постановки, однако позволяет сформулировать решаемую задачу в виде, допускающем ее математическое решение. Для большинства задач проактивного управления необходимое «знание» состоит в прогнозе динамического развития ситуации, описываемой эволюцией вектора состояния xk, k = 1,...,n.

Будем рассматривать наиболее распространенный случай, когда прогноз развития ситуации однозначно определяет выбор стратегии управления и ее параметры. Структурная схема такого преобразователя текстовых документов в знания представлена на рис. 2.

Поток документов I ' {D}

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Fke

Проект решения R*

Рис. 2. Структурная схема преобразования информации в проект решения

В большинстве аналитических прогнозов отсутствуют точные характеристики динамики развития ситуации. Как правило, имеются лишь нечеткие качественные формулировки, которые после распознавания контента можно привести к оцифрованной форме нечеткого решения типа (3). На основе полученных априорных знаний Я(р) осуществляется выбор стратегии управления, ее параметризация и формирование управляющего решения Я*.

Поскольку оператор FKE формирует одновременно несколько вариантов прогнози рования, отвечающих различным документам и их авторам (экспертам), разработка проекта управляющего решения требует специальной обработки совокупности прогнозов, учитывающей показатель эффективности прогнозирования каждого из экспертов. Простейшей метрикой эффективности эксперта является частота правильных прогнозов, определяемая путем ретроспективного сравнения кода его априорных прогностических оценок Я(Р) и кода апостериорных оценок тренда реальных данных Я(Х) на выбранном участке наблюдения. Таким образом, ключевым элементом при разработке системы КЕ в интересах задачи автоматического формирования проактивного управляющего решения является оператор FKE, преобразующий множество документов в нечеткую оценку прогноза изменения состояния ОУ типа (3) на заданный интервал времени.

Следует заметить, что реализация функциональности любого анализатора текстов всегда предполагает наличие определенных априорных сведений, позволяющих формализовать процесс принятия решения в форме задачи машинного обучения. Обычно априорные сведения включают в себя:

- возможные варианты знаний, содержащиеся в контексте;

- возможные наборы словоформ, характерные для различных вариантов искомых знаний;

- частотные характеристики словоформ в наборах текстов, характерных для выбранной предметной области знаний;

- алфавиты языка-носителя знаний;

- сведения о синтаксической структуре языка-носителя знаний и др.

Указанная информация находится в свободном доступе или извлекается из ретроспективных отчетов аналитиков за предыдущие периоды времени.

В настоящей статье рассмотрен случай, когда в исходных документах (текстовых сообщениях) имеется явно выраженные сведения о прогнозируемом тренде. В качестве методов автоматического извлечения знаний из текстовых документов чаще всего используются поисковые технологии (на основе ключевых слов) и статистические алгоритмы классификации с учителем. Рассмотрим подробнее указанные технологии.

Поисковая технология извлечения контента на основе обработки текстовой

информации

Поисковая технология извлечения знаний KE сводится к селекции релевантного текста с последующей его классификацией на основе выявления совпадений типовых словоформ в тексте документа и в текстовых словарях словоформ, отвечающих возможным вариантам решений. В зависимости от результатов классификации выносится однозначное управляющее решение, отвечающее найденному классу возможных исходов.

Таким образом, поисковая технология извлечения контента из текстовых документов состоит в сопоставлении ключевых словоформ, содержащихся в словарях семантически-ориентированных форм, с текстом анализируемого документа. Частота совпадений словоформ в документе и словарях позволяет выбрать словарь, отвечающий наиболее употребительным ключевым словоформам и, тем самым, оценить содержательный контент сообщения.

Очевидно, что такой подход предполагает наличие этапа априорного обучения, который сводится к формированию наборов словарей Vocabulary {v., i = 1,., M}, образующих базу данных контентно-ориентированных словоформ. Каждый из словарей образует текстовый классификационный кластер, отвечающий конкретному варианту развития торговой ситуации и соответствующего ему варианту управляющего решения.

Учитывая ранее рассмотренную схему формирования нечетких прогнозов, создается пять словарей словоформ, отвечающих нечётким представлениям (3) о прогнозе динамики котировки рабочего инструмента. Исходя из вышеизложенной схемы принятия решений, рассматриваются случаи сильного негативного тренда, среднего или слабого негативного тренда, бокового тренда (или отсутствие тренда), среднего или слабого положительного тренда и сильного положительного тренда. Каждое вариант нечеткого прогноза оцифровывается кодом (3).

Алгоритм применения текстового анализатора (ТА) можно разделить на три задачи:

• Селекция релевантной (или содержательной) информации, относящейся прямо или косвенно к заданному инструменту;

• Извлечение контента путём решения задачи классификации отобранной информации к одному из априорно сформированных классов словарей;

• Обработка сформированной информации и формирование управляющего решения (3).

Упрощенная структурная схема поискового алгоритма извлечения знаний и формирования управляющего решения приведена на рис. 3.

Рассмотрим подробнее особенности этапа применения ТА.

ным соотношением:

Рис. 3 Структура поискового КЕ-алгоритма формирования управляющего решения

Селекция релевантной информации осуществляется путем сопоставления предложений, выделенных из тестов входных аналитических обзоров, с набором словоформ из словарей рабочих тем.

В качестве примера словарь финансового инструмента «EURUSD» может включать в себя словоформы («евро/доллар», «евро-доллар», «евро», «евродоллар).

Извлечение контента из предварительно отобранной релевантной информации осуществляется путем сопоставления предложений из массива UsefulSentences с ключевыми словами из 4-х словарей, каждый из которых содержит непересекающиеся множества словоформ, характерных для априори выбранного типового кластера.

В контексте базового примера, используемого в настоящей работе, выбрано 4 кластера, отвечающих различным вариантам динамики управляемого инструмента:

• кластер роста котировок. Примером отвечающего ему словаря ключевых слов может служить \/ос1={'рост', 'повыш', 'благопр', 'увелич', 'подъем', 'плюс'})

• кластер падения котировок, соответствующий словарь Vос2={'паден', 'уменьш', 'неблагопр',

'уменьш', 'спад', 'минус'})

• кластер для горизонтальной динамики котировок, соответствующий словарь /ос3={'боков', 'медлен', 'отсутсв', 'неопред', 'сомнит', ' огранич'})

• кластер усилительных терминов, означающий существенный рост или падение котировок /ос4={'очен', 'крайн', 'внезап', 'скачок', 'скачкообр', 'экс-поненц'}.

Последовательно сканируя все имеющиеся предложения из базы UsefulSentences скользящими окнами соответствующих размеров (равных размеру каждой из словоформ всех 4-х словарей) проверяется наличие каждой словоформы в выбранном предложении.

Результат оформляется в форме итоговой электронной таблицы TableR, в которой число строк рано числу возможных исходов (т. е. числу словарей), и число столбцов - числу отобранных текстов. Изначально таблица заполнена нулями, при возникновении подтверждения о появлении ключевого слова в соответствующей ячейке ставится единица. Заполненная таблица представляет достаточный объем данных для формирования управляющего решения.

Обработка итоговой таблицы и формирование управляющего решения представляет собой заключительную стадию работы программы извлечения контента.

Задача программы состоит в обработке данных из таблицы TableR и формировании на их основе управляющего решения в явной форме (3).

Предварительная обработка может включать в себя просмотр и очистку данных от каких-либо противоречий. Например, если в первой и второй строке одного столбца одновременно стоят единицы, то это означает, что в предложении содержатся информация и о возможном росте, и о спаде кодировок. Такие столбцы целесообразно исключать из системы формирования решения.

Собственно решение вида (3) вычисляется очевид-

Ns

d = round[(£ Table(1, i)* (Table(4, i) +1)) -

i=1

Ns

Table(2, i) *(Table(4, i) +1))]

¡=1

Здесь round - процедура округления числа до ближайшего целого, N1 - число слов в обработке, Table(4,i) + 1 - усилительные веса, отвечающие словоформам из словаря 4. При этом выходной результат имеет явно выраженную цифровую форму d = [-2, -1, 0, 1, 2] и дублируется в NL текстовой форме (например: «Up» или «Sharp Down»).

Все приведенные алгоритмы и отвечающие им программы при необходимости механически склеиваются в единый программный файл.

Для тестирования программного комплекса KE из текстовых сообщений использовался тестовый полигон, включающий в себя 138 отчетов. Каждый отчет представляет собой результат фундаментального анализа рыночной ситуации от 3 различных аналитиков (представителей компаний Forexnews, Finmarket и FreshForex. Данный тестовый полигон был прежде всего ориентирован на анализ динамики котировок валютных пар «EUR\ USD», «EUR\RUB» и «USD\RUB». В работе рассматривалась технология внутрисуточной торговли (day trading). Дополнительно сохранялась и учитывалась информация относительно общего настроения рынка, используемая при анализе тональности (sentiment analysis).

После применения на тестовом полигоне поисковых технологий, описанных выше, был получен достаточно убедительный результат. В 116 отчетах результат работы программы совпал с мнением аналитиков, что составляет 84% от общего количества отчетов. Отсюда следует, что поисковая технология извлечения информации, включающая в себя механизмы селекции релевантного текста с последующей его классификацией на основе анализа наличия типовых словоформ, отвечающих выбранному набору классов, позволяет получить эффективное управляющее решение с высокой степенью достоверности.

Статистическая технология извлечения контента на основе частотного анализа обработки строковой информации

Общая формализация задачи извлечения контента из текстовой информации на основе анализа словоформ приведена выше. Рассмотрим эту же задачи более подробно с учетом алгоритмических особенностей статистической обработки текстовых форматов.

Терминальная постановка задачи не изменяется: необходимо, имея на входе текстовый документ, возможно образованный совокупностью частных документов, сформировать управляющее решение (3) путем выявления контента о прогнозируемом тренде в динамике котировок выбранного финансового инструмента. В соответствии с общими принципами дискриминантного анализа данная задача предполагает наличие обучающих данных («учителя»), анализ которых позволяет априори сформировать классы возможных решений и их характеристические признаки.

С точки зрения решаемой задачи предполагается сформировать наличие пяти групп обучающих текстов, отвечающих возможным вариантам выходного решения {d., i = 1,..., 5}. Поскольку обучающая выборка документов формируется из апостериорных данных, классификатор имеет совершенно достоверную информацию о реальной динамике котировки. Следовательно, задача сводится к сортировке текстов по пяти базам текстовых данных DBc, c = 1,., 5:

{Dt(t), i = 1,...,Nd} ^ DBText = {DBc, c = 1,...,5}

Пусть D(t) представляет собой текстовый документ (или совокупность документов), содержащих аналитический прогноз на день t. Для этого же дня в базе данных имеется ряд апостериорных котировок рабочего инструмента, процесс изменения которых на заданном интервале времени описывается рядом наблюдений Y(t) = {JV -, yn} , где п - число отсчетов в течение суток, определяемое выбранным временным дискретном измерений 5t. Выбор дискретности отсчетов зависит от решаемой задачи, для установления общего суточного тренда он может быть достаточно большим, например 10 мин или даже 30 мин.

Точное значение суточного тренда определяется углом наклона прямой линии, полученной в процессе линейной аппроксимации наблюдаемого процесса. Соответствующий расчетный алгоритм относится к технологиям регрессионного анализа и обычно реализуется на основе МНК [28].

В информационно-вычислительной среде (ИВС) Матлаб данный алгоритм реализуется функцией [а1, a0] = polyfit(1:n, Y, 1), где значение a1 определяет величину наклона. Заметим, что более простые схемы оценки тренда, такие, например, как разность yn - y1, неприемлемы, т.к. сильно зависят от степени стохастической вариабельности процесса.

В случае, когда в роли сортировщика документов выступает человек (эксперт), он без труда осуществляет классификацию на основе собственного опыта и интуитивных представлений, используя такие размытые понятия, как «сильный тренд», «слабый тренд», «отсутствие тренда», «боковой тренд» и т.п. Для автоматического сортировщика эти размытые категории (fuzzy sets) должны быть переформатированы в интервальные оценки (диапазоны понятийных представлений) [29].

В качестве примера выбора таких диапазонов на рис. 4 приведен график изменения относительного приращения в зависимости от угла наклона a1.

5 4 3 2 1 0 -1 -2 -3 -4

-5 -1

Incline and scoups

- - -

0 J**- *Ф 0

-1

-0,5

0,5

1,5

Рис. 4. Пример решения задачи выбора диапазонов для представлений о скорости изменения тренда

Например, в случае а1 е [-0.1,0.1] принимается гипотеза об отсутствии тренда, а при а1 < -0.4 - о наличии сильного отрицательного тренда. При этом полностью сохраняется парадокс приграничных значений. Таким образом, в качестве исходных данных для обучения текстового анализатора (ТА) выступают пять наборов текстовых файлов для различных диапазонов изменения тренда суточной динамики котировок.

Следующей стадией задачи обучения являет-

ся формирование частотных текстовых баз данных DBText{DBc, с = 1,..., 5}, отвечающих выбранным категориям решений (3). По существу, каждая из баз данных представляет собой словарь, состоящий их характеристических для данного контента словоформ. Для решения этой проблемы целесообразно осуществить предварительную обработку текста. В частности, можно удалить стоп-слова, пробелы, осуществить стемизацию слов.

Частотный анализ текстов проводится последовательно по каждой БД DBc, с = 1,., 5. При этом крайне важно, чтобы объем каждой БД был достаточно большим, в противном случае частотные оценки будут недостоверны.

Оценка частоты появления словоформ . = 1,...,Л^}с, с = 1,...,5 размером от трех до 7-8 букв происходит путём сканирования тестовых текстов. При каждом повторном обнаружении словоформы число ее благоприятных исходов увеличивается на единицу т=т+1, частота появления словоформы оценивается величиной h. = т /п ,. = 1,., где п - число шагов сканирования. Имея общий набор словоформ и их частотные оценки, можно путем ранжирования по величине найденных частот выделить наиболее характерные текстовые сочетания для каждого из 5 словарей. Селекция может быть осуществлена по критическому уровню частоты h*, когда сохраняются лишь те словоформы, у которых оценка частоты появления в характерных текстах выше критической Sc = {^ е Ыс : h(wf) > h*}, с = 1,., 5.

Следует заметить, что для каждой словоформы оценка вероятности ее появления на фоне всего текстового сообщения будет крайне незначительно величиной. Отсюда возникает идея перехода к статистическому анализу текста, в котором оценивается суммарная частота появления словоформ, характерных для заданного словаря Sc, с = 1,...,5. Далее возможны варианты решения, основанные на обработке строковых или символьных переменных.

Рассмотрим задачу частотного анализа русскоязычного текста для формирования частотного словаря характеристических ключевых слов на основе обработки строковых переменных. Структурная схема соответствующего алгоритма представлена на рис. 5.

Считывание документа Doc и преобразование его в строковый формат

Предобработка текста: токенизация, стемизация, унификация регистра, формирование списка слов

Удаление стоп-слов S(Doc) = S0\SSW

Словарь стоп-слов SSW={ssw„j = \...,Nsw}

Частотный анализ и ранжирование словаря S(D) => S\ Селекция словаря ключевых слов = {s^, j = 1,...,Л/Му}

Рис. 5. Структура поискового КЕ-алгоритма формирования управляющего решения

В качестве примера рассмотрим задачу частотного анализа текста, сформированного аналитиком брокерской компании Нпат:

EURUSD: ожидается продолжение роста. В понедельник, 25 мая, евро закрылся ростом на четыре пункта. Активность участников рынка на рынке была очень низкой из-за закрытых бирж в Великобритании и США. Британцы отмечали весенний банковский день, американцы - День Памяти.

В среду, 27 мая, торги по евро завершились ростом на 0,19%. Котировки закрылись на отметке 1,1003. Ралли евро вызвала новость о том, что Европейская комиссия выработала новые параметры фонда, создаваемого для поддержки европейской

экономики пострадавшей от пандемии коронавируса. Общая сумма средств фонда составит 750 млрд евро, 500 млрд евро из которых будет предоставлено безвозмездно (гранты), остальные 250 млрд евро будут предоставлены в виде кредитов. Фунт мгновенно оказался под давлением из-за роста кросс-пары евро/фунт, евро улетел на 1,1031. Рост не получил продолжения, так как из-за усиления напряженности в отношениях между США и Китаем просел индекс SP500. Индекс восстановился к закрытию дня, но евро к этому времени не удалось отыграть все потери. На торгах в Европе основные валюты торгуются узком диапазоне. Франк и йена торгуются в минусе, остальные основные валюты в плюсе. Пара евро/доллар вышла в плюс на 0,14%. Росту котировок способствуют слабая статистика из США, а также рост кроссов с евро.

Министерство труда США сообщило, что количество первичных заявок на получение пособия по безработице за предыдущую неделю составило 2,123 млн против 2,446 млн на прошлой неделе. При этом экономисты ожидали числа заявок на уровне 2,1 млн. ВВП за первый квартал снизился на 5%.

Фунт почти не изменился по отношению к доллару, оставаясь торговаться вблизи минимумов, достигнутых накануне на сообщениях о том, что переговоры по Brexit зашли в тупик. Техническая картина для пары евро/доллар очень благоприятная. Кроссы с евро в плюсе. Защитные активы дешевеют. Фьючерс на SP500 вырос до 3038 (+0,13%). Если индекс не упал на слабой американской статистике, то при сохранении положительной динамики евро сегодня может протестировать 1,1060/65. Сегодня китайский парламент одобрил закон о национальной безопасности, распространяющий свое действие и на Гонконг. Очень интересно услышать комментарии Белого дома. Премьер-министр Китая Ли заявил, что Китай начал делиться информацией об эпидемии ко-ронавируса вовремя. Он отметил, что в настоящее время отношения между двумя странами сталкиваются с новыми вызовами. Эскалация конфликта ограничит рост пары евро/доллар.

Результаты работы программы частотного анализа текста представлены в таблице 1. Отвечающая ей графически частотная гистограмма слов текста приведена на рис. 6. Для наглядности использовался логарифмический масштаб.

Достаточно очевидно, что приведенный пример позволяет подтвердить работоспособность программы и произвести предварительную сортировку текста, как материалов экономического анализа ситуации. Некоторые признаки позволяют судить об общей положительной тональности отчета.

Практическое использование данной технологии анализа текстов может быть использовано в трех направлениях:

1. Выявление общей тональности относительно активности экономической ситуации. Для решения данного вопроса необходимо обеспечить полноту исходной информации за счет объединения аналитических отчетов различных финансовых групп и компаний. Далее требуется по образцу алгоритма поискового анализа сформировать словари тональностей рынков и, сопоставляя их с результатами частотного анализа, сделать соответствующие нечеткие выводы типа (3))

2. Формирование словарей ключевых слов, отражающих варианты развития динамики конкретных финансовых инструментов. Данная задача предполагает предварительное составление обучающих текстовых выборок, разделенных на классы, отвечающие вариантам возможных решений.

3. Применение оценок частот наиболее распро-

Таблица 1. Результаты частотного анализа текста

Слово/Словоформа Частота повторений % содержания в тексте

"евро" 13 2.8889

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

"сша" 8 1.7778

"валюты" 4 0.88889

"евро/доллар" 4 0.88889

"коронавирус" 4 0.88889

"основные" 4 0.88889

"очень" 4 0.88889

"плюсе" 4 0.88889

"сегодня" 4 0.88889

"торгуются" 4 0.88889

"рост" 3 0.66667

"торг" 3 0.66667

Рис. 6. Пример частотного представления результатов анализа тестового файла

страненных словоформ как входных данных для последующего анализа на основе методов обучения с учителем.

В заключении раздела рассмотрим задачу визуализации результатов частотного анализ слов на основе программных инструментов Text Analyzer Tool Kids ИМС Матлаб. При этом используются закрытые процедуры, основанные на обработке токенов, формируемые на этапе предварительной обработки информации. Результат работы программы представлен в виде визуализации облака слов, в котором более частые словоформы выделены более крупным шрифтом и расположены ближе к центру рисунка. Эксперт-аналитик должен на основании изучения этого рисунка сделать выводы о прогнозируемой динамике котировок рабочего инструмента.

В качестве примера рассмотрен набор текстов, сформированных аналитиками компании Alpary и указывающих на возможный рост котировок пары «EUR\USD». Соответствующее данному набору текстов облако слов приведено на рис. 7.

Сравнительный анализ результатов приведенных подходов явно указывает на более высокую наглядность и корректность прямой обработки строковой информации. Однако ее результативность может быть существенно повышена путем разработки и внедрения достаточно сложной для русского языка процедуры систематизации слов.

expect dollar correction

«AI I Г/Ч -today

asian GUI U riSe mark eurusd dro acu agajnst

. ,4-U H ■ Ur°P --eye,MOI ^

a bïïiSline ¡bks

breltrad^air

down ™

session

cross

Рис. 7. Пример частотного представления результатов

анализа тестового файла в форме облака слов

Обсуждение результатов, выводы и направления дальнейших исследований

Представленные в работе материалы конкретизируют решение общей научной проблемы автоматического извлечения знаний из потоков текстовой информации. Предложенные технологии базируются на общих принципах информационного поиска в сетевых структурах и статистических методах машинного обучения.

В настоящее время данные технологии позволяют получить существенно более достоверные результаты, чем вычислительные подходы, основанные на применении искусственных нейронных сетей (ИНН). Тем не менее, следует иметь в виду, что технологии ИНН находятся в стадии интенсивного развития, и не следует их отбрасывать в качестве возможной альтернативы в ближайшем будущем.

В качестве основного примера в работе рассмотрена задача управления в нестабильных средах погружения. Наиболее сложный вариант этой проблемы связан с управлением в хаотических средах, примером которой могут служить электронные рынки капитала. Предложенная в работе технология может служить основой для построения торговых роботов, основанных на извлечении знаний из плохо структурированных аналитических отчетов, размещаемых в сети финансовыми и брокерскими компаниями. Иными словами, возникает принципиальная возможность использовать результаты фундаментального анализа экономической ситуации в режиме гибридного интеллекта.

Тем не менее, следует заметить, что даже при очень высоком уровне достоверности извлечения знаний из потоков текстовой информации, сохраняется проблема ошибочных заключений самими экспертами. Поэтому наиболее перспективным направлением для создания интеллектуальных торговых роботов на основе симбиоза количественного исследования данных, основанного на формализованных алгоритмах технического анализа, с результатами традиционной работы экспертов-аналитиков, дополненными системой автоматического извлечения знаний из соответствующих текстовых отчетов. Построение торговых роботов, реализующих совместную обработку данных для этих двух направлений, представляет собой самостоятельное направление перспективных исследований. В качестве возможного варианта реализации такого симбиоза могут быть рассмотрены технологии мультиэкспертных систем, принципы построения которых приведены в [27].

Исследования, выполненные по данной тематике, проводились при частичной финансовой поддержке грантов РФФИ (№20-08-01046), в рамках бюджетной темы FFZF-2022-0004 СПИРАН.

Литература

1. Aggarwal C.C., Zhai C.X. Mining text data. London: Springer, 2012. 535 p.

2. Allahyari M., Pouriyeh S., Assefi M., Safaei S., Trippe E., Gutierrez h., Kochut C. A Brief Survey of Text Mining: Classification, Clustering and Extraction Techniques. KDD Bigdas, 2017, Halifax. P. 1-13.

3. Fan J., Kalyanpur A., Gondek D.C., Ferrucci D.A. Automatic knowledge extraction from documents // International Business Machines Corporation journal. 2004. Vol. 56. P. 51-60.

4. Feldman, R., Dagan I. Knowledge Discovery in Textual Databases // In KDD. 1995. Vol. 95. P. 12-117.

5. Chauhan H., Tyagi H. Text Mining Techniques for Extraction and Retrieval Information in Research Process // International journal of research in electronics and computer engineering. 2019. V. 7, N 2, Р. 2693-2700.

6. Мусаев А.А., Григорьев Д.А. Обзор современных технологий извлечения знаний из текстовых сообщений // Компьютерные исследования и моделирование. 2021. Т. 13. № 6. С. 1257-1281.

7. Gupta V, Gurpreet S.L. A Survey of Text Mining Techniques and Applications // Journal of Emerging Technologies in Web Intelligence. 2009. V. 1(1), Р. 60-76.

8. Peters E.E. Chaos and order in the capital markets: a new view of cycles, prices, and market volatility (2nd ed.). NY: John Wiley & Sons, 1996. 288 p.

9. Gregory-Williams J., Williams B.M. Trading Chaos: Maximize Profits with Proven Technical Techniques. 2nd ed. J. Wiley & Sons. NY, USA. 2004. 251 p.

10. Araci D. Finbert: Financial sentiment analysis with pre-trained language models. —arXiv preprint arXiv:1908.10063. 2019. 11p.

11. Pang B., Lee L. Opinion Mining and Sentiment Analysis. — Foundations and Trends in Information Retrieval. 2008. 2. P. 1-135.

12. Bing L. Sentiment Analysis and Subjectivity.

— Handbook of Natural Language Processing. Ed. by N. Indurkhya и F. J. Damerau. 2010. 37 p.

13. Jiang L. et al. Target-dependent twitter sentiment classification. —Proc. the 49th annual meeting of the association for computational linguistics: human language technologies. 2011. P. 151-160.

14. Chowdhury, G.G. Natural Language Processing.

— Annual Review of Information Science and Technology (ARIST). 2003. v37. P. 51—89.

15. Allahyari M., Pouriyeh S., Assefi M., Safaei S., Trippe E., Gutierrez h., Kochut C. A Brief Survey of Text Mining: Classification, Clustering and Extraction Techniques. — KDD Bigdas: Halifax. 2017. P. 1-13.

16. Eisner J. Natural Language Processing. 2020. Электронный ресурс: https://www.cs.jhu.edu/~jason/465/

17. Varsha C. P., Khandelwal A.S. A Survey Of Different Text Mining Techniques. — IBMRD's Journal of Management and Research. 2014. V.3(1). P. 125-133.

18. Nise N.S. Control Systems Engineering. 6th ed.

— Wiley. 2012. 948p.

19. Ghosh S. Control Systems: Theory and Applications. — Pearson Education India. 2012. 1044 p.

20. Мусаев А.А., Григорьев Д.А. Формализованная постановка и краткий обзор технологий выявления контекста из текстовых документов в задачах управления финансовыми активами. — Техника и технология современных производств: сборник статей. МНИЦ ПГАУ. Пенза: РИО ПГАУ, 2021. - C. 129-139.

21. Musaev A.A., Makshanov A., Grigoriev D.A. Numerical Studies of Statistical Management Decisions in Conditions of Stochastic Chaos. Mathematics 2022, 10(2), 226.

22. Musaev A, Makshanov A, Grigoriev D. Statistical Analysis of Current Financial Instrument Quotes in the Conditions of Market Chaos. Mathematics. —2022. 10(4).

P. 587.

23. Smith L. Chaos: A Very Short Introduction. — Oxford University Press: Oxford, UK. 2007. 180p.

24. Kautz, R. Chaos: The Science of Predictable Random Motion. — Oxford University Press. 2011. 369p.

25. Manneville, P. Instabilities, Chaos and Turbulence: An Introduction to Nonlinear Dynamics And Complex Systems. — World Scientific Publishing Company. 2004. 408p.

26. Musaev A.A. Quod est veritas. Views transformation at a system component of observable process.

— Informatics and Automation (SPIIRAS Proceedings). 2010. v. 15. P. 53-74.

27. Musaev A., Grigoriev D. Multi-expert Systems: Fundamental Concepts and Application Examples. — Journal of theoretical and applied information technology. 2022. Vol. 100. № 2. P. 336-348.

28. Кендалл М. Стьюарт A. Статистические выводы и связи. Пер. с англ. под ред. А. Н. Колмогорова. — М. Наука. 1973. 900с.

29. Асаи К., Ватада Д., Иваи С. Прикладные нечёткие системы. Под ред. Т.Тэрано. - М.: Мир. 1993. -368 с.

References

1. Aggarwal C.C., Zhai C.X. Mining text data. London: Springer, 2012. 535 p.

2. Allahyari M., Pouriyeh S., Assefi M., Safaei S., Trippe E., Gutierrez h., Kochut C. A Brief Survey of Text Mining: Classification, Clustering and Extraction Techniques. KDD Bigdas, 2017, Halifax. P. 1-13.

3. Fan J., Kalyanpur A., Gondek D.C., Ferrucci D.A. Automatic knowledge extraction from documents // International Business Machines Corporation journal. 2004. Vol. 56. P. 51-60.

4. Feldman, R., Dagan I. Knowledge Discovery in Textual Databases // In KDD. 1995. Vol. 95. P. 12-117.

5. Chauhan H., Tyagi H. Text Mining Techniques for Extraction and Retrieval Information in Research Process // International journal of research in electronics and computer engineering. 2019. V. 7, N 2, Р. 2693-2700.

6. Musaev A, Grigoriev D. Overview of modern technologies for extracting knowledge from text messages.

— Computer research and modelling. 2021. Vol.13. No. 6. P. 1257-1281.

7. Gupta V, Gurpreet S.L. A Survey of Text Mining Techniques and Applications // Journal of Emerging Technologies in Web Intelligence. 2009. V. 1(1), Р. 60-76.

8. Peters E.E. Chaos and order in the capital markets: a new view of cycles, prices, and market volatility (2nd ed.). NY: John Wiley & Sons, 1996. 288 p.

9. Gregory-Williams J., Williams B.M. Trading Chaos: Maximize Profits with Proven Technical Techniques. 2nd ed. J. Wiley & Sons. NY, USA. 2004. 251 p.

10. Araci D. Finbert: Financial sentiment analysis with pre-trained language models. —arXiv preprint arXiv:1908.10063. 2019. 11p.

11. Pang B., Lee L. Opinion Mining and Sentiment Analysis. — Foundations and Trends in Information

Retrieval. 2008. 2. P. 1-135.

12. Bing L. Sentiment Analysis and Subjectivity.

— Handbook of Natural Language Processing. Ed. by N. Indurkhya и F. J. Damerau. 2010. 37 p.

13. Jiang L. et al. Target-dependent twitter sentiment classification. —Proc. the 49th annual meeting of the association for computational linguistics: human language technologies. 2011. P. 151-160.

14. Chowdhury, G.G. Natural Language Processing.

— Annual Review of Information Science and Technology (ARIST). 2003. v37. P. 51—89.

15. Allahyari M., Pouriyeh S., Assefi M., Safaei S., Trippe E., Gutierrez h., Kochut C. A Brief Survey of Text Mining: Classification, Clustering and Extraction Techniques. — KDD Bigdas: Halifax. 2017. P. 1-13.

16. Eisner J. Natural Language Processing. 2020. Электронный ресурс: https://www.cs.jhu.edu/~jason/465/

17. Varsha C. P., Khandelwal A.S. A Survey Of Different Text Mining Techniques. — IBMRD's Journal of Management and Research. 2014. V.3(1). P. 125-133.

18. Nise N.S. Control Systems Engineering. 6th ed.

— Wiley. 2012. 948p.

19. Ghosh S. Control Systems: Theory and Applications. — Pearson Education India. 2012. 1044 p.

20. Musaev A.A., Grigoriev D. A formalized formulation and a brief overview of technologies for identifying context from text documents in financial asset management tasks. — Technique and technology of modern production: collection of articles. Penza: RIO PGAU. 2021. P. 129-139.

21. Musaev A.A., Makshanov A., Grigoriev D.A. Numerical Studies of Statistical Management Decisions in Conditions of Stochastic Chaos. Mathematics 2022, 10(2), 226.

22. Musaev A, Makshanov A, Grigoriev D. Statistical Analysis of Current Financial Instrument Quotes in the Conditions of Market Chaos. Mathematics. —2022. 10(4). P. 587.

23. Smith L. Chaos: A Very Short Introduction. — Oxford University Press: Oxford, UK. 2007. 180p.

24. Kautz, R. Chaos: The Science of Predictable Random Motion. — Oxford University Press. 2011. 369p.

25. Manneville, P. Instabilities, Chaos and Turbulence: An Introduction to Nonlinear Dynamics And Complex Systems. — World Scientific Publishing Company. 2004. 408p.

26. Musaev A.A. Quod est veritas. Views transformation at a system component of observable process.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

— Informatics and Automation (SPIIRAS Proceedings). 2010. v. 15. P. 53-74.

27. Musaev A., Grigoriev D. Multi-expert Systems: Fundamental Concepts and Application Examples. — Journal of theoretical and applied information technology. 2022. Vol. 100. № 2. P. 336-348.

28. Kendall M., Stuart A. Statistical conclusions and connections. - Moscow: Nauka, 1973. - 900 p.

29. Asai K., Vatada D., Ivai C. Applied fuzzy systems. Ed. by T. Terano. - Moscow: Mir, 1993. - 368 p.

Сведения об авторах

Мусаев Александр Азерович, д-р техн. наук, профессор, декан факультета информационных технологий и управления СПбГТИ (ТУ), вед. науч. сотр., СПИИРАН; Alexander A. Musaev, Dr Sci., Professor, Dean of the Computer Science faculty, SPb-SIT; Leading Scientist, SPIIRAS, amusaev@technolog.edu.ru

Григорьев Дмитрий Алексеевич, к.ф.-м.н., доцент кафедры информатики, ст. науч. сотр. Центра эконометрики и бизнес-аналитики (ЦЭБА) Санкт-Петербургского Государственного Университета (СПбГУ); Dmitry A. Grigoriev, PhD in Computer Science, associate professor, chair of computer science, Senior Scientist, Center of econometric and business analytics (CEBA), St. Petersburg State University (SPBU) d.a.grigoriev@spbu.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.