Научная статья на тему 'Об одном подходе к извлечению именованных сущностей из неструктурированных текстов'

Об одном подходе к извлечению именованных сущностей из неструктурированных текстов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
43
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
обработка информации / неструктурированный текст / именованная сущность / лексема / скрытая марковская цепь / information processing / unstructured text / named entity / lexeme / hidden Markov chain

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — А. А. Ворошилова, С. Ю. Пискорская

В статье рассматривается один их возможных подходов к извлечению именованных сущностей из неструктурированных текстов. Отмечается сложность и трудоемкость наиболее распространенных методов решения данной задачи, базирующихся на использовании создаваемых вручную конечных автоматов. Возникает ряд сложностей при реализации данного подхода при обработке мультилингвистических текстов, так как для каждого нового языка и для каждого нового класса сущностей требуется вмешательство человека для создания вручную нового набора шаблонов для работы с новыми языками и новыми классами. Предлагаемый подход предполагает использование принципов машинного обучения. Дана постановка задачи и описана используемая модель марковской цепи при распознавании именованных сущностей. На основе данной модели для выделения именованных объектов ставится задача нахождения наиболее вероятной последовательности состояний, генерирующих последовательность лексем. В статье описан лексический материал, включающий состав признаков и их описания, представлена методика декодирования и оценка параметров модели. В данной работе для решения задачи используется алгоритм Витерби, который предназначен для нахождения последовательности состояний, для которых вероятность порождения наблюдаемой цепочки символов максимальна. В качестве экспериментальных результатов представлены характеристики точности распознавания типов лексем при различных размерах обучающей выборки и диаграмма количества ошибок по классам лексем.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — А. А. Ворошилова, С. Ю. Пискорская

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

To one approach to extracting named entities from unstructured texts

The article considers one of the possible approaches to the extraction of named entities from unstructured texts. The complexity and laboriousness of the most common methods for solving this problem, based on the use of manually created finite automata, are noted. There are a number of difficulties in implementing this approach when processing multilinguistic texts, since for each new language and for each new class of entities, human intervention is required to manually create a new set of templates for working with new languages and new classes. The proposed approach involves the use of machine learning principles. The statement of the problem is given and the model of the Markov chain used in the recognition of named entities is described. On the basis of this model for the selection of named objects, the task is to find the most probable sequence of states that generate a sequence of tokens. The article describes the lexical material, including the composition of features and their descriptions, presents the decoding technique and estimation of the model parameters. In this paper, to solve the problem, the Viterbi algorithm is used, which is designed to find a sequence of states for which the probability of generating the observed chain of symbols is maximum. As experimental results, the characteristics of the accuracy of recognition of types of lexemes for different sizes of the training sample and a diagram of the number of errors by classes of lexemes are presented.

Текст научной работы на тему «Об одном подходе к извлечению именованных сущностей из неструктурированных текстов»

УДК: 004.912 EDN: JKPDAC

DOI: https://doi.org/10.47813/2782-5280-2023-2-2-0301-0313

Об одном подходе к извлечению именованных сущностей из неструктурированных текстов

А. А. Ворошилова1'2, С. Ю. Пискорская3

1 Красноярский краевой Дом науки и техники РосСНИО, Красноярск, Россия 2Сибирский федеральный университет, Красноярск, Россия ъСибГУ им. М.Ф. Решетнева, Красноярск, Россия

Аннотация. В статье рассматривается один их возможных подходов к извлечению именованных сущностей из неструктурированных текстов. Отмечается сложность и трудоемкость наиболее распространенных методов решения данной задачи, базирующихся на использовании создаваемых вручную конечных автоматов. Возникает ряд сложностей при реализации данного подхода при обработке мультилингвистических текстов, так как для каждого нового языка и для каждого нового класса сущностей требуется вмешательство человека для создания вручную нового набора шаблонов для работы с новыми языками и новыми классами. Предлагаемый подход предполагает использование принципов машинного обучения. Дана постановка задачи и описана используемая модель марковской цепи при распознавании именованных сущностей. На основе данной модели для выделения именованных объектов ставится задача нахождения наиболее вероятной последовательности состояний, генерирующих последовательность лексем. В статье описан лексический материал, включающий состав признаков и их описания, представлена методика декодирования и оценка параметров модели. В данной работе для решения задачи используется алгоритм Витерби, который предназначен для нахождения последовательности состояний, для которых вероятность порождения наблюдаемой цепочки символов максимальна. В качестве экспериментальных результатов представлены характеристики точности распознавания типов лексем при различных размерах обучающей выборки и диаграмма количества ошибок по классам лексем.

Ключевые слова: обработка информации, неструктурированный текст, именованная сущность, лексема, скрытая марковская цепь.

Для цитирования: Ворошилова, А. А., & Пискорская, С. Ю. (2023). Об одном подходе к извлечению именованных сущностей из неструктурированных текстов. Информатика. Экономика. Управление - Informatics. Economics. Management, 2(2), 0301-0313. https://doi.org/10.47813/2782-5280-2023-2-2-0301-0313

© А. А. Ворошилова, С. Ю. Пискорская, 2023 0301

To one approach to extracting named entities from

unstructured texts

A. A. Voroshilova1'2, S. Yu. Piskorskaya3

Krasnoyarsk Science and Technology City Hall, Krasnoyarsk, Russia 2Siberian Federal University, Krasnoyarsk, Russia 3Reshetnev Siberian State University of Science and Technologies, Krasnoyarsk, Russia

Abstract. The article considers one of the possible approaches to the extraction of named entities from unstructured texts. The complexity and laboriousness of the most common methods for solving this problem, based on the use of manually created finite automata, are noted. There are a number of difficulties in implementing this approach when processing multilinguistic texts, since for each new language and for each new class of entities, human intervention is required to manually create a new set of templates for working with new languages and new classes. The proposed approach involves the use of machine learning principles. The statement of the problem is given and the model of the Markov chain used in the recognition of named entities is described. On the basis of this model for the selection of named objects, the task is to find the most probable sequence of states that generate a sequence of tokens. The article describes the lexical material, including the composition of features and their descriptions, presents the decoding technique and estimation of the model parameters. In this paper, to solve the problem, the Viterbi algorithm is used, which is designed to find a sequence of states for which the probability of generating the observed chain of symbols is maximum. As experimental results, the characteristics of the accuracy of recognition of types of lexemes for different sizes of the training sample and a diagram of the number of errors by classes of lexemes are presented.

Keywords: information processing, unstructured text, named entity, lexeme, hidden Markov chain.

For citation: Voroshilova, A. A., & Piskorskaya, S. Y. (2023). To one approach to extracting named entities from unstructured texts. Informatics. Economics. Management, 2(2), 0301-0313. https://doi.org/10.47813/2782-5280-2023-2-2-0301-0313

ВВЕДЕНИЕ

Извлечение информации - это задача из области обработки естественноязыковых текстовых массивов, которая включает автоматическое извлечение предопределенных типов информации из текста [1-4]. Примером задачи извлечения информации может служить задача получения сведений об организации из массивов информации, представленной в текстовом виде [5]. Входными данными системы извлечения информации является неструктурированный или слабоструктурированный текст на естественном языке; на выходе - заполненные структуры данных, позволяющие проводить дальнейшую автоматическую или ручную обработку информации.

В качестве частного случая данной задачи можно рассмотреть задачу извлечения именованных сущностей (примером может служить выявление в неструктурированном

или слабоструктурированном тексте всех вхождений упоминаний о различных организациях, персонах, географических названий и т.д.) [6, 7]. Ряд авторов, например, в [8-11] используют внутриязыковые ассоциативные поля в мультилингвистической адаптивно-обучающей технологии, а также исследуют системы поиска, анализа и обработки мультилингвистических текстов, интегрированные с информационно-поисковыми системами [12].

Распространенные подходы к решению задачи извлечения именованных сущностей из неструктурированных текстов основываются на использовании создаваемых вручную конечных автоматов (patterns) [13]. Однако для каждого нового языка (в рамках мультилингвистической технологии [11]) и для каждого нового класса сущностей требовалось вмешательство человека для создания вручную нового набора шаблонов для работы с новыми языками и новыми классами. Предлагаемый подход предполагает использование принципов машинного обучения.

Процесс извлечения информации состоит из двух этапов: первый - поиск возможных кандидатур лексем, представляющих интерес, второй - определение типа каждой из кандидатур. Алгоритм распознавания типа лексемы на выходе должен выдавать единственный и однозначный тип для каждой лексемы в тексте.

Задача автоматического распознавания некоторых типов лексем достаточно тривиальна, в то время как для ряда лексем могут возникнуть неоднозначные толкования. Например, автоматическое распознание лексем адресов электронной почты и дат может осуществляться при помощи механизмов стандартных регулярных выражений. Однако использование регулярных выражений для некоторых типов лексем, например имен, довольно затруднительно. Например, для лексемы "Владимир" может возникнуть неоднозначность - к какому типу отнести эту лексему: имя человека или название города? В естественных языках, как правило, не существует каких-либо конкретных ограничений на правила формирования названий именованных объектов.

ПОСТАНОВКА ЗАДАЧИ

Будем рассматривать входной текст как выход некоторой порождающей системы, которая порождает текст, состоящий из лексем, причем у каждой лексемы имеется набор характеристик, включающих семантический тип лексемы. Типам лексем в рассматриваемой модели соответствуют такие типы именованных сущностей как: географические названия, названия организаций, персоны и т. д. Можно ввести

следующую аналогию: при прохождении текстовой информации через некоторый зашумленный канал информация о семантических типах утратилась. Таким образом, задача состоит в восстановлении этой информации.

Соотнесем набор состояний Б = (5!,...,с введенным набором семантических типов, то есть каждое состояние $ будет соответствовать некоторому семантическому типу лексемы. Так как входной текст представляет собой последовательность лексем, которую обозначим как 0 = 0102,...,0Т, причем у каждой лексемы имеется свой семантический тип, мы можем представить систему, которая в каждый момент времени 1=1...,Т находится в одном из состояний $1...

В данной работе в качестве модели системы используются скрытые марковские цепи: переход системы из одного состояния в другое происходит в моменты времени I =1, 2, ... в соответствии с вероятностями перехода, соотнесенными с состояниями. Вероятность перехода из состояния Б;в Б] определяется матрицей А, состоящей из следующих элементов:

Щ] = Р[Чг = 5}\Ч1-г = $], 1 < I,} < N.

Для элементов матрицы А выполняются стандартные ограничения: а^ > 0, и условие нормировки вероятностей а^ = 1.

Полностью модель скрытой марковской цепи определяется следующими элементами:

1. Набор из N состояний 5 = (Б1,...,5М}.

2. Алфавит, состоящий из М символов V = (р-^,.. .,рм}.

3. Вероятности перехода из состояния Б; в Б] определяемые элементами матрицы А, где ац = Р[ц1 = = Б;], 1 < < N.

4. Вероятности порождения символа алфавита р^, если система находится в состоянии Б], определяются элементами матрицы В, где Ь;(к) = Р[V|l\qt = Б;], 1 < } < N ,1 < к < М.

5. Вероятности начальных состояний Л; = Р^^ = Б;], 1 < / < N.

Данный вид цепей называют скрытыми, так как наблюдается только последовательность порожденных символов 0 = 0102,...,0Т, где 0; £ V, при этом, последовательный набор состояний, породивший данную последовательность, остается скрытым.

Для краткости, совокупность параметров модели обозначим Л = (А, В, л).

На основе этой модели для скрытых марковских цепей возможно оценить:

• вероятность, с которой модель Я порождает последовательность О = 0102,...,0Т, где Oi е V;

• наиболее вероятную последовательность состояний, генерирующую последовательность O;

• параметры Л = (А,В,п), которые максимизируют вероятность порождения последовательности O: max Р (OIX).

Используемая модель марковской цепи при распознавании именованных сущностей представлена на рисунке 1.

Здесь для каждого типа лексемы предусмотрено соответствующее состояние в марковской модели.

Рисунок 1. Модель марковской цепи при распознавании именованных сущностей. Figure 1. Markov chain model for named entity recognition.

В данном случае, для выделения именованных объектов, ставится задача нахождения наиболее вероятной последовательности состояний, генерирующих последовательность O.

ЛЕКСИЧЕСКИИ МАТЕРИАЛ

При распознавании лексем, алфавит V включает в себя лексемы, полученные на этапе обучения, а также ряд признаков лексем, составленных из набора базовых признаков. Состав признаков и их описание представлено в таблице 1.

Таблица 1. Состав признаков и их описание. Table 1. Composition of features and their description.

Признак

Описание

FIRST_CAP ALL_CAP IN_QUOTES NON_VOCAB LETTER WITH DOT

Первая буква заглавная. Все буквы заглавные. В кавычках.

Неизвестное слово русского языка. Заглавная буква с точкой.

LETTER_THEN_DOT_THEN_CAP Две заглавные буквы, разделенные

точкой.

PREFIX1 Словарный префикс.

SUFFIX1 Словарный суффикс.

OTHER Другое.

Исходя из данного набора элементарных признаков видно, что одной лексеме может соответствовать несколько элементарных признаков. В таком случае происходит их объединение в новый признак, который добавляется в словарь.

Набору состояний соответствуют семантические типы лексем вида:

• ORG - название организации (АО "ОКБ");

• PERSON - упоминание о человеке (Владимир Баранов);

• GEOGRAPHIC - географическое название (Усть-Илимский район);

• PLAIN_TEXT - обычный текст.

При обучении для разметки лексем используется расширяемый язык разметки

XML.

Пример разметки текста выглядит следующим образом.

Как отмечает начальник отдела продаж <0Я0РЯЕЕ1Х>ИФ</0Я0РЯЕЕ1Х> <0Я0>ОЛМА</0Я0><ГЖ8ТМШЕ>Владимир</ГтТМШЕ><РЕЯ80М>Баранов</

РЕКБОЫ>, подъем курса акций <ОЯО>ОКБ</ОЯО> проходит на фоне известий, что компания выиграла конкурс на оказание услуг.

Элементы матрицы А определяет вероятность того, что текущая лексема принадлежит классу у, учитывая, что предыдущая лексема принадлежала классу /.

Элементы матрицы В определяют вероятность того, что лексема с определенным набором элементарных признаков принадлежит определенному классу.

МЕТОДИКА ДЕКОДИРОВАНИЯ

Предположим, что имеется некоторая последовательность 0 = 0102,...,0Т, где 0; £ V, также известны элементы матриц А, В, п.

Задача нахождения наиболее вероятного набора состояний ( = (г(2,..., QТ, £ Б называется декодированием.

В данном случае, для решения этой задачи используется алгоритм Витерби [15], который предназначен для нахождения последовательности состояний, для которых вероятность порождения наблюдаемой цепочки символов максимальна.

Максимальную вероятность того, что на г-м моменте времени символ вг был порожден состоянием , обозначим как:

81(]) = тах Р^^... qt-l, о^... qt = Б], о1].

q1.Q2.qt-1

В рекуррентном виде данное соотношение может быть записано как:

Ь+гУ) = [тах6^1) ■ а0-] • Ь^+г), 1< аы

(1)

(2)

1<j<N,1<t<T-1.

В начальный момент времени

5i(j)=nrbj(o1). (3)

Таким образом, алгоритм начинается с вычисления ói(j) для l < j < N, затем, используя рекуррентную формулу (2) вычисляются значения последующих ót(j) до t=T, для получения оптимальной последовательности состояний. Последнее состояние j определяется как:

j = ara тах ST(j). (4)

1< j<N

Информатика. Экономика. Управление// Informatics, Economics, Management

2G2S; 2(S) http://oajiem.com/

Критерий оптимальности для алгоритма Витерби может быть записан следующим образом:

Q* = max ViTt=1P[qt = SAq— = Si] ■ P[ot = vklqt = SA ,

Q1.Q2.QT

(5)

где Q* - оптимальный набор состояний, который максимизирует вероятность порождения наблюдаемой последовательности символов алфавита.

ОЦЕНКА ПАРАМЕТРОВ МОДЕЛИ

Элементы матриц A и B - вероятности переходов состояний и вероятности порождения символов алфавита V возможно оценить при наличии обучающей выборки. Обучающая выборка представляет собою размеченный текст, где при помощи тэгов XML разметки указан тип лексемы.

На основании обучающей выборки элементы матрицы A можно оценить следующим образом [14]:

_ cjSj^Sj)

а

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

c(Si)

(6)

Для элементов матрицы B имеем:

c(Vk-\Sj)

bj(k) =

c (Sj)

(7)

Элементы вектора п имеют следующий вид: = фшп^) .

J c(Start) v '

В данных формулах введены следующие обозначения:

• c(X) - число появления события X;

• Si ^ Sj - переход системы из состояния i в состояние j;

• VkT Sj - порождение символа Vk, когда система находится в состоянии Sj;

• Start ^ Sj - появления в качестве первого состояния системы состояния j.

ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ

В качестве источников данных для обучения и тестирования использовались новостные ленты из агентства РосБизнесКонсалтинг http://www.rbcdaily.ru и http://www.quote.ru/.

Характеристики точности распознавания типов лексем при размере обучающей выборки 740 и 1460 лексем соответственно представлены на рисунке 2.

Рисунок 2. Характеристики точности распознавания типов лексем при различных

размерах обучающей выборки. Figure 2. Characteristics of the accuracy of recognition of types of lexemes for different sizes

of the training sample.

Диаграмма количества ошибок для различных классов лексем представлена на рисунке 3.

п 1 п

/ и

/ /

/ (— и

Á ' 7 /

□ 740

□ 1460

ORGPREFIX

ORG

FIRSTNAME PERSON PLAINTEXT

Рисунок 3. Диаграмма количества ошибок по классам лексем. Figure 3. Diagram of the number of errors by token class.

ЗАКЛЮЧЕНИЕ

На основе лексического материала, представленного в статьи и включающего состав признаков и их описание, разработана методика декодирования и оценка параметров модели для извлечения именованных сущностей из неструктурированных

текстов. Для решения задачи использован алгоритм Витерби, который предназначен для нахождения последовательности состояний, для которых вероятность порождения наблюдаемой цепочки символов максимальна. Критерий оптимальности для алгоритма Витерби представлен в работе в виде формулы (5). Экспериментальные результаты продемонстрировали высокий уровень точности распознавания типов лексем при различных размерах обучающей выборки: 97,11% для 740 лексем и 98,07% для 1460 лексем. Также продемонстрирован достаточно низкий уровень количества ошибок по всем классам лексем (см. рисунок 3). Предложенный подход может быть расширен для мультилингвистического базиса лексем, принадлежащих разным языкам, в рамках мультилингвистической адаптивно-обучающей технологии [16].

СПИСОК ЛИТЕРАТУРЫ

[1] Распопин Н.А., Карасева М.В., Зеленков П.В., Каюков Е.В., Ковалев И.В. Модели и методы оптимизации сбора и обработки информации. Сибирский аэрокосмический журнал. 2012; 2(42): 69-72.

[2] Коровиков Н.А., Гончаров М.А., Кадров М.С. Анализ методов выделения именованных сущностей из неструктурированных документов. Международный журнал прикладных наук и технологий «Integral». 2019; 3: 328-332.

[3] Абрамов П.С. Извлечение ключевой информации из текста. Новые информационные технологии в автоматизированных системах. 2018; 21: 217-219.

[4] Киселев С.Л., Ермаков А.Е., Плешко В.В. Поиск фактов в тексте естественного языка на основе сетевых описаний. Компьютерная лингвистика и интеллектуальные технологии: труды международной конференции Диалог'2004. М.: Наука; 2004: 180-185.

[5] Nadeau D., Sekine S. A survey of named entity recognition and classification. Linguisticae Investigationes. 2007; 1(30): 3-26. https://doi.org/10.1075/li.30.1.03nad

[6] Gentile A. L. et al. Cultural Knowledge for Named Entity Disambiguation: A Graph-Based Semantic Relatedness Approach. Serdica Journal of Computing. 2010; 4(2): 217-242. https://doi.org/10.55630/sjc.2010.4.217-242

[7] Bikel D. M., Miller S., Schwartz R., Weischedel R. Nymble: a high performance learning namefinder. Proceedings of the Fifth Conference on Applied Natural Language Processing (ANLP-97); 1997: 194-201. https://doi.org/10.3115/974557.974586

[8] Brester C., Semenkin E., Kovalev I., Zelenkov P., Sidorov M. Evolutionary feature selection for emotion recognition in multilingual speech analysis. IEEE Congress on

Evolutionary Computation (CEC 2015); 2015: 2406-2411.

https://doi.org/10.1109/CEC.2015.7257183

[9] Ковалев И.В., Лесков О.В., Карасева М.В. Внутриязыковые ассоциативные поля в мультилингвистической адаптивно-обучающей технологии. Системы управления и информационные технологии. 2008; 3-1(33): 157-160.

[10] Зеленков П.В., Ковалев И.В., Карасева М.В., Рогов С.В. Мультилингвистическая модель распределенной системы на основе тезауруса. Сибирский аэрокосмический журнал. 2008; 1(18): 26-28.

[11] Ковалев И.В. Системная архитектура мультилингвистической адаптивно-обучающей технологии и современная структурная методология. Телекоммуникации и информатизация образования. 2002; 3: 6.

[12] Ковалев И.В., Полянский К.В., Зеленков П.В., Брезицкая В.В., Сидорова Г.А. Система поиска, анализа и обработки мультилингвистических текстов, интегрированная с информационно-поисковыми системами. Сибирский аэрокосмический журнал. 2013; 1(47): 48-52.

[13] Appelt D., Hobbs J., Bear J., Israel D., Tyson M. FASTUS: A finitestate processor for information extraction from real-world text. Proceedings of the 13th International Joint Conference on Artificial Intelligence (IJCAI-93). Chambery, France; 1993: 1172-1178. https://doi.org/10.3115/1075671.1075701

[14] Rabiner L.R. A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings of the IEEE. 1989; 77(2): 257-286. https://doi.org/10.1109/5.18626

[15] Wen Y. Text Mining Using HMM and PPM. Master's thesis. Department of Computer Science, University of Waikato. 2001.

[16] Ковалев И.В., Карасева М.В., Суздалева Е.А. Системные аспекты организации и применения мультилингвистической адаптивно-обучающей технологии. Образовательные технологии и общество. 2002; 5(2): 198-212.

REFERENCES

[1] Raspopin N.A., Karaseva M.V., Zelenkov P.V., Kayukov E.V., Kovalev I.V. Modeli i metody optimizacii sbora i obrabotki informacii. Sibirskij aerokosmicheskij zhurnal. 2012; 2(42): 69-72. (in Russian)

[2] Korovikov N.A., Goncharov M.A., Kadrov M.S. Analiz metodov vydeleniya imenovannyh sushchnostej iz nestrukturirovannyh dokumentov. Mezhdunarodnyj zhurnal

prikladnyh nauk i tekhnologij «Integral». 2019; 3: 328-332. (in Russian)

[3] Abramov P.S. Izvlechenie klyuchevoj informacii iz teksta. Novye informacionnye tekhnologii v avtomatizirovannyh sistemah. 2018; 21: 217-219. (in Russian)

[4] Kiselev S.L., Ermakov A.E., Pleshko V.V. Poisk faktov v tekste estestvennogo yazyka na osnove setevyh opisanij. Komp'yuternaya lingvistika i intellektual'nye tekhnologii: trudy mezhdunarodnoj konferencii Dialog'2004. M.: Nauka; 2004: 180-185. (in Russian)

[5] Nadeau D., Sekine S. A survey of named entity recognition and classification. Linguisticae Investigationes. 2007; 1(30): 3-26. https://doi.org/10.1075/li.30.1.03nad

[6] Gentile A. L. et al. Cultural Knowledge for Named Entity Disambiguation: A Graph-Based Semantic Relatedness Approach. Serdica Journal of Computing. 2010; 4(2): 217-242. https://doi.org/10.55630/sjc.2010.4.217-242

[7] Bikel D. M., Miller S., Schwartz R., Weischedel R. Nymble: a high performance learning namefinder. Proceedings of the Fifth Conference on Applied Natural Language Processing (ANLP-97); 1997: 194-201. https://doi.org/10.3115/974557.974586

[8] Brester C., Semenkin E., Kovalev I., Zelenkov P., Sidorov M. Evolutionary feature selection for emotion recognition in multilingual speech analysis. IEEE Congress on Evolutionary Computation (CEC 2015); 2015: 2406-2411. https://doi.org/10.1109/CEC.2015.7257183

[9] Kovalev I.V., Leskov O.V., Karaseva M.V. Vnutriyazykovye associativnye polya v mul'tilingvisticheskoj adaptivno-obuchayushchej tekhnologii. Sistemy upravleniya i informacionnye tekhnologii. 2008; 3-1(33): 157-160. (in Russian)

[10] Zelenkov P.V., Kovalev I.V., Karaseva M.V., Rogov S.V. Mul'tilingvisticheskaya model' raspredelennoj sistemy na osnove tezaurusa. Sibirskij aerokosmicheskij zhurnal. 2008; 1(18): 26-28. (in Russian)

[11] Kovalev I.V. Sistemnaya arhitektura mul'tilingvisticheskoj adaptivno-obuchayushchej tekhnologii i sovremennaya strukturnaya metodologiya. Telekommunikacii i informatizaciya obrazovaniya. 2002; 3: 6. (in Russian)

[12] Kovalev I.V., Polyanskij K.V., Zelenkov P.V., Brezickaya V.V., Sidorova G.A. Sistema poiska, analiza i obrabotki mul'tilingvisticheskih tekstov, integrirovannaya s informacionno-poiskovymi sistemami. Sibirskij aerokosmicheskij zhurnal. 2013; 1(47): 48-52. (in Russian)

[13] Appelt D., Hobbs J., Bear J., Israel D., Tyson M. FASTUS: A finitestate processor for information extraction from real-world text. Proceedings of the 13th International Joint Conference on Artificial Intelligence (IJCAI-93). Chambery, France; 1993: 1172-1178.

https://doi.org/10.3115/1075671.1075701

[14] Rabiner L.R. A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings of the IEEE. 1989; 77(2): 257-286. https://doi.org/10.1109/5.18626

[15] Wen Y. Text Mining Using HMM and PPM. Master's thesis. Department of Computer Science, University of Waikato. 2001.

[16] Kovalev I.V., Karaseva M.V., Suzdaleva E.A. Sistemnye aspekty organizacii i primeneniya mul'tilingvisticheskoj adaptivno-obuchayushchej tekhnologii. Obrazovatel'nye tekhnologii i obshchestvo. 2002; 5(2): 198-212. (in Russian)

ИНФОРМАЦИЯ ОБ АВТОРАХ / INFORMATION ABOUT THE AUTHORS

Ворошилова Анна Анатольевна, кандидат философских наук, доцент, кафедра Информатики, Сибирский федеральный университет, Красноярск, Россия e-mail: krasnio@bk.ru

ORCID: https://orcid.org/0000-0002-4556-813X

Пискорская Светлана Юрьевна, доктор

филосовских наук, профессор, директор

Института социального инжиниринга,

СибГУ имени академика М.Ф. Решетнева,

Красноярск, Россия

e-mail: piskorskaya1@rambler.ru

ORCID: https://orcid.org/0000-0002-5589-801X

Anna Voroshilova, Candidate of Philosophical Sciences, Associate Professor, Department of Informatics, Siberian Federal University, Krasnoyarsk, Russia

Svetlana Piskorskaya, Doctor of Philosophy, Professor, Director of the Institute of Social Engineering, Reshetnev Siberian State University of Science and Technologies, Krasnoyarsk, Russia

Статья поступила в редакцию 25.06.2023; одобрена после рецензирования 17.07.2023; принята

к публикации 18.07.2023.

The article was submitted 25.06.2023; approved after reviewing 17.07.2023; accepted for publication

18.07.2023.

i Надоели баннеры? Вы всегда можете отключить рекламу.