НЕЙРОСЕТЕВАЯ МОДЕЛЬ НА ОСНОВЕ СИСТЕМЫ ПЕРЕХОДОВ ДЛЯ ИЗВЛЕЧЕНИЯ СОСТАВНЫХ ОБЪЕКТОВ И ИХ АТРИБУТОВ ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ

Грибков Егор Игоревич; Ехлаков Юрий Поликарпович

УДК 519.767.6

Е.И. Грибков, Ю.П. Ехлаков

Нейросетевая модель на основе системы переходов для извлечения составных объектов и их атрибутов из текстов на естественном языке

Извлечение структурированной информации из текстов отзывов и обращений пользователей представляет собой задачу с большой научной и коммерческой ценностью. Однако современные методы извлечения информации из текстов либо не учитывают структурные взаимосвязи в извлекаемых знаниях, либо имеют низкую точность их извлечения. В работе предлагается нейросетевая модель на основе системы переходов для извлечения составных объектов и их атрибутов. Модель использует принцип многозадачного обучения, при котором в рамках одной модели происходит извлечение составных частей объектов и определение связей между ними. Качество работы предложенной модели проверено на задачах обработки отзывов из магазинов Amazon и AliExpress и обработки запросов пользователей программных продуктов из магазина Google Play. Результаты экспериментов демонстрируют рост качества извлечения связей между фрагментами на величину от 0,07 до 0,172 F1 в зависимости от задачи.

Ключевые слова: обработка естественного языка, машинное обучение, нейронные сети, анализ тональности. doi: 10.21293/1818-0442-2020-23-1-47-52

Конкурентоспособность продуктов (товаров) зависит от способности и гибкости бизнеса реагировать на просьбы потребителей, а также времени реакции на эти просьбы. В моделях жизненного цикла продукта эти вопросы рассматриваются на этапах эксплуатации и сопровождения. Одним из направлений, способствующих эффективному реагированию бизнеса на качество решения этих задач, является использование методов анализа тональности для извлечения и анализа вопросов, мнений и пожеланий из текстов пользователей о качестве и потребительских свойствах продуктов, выявленных в процессе их эксплуатации и сопровождения. Наиболее перспективными направлениями решения задач в области анализа тональности являются методы машинного обучения.

Большинство существующих подходов оценивает тональность всего текста целиком, что затрудняет анализ отдельных аспектов и не позволяет получить детальной картины. Работы по аспектно-ориентированному и целевому анализу тональности призваны устранить данный недостаток, позволяя оценивать тональность заранее определенных категорий аспектов или терминов в контексте отзыва. Кроме того, в рамках аспектно-ориентированного анализа тональности ставится задача извлечения из текста аспектных терминов, которые являются объектами оценочных суждений потребителей. Авторы [1] предлагают помимо аспектных терминов извлекать также выражения, в которых пользователи высказывают свои мнения об аспектных терминах, а также связи между ними, ставя, таким образом, задачу предсказания составных объектов.

В данной работе в развитие идеи о предсказании составных объектов рассматривается нейросе-тевая модель на основе системы переходов для извлечения составных объектов и их атрибутов из текстов на естественном языке.

Обзор существующих подходов

Для целенаправленного анализа тональности в тексте авторы [2] предлагают специализированную модель на основе рекуррентной нейронной сети, которая превосходит аналоги по доле правильных ответов в тестовой выборке и составляет 0,715. Для решения задачи аспектно-ориентированного анализа тональности в [3] рассматривается модель на основе свёрточных нейронных сетей. Авторы используют набор данных дорожки SemEval 2015 Task 12, в котором необходимо извлекать аспекты и описания из текстов отзывов, определять тональность аспектов, документов и определять тематику документа. Предложенная модель обучает предсказанние всех сущностей одновременно, что позволяет ей продемонстрировать лучший показатель точности 0,592 F1.

В [1] предложена модель машинного обучения на основе комбинации свёрточной и рекуррентной нейронной сети для извлечения фрагментов аспектов, описаний, определения тональности описаний, а также поиска связей между аспектами и их описаниями. Точность модели на англоязычном корпусе отзывов из интернет-магазина Amazon составляет 0,67 F1 при извлечении аспектов, 0,50 F1 при извлечении описаний и 0,81 F1 при определении связей между ними.

Недостатком данной работы можно считать способ, которым авторы измеряют точность определения связей: в приведённых результатах предполагается, что компонент для поиска связей будет получать на вход безошибочно обнаруженные аспекты и описания. Однако при использовании модели в реальных условиях точность этого компонента будет ограничена качеством извлечения фрагментов. Авторы [4] в результатах отмечают ухудшение в определении качества извлечении связей на величину порядка 0,3 F1.

Проведённый анализ показал, что существующие методы анализа тональности текстов на есте-

ственном языке не позволяют извлекать структурные взаимосвязи между элементами текста с точностью, достаточной для решения практических задач. Для разрешения данной проблемы авторы полагают использовать нейросетевые модели на основе систем переходов (transition-based). Этот тип моделей широко применяется при решении различных задач предсказания объектов со сложной структурой: определения фразовой структуры предложения [5], предсказания синтаксических деревьев зависимостей [6] и извлечения именованных сущностей [7]. Среди основных преимуществ моделей в этих работах отмечаются простота алгоритмов обучения и вывода, высокая скорость работы, а также возможность использовать сложные нелокальные признаки.

Постановка задачи

Составным объектом в тексте, представленном в виде последовательности слов w = w\, ..., wN, будем понимать пару, состоящую из множества фрагментов I и множества связей между фрагментами R. Каждый элемент множества I определяет некоторую часть составного объекта, заданного непрерывной последовательностью слов в тексте (фрагментом). Каждый из фрагментов в зависимости от конкретной предметной специфики обладает определенной семантической ролью или типом, обозначаемыми меткой из множества Labels. Таким образом, фрагмент задается кортежем (w/, Wj+\, ..., label), где j - индекс первого слова, label е Labels. Элементы множества отношений между фрагментами R задают структуру объекта в виде направленных связей, объединяющих пары фрагментов (ik, ij) и имеющих атрибуты из множества допустимых пар «атрибут-значение»: AV = {(a\, v\), (a\, V2), (a2, V3), ...}. Таким образом, каждый элемент r е R можно определить в виде кортежа r = (ik, ij, {(a\, v\), (a2, V3)}). Пример составного объекта в общем виде приведен на рис. 1.

a j = vi; я? = v3

1аЬе11 ¡аЬеЬ

Рис. 1. Пример структуры составного объекта в общем случае

Имея набор обучающих данных Б = {ля})}, необходимо получить модель для извлечения составных объектов из произвольных текстов.

Нейросетевая модель на основе системы переходов

Извлечение составных объектов предлагается осуществлять с использованием нейросетевой модели на основе системы переходов, заданной кортежем (Сг, У, А(Сг)), где Сг - конфигурация системы, У -множество переходов, изменяющих конфигурацию, А (С) - функция, задающая множество переходов, доступных для исполнения в текущей конфигурации. Конфигурация Сг содержит промежуточную информацию о предсказываемом объекте на шаге г. На каждом шаге работы на основании содержания Сг

модель выбирает некоторый переход из множества Y, исполнение которого вносит изменения в структуры данных в Ct. В данной работе выбор очередного перехода осуществляется с помощью вероятностной модели следующим образом:

y = argmaxP(y | Ct). (\)

yeY

В зависимости от конкретной формы C и Y в некоторых конфигурациях выполнение определенных переходов может быть запрещено. Такого рода ограничения на возможные переходы задаются с помощью функции A(Ct): С\—>Г' cf . Выделяют также две специальные конфигурации: начальную СО, которая содержит исходные данные, необходимые для предсказания; конечную CT, при достижении которой процесс предсказания прекращается.

В данной работе для решения задачи извлечения составных объектов из текстов предлагается определить конфигурацию в виде кортежа (B, S, L, H). Список B содержит в себе все необработанные на данный момент слова исходного текста. Стек S содержит фрагменты в порядке их извлечения из текста. В ходе предсказания сущности из нескольких слов формируются инкрементально, поэтому во фрагмент на вершине стека допускается добавлять новые слова. Список L содержит связи между обнаруженными фрагментами. Список H хранит историю совершенных переходов, которая привела к текущей конфигурации Ct.

Множество доступных переходов задано в виде набора Y = {Shift, Start(label), Add(label), Link(n\, n2), Attribute(a, v), End}. Shift отбрасывает из B первый элемент. Start(e) создает новую сущность типа e, помещает её на вершину стека S и перемещает слово из начала списка B в созданную сущность. Add перемещает элемент из начала списка B в сущность, находящуюся на вершине стека S. Link(n\, n2) связывает элементы стека S на позициях n\ и n2, образованная связь помещается в конец списка L. Такой способ задания множества Y ограничивает максимальную глубину, на которой можно образовать связь между элементами S. Attribute(a, v) присваивает атрибуту a значение v в связи, находящейся в конце L. Переход End заканчивает процесс предсказания. Таким образом, множество R={rd} для каждого обучающего примера будет преобразовано в последовательность переходов y = y\, ., ут.

Условия допустимости совершения переходов, определяющие функцию A(Ct), приведены в табл. L

Таблица \

Предусловия выполнения переходов_

Переход Предусловие

Shift B Ф0

Start(label) B Ф0

Add(label) B Ф0л S Ф 0л type(S\) = label

Link(m, m) BS^ лЗSй2 л(n\,П2) г L

Attribute(a, v) L Ф 0 л Vv-B(a,v) е L_\

End B = 0

На рис. 2 приведен пример абстрактного автомата для случая извлечения двух типов сущностей -e\ и e2. Условное распределение вероятности по возможным переходам из выражения (1) задается классификатором следующего вида:

Р(у | С) = softпwíyeA(ctф(С) + Ь), (2) где W, Ь - параметры классификатора; ф(О) - вектор признаков, описывающий текущую конфигурацию.

5гаг£(е 1)

•С

end

Рис. 2. Пример абстрактного автомата для извлечения сущностей

Вектор признаков ф(С) формируется путем конкатенации векторов описаний отдельных элементов конфигурации

ф(С ) = [ф(£);ф(£);ф(Я)], (3)

где [V1; V2; ...; v„] обозначает конкатенацию набора из n векторов в один вектор. В формулах нет этих обозн. -формулы 9, 10, 11.

Основой для формирования признаков элементов конфигурации служат контекстные векторные представления для исходного текста, образуемые с помощью функции F:

ф(4),...,ф(£й) = F№9,...,E(wN)) , (4) где E - функция, отображающая слова в векторные представления. В качестве F можно использовать любые функции, позволяющие отображать одну последовательность векторов в другую. В статье рассматриваются рекуррентные сети типа Long Short-Term Memory (LSTM) [8].

При использовании рекуррентных нейронных сетей (РНС) контекстные представления элементов последовательности образуются с помощью рекуррентных взаимосвязей следующего вида:

hn =с(Ш>й )+Wh„_j + b), (5)

где U, W - матрицы рекуррентного взаимодействия, b - вектор смещений.

В этом случае контекстная информация передается таким образом, что элемент n несет информацию обо всех предыдущих (n - 1). Учитывать последующий контекст можно, применив двунаправленные РНС [9], в которых итоговые контекстные векторы образуются путем объединения векторов Ей и Е„, полученных при прямом (слева направо) и обратном (справа налево) проходах:

(6)

ь^шкнт^+Б) Н,г=о(№ю+т;г+1+ь) К =[Ь«;М •

Наиболее распространенным видом РНС является LSTM, показывающий высокую точность при решении многих задач обработки естественного языка. В нашей работе предлагается использовать двунаправленную LSTM-сеть (BiLSTM) с несколькими слоями.

Вектор ф(В) образован конкатенацией признаков первых трех элементов списка В: ф(В)=[ф(В:); Ф(В), ф(Вз)]. Для вектора ф(5) сначала рассчитываются признаки для первых 5 элементов по следующей формуле:

)=[—

ф(В,); E(type(i))], (7)

e(i) _ b(l) j=e(i)

где b(i) и e(i) - начальный и конечный индексы фрагмента текста для i-й сущности ИФ, E(type(i)) -векторное представление типа фрагмента.

Затем полученные признаки конкатенируются, образуя вектор для ф(5):

ф(£) = [фф);...;фО%)]. (8)

Для задания признаков истории переходов H в момент времени t используется скрытое состояние последнего шага сети LSTM:

ф(Н) = LSTM(E(H1),..., E(H ))t. (9)

С учетом вышеизложенного архитектура нейросетевой модели может быть представлена в виде диаграммы, представленной на рис. 3.

В отличие от модели [1], предложенная модель позволяет использовать общие признаки как для извлечения фрагментов, так и определения связей между ними. Это уменьшает общее количество параметров в модели, а также приводит к эффекту многозадачного обучения (multitask learning), когда улучшение при решении одной задачи увеличивает качество решения другой связанной задачи.

Обучение модели осуществляется путем максимизации правдоподобия предсказанных последовательностей переходов в сравнении с истинными последовательностями из обучающей выборки. Функцией ошибки служит перекрестная энтропия между предсказанным распределением по возможным и истинным действиям:

L(y,У) = £(_£log(P(yt | Ct))i(yt)i). (10)

t ieY

Для оптимизации множества параметров модели 0, включающего параметры классификатора, сетей BiLSTM и LSTM и векторных представлений E(H) и E(type(i)), может использоваться любой алгоритм градиентной оптимизации.

Применение описанной модели для решения конкретных прикладных задач требует задания множества допустимых типов фрагментов Labels, множества атрибутов AV и функции ограничений на возможные переходы A(Ct) в соответствии со структурой объектов, которые необходимо извлекать в задаче.

W1 ООО

W2 ООО

W3 ООО

ООО

WN ООО

B

ф(Влг)

Hi

H2

H

LSTM(E(H,))

ООО ооо^ооо

ООО

фС^О,..., Ф©)

WO

W1 labeli

W7 W8 label2

Рис. 3. Архитектура нейросетевой модели для извлечения составных объектов и их атрибутов

Экспериментальное исследование моделей

Валидация предложенной модели была осуществлена на примере решения двух практических задач. В первой задаче необходимо извлекать из текстов отзывов оценочные высказывания потребителей товаров о качестве товаров и сервиса. Оценочным высказыванием будем называть объект, состоящий из аспекта - упоминания товара или его характеристики и описания - фразы, в которой пользователь высказывает мнение об аспекте. Связь между аспектом и описанием имеет два атрибута: тональность и тема (товар, продавец или доставка). Таким образом, в данном случае имеем Labels = {Аспект, Описание} и AV = {(Тональность, Позитивная), (Тональность, Негативная), (Тема, Товар), (Тема, Продавец), (Тема, Доставка)}.

Для обучения и оценки модели использовались наборы отзывов из магазинов Amazon (на английском языке) и AliExpress (на русском языке), описанные в [10]. Далее будем рассматривать решение этой задачи для английского и русского языков раздельно (задачи «Товары Amazon» и «Товары AliExpress»). Во второй задаче («Сопровождение ПО») необходимо извлекать запросы из текстов обращений пользователей в службу поддержки программного продукта. Запрос состоит из аспекта - упоминания программного продукта или его функции и описания одного из следующих типов: положительное высказывание, негативное высказывание, ошибка, запрос на новую функцию. Связи между аспектом и описанием не имеют атрибутов. В таком случае имеем Labels = {Аспект, Положительное высказывание, Негативное высказывание, Ошибка, Запрос на функцию} и AV= {}. Обучение и оценка модели проводились на наборе запросов пользователей на русском языке из магазина приложений Google Play [11]. Примеры размеченных предложений приведены в табл. 2, где фрагменты обозначены в виде [текст; тип фрагмента; номера объектов, которым фрагмент принадлежит].

В ходе экспериментов были заданы следующие гиперпараметры: количество слоев BiLSTM - 2,

размер скрытого слоя BiLSTM - 200. Общие параметры модели: размер скрытого слоя LSTMH - 30, представление E(H) - 30, E(type(i)) - 30. Векторные представления слов строятся на основе предварительно обученной модели fastText [12] в вариантах для русского и английского языков, размерность векторного пространства - 300. Выбор в пользу fastText обусловлен устойчивостью данной модели к опечаткам и эмпирическими данными, свидетельствующими о том, что он обладает лучшей точностью при работе с языками с богатой морфологией (например, русским). Оптимизация параметров модели осуществляется методом Adam со скоростью обучения 1e-3. Для предотвращения переобучения используются техники регуляризации: дропаут (dropout) 20%. В качестве базовой альтернативы для сравнения использовалась гибридная модель из [1].

Таблица 2 _Примеры текстов из наборов данных_

Товары Amazon

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

The [phone:A:1,2] is [in good shape:0:1] and [works fine:0:2]._

[Its:A:1] [fast:0:1], [lots of:0:2] [free apps:A:2], [nice:0:3] [screen size:A:3] and [easy to:0:4] [work:A:4]_

Товары AliExpress

[Нежный:О:1] [плед:А:1,2] [для самых маленьких:О:2]) [Хорошо стирается:О:1], [тонкий:О:2] и [чистый:О:3] [хлопок:А:1,2,3]_

Сопровождение ПО

[карту мир:А:1] [привязать не получается:О:1]!

[штрафы:А:1] [приходят раньше чем с почты уведомле-ние:ПВ:1]._

Критериям качества извлечения составных объектов является F-мера, рассчитываемая отдельно для каждого вида фрагментов и связей между ними. Так как определение точных границ фрагментов является сложной задачей даже для человека, F-мера для них рассчитывалась по методике, предложенной в [13]. Она позволяет учитывать частичные совпадения фраз и, по мнению авторов, получить более адекватную оценку.

S

В задачах «Товары Amazon» и «Товары AliExpress» при оценке моделей корпус был разделен на обучающую и тестовую выборки согласно [10]. В задаче «Программные продукты» использовалась процедура кроссвалидации, где в качестве блоков использовались отзывы об одном приложении. Результаты сравнения модели на основе системы переходов и гибридной модели при извлечении фрагментов и связей между ними приведены в табл. 3. Значение F-меры для фрагментов считалось усреднением значений F-меры, полученной для каждого типа фрагментов. TransRNN показывает несколько более высокую точность извлечения фрагментов и ни на одной из задач не показывает себя хуже. При определении связей между фрагментами TransRNN показывает существенный рост точности во всех трех рассмотренных задачах - на величину от 0,07 до 0,172 F1.

Таблица 3 Результаты сравнения моделей при извлечении

В табл. 4 приведено сравнение моделей при определении атрибутов связей в задачах «Товары Amazon» и «Товары AliExpress» (в корпусе отзывов Amazon был размечен только атрибут Тональность). Более точное определение связей позволяет TransRNN получать лучшую точность при определении атрибутов связей - улучшение составляет от 0,03 до 0,065 F1.

Таблица 4 Результаты сравнения моделей при определении

Выводы

1. Представлена оригинальная нейросетевая модель на основе системы переходов для извлечения составных объектов и их атрибутов из текстов на естественном языке, основанная на принципе многозадачного обучения. Модель является универсальной в том смысле, что для решения конкретных прикладных задач необходимо определить типы фрагментов, из которых формируются объекты, и набор извлекаемых атрибутов.

2. Предлагаются два варианта адаптации модели для решения двух задач: извлечения мнений пользователей из текстов отзывов в интернет-магазинах Amazon и AliExpress; извлечения запросов пользователей программного продукта из текстов обращений в магазине Google Play.

3. Экспериментальное исследование точности модели по сравнению с аналогом в задачах извлечения мнений из отзывов о продуктах и извлечения запросов пользователей из текстов обращений в службу поддержки показало преимущество предложенной модели при извлечении связей и их атрибутов.

Работа выполнена в рамках государственного задания Министерства науки и образования РФ, проект №FEWM-2020-0036 «Методическое и инструментальное обеспечение принятия решений в задачах управления социально-экономическими системами и процессами в гетерогенной информационной среде».

Литература

1. Jebbara S. Aspect-Based Relational Sentiment Analysis Using a Stacked Neural Network Architecture / S. Jebbara, P. Cimiano // Proceedings of the 22nd European Conference on Artificial Intelligence. - Amsterdam: IOS Press, 2016. -P. 1123-1131.

2. Effective LSTMs for Target-Dependent Sentiment Classification / D. Tang, B. Qin, X. Feng, T. Liu // Proceedings of the 26th International Conference on Computational Linguistics: Technical Papers. [Электронный ресурс]. - Режим доступа: https://www.aclweb.org/anthology/C16-1311.pdf, свободный (дата обращения: 05.02.2020).

3. An Interactive Multi-Task Learning Network for End-to-End Aspect-Based Sentiment Analysis / R. He, W.S. Lee, H.T. Ng, D. Dahlmeier // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. -Stroudsburg: ACL, 2019. - P. 504-515.

4. Large-scale Opinion Relation Extraction with Distantly Supervised Neural Network / C. Sun, Y. Wu, M. Lan, S. Sun, Q. Zhang // Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. - Stroudsburg: ACL, 2017. - Vol. 1. - P. 1033-1043.

5. Recurrent Neural Network Grammars / C. Dyer, A. Kuncoro, M. Ballesteros, N.A. Smith // Proceedings of the 15th Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. - Stroudsburg: ACL, 2016. - P. 199-209.

6. Kiperwasser E. Simple and Accurate Dependency Parsing Using Bidirectional LSTM Feature Representations / E. Kiperwasser, Y. Goldberg // Transactions of the Association for Computational Linguistics. - 2016. - Vol. 4. - P. 313-327.

7. Neural Architectures for Named Entity Recognition / G. Lample, M. Ballesteros, S. Subramanian, K. Kawakami, C. Dyer // Proceedings of the 15th Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. - Stroudsburg: ACL, 2016. - P. 260-270.

8. Hochreiter S. Long short-term memory / S. Hochreiter, J. Schmidhuber // Neural Computation. - 1997. - Vol. 9, № 8. - P. 1735-1780.

9. Graves A. Hybrid speech recognition with Deep Bidirectional LSTM / A. Graves, N. Jaitly, A. Mohamed // 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. - Piscataway: IEEE, 2013. - P. 273-278.

10. Ехлаков Ю.П. Модель извлечения пользовательских мнений о потребительских свойствах товара на основе рекуррентной нейронной сети / Ю.П. Ехлаков, Е.И. Грибков // Бизнес-информатика. - 2018. - Т. 46, № 4. - С. 7-16.

11. Грибков Е.И. Модель обработки запросов пользователей на этапе эксплуатации и сопровождения программного продукта / Е.И. Грибков, Ю.П. Ехлаков // Элек-

фрагментов и связей между ними

Задача Модель Фрагмент F1 Связь F1

Товары Amazon Базовая 0,713 0,620

TransRNN 0,724 0,700

Товары AliExpress Базовая 0,722 0,622

TransRNN 0,722 0,693

Сопровождение ПО Базовая 0,651 0,476

TransRNN 0,670 0,648

атрибутов связей

Товары Amazon Товары AliExpress

Тональность 0,632(0,590) 0,652(0,622)

Товар - 0,595(0,555)

Продавец - 0,580(0,543)

Доставка - 0,636(0,571)

тронные средства и системы управления: матер. докладов XV Междунар. науч.-практ. конф. - Ч. 2. - Томск: В-Спектр, 2019. - С. 141-143.

12. Learning Word Vectors for 157 Languages / E. Grave, P. Bojanowski, P. Gupta, A. Joulin, T. Mikolov // Proceedings of the 11th International Conference on Language Resources and Evaluation (LREC 2018). - Paris: European Language Resources Association, 2018. - P. 3483-3487.

13. Johansson R. Syntactic and semantic structure for opinion expression detection / R. Johansson, A. Moschitti // Proceedings of the 14th Conference on Computational Natural Language Learning Proceedings. - Stroudsburg: ACL, 2010. -P. 67-76.

Ехлаков Юрий Поликарпович

Д-р техн. наук, профессор каф. автоматизации обработки

информации (АОИ) Томского государственного

университета систем управления

и радиоэлектроники (ТУСУР)

Ленина пр-т, д. 40, г. Томск, Россия, 634050

Тел.: +7-913-829-55-42

Эл. почта: upe@tusur.ru

Грибков Егор Игоревич

Аспирант каф. АОИ ТУСУР

Ленина пр-т, д. 40, г. Томск, Россия, 634050

Тел.: +7-905-990-85-69

Эл. почта: drnemor@gmail.com

Ehlakov Y.P., Gribkov E.I.

Transition-based neural network model for extracting composite objects and their attributes from natural language texts

Extracting structured information from user feedback texts is a task of great scientific and commercial value. However, modern methods of extracting information from texts either do not take into account the structural relationships in the extracted knowledge or have low accuracy of their extraction. The paper proposes a transition-based neural network model for extracting composite objects and their attributes. The model is trained in multitask fashion when span extraction and link prediction tasks solved by the same components. The quality of the proposed model was tested on the tasks of processing reviews from Amazon and AliExpress stores and processing user requests from the Google Play store. The experimental results demonstrate that quality of the extraction of links between spans increases by value from 0.07 to 0.172 F1 depending on the task.

Keywords: natural language processing, machine learning,

neural networks, sentiment analysis.

doi: 10.21293/1818-0442-2020-23-1 -47-52

References

1. Jebbara S., Cimiano P. Aspect-Based Relational Sentiment Analysis Using a Stacked Neural Network Architecture. Proceedings of the 22nd European Conference on Artificial Intelligence. Amsterdam, IOS Press, 2016, pp. 1123-1131.

2. Tang D., Qin B., Feng X., Liu T. Effective LSTMs for Target-Dependent Sentiment Classification. Proceedings of the 26th International Conference on Computational Linguistics: Technical Papers. Available at: https://www.aclweb.org/ anthology/C16-1311 .pdf (Accessed: February 2, 2020).

3. He R., Lee W.S., Ng H.T., Dahlmeier D. An Interactive Multi-Task Learning Network for End-to-End Aspect-

Based Sentiment Analysis. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, ACL, 2019, pp. 504-515.

4. Sun C., Wu Y., Lan M., Sun S., Zhang Q. Large-scale Opinion Relation Extraction with Distantly Supervised Neural Network. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg, ACL, 2017, v. 1, pp 1033-1043.

5. Dyer C., Kuncoro A., Ballesteros M., Smith N.A. Recurrent Neural Network Grammars. Proceedings of the 15th Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, ACL, 2016, pp. 199-209.

6. Kiperwasser E., Goldberg Y. Simple and Accurate Dependency Parsing Using Bidirectional LSTM Feature Representations. Transactions of the Association for Computational Linguistics. 2016, v. 4, pp. 313-327.

7. Lample G., Ballesteros M., Subramanian S., Kawa-kami K., Dyer C. Neural Architectures for Named Entity Recognition. Proceedings of the 15th Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Strouds-burg, ACL, 2016. pp. 260-270.

8. Hochreiter S., Schmidhuber J. Long short-term memory. Neural Computation. 1997, v. 9, no. 8, pp. 1735-1780.

9. Graves A., Jaitly N., Mohamed A. Hybrid speech recognition with Deep Bidirectional LSTM. 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway, IEEE, 2013, pp. 273-278.

10. Gribkov E.I., Ehlakov Y.P. [User opinion extraction model concerning consumer properties of products based on a recurrent neural network]. Business Informatics. 2018, v. 46, no. 4, pp. 7-16 (in Russ.).

11. Gribkov E.I., Ehlakov Y.P. Model obrabotki zaprosov polzovatelej na etape ekspluatacii i soprovozhdeniya pro-grammnogo produkta [Model for user requests processing at operation and maintenance stage of the software product]. Elektronnye sredstva i sistemy upravleniya: materialy dokla-dov XV Mezhdunarodnoj nauchno-prakticheskoj konferencii [Electronic Devices and Control Systems: XV International Scientific-practical Conference]. Tomsk, V-Spektr, 2019. Part 2, pp. 141-143 (in Russ.).

12. Grave E., Bojanowski P., Gupta P., Joulin A., Mikolov T. Learning Word Vectors for 157 Languages. Proceedings of the 11th International Conference on Language Resources and Evaluation (LREC 2018). Paris, European Language Resources Association, 2018, pp. 3483-3487.

13. Johansson R., Moschitti A. Syntactic and semantic structure for opinion expression detection. Proceedings of the 14th Conference on Computational Natural Language Learning Proceedings. Stroudsburg, ACL, 2010, pp. 67-76.

Yuri P. Ehlakov

Doctor of Engineering Sciences, Professor,

Department of Automation of Information Processing,

Tomsk State University of Control Systems

and Radio-electronics (TUSUR)

40, Lenin pr., Tomsk, Russia, 634050

Phone: +7-913-829-55-42

Email: upe@tusur.ru

Egor I Gribkov

Post-graduate student, Department of Automation of Information Processing TUSUR 40, Lenin pr., Tomsk, Russia, 634050 Phone: +7-905-990-85-69 Email: drnemor@gmail.com

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Грибков Егор Игоревич, Ехлаков Юрий Поликарпович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Грибков Егор Игоревич, Ехлаков Юрий Поликарпович

TRANSITION-BASED NEURAL NETWORK MODEL FOR EXTRACTING COMPOSITE OBJECTS AND THEIR ATTRIBUTES FROM NATURAL LANGUAGE TEXTS

Текст научной работы на тему «НЕЙРОСЕТЕВАЯ МОДЕЛЬ НА ОСНОВЕ СИСТЕМЫ ПЕРЕХОДОВ ДЛЯ ИЗВЛЕЧЕНИЯ СОСТАВНЫХ ОБЪЕКТОВ И ИХ АТРИБУТОВ ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ»