ИСПОЛЬЗОВАНИЕ РЕКУРРЕНТНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ АНАЛИЗА НЕОБРАБОТАННОГО МНОГОЯЗЫЧНОГО ТЕКСТА
А.С. Немальцев, студент
Научный руководитель: Э.С. Клышинский, канд. техн. наук, доцент Московский государственный технический университет им. Н.Э. Баумана (национальный исследовательский университет) (Россия, г. Москва)
DOI: 10.24411/2500-1000-2020-10697
Аннотация. В данной статье рассматриваются общие представления анализа необработанного многоязычного текста. В ходе работы была спроектирована нейронная сеть на основе долгой краткосрочной памяти (LSTM), предназначенная для разметки и дополнительного создания последовательностей символов. Нейронная сеть была обучена выделению лемм, созданию частеречной разметки и выявлению морфологических признаков. Разбивка текстов на предложения, токенизация и синтаксический анализ обрабатывались программной UDPipe 1.2. Результаты работы демонстрируют актуальность применения предложенной архитектуры в настоящее время.
Ключевые слова: нейронная сеть, машинное обучение, LSTM, рекуррентные нейронные сети, softmax, UDPipe, лемматизация.
Проект Universal Dependencies направлен на сбор последовательно аннотированных синтаксических деревьев для многих языков [1, 2]. Его текущая версия (2.2) включает общедоступные древовидные блоки для 71 языка в формате CoNLL-U. Синтаксические деревья содержат леммы, метки части речи, морфологические особенности и синтаксический анализ для каждого слова. Нейронные сети были успешно применены к большинству из задач, связанных с морфологическим разбором текста, и показали наилучшие результаты для тегов частей речи и синтаксического анализа. Поскольку проблематично размечать части речи, то для этих целей используются рекуррентные или сверточные нейронные сети с использованием выходов Softmax на уровне слов или условных случайных полей [3].
В данной статье рассматриваются общие представления анализа необработанного многоязычного текста. Автором приводится возможный вариант реализации нейронной сети, которая совместно учится предсказывать теги части речи, морфологические признаки и леммы для исследуемой последовательности слов. В основе данной системы применяется программное обеспечение UDPipe 1.2, служащее для
сегментации предложений, токенизации и синтаксического анализа текстов.
Рассмотрим архитектуру описываемой системы. Система, используемая в CoNLL 2018 UD Shared Task, состоит из двух частей.
Во-первых, она берет необработанный ввод и создает файл CoNLL-U, используя UDPipe 1.2. Затем, столбцы, соответствующие лемме, части речи и морфологическим признакам, заменяются предсказанием нейронной модели. Предсказание POS-тегов и морфологических признаков выполняется с использованием сети с последовательными тегами. Для того чтобы генерировать леммы, системой применяется расширение сети несколькими декодерами, аналогичными тем, которые используются в последовательных архитектурах.
Описываемая архитектура нейронной сети состоит из трех частей: встраиваемые слои, слои извлечения объектов и выходные слои [4].
Сначала рассматриваются встраиваемые слои. Через Embd(a) мы обозначаем d-мерное вложение целого числа a. Обычно, a - это индекс слова в словаре или индекс символа в алфавите. Каждое слово Wj представлено объединением трех векторов:
; (w¡ ) = ( ewo r d (w¡ ) ,e casing (e) ' ^char (w))
Первый вектор, е ^ г ^ (шш ) , является 300-мерным вектором слова с предварительной подготовкой. В экспериментах использовались векторы FastText. Второй вектор, ес а5^ п ё ( шш) , представляет собой представление восьми элементов корпуса, описанных в таблице 1. Третий вектор, , является представлением слова на уровне символов. Мы отображаем каж-
(1)
дый символ в случайно инициализированный 30-мерный вектор с- = БшЬ 3 0( с-) и применяем двунаправленный LSTM к этим вложениям. е с^аг (ш; ) , - это конкатенация 25-мерных конечных состояний двух LSTM. Результирующий е (ш; ) является 358-мерным вектором.
Таблица 1. Элементы, используемые в слое внедрения
Numeric Все символы являются числовыми
mainly numeric Более 50% символов являются числовыми
all lower Все символы в нижнем регистре
all upper Все символы имеют верхний регистр
initial upper Первый символ-верхний регистр
contains digit По крайней мере один из символов является цифрой
other Ни одно из вышеперечисленных правил не применяется
padding Это используется для заполнения заполнителей для коротких последовательностей
Далее идут слои извлечения объектов. Обозначим рекуррентный слой со входами и скрытыми состояниями ,. ..,Ьп через 1ъ = ЯЫ N (х; ,1ь _ х) . Используется два типа рецидивных клеток: LSTM
Где h ° = е ( w¡) . Также применяется 50%-ное выпадение перед каждым слоем LSTM. Полученные 150-мерные векторы представляют слова с их контекстами и, как ожидается, будут содержать необходимую информацию о лемме, POS-теге и морфологических признаках [6].
Sepp Hochreiter и GRU [5]. В работе применяется три слоя LSTM с 150-мерными скрытыми состояниями на векторах вложения:
(2)
И наконец, выходные слои. Пометка части речи, и прогнозирование морфологических признаков являются задачами классификации на уровне слов. Для каждой из этих задач мы применяем линейный слой с активацией softmax [7].
h] = LSTM(h] 1,h{_i), j = 1,2,3
р; = б о Йт ах (ШрЬ 3 + Ь р) (3)
^ = б о Йт ах (ЩкЬ 3 + Ь (4)
Размеры матриц Щ и Шр векторов Ь р, е1 Рк | х 1 5 0, к =1,. , 21. Таким образом, мы зависят от обучающего множества для получаем 22 функции кросс-энтропийной данного языка: Шр е Е1 р 1 х 1 50, Щк е потери:
Lp = ~ИГ=1 ce(Pi< Pi)
Lfi< = ~Hi=i ce(fik- fjk)
Чтобы сгенерировать леммы для всех слов, добавляется один декодер на основе GRU для каждого слова. Эти декодеры делят веса и работают параллельно. -й декодер выводит Т-,..., 1™ 'предсказанные сим-
1. Ь р - представление 1 -го слова после LSTM экстрактора признаков. Это единственная часть вектора х], которая не зависит от . Этот прием важен для того, чтобы информация на уровне слов всегда была доступна в декодере
2. с] = Emb3 0( с]) — это то же самое вложение j-го символа слова, которое используется в BiLSTM уровня символов
3. тг] — это некоторая форма позиционного кодирования. Указывает количество символов, оставшихся до конца входного слова: т] = Е МЬ5 ( п ; — ] + + 1 ) . Позици-
(5)
к = 1,. . ., 2 2 (6)
волы леммы 1 -го слова. Обозначим входы в -й декодер х * ,. . .,х ^'. Каждый из х] является объединением четырех векторов:
(7)
онные кодировки были введены и успешно применялись в машинном переводе на слух [8].
4. 1] 1 - показатель предыдущего символа леммы. Во время обучения: 1] 1 = Во время вывода - это вывод GRU в предыдущем временном шаге 1] 1= .
Эти входы передаются на один уровень сети GRU. Выходной сигнал декодера формируется путем нанесения другого плотного слоя на состояние GRU:
xj = (hf.cUUr1)
sj = GRU(x], s]
f^Wosj+bo
(8) (9)
Здесь в] е Е1 5 0 ,Ш0 е Е 1 с 1 х 1 5 0, где | С | — это количество символов в алфавите. Начальным состоянием GRU является выход
экстрактора признаков LSTM: в0 = Ьр. Все GRU разделяют веса. Функция потерь для вывода леммы:
Li ^iU^ceOM!)
(10)
Объединенная функция потерь является средневзвешенным значением функций потерь, описанных выше:
L — XjL| + ÄpLp + Ek=i^fkLfk
(11)
Окончательная версия системы использует и для каждого .
В таблице 2 показаны основные показатели общей задачи анализа необработанного многоязычного текста для девяти синтаксических деревьев, которые использовались для обучения моделей. Метрика
LAS оценивает сегментацию предложений, токенизацию и синтаксический анализ, поэтому номера для моделей должны быть идентичны UDPipe 1.2. Метрика MLAS дополнительно учитывает POS-теги и морфологические признаки, но не леммы. Метрика BLEX [9] оценивает разбор и лемматизацию.
5S
Таблица 2. Производительность модели по сравнению с базовой версией UDPipe 1.2
Метрика LAS MLAS BLEX
Представление Local TIRA Local TIRA Local TIRA
Модель Приведенная UDPi Pe Приведенная UDPi Pe Приведенная UDPi Pe Приведенная UDPi Pe Приведенная UDPi Pe Приведенная UDPi Pe
модель модель модель модель модель модель
English EWT 77.12 77.1 84.57 77.5 62.12 б8.2 76.33 б8.70 66.35 70.53 78.44 71.02
English GUM 74.21 74.2 85.05 74.2 56.43 б2.б 73.24 б2.бб 58.75 б2.14 73.57 б2.14
English LinES 73.08 73.08 81.97 73.10 55.25 б4.00 72.25 б4.03 57.91 б5.39 75.29 б5.42
French Spoken 65.56 б5.5 75.78 б5.5 51.50 53.4 64.67 53.4б 50.07 54.б7 65.63 54.б7
French Sequoia Finnish TDT 81.12 81.12 89.89 81.12 64.56 71.34 82.55 71.34 62.50 74.41 84.67 74.41
76.45 7б.4 88.73 7б.4 62.52 б8.5 80.84 б8.58 38.56 б2.19 81.24 б2.19
Finnish FTB 75.64 75.б 88.53 75.б 54.06 б5.2 79.65 б5.22 46.57 б1.7б 82.44 б1.7б
Swedish LinES 74.06 74.0 84.08 74.0 50.16 58.б 66.58 58.б2 55.58 бб.39 77.01 бб.39
Swedish Talbanken 77.72 77.7 88.63 77.9 58.49 б9.0 79.32 б9.22 59.64 б9.89 81.44 70.01
Arabic PADT 65.06 б5.0б N/A бб.41 51.79 53.81 N/A 55.01 2.89 5б.34 N/A 57.б0
Korean GSD 61.40 б1.4 N/A б1.4 47.73 54.1 N/A 54.10 0.30 50.50 N/A 50.50
Таким образом, в данной статье описана шинах с использованием тестовых набо-методика анализа необработанного много- ров. Были получены результаты, показы-язычного текста. Разработанная нейронная вающие, что данная архитектура работает сеть способна совместно создавать леммы, корректно и с высокой точностью. Про-частиречные разметки и выявлять морфо- грамма дальнейших исследований включа-логические признаки. Обучение нейрон- ет в себя разработку полностью многоза-ной архитектуры производилось на девяти дачной нейронной архитектуры, которая синтаксических деревьях. Система была позволит проводить наиболее точный ана-оценена на виртуальной машине Ubuntu на лиз текстов по ряду параметров. платформе TIRA [10] и на локальных ма-
Библиографический список
1. Программное обеспечение UDPipe 1.2. - [Электронный ресурс]. - Режим доступа: https://github.com/ufal/udpipe
2. Сайнбаяр Сух-Батор, Джейсон Уэстон, Роб Фергюс и др. Сквозные сети памяти, 2015. - С. 2440-2448.
3. Графов Ф.М, Гамильянов Ф.М. Искусственные нейронные сети и их приложения, 2018. - С. 78.
4. Tariq Rashid, Neural Networks and Deep Learning, 2016. - С. 139-150.
5. Джейсон П. К. Чиу и Эрик Николс. Распознавание именованных сущностей с помощью двунаправленных lstmcnns // Труды Ассоциации компьютерной лингвистики. - 2016. - C. 357-370.
6. Simon S Haykin, Pattern Recognition and Machine Learning, 2007. - С. 219-222.
7. Думачев В.Н., Родин В.А. Эволюция антагонистически-взаимодействующих популяций на базе двумерной модели Ферхюльста-Пирла, 2005. - С. 11-22.
8. Йонас Геринг, Майкл Аули, Дэвид Гранжье, Денис Яратс и Ян Н Дофин. Сверточная последовательность для обучения последовательности. Электронные отпечатки АгХ^, 2017.
9. Ашиш Васвани, Ноам Шазеер, Ники Пармар, Якоб Ушкорейт, Ллион Джонс, Эйдан Н Гомес, Лукаш Кайзер и Илья Полосухин. Внимание - это все, что вам нужно в достижениях в области нейронных систем обработки информации, 2017. - С. 5998-6008.
10. Бояновский П., Грейв Э., Жулин А., Миколов Т. Обогащая слово векторов с полсловом информации // Труды Ассоциации компьютерной лингвистики. - 2017. - №5. -С. 135-146.
USE OF RECURRENT NEURAL NETWORKS FOR ANALYSIS OF UNPROCESSED
MULTILINGUAL TEXT
A.S. Nemaltsev, Student
Supervisor: E.S. Klyshinsky, Candidate of Technical Sciences, Associate Professor Bauman Moscow State Technical University (National Research University) (Russia, Moscow)
Abstract. This article discusses general concepts of raw multilingual text analysis. A neural network based on long short-term memory (LSTM) was designed to mark sequences in order to additionally generate them at the symbol level. The network was trained to create lemmas, labels of parts of speech, and morphological characters. Sentence segmentation, tokenization and dependency analysis were handled by UDPipe 1.2. The results demonstrate the relevance of applying the proposed architecture at present.
Keywords: neural network, machine learning, LSTM, recurrent neural networksd softmax, UDPipe, lemmatization.