УДК 81'33
АКТУАЛЬНЫЕ ПОДХОДЫ К УЛУЧШЕНИЮ ТОЧНОСТИ НЕЙРОННОГО МАШИННОГО ПЕРЕВОДА
Калинин С.М.
В данной статье дается обзор актуальных подходов к решению проблемы по улучшению точности нейронного машинного перевода (далее по тексту НМП). Кроме того, приводится классификация данных подходов по двум большим группам: структурные и лингвистические. Более того статья освещает наиболее общие проблемы систем с НМП. Эффективность обозреваемых в статье методов оценивается на основании метрики BLEU для языковой пары английский-немецкий. Окончательные выводы по оценке эффективности данных методов приведены в заключительной части статьи.
Ключевые слова: машинный перевод, нейронный машинный перевод, нейронные сети, метрика BLEU.
TOPICAL APPROACHES TO THE IMPROVEMENT OF NEURAL MACHINE TRANSLATION
Kalinin S.M.
This article reviews topical approaches dealing with the problem of accuracy of neural machine translation. Classification of these approaches is provided in two groups: structural and linguistic. Moreover, the article sheds light on the most common problems of systems with neural machine translation. Effectiveness of the methods reviewed in this article is assessed based on BLEU metrics for the English-German language pair. Conclusions about the assessment of effectiveness of these methods are given in the closing part of the article.
Keywords: machine translation, neural machine translation, neural networks, BLEU metrics.
До недавнего времени нейронный машинный перевод (далее по тексту НМП) не мог сравниться по показателям с самыми совершенными системами статистического машинного перевода (далее по тексту СМП). Это было обусловлено определенными недостатками, общими для всех систем НМП.
По большей части эти недостатки определялись архитектурой нейронных сетей (далее по тексту НС), используемых в данных системах. К примеру, одна из наиболее общих проблем, на которую ссылаются исследователи [1, с. 151; 2, с. 1; 6, с.2], - неспособность к переводу редко встречающихся слов продиктована тем, что системы НМП отбирают только N самых частотных слов из корпусов текстов, опуская при этом менее частотные. Иногда это вызывало пропуски в переведенном тексте. Невозможность включения в словарь системы всех возможных переводов конкретного слова была продиктована необходимостью излишне не усложнять систему.
Второй ключевой недостаток - это относительно низкая скорость самообучения данных систем, особенно при работе с большими объемами корпусов текстов [6, с. 2; 7, с. 372]. Данная особенность также связана со сложной архитектурой нейронных сетей.
Но во многом благодаря структурным и лингвистическим решениям, предлагаемым исследователями, НМП становится все более приоритетным направлением для исследова-
ний, о чем свидетельствует большое количество научных статей и работ, опубликованных за последнее время.
В данной статье автор делает обзор и приводит классификацию наиболее актуальных подходов к решению данных проблем, существующих на сегодняшний день.
Помимо этого, автор ставит перед собой задачу произвести сравнение представленных в статье систем на основе методики BLEU. Несмотря на то, что репрезентативность данной методики ставится некоторыми исследователями под сомнение [6, с. 8], она все еще остается наиболее распространенной системой для оценки качества машинного перевода (далее по тексту МП). Сравнение проводится для языковой пары английский - немецкий. Выбор данной языковой пары для оценки эффективности предлагаемых исследователями моделей обусловлен тем, что МП данной языковой пары представляет собой сложную задачу вследствие значительной разницы в структуре двух этих языков и недостаточного количества параллельных корпусов текстов.
Как уже было упомянуто ранее, ключевые недостатки систем НМП обусловлены особенностями архитектуры нейронных сетей и являются общими для всех данных систем. Вследствие этого подавляющее большинство работ по данной тематике так или иначе посвящены методам преодоления данных недостат-
ков.
Все многообразие предлагаемых исследователями подходов можно разделить на две большие группы. Первый из этих подходов связан со структурными особенностями системы нейронных сетей, второй - с лингвистическими.
1. Структурные методы
На сегодняшний день большинство систем НМП имеют общую структуру: две рекуррентные нейронные сети (далее по тексту РНС), являющиеся кодером и декодером, и механизм отслеживания. На стороне предложения-источника кодер преобразует слова в контекстные векторы, которые, в свою очередь, декодер превращает в слова целевого предложения. Механизм отслеживания служит для контроля качества осуществляемого перевода.
Возможные улучшения данной архитектуры могут быть связаны с изменениями следующих параметров системы: изменение количества слоев и их взаимного расположения в РНС, изменение топологии связей узлов НС и изменения в механизме отслеживания.
1.1 Изменение количества слоев и их взаимного расположения в РНС
Известно, что более "глубокие" (имеющие больше слоев) НС имеют лучшие показатели по точности перевода [6, с. 5; 7, с. 372]. Однако изменение данного параметра очень сильно влияет на скорость работы системы. Как указывают исследователи [6, с. 5], обычно лучшие показатели имеют системы с 4 слоями РНС. При этом наибольшее влияние на улучшение данного параметра может оказать изменение в структуре связей между отдельными узлами НС. Таким образом, исследователи смогли спроектировать рабочую систему с 8 слоями РНС, используя при этом остаточные связи между слоями, которые сообщают информацию о значении на входе предыдущего слоя и обеспечивают более быстрое распространение градиента [6, с. 5]. Первые два слоя кодера при этом являлись двунаправленными. Данная методика позволила увечить показатель BLEU данной системы до 24,61.
1.2 Изменения в топологии связей между узлами НС
Как указывалось выше, изменения в топологии связей в НС напрямую влияют на общую скорость работы системы. При этом основной параметр, которому уделяется большое внимание, - это величина градиента.
Из-за наличия множества нелинейных функций активации и рекуррентных вычисле-
ний в РНС значения градиента становятся небольшими и нестабильными. Множество различных путей решения данной проблемы предлагались в последнее время [7, с. 372], но в данной статье мы остановимся на одном достаточно интересном подходе, предложенным по отдельности двумя группами исследователей.
В первом случае данная модель получила название остаточных связей, во втором -быстрых кратчайших связей. В обоих случаях на вход каждого последующего слоя РНС поступала информация о текущем скрытом состоянии системы и совокупности векторов, обозначающих отдельные единицы предложения.
Вследствие отличия архитектурных решений показатели двух данных систем значительно разнятся, значение BLEU для второй составляет 20,70.
1.3 Изменения в механизме отслеживания
Механизм отслеживания используется в системах НМП для сопоставления оригинального слова и его перевода. На сегодняшний день данный модуль включается почти в каждую систему НМП. Вследствие очевидной важности данного модуля для осуществления максимально точного перевода, рядом исследователей были предложены различные подходы к его созданию. Мы остановимся на двух подходах, предложенных Люонгом М., Фамом Х. и Мэннингом К. [3].
Первый из них, получивший название "глобальный механизм отслеживания", рассматривает все скрытые состояния кодера при выведении контекстного вектора. Несмотря на возможность получения более полной информации о возможном переводе, данная модель имеет один явный недостаток - принятие во внимание всех слов предложения оригинала для каждого слова целевого предложения является очень затратным в плане мощности при работе с длинными предложениями или текстами.
Второй подход, названный "локальным", является компромиссом между предлагавшимися ранее моделями "мягкого" и "жесткого" механизма отслеживания. Комбинирование обеих моделей приводит к увеличению показателей BLEU до 23.
2. Лингвистические методы.
Совершенно другим подходом к улучшению машинного перевода является подход с использованием лингвистических знаний. И здесь целесообразно произвести классификацию существующих подходов по грамматиче-
ским уровням языка.
2.1 Фонемный уровень
Проведение анализа на фонемном уровне позволяет решить одну из ключевых проблем НМП - проблему с переводом не самых частотных слов. Гибридная слово-символьная модель в основном осуществляет перевод на уровне слов и, в случае если встречается слово, отсутствующее в словаре системы после процесса обучения, производит анализ этого слова на фонемном уровне [2]. Перевод данных слов осуществляется на этапе постобработки. Основные преимущества данной системы состоят в том, что, во-первых, она позволяет сократить объем словаря системы за счет учета словообразовательных форм одного и того же слова, а, во-вторых, облегчает транслитерацию имен собственных. В BLEU метрике использование данного метода приводит к улучшению показателей до 24,17.
2.2 Морфемный уровень
На морфемном уровне основным методом, который используют исследователи, является лемматизация [5]. И здесь в отличие от слово-символьных моделей возможно распознавание значительно различающихся словоформ. При этом нейронные модели понимают, что флективные модели семантически взаимосвязаны и представляют их как одни и те же точки в векторном пространстве. Использование данного метода приводит к улучшению метрики BLEU до 23,80.
2.3 Лексический уровень
На лексическом уровне помимо очевидных основных функций по переводу слов и фраз исследователи также задействуют ряд дополнительных методов, позволяющих улучшить качество перевода.
К одному из таких методов можно отнести маркировку слов как определенных частей речи [5]. Данный метод помогает частично снять проблемы с определением коннотации омонимичных слов. Показатель BLEU при использовании данного метода - 24.
К другому относится учет морфологических особенностей каждого отдельного слова в тексте [5]. Учет таких особенностей слов, как, например, лицо, число, спряжение, позволяет улучшить точность перевода, в частности для флективных языков. Данный метод приводит к улучшению BLEU до 24,10.
2.4 Синтаксический уровень
К методам улучшения перевода, используемых на синтаксическом уровне, можно отнести следующие примеры: использование меток
зависимости слов [5] и применение одноязычных данных на этапе обучения системы [4].
Первый метод заимствован из систем СМП. Его использование в системах НМП позволяет решить проблему с неправильным порядком слов переведенного предложения, вызванным различиями в структуре языка. Показатель BLEU при использовании данного метода - 23,40.
Второй метод заключается в использовании только одноязычного корпуса текстов для обучения системы. Данный подход позволяет увеличить объем обучающего материала в случаях, когда есть недостаток параллельных корпусов текстов. Материалы одноязычного корпуса текстов могут быть применены в системе двумя различными способами. В первом из них одноязычные обучающие примеры рассматриваются как часть параллельного корпуса текстов с пустым корпусом оригинальных текстов. В этом случае нейронная сеть опирается только на предшествующие целевые слова для определения вероятности появления конкретного последующего слова. Исследователи сообщают, что показатель BLEU в таком случае увеличивается до 21,40 единиц.
Для того, чтобы увеличить эффективность использования одноязычных данных, исследователи предлагают также ввести второй способ работы с данными - обратный перевод. В данном случае для обучения используется необработанный автоматический перевод параллельных корпусов текстов. Значение метрики BLEU для данного способа - 23,80.
Таким образом, можно сделать вывод, что все многообразие существующих подходов к решению проблемы улучшение НМП может быть разделено на две большие подгруппы: структурные и лингвистические методы. При этом их использование приводит к разным степеням улучшения показателя метрики BLEU. Лучший результат в этом плане демонстрируют системы с большим количеством слоев и остаточными связями (24,61 по метрике BLEU), с гибридными слово-символьными моделями (24,17) и с учетом лингвистических особенностей на лексическом уровне (24,10 для моделей с учетом морфологических особенностей и 24 для моделей с определением части речи слова).
Кроме того, следует отметить, что подавляющее большинство решений, существующих на данный момент, направлены на преодоление ряда ключевых ограничений систем с использованием нейронных связей: неспособность к переводу редких слов, наличие пропусков в переведенном тексте и медленный процесс обучения.
Литературоведение
Список литературы
1. He W., Wu Hua., Wang H. Improved neural machine translation with SMT features // Thirtieth AAAI conference on artificial intelligence. 2016. pp. 151-157.
2. Luong M., Manning C. Achieving open vocabulary neural machine translation with hybrid word-character models. 2016. arXiv preprint
3. Luong M., Pham H., Manning C. Effective approaches to attention-based neural machine translation. 2015 arXiv preprint
4. Sennrich R., Haddow R. Improving neural machine translation models with monolingual data // 54th annual meeting of the association for computational linguistics. Berlin. 2016. pp. 86-96.
5. Sennrich R., Haddow R. Linguistic input features improve neural machine translation // Research papers of the first conference on machine translation. Vol. 1. Berlin. 2016. pp. 83-91.
6. Wu Y., Schuster M., Chen Z., V. Le Q., Norouzi M. Google's neural machine translation system: bridging the gap between human and machine translation. 2016. arXiv preprint
7. Zhou J., Cao Y., Wang X., Li P., Xu W. Deep recurrent models with fast-forward connections for neural machine translation // Computational linguistics. Vol.4. 2016. pp. 371-383.
Об авторе
Калинин Сергей Михайлович - старший преподаватель, Уральский федеральный университет имени первого президента РФ Б.Н. Ельцина, kalimer@yandex.ru