С.М.Калинин
Уральский федеральный университет
им. Первого президента России Б.Н. Ельцина,
620002 г. Екатеринбург, Российская Федерация
Обзор современных подходов к улучшению точности нейронного машинного перевода
В данной статье дается обзор актуальных подходов к решению проблемы по улучшению точности нейронного машинного перевода. Кроме того, приводится классификация данных подходов по двум большим группам: структурные и лингвистические. Также статья освещает наиболее общие проблемы систем нейронного машинного перевода. Эффективность обозреваемых в статье методов оценивается на основании метрики BLEU. Окончательные выводы по оценке эффективности данных методов приведены в заключительной части статьи. Ключевые слова: машинный перевод, нейронный машинный перевод, нейронные сети, метрика BLEU.
S.M. Kalinin
Ural Federal University named after First President of Russia B.N. Yeltsin, Ekaterinburg 620002, Russian Federation
Review of current approaches to the improvement of accuracy of neural machine translation
This article reviews topical approaches dealing with the problem of accuracy of neural machine translation. Classification of these approaches is provided in two groups: structural and linguistic. Moreover, the article sheds light on the most common problems of systems with neural machine translation. Effectiveness of the methods reviewed in this article is assessed based on BLEU metrics. Conclusions about the assessment of effectiveness of these methods are given in the closing part of the article.
Key words: machine translation, neural machine translation, neural networks, BLEU metrics.
Нейронный машинный перевод (НМП) - это относительно новый подход к решению проблемы машинного перевода, получивший широкое распространение в последние годы. Функционирование данного подхода основано на использовании нейронных сетей, вычислительных моделей, по своей структуре напоминающих строение человеческого мозга, в которых сигнал распространяется через последовательные слои элементов, имитирующих нейроны. Основное преимущество данных систем, в особенности важное для машинного перевода, - это возможность самообучения.
На сегодняшний день большинство систем НМП имеют более или менее схожую архитектуру: кодер, декодер и механизм отслеживания (attention mechanism). На стороне предложения-источника (source sentence) кодер преобразует каждое отдельное слово в контекстный вектор, который, в свою очередь, декодер превращает в слово целевого предложения (target sentence). Механизм отслеживания позволяет системе фокусироваться на отдельных частях предложения-источника и контролировать точность перевода.
Кодер и декодер могут состоять из произвольного числа слоев, но на сегодняшний день они чаще всего выполняются в виде нескольких слоев долгой краткосрочной памяти (long short-term memory), одного из типов рекуррентных нейронных сетей (РНС). В системах данного типа значения с выхода каждого элемента одного слоя подаются на вход соответствующего элемента последующего слоя. Данное решение позволяет осуществлять несколько параллельных вычислений контекстных векторов как на стороне предложения-источника, так и на стороне целевого предложения, что, в свою очередь, повышает точность и скорость работы системы.
Основная причина, по которой системы НМП не получали широкого распространения до недавнего времени, - это относительно низкие показатели точности перевода в сравнении с самыми совершенными системами статистического машинного перевода (СМП). Это было обусловлено определенными недостатками, общими для всех систем НМП.
По большей части эти недостатки определялись архитектурой нейронных сетей, используемых в данных системах. К примеру, одна из наиболее общих проблем, на которую ссылаются исследователи [He, Wu, Wang, 2016, р. 151; Luong, 2016, р. 1; Wu et al., 2016, р. 2], -это неспособность к переводу редко встречающихся слов. Данная
проблема обусловлена тем, что системы НМП отбирают только n-е количество самых частотных слов из корпусов текстов, опуская при этом менее частотные. Иногда это может вызывать пропуски в переведенном тексте. Невозможность включения в словарь системы всех возможных переводов конкретного слова продиктована необходимостью излишне не усложнять систему.
Второй ключевой недостаток - это относительно низкая скорость самообучения данных систем, особенно при работе с большими объемами корпусов текстов [Wu et al., 2016, р. 2; Zhou et al., 2016, р. 372]. Данная особенность, в основном, обуславливается ограничениями, существующими на уровне аппаратного обеспечения.
Но во многом благодаря структурным и лингвистическим решениям, предлагаемым исследователями, НМП становится все более приоритетным направлением, о чем свидетельствует большое количество научных статей и работ, опубликованных за последнее время.
В данной статье автор делает обзор и приводит классификацию наиболее актуальных подходов к решению данных проблем, существующих на сегодняшний день. Помимо этого, автор ставит перед собой задачу произвести сравнение представленных в статье систем на основе методики BLEU. Данная методика используется для оценки того, насколько машинный перевод соответствует эталонному переводу, выполненному человеком-переводчиком. Для этой цели используются специально подготовленные параллельные корпусы текстов. BLEU работает с n-граммами и рассчитывает количество слов из оцениваемого перевода, встречающихся в переводе-эталоне [Papineni et al., 2002, c. 312]. Несмотря на то, что репрезентативность данной методики ставится некоторыми исследователями под сомнение [Wu et al., 2016, c. 8], она все еще остается наиболее распространенной системой для оценки качества машинного перевода и применяется в большинстве исследований по этой тематике. Поэтому ее использование в данной работе представляется целесообразным. В целях большей репрезентативности исследования все представленные в нем методы будут оцениваться на основании относительного улучшения значения метрики BLEU в сравнении с лучшими результатами фразовых СМП.
Ключевые недостатки систем НМП обусловлены особенностями архитектуры нейронных сетей и являются общими для всех систем этого типа. Вследствие этого подавляющее большинство работ по данной тематике так или иначе посвящены методам преодоления недостатков.
Все многообразие предлагаемых исследователями подходов можно разделить на две большие группы. Первый из этих подходов связан со структурными особенностями системы нейронных сетей, второй -с лингвистическими.
1. Структурные методы
Возможные улучшения архитектуры данных систем могут быть связаны с изменениями следующих параметров системы: изменение количества слоев и их взаимного расположения в РНС, изменение топологии связей узлов нейронных сетей и изменения в механизме отслеживания.
1.1. Изменение количества слоев и их взаимного расположения
в рекуррентных нейронных сетях
Известно, что более «глубокие» (имеющие больше слоев) нейронных сети имеют лучшие показатели по точности перевода [Wu et al., 2016, р. 5; Zhou et al., 2016, р. 372]. Однако изменение данного параметра очень сильно влияет на скорость работы системы. Как указывают исследователи, обычно лучшие показатели имеют системы с 4 слоями РНС [Wu et al., 2016, c. 5]. При этом наибольшее влияние на улучшение данного параметра может оказать изменение в структуре связей между отдельными узлами нейронных сетей. Используя остаточные связи (residual connections) между слоями для сообщения информации о значении на входе предыдущего слоя и обеспечения более быстрого распространения градиента [Там же], исследователи смогли спроектировать рабочую систему с 8 слоями РНС. Первые два слоя кодера при этом являлись двунаправленными. Данная методика позволила увечить показатель BLEU данной системы на 3,9 единицы для языковой пары «английский - немецкий» на выборке newstest2014.
1.2. Изменения в топологии связей между узлами нейронных сетей
Как указывалось выше, изменения в топологии связей в нейронных сетей напрямую влияют на общую скорость работы системы. При этом основной параметр, которому уделяется большое внимание, - это величина градиента.
Из-за наличия множества нелинейных функций активации и рекуррентных вычислений в РНС значения градиента становятся небольшими и нестабильными. Множество различных путей решения данной проблемы предлагались в последнее время [Zhou et al., 2016, р. 372], но в данной статье мы остановимся на одном достаточно интересном подходе, предложенным по отдельности двумя группами исследователей.
В первом случае данная модель получила название остаточных связей, во втором - быстрых кратчайших связей (fast-forward connections). В обоих случаях на вход каждого последующего слоя РНС поступала информация о текущем скрытом состоянии системы и совокупности векторов, обозначающих отдельные единицы предложения.
Вследствие отличия архитектурных решений показатели двух данных систем значительно разнятся. Увеличение значения BLEU для первой из них составляет 1,95 единицы, для второй - 0,7. Приведенные значения даны для языковой пары «английский - французский» на выборке newstest2014.
1.3. Изменения в механизме отслеживания
Механизм отслеживания используется в системах НМП для определения соответствия между оригинальным словом и его переводом. На сегодняшний день данный модуль включается почти в каждую систему НМП. Вследствие очевидной важности данного модуля для осуществления максимально точного перевода, рядом исследователей были предложены различные подходы к его реализации.
Одним из них является подход с совместным обучением двунаправленного механизма отслеживания [Cheng et al., 2016]. Основная идея данного подхода - составить матрицы соответствия слов для двух направлений перевода: когда предложение-источник переводится в целевое предложение, и когда целевое предложение переводится в предложение-источник. Обучение данных систем осуществляется на одних и тех же корпусах текстов, после чего данные матрицы взаимодополняют друг друга. Для языковой пары «английский - французский» на выборке newstest2014 увеличение показателя BLEU составило 1 единицу.
Еще два подхода были предложены М. Люонгом, Х. Фамом и К. Мэн-нингом [Luong, Pham, Manning, 2015].
Первый из них, получивший название «глобальный механизм отслеживания», принимает во внимание все скрытые состояния кодера при составлении контекстного вектора. Несмотря на возможность получения более полной информации о возможном переводе, данная модель имеет один явный недостаток - принятие во внимание всех слов предложения оригинала для каждого слова целевого предложения является очень затратным в плане мощности при работе с длинными предложениями или текстами. е Второй подход, названный «локальным», является компромиссом
I между предлагавшимися ранее моделями «мягкого» и «жесткого» меха-g низма отслеживания. Комбинирование обеих моделей приводит к луч-is шему увеличению показателей BLEU, которое составляет 2,3 для языковой пары «английский - немецкий» на выборке newstest2014.
2. Лингвистические методы
Совершенно другим подходом к улучшению машинного перевода является подход с использованием лингвистических знаний. И здесь целесообразно произвести классификацию существующих подходов по грамматическим уровням языка.
2.1. Фонемный уровень
Проведение анализа на фонемном уровне позволяет решить одну из ключевых проблем НМП - проблему с переводом не самых частотных слов. Гибридная слово-символьная модель в основном осуществляет перевод на уровне слов и, в случае если встречается слово, отсутствующее в словаре системы после процесса обучения, производит анализ этого слова на фонемном уровне [Luong, Manning, 2016]. Перевод данных слов осуществляется на этапе постобработки. Основные преимущества данной системы состоят в том, что, во-первых, она позволяет сократить объем словаря системы за счет учета словообразовательных форм одного и того же слова, а, во-вторых, облегчает транслитерацию имен собственных. В метрике BLEU использование данного метода приводит к улучшению показателей на 1,8 для языковой пары «английский - чешский» на выборке newstest2015.
2.2. Морфемный уровень
На морфемном уровне основным методом, который используют исследователи, является лемматизация [Sennrich, Haddow, 2016b]. И здесь, в отличие от слово-символьных моделей, возможно распознавание значительно различающихся словоформ. При этом нейронные модели понимают, что флективные модели семантически взаимосвязаны и представляют их как одни и те же точки в векторном пространстве. Использование данного метода приводит к улучшению метрики BLEU на 0,1 для языковой пары «английский - немецкий» на выборке newstest2015.
2.3. Лексический уровень
На лексическом уровне, помимо очевидных основных функций по переводу слов и фраз, исследователи также задействуют ряд дополнительных методов, позволяющих улучшить качество перевода.
Одним из таких методов является определение связей (alignments) между словами предложения-источника и словами целевого
предложения [Luong, 2015]. Использование данного метода позволяет решить проблему с переводом редких слов системами НМП. Перевод таких слов производится в дальнейшем на этапе постобработки корпуса текстов про помощи словарей. Исследователи указывают на различные пути реализации данного подхода. Одним из самых очевидных является способ обозначения связей между каждым словом предложения-источника и соответствующим ему словом целевого предложения. При этом позиция целевого слова, соответствующего слову-оригиналу, в целевом предложении предсказывается системой. Использование данного метода значительно замедляет процесс перевода из-за необходимости обрабатывать большее количество дополнительной информации. Для языковой пары с относительно схожим порядком слов в предложении («английский - французский») на выборке newstest2014 значение BLEU увеличилось на 2,4.
Еще один вариант реализации данного подхода, позволяющий излишне не перегружать систему, - это метод с приведением в соответствие не всех слов в предложении-источнике и целевом предложении, а лишь тех, что система не смогла перевести. Для языковой пары «английский - французский» на выборке newstest2014 значение BLEU увеличилось на 2,2.
К следующему методу, учитывающему лексические особенности, можно отнести метод маркировки слов как определенных частей речи [Sennrich, Haddow, 2016b]. Данный метод помогает частично снять проблемы с определением коннотации омонимичных слов. Увеличение показателя BLEU для языковой пары «английский - немецкий» на выборке newstest2015 при использовании данного метода - 0,3.
К еще одному методу относится учет морфологических особенностей каждого отдельного слова в тексте [Там же]. Учет таких особенностей слов, как, например, лицо, число, спряжение, позволяет улучшить точность перевода, в частности, для флективных языков. Данный метод приводит к улучшению BLEU на 0,4 для языковой пары «английский -немецкий» на выборке newstest2015.
2.4. Синтаксический уровень
Большинство методов улучшения НПМ, используемых на синтак-
ш
сическом уровне, зачастую копируют решения, традиционные для систем СМП.
В одном из таких методов исследователи предлагают использовать три следующие функции: дополнительные таблицы для перевода слов, языковые модели и-граммов и функцию поощрения (reward feature) [He, Wu, Wang, 2016]. Включение в системы НМП дополнительных таблиц
для перевода слов обеспечивает возможность учета распределения вероятности всех переводов данного слова. Языковые модели n-граммов используются для обучения на целевом одноязычном корпусе текстов для последующего определения того, с какой вероятностью то или иное слово может встречаться в переводе после данного конкретного слова. Функция поощрения используется для того, чтобы система могла отдавать предпочтения более полным переводам предложений-источников в отличие от более коротких и неполных переводов, которые зачастую выбираются системами НМП. В целом использование данных функции для языковой пары «китайский - английский» на выборке NISTMT08 позволяет увеличить значение BLEU на 2,97 единицы.
Следующий метод, который использует синтаксическую информацию, также позаимствован из систем СМП. В данном методе используется построение контекстных векторов фраз, которые затем выстраиваются в виде древа предложения восходящим способом [Eriguchi, Hashimoto, Tsuruoka, 2016]. Данный метод позволяет учитывать особенности языка, обусловленные разницей в порядке слов в предложении. В связи с этим данный метод позволил улучшить показатели BLEU для чрезвычайно различной по структуре языковой пары «английский -японский» на 2,31 на выборке, составленной исследователями.
К еще одному методу улучшения перевода можно отнести использование меток зависимости слов [Sennrich, Haddow, 2016b]. Его использование в системах НМП позволяет решить проблему с неправильным порядком слов переведенного предложения, вызванным различиями в структуре языка. Показатель BLEU при использовании данного метода увеличивается на 0,1 для языковой пары «английский - немецкий» на выборке newstest2015.
К последнему методу, используемому на синтаксическом уровне, относится метод с использованием только одноязычных корпусов текстов для обучения системы [Там же, 2016a]. Данный подход позволяет увеличить объем обучающего материала в случаях, когда существует недостаток параллельных корпусов текстов. Материалы одноязычного корпуса текстов могут быть использованы в системе двумя различными способами. В первом из них одноязычные обучающие примеры рассматриваются как часть параллельного корпуса текстов с пустым корпусом оригинальных текстов. В этом случае нейронная сеть опирается только на предшествующие целевые слова для определения вероятности появления конкретного последующего слова. Для того чтобы увеличить эффективность использования одноязычных данных, исследователи предлагают ввести второй способ работы с данными - обратный перевод. В данном случае для обучения используется
необработанный автоматический перевод параллельных корпусов текстов. Значение метрики BLEU для данного способа увеличивается на 1,3 единицы для языковой пары «английский - немецкий» на выборке newstest2015.
Таким образом, можно сделать вывод, что все многообразие существующих подходов к решению проблемы улучшения НМП может быть разделено на две большие подгруппы: структурные и лингвистические. При этом их использование приводит к разным степеням улучшения показателя метрики BLEU. Лучший результат в этом плане демонстрируют системы с большим количеством слоев и остаточными связями (улучшение метрики BLEU на 3,9), а также с использованием функций, характерных для СМП (2,97).
Кроме того, следует отметить, что подавляющее большинство решений, существующих на данный момент, направлены на преодоление ряда ключевых ограничений систем с использованием нейронных связей: неспособность к переводу редких слов, наличие пропусков в переведенном тексте и медленный процесс обучения.
Библиографический список / References
Cheng et al., 2016 - Agreement-based joint training for bidirectional attention-based neural machine translation. Cheng Y., Shen S., He Z. et al. Proceedings of the twenty-fifth international joint conference on artificial intelligence. 2016. URL: https://arxiv.org/abs/1512.04650 (дата обращения: 25.01.2017).
Eriguchi, Hashimoto, Tsuruoka, 2016 - Eriguchi A., Hashimoto K., Tsuruoka Y. Tree-to-sequence attentional neural machine translation. 54th Annual Meeting of the Association for Computational Linguistics. 2016. URL: https://arxiv.org/ abs/1603.06075. (дата обращения: 25.01.2017).
He, Wu, Wang, 2016 - He W., Wu H., Wang H. Improved neural machine translation with SMT features. Thirtieth AAAI conference on artificial intelligence. 2016. Pp. 151-157.
Luong, 2015 - Luong M. Addressing the rare word problem in neural machine translation. Proceedings ofthe 53rd annual meeting ofthe association for computational linguistics and the 7th international joint conference on natural language processing. Beijing, 2015. Pp. 11-19.
Luong, Manning, 2016 - Luong M., Manning C. Achieving open vocabulary neural machine translation with hybrid word-character models. 2016. URL: https://arxiv.org/ abs/1604.00788 (дата обращения: 25.01.2017).
Luong, Pham, Manning, 2015 - Luong M., Pham H., Manning C. Effective approaches to attention-based neural machine translation. 2015. URL: https://arxiv. org/abs/1508.04025 (дата обращения: 25.01.2017).
Papineni et al., 2002 - BLEU: a method for automatic evaluation of machine translation. Papineni K., Roukos S., Ward T., Zhu W. Proceedings of the 40th annual meeting of the association for computational linguistics. Philadelphia. 2002. Pp. 311-318.
Sennrich, Haddow, 2016а - Sennrich R., Haddow R. Improving neural machine translation models with monolingual data. 54th annual meeting of the association for computational linguistics. Berlin, 2016. Pp. 86-96.
Sennrich, Haddow, 20166 - Sennrich R., Haddow R. Linguistic input features improve neural machine translation. Research papers of the first conference on machine translation. Vol. 1. Berlin, 2016. Pp. 83-91.
Wu et al., 2016 - Google's neural machine translation system: bridging the gap between human and machine translation. Wu Y., Schuster M., Chen Z. et al. 2016. URL: https://arxiv.org/abs/1609.08144 (дата обращения: 25.01.2017).
Zhou et al., 2016 - Deep recurrent models with fast-forward connections for neural machine translation. Zhou J., Cao Y., Wang X. et al. Computational linguistics. 2016. Vol. 4. Pp. 371-383.
Статья поступила в редакцию 11.02.2017 The article was received on 11.02.2017
Калинин Сергей Михайлович - старший преподаватель кафедры иностранных языков Института социальных и политических наук, Уральский федеральный университет им. Первого президента России Б.Н. Ельцина, г. Екатеринбург
Kalinin Sergei M. - Senior Lecturer of Department of Foreign Languages of Institute of Social and Political Sciences, Ural Federal University named after the First President of Russia B.N. Yeltsin, Ekaterinburg, Russian Federation
E-mail: [email protected]