Научная статья на тему 'ОСНОВНЫЕ ПРОБЛЕМЫ НЕЙРОННОГО МАШИННОГО ПЕРЕВОДА'

ОСНОВНЫЕ ПРОБЛЕМЫ НЕЙРОННОГО МАШИННОГО ПЕРЕВОДА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
353
78
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАШИННЫЙ ПЕРЕВОД / НЕЙРОННЫЙ МАШИННЫЙ ПЕРЕВОД / ПРОБЛЕМЫ НМП

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Касьянов Виталий Константинович, Федулова Виктория Владимировна

Машинный перевод (МП) - это метод, позволяющий с помощью компьютера выполнять автоматический перевод человеческих языков. В настоящее время нейронный машинный перевод (НМП) достиг большого прорыва в производительности перевода. В этой статье приведен обзор структуры НМП, а также обсуждаются его основные проблемы.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MAIN PROBLEMS OF NEURAL MACHINE TRANSLATION

Machine translation (MT) is a technique that allows a computer to automatically translate human languages. Currently, neural machine translation (NMP) has achieved a major breakthrough in translation performance. This article provides an overview of the structure of the NMP and discusses its main problems.

Текст научной работы на тему «ОСНОВНЫЕ ПРОБЛЕМЫ НЕЙРОННОГО МАШИННОГО ПЕРЕВОДА»

УДК 81'322.4

Касьянов В.К., Федулова В.В.

ОСНОВНЫЕ ПРОБЛЕМЫ НЕЙРОННОГО МАШИННОГО ПЕРЕВОДА

Касьянов Виталий Константинович, аспирант кафедры технологии неорганических веществ и электрохимических процессов, e-mail: Kassyanov@yandex.ru;

Федулова Виктория Владимировна, старший преподаватель кафедры иностранных языков; Российский химико-технологический университет им. Д.И. Менделеева, Москва, Россия 125047, Москва, Миусская площадь, 9.

Машинный перевод (МП) — это метод, позволяющий с помощью компьютера выполнять автоматический перевод человеческих языков. В настоящее время нейронный машинный перевод (НМП) достиг большого прорыва в производительности перевода. В этой статье приведен обзор структуры НМП, а также обсуждаются его основные проблемы.

Ключевые слова: машинный перевод, нейронный машинный перевод, проблемы НМП.

MAIN PROBLEMS OF NEURAL MACHINE TRANSLATION

Kasianov V.K., Fedulova V.V.

D. Mendeleev University of Chemical Technology of Russia, Moscow, Russia

Machine translation (MT) is a technique that allows a computer to automatically translate human languages. Currently, neural machine translation (NMP) has achieved a major breakthrough in translation performance. This article provides an overview of the structure of the NMP and discusses its main problems.

Keywords: machine translation, neural machine translation, NMP problems.

Концепция машинного перевода (МП) была официально предложена в 1949 году Уивером [1]. Он предполагал, что современные компьютеры возможно использовать для автоматического перевода различных языков. С тех пор машинный перевод привлекает большое внимание со стороны ученых и стал одной из самых сложных задач в области обработки естественного языка и искусственного интеллекта.

Машинный перевод [2] в последнее время привлекает большое внимания из-за универсальности и скорости перевода. Большая часть прогресса нейронного машинного перевода (НМП) в значительной степени связана с изобретением и развитием новых нейронных сетей, действующих как основные модели для НМП. Основные виды нейронных сетей: от рекуррентной нейронной сети, оснащенной механизмом внимания, сверточной нейронной сети и недавно предложенный трансформатор [3, 4]. Поиск нейронной архитектуры [4-6] в последнее время также привлекает большое внимание, ввиду того, что может автоматически находить нейронные архитектуры и давать лучшую производительность, чем вручную созданные сети для большинства задач. Поиск нейронной архитектуры имеет большие успехи в задачах компьютерного зрения, таких как классификация изображений [6], обнаружение объектов [7, 8].

Авторы работы [9] предлагают рассмотреть процесс поиска архитектуры на ее оптимизации, а именно на одном из наиболее представительных методов - на основе градиента. Было подтверждено, что

оптимизация нейронной архитектуры эффективна в большей степени для классификации изображений, но не для нейронного машинного перевода. Непосредственное применение оптимизации к нейронному МП - не лучший выбор в связи со следующими причинами:

1. Тренировка НМП чувствительна к выбору гиперпараметров. Согласно предварительным исследованиям, изменение даже незначительных на первый взгляд показателей может привести к значительному изменению результатов НМП;

2. Оптимизация архитектуры позволяет найти один уровень или ячейку и складывает их несколько раз, что приводит к ограничению пространства архитектуры;

3. НМП, как правило, намного больше, чем модель классификации изображений, что делает невозможным проследить детали реализации стандартной оптимизации архитектуры.

Для того, чтобы оптимизация архитектуры положительно влияла на НМП, согласуясь с вышеуказанными проблемами, ее необходимо улучшать согласно следующим аспектам:

1. Проектировать два пространства поиска: пространство сетевых операций, которое состоит из широко используемых компонентов архитектуры для НМП, таких как модули внимания, повторяющиеся единицы и т.д.

2. Находить все слои, чтобы каждый уровень имел индивидуализированную архитектуру. Такой дизайн обеспечивает большую гибкость архитектур НМП.

3. Учитывая, что модель НМП обычно состоит из множества параметров, использовать два метода решения данной проблемы: совместное хранилище и последовательное сокращение вдвое [8], при котором постепенно уменьшать размер архитектурных видов в процессе поиска, отбрасывая плохие. С точки зрения методологии подходы к МП в основном делятся на две категории: метод-правило и метод-данные. В методе, основанном на правилах, двуязычные лингвисты несут ответственность за разработку конкретных правил для анализа исходного языка, его преобразования в целевой и генерации целевого языка. Так как это субъективно и трудоемко, данный метод утратил свою привлекательность в начале 21 века.

Однако, подход, основанный на данных, обучает компьютеры тому, как переводить из множества пар параллельных предложений, переведенных

человеком. Данный подход имеет три основных периода. В середине 80-х гг. был предложен МП, основанный на примерах, который переводит предложение, извлекая аналогичные примеры в парах предложений, переведенных человеком [10]. С начала 1990-х годов разработан статистический машинный перевод (СМП), в котором правила перевода на уровне слов или фраз могут быть автоматически изучены из параллельных корпусов с использованием вероятностных моделей [11]. С 2014 года активно развивается нейронный машинный перевод (НМП) на основе глубоких нейронных сетей [12]. В 2016 году в результате различных экспериментов с языковыми парами было продемонстрировано, что НМП совершил большое развитие и получил значительные улучшения по сравнению с предыдущими версиями [13].

Уо У1 У2 Уз У А

х0 хл х2

Рис. 1. Фреймворк кодера-декодера

Нейронная машинная трансляция — это сквозная модель, следующая за структурой кодера-декодера, которая обычно включает две нейронные сети [12]. Как показано на рисунке 1, сеть кодировщика сначала отображает каждый входной токен предложения на исходном языке в низкоразмерный вектор с действительными значениями, а затем кодирует последовательность векторов в распределенные семантические представления, из которых сеть декодера генерирует токен предложения на целевом языке по токену слева направо.

НМП формально определяется как задача предсказания от последовательности к

х3 х4 х5

я нейронного машинного перевода.

последовательности, в которой выделяют несколько ключевых проблем. Во-первых, ввод — это предложение, а не абзацы и документы. Во-вторых, выходная последовательность формируется с авторегрессией слева направо. В-третьих, модель НМП оптимизирована на основе двуязычных обучающих данных, которые должны включать в себя крупномасштабные параллельные предложения для изучения хороших параметров сети. В-четвертых, объектами обработки НМП являются чистые тексты, а не речь и видео. Соответственно, выделим четыре основные проблемы следующим образом:

1. В формулировке НМП предложение является основным входом для моделирования. Однако, некоторые слова в предложении неоднозначны, и смысл может быть устранен только в контексте окружающих предложений или абзацев. И при переводе документа мы должны гарантировать, что одни и те же термины в разных предложениях приводят к одному и тому же переводу, в то время как выполнение перевода предложение за предложением независимо не может достичь этой цели. Это большая проблема, как в полной мере использовать контексты помимо предложений в нейронном машинном переводе.

2. Неавторегрессивное декодирование и двунаправленный вывод. Декодирование токена слева направо следует авторегрессивному стилю, который соответствует человеческому чтению и письму. Однако у него есть несколько недостатков. С одной стороны, эффективность декодирования весьма ограничена, поскольку ьй токен трансляции может быть предсказан только после того, как были сгенерированы все предыдущие предсказания i - 1. С другой стороны, прогнозирование ьго токена может иметь доступ только к предыдущим предсказаниям истории, в то время как не может использовать будущую контекстную информацию авторегрессивным образом, что приводит к низкому качеству перевода.

3. Перевод с ограниченными ресурсами. В мире существуют тысячи человеческих языков, и обильные битексты доступны только в нескольких языковых парах. Даже в богатой ресурсами языковой паре параллельные данные несбалансированы, поскольку большинство битекстов в основном существует в нескольких областях. То есть отсутствие корпуса параллельного обучения очень часто встречается в большинстве языков и областей. Хорошо известно, что параметры нейронной сети могут быть хорошо оптимизированы для часто повторяющихся событий, а стандартная модель НМП будет плохо изучена на языковых парах с низким уровнем ресурсов. В результате возникает вопрос, как в полной мере использовать параллельные данные на других языках (сводный перевод и многоязычный перевод) и как в полной мере использовать непараллельные данные.

4. Мультимодальный нейронный машинный перевод. Интуитивно человеческий язык — это не только тексты, и для понимания значения языка может потребоваться помощь других модальных связей, таких как речь, изображения и видео. Во многих случаях от нас требуется перевод речи или видео. Например, синхронный речевой перевод становится все более востребованным на различных конференциях и международных мероприятиях в прямом эфире. Следовательно, как выполнять мультимодальную трансляцию в архитектуре кодер-декодер — это большая проблема для НМП. Как в полной мере использовать различные методы в

мультимодальном переводе и как сбалансировать качество и задержку при одновременном переводе речи — это две специфические задачи. Современные системы НМП имеют ряд недостатков, что привод к некоторым серьезным ошибкам перевода, которые мы нередко наблюдаем при использовании сложных выражений родного языка. Однако, стремительное развитие технологий НМП активно пытается решить вышеприведенные проблемы.

Список литературы

1. Weaver W. Translation. Machine translation of languages, 1995. - Т. 14, 10 c.

2. Sutskever I., Vinyals O., Le Q. V. Sequence to sequence learning with neural networks // Advances in neural information processing systems. - 2014. T. 1, 3104-3112 с.

3. Wu Y. Google's neural machine translation system: Bridging the gap between human and machine translation. - 2016. - arXiv preprint arXiv:1609.08144.

4. Liu C. Progressive neural architecture search in Computer Vision - ECCV 2018 // Cham: Springer International Publishing. - 2018. T. 1, 19-35 с.

5. Luo R., Tian F., Qin T., Chen E. Neural architecture optimization // Advances in Neural Information Processing Systems. - 2018. T. 31, 7816-7827 с.

6. Cai H., Zhu L., Han S. Proxylessnas: Direct neural architecture search on target task and hardware // ICLR. - 2019, arXiv preprint arXiv:1812.00332.

7. Ghiasi G., Lin T., Le Q. V. Nas-fpn: Learning scalable feature pyramid architecture for object detection // in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. - 2019. 7036-7045 c.

8. Chen Y., Yang T., Zhang X., Meng G. Detnas: Neural architecture search on object detection // arXiv preprint arXiv: 1903.10979. - 2019.

9. Jamieson K., Talwalkar A. Non-stochastic best arm identification and hyperparameter optimization // in Artificial Intelligence and Statistics. - 2016. T 1, 240248 c.

10. Nagao M. A framework of a mechanical translation between Japanese and English by analogy principle. Artificial and human intelligence, 1984. - 351-354 с.

11. Chiang D. A hierarchical phrase-based model for statistical machine translation. In: Proceedings of the Annual Meeting of the Association for Computational Linguistics. Ann Arbor, 2005. - 263-270 с.

12. Vawani A. Attention is all you need. In: Proceedings of the Conference on Neural Information Processing Systems / Vawani A, Shazeer N, Parmar N // Long Beach. - 2017. - 5998-6008 с.

13. Zhang, J. Neural machine translation: Challenges, progress and future / Zhang, J. and Zong, C. // Science China Technological Sciences. - 2020. - 1-23 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.