Научная статья на тему 'ОЦЕНКА ВЛИЯНИЯ МЕТОДА ОБРАТНОГО ПЕРЕВОДА НА КАЧЕСТВО РУССКО-ТЮРКСКИХ МАШИННЫХ ПЕРЕВОДЧИКОВ'

ОЦЕНКА ВЛИЯНИЯ МЕТОДА ОБРАТНОГО ПЕРЕВОДА НА КАЧЕСТВО РУССКО-ТЮРКСКИХ МАШИННЫХ ПЕРЕВОДЧИКОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
61
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
машинный перевод / метод обратного перевода / тюркские языки / machine translation / back-translation / Turkic languages

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Хусаинов Айдар Фаилович, Кубединова Ленара Шакировна

Метод обратного перевода для многих языковых пар и предметных областей позволил увеличить качество работы систем машинного перевода. В этой работе представлены результаты проведенных экспериментов по применению этого метода в контексте обучения машинных переводчиков для 7 тюркско-русских пар языков: русско-татарского, русскобашкирского, русско-казахского, русско-узбекского, русско-киргизского, русско-чувашского и русско-крымско-татарского. Исследования проводились в том числе и для случаев совместного обучения на объединенном русско-тюркском корпусе с последующим дообучением до конкретной языковой пары. Полученные результаты позволяют говорить о целесообразности использования этого метода для рассмотренных языковых пар.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Хусаинов Айдар Фаилович, Кубединова Ленара Шакировна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE IMPACT OF THE BACK-TRANSLATION METHOD ON THE QUALITY OF RUSSIAN-TURKIC MACHINE TRANSLATION SYSTEMS

The back-translation method has improved the quality of machine translation systems for many language pairs and subject domains. This paper presents the results of experiments on the application of this method in the context of training machine translation systems for 7 TurkicRussian language pairs: Russian-Tatar, Russian-Bashkir, Russian-Kazakh, Russian-Uzbek, RussianKyrgyz, Russian-Chuvash and Russian-Crimean Tatar. Research was carried out for cases of pretraining joint model on united Russian-Turkic corpus, followed by additional fine-tuning to a specific language pair. The results obtained show the benefits of using the back-translation method for specified language pairs

Текст научной работы на тему «ОЦЕНКА ВЛИЯНИЯ МЕТОДА ОБРАТНОГО ПЕРЕВОДА НА КАЧЕСТВО РУССКО-ТЮРКСКИХ МАШИННЫХ ПЕРЕВОДЧИКОВ»

УДК 811.512.1:81'25

doi 10.24411/2221-0458-2021-86-69-77

ОЦЕНКА ВЛИЯНИЯ МЕТОДА ОБРАТНОГО ПЕРЕВОДА НА КАЧЕСТВО

РУССКО-ТЮРКСКИХ МАШИННЫХ ПЕРЕВОДЧИКОВ

1 2

Хусаинов А.Ф., Кубединова Л.Ш.

1 Институт прикладной семиотики, Академия наук Республики Татарстан, Казань,

Россия

2

Крымский федеральный университет, Симферополь, Россия

THE IMPACT OF THE BACK-TRANSLATION METHOD ON THE QUALITY OF

RUSSIAN-TURKIC MACHINE TRANSLATION SYSTEMS

1 2

A.F. Khusainov, L.Sh. Kubedinova

1 Institute of Applied Semiotics, Tatarstan Academy of Sciences, Kazan, Russia Crimean Federal University, Simferopol, Russia

Метод обратного перевода для многих языковых пар и предметных областей позволил увеличить качество работы систем машинного перевода. В этой работе представлены результаты проведенных экспериментов по применению этого метода в контексте обучения машинных переводчиков для 7 тюркско-русских пар языков: русско-татарского, русско-башкирского, русско-казахского, русско-узбекского, русско-киргизского, русско-чувашского и русско-крымско-татарского. Исследования проводились в том числе и для случаев совместного обучения на объединенном русско-тюркском корпусе с последующим дообучением до конкретной языковой пары. Полученные результаты позволяют говорить о целесообразности использования этого метода для рассмотренных языковых пар.

Ключевые слова: машинный перевод; метод обратного перевода; тюркские языки

The back-translation method has improved the quality of machine translation systems for many language pairs and subject domains. This paper presents the results of experiments on the application of this method in the context of training machine translation systems for 7 Turkic-Russian language pairs: Russian-Tatar, Russian-Bashkir, Russian-Kazakh, Russian-Uzbek, Russian-Kyrgyz, Russian-Chuvash and Russian-Crimean Tatar. Research was carried out for cases of pretraining joint model on united Russian-Turkic corpus, followed by additional fine-tuning to a specific language pair. The results obtained show the benefits of using the back-translation method for specified language pairs.

Keywords: machine translation; back-translation; Turkic languages

69

1. Введение

В области построения систем машинного перевода ведутся активные исследования по нескольким основным направлениям: созданию более эффективных архитектур нейросетей и методов обучения, максимизации использования доступных лингвистических данных.

В рамках продолжающегося проекта построения тюркско-русских переводчиков TurkLang-7 в качестве базовой нами используется архитектура нейросетей Transformer, зарекомендовавшая себя как при решении множества задач обработки текста, изображений и звука, так и конкретно при построении систем машинного перевода. Учитывая специфику выбранных нами языковых пар, многие из которых являются малоресурсными, акцент делается на этап сбора параллельных данных, результаты этого этапа представлены во втором разделе статьи. В данной работе мы делаем следующий шаг в плане применения метода обратного перевода [1] с целью использования имеющегося объема моноязычных данных для тюркских и русского языков.

В разделе 3 статьи приводится описание проведенных экспериментов по построению базовых систем на основе собранных параллельных данных, а также систем, построенных с использованием метода обратного перевода. Стоит

отметить, что на основе результатов ранее проведенных исследований [2], мы используем подход по обучению «общей» русско-тюркской модели переводчика, обученной на объединении всех обучающих данных в единый корпус, с последующим дообучением до конкретной языковой пары.

2. Обучающий корпус

Задача накопления параллельных обучающих данных для русского и группы тюркских языков решается с помощью совокупности методов, включающих пополнение корпуса из двуязычных Интернет-источников (новостные порталы, электронные библиотеки со свободной лицензией и другие), оцифровку печатных версий книг, имеющих перевод на один из выбранных в проекте языков, объединение уже созданных источников параллельных данных.

Для решения данной задачи в 2020 году была проведена экспертная работа по установлению источников данных, разработаны необходимые методы анализа (алгоритмы выравнивания по документам, выравнивания по предложениям, фильтрации на основе набора эвристических правил, а также внедрение интеллектуальных моделей фильтрации пар параллельных предложений на основе имеющихся данных) [3].

В 2021 году был проведен повторный обход Интернет-источников: вышедшие за последний год двуязычные материалы были скачаны, разделены по предложениям, установлены пары соответствующих друг другу переводных документов и сегментов. Кроме того, был дополнен список источников двуязычных и моноязыковых данных, для которых также была проведена процедура скачивания и анализа. Отдельно стоит отметить

опубликованный в текущем году корпус параллельных предложений для множества тюркских языков TIL [4], информация из которого для используемых в нашем исследовании пар языков была также добавлена в общий перечень источников данных.

Результаты этапа сбора параллельных данных для тюркских языков представлены в таблице 1.

Источник Количество предложений

Киргизский

http://novosti.kg/ 7 552

http://mineconom.gov.kg/ru 2 359

http://med.kg/ 1 032

https: //ru.sputnik.kg/news/ 1 788

http://kabar.kg/ 80 797

https://24.kg/ 2 111

Корпус TIL 158 689

Итого добавлено пар русско-киргизских 88 154

предложении (после фильтрации и удаления дубликатов)

Башкирский

bash.news 1 340

https://ufacity.info/ 3 307

https://glavarb.ru/rus/ 890

http://www.bashinform.ru/ 2 872

http://bashdram.ru/ 124

https://house.bashkortostan.ru/ 481

https://pravitelstvorb.ru/ru/ 374

Литература (14 произведений) 26 251

Башкирский вестник 11 020

Корпус TIL 466 587

Итого добавлено пар русско-башкирских 176 906

предложений (после фильтрации и удаления дубликатов)

Чувашский

Корпус TIL 794 654

Корпус WMT 717 040

Итого добавлено пар русско-чувашских 467 898

предложений (после фильтрации и удаления дубликатов)

Таблица 1. Статистика собранных в 2021 году параллельных предложений

Источник Количество предложений

Татарский

tatar-inform .tatar 57 810

https: //tatarstan.ru/ 7 198

https://kiziltan.rbsmi.ru/ 2 930

https://kzn.ru/ 21 290

Корпус TIL 270 462

Итого добавлено пар русско-татарских 99 826

предложении (после фильтрации и удаления дубликатов)

Узбекский

https://kun.uz/ 33 798

www.uzdaily.uz 4 961

https: //www .gazeta.uz/en/ 32 427

http://uza.uz/en/ 58 303

http://xabar.uz/ 8 092

Корпус TIL 934 028

Итого добавлено пар русско-узбекских 609 293

предложений (после фильтрации и удаления дубликатов)

Крымско-татарский

Корпус TIL 12 401

Итого добавлено пар русско-крымско-татарских -

предложении (после фильтрации и удаления дубликатов)

Все собранные параллельные данные были проанализированы, удалены пары предложений, не подходящие под любой из следующих критериев:

• количество слов в предложении - от 2 до 80;

• количество слов, содержащих латинские буквы, больше 2;

• русский и тюркский переводы встречаются в корпусе только один раз.

В результате проведенной фильтрации были сформированы корпуса для обучения моделей переводчиков на основе данных 2020 и 2021 годов. Суммарные объёмы корпусов представлены в Таблице 2.

Таблица 2. Объемы обучающих параллельных корпусов

Языковая пара Количество пар Количество пар

предложений на 2020 предложений на 2021

год год

Киргизский 416 236 593 142

Башкирский 350 913 614 725

Чувашский 235 975 703 873

Казахский 5 059 666 5 059 666

Татарский 1 994 779 2 095 462

Узбекский 404 166 1 013 459

Крымско-татарский 26 103 21 110

Итого 8 487 838 10 101 437

Для применения метода обратного перевода необходимы моноязычные текстовые корпуса для русского и тюркских языков. В качестве исходных данных для формирования данных корпусов использовались предложения,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

отброшенные в процессе выравнивания документов и сегментов, а также материалы с новостных сайтов и существующие корпуса. В таблице 3 представлены итоговые размеры собранных моноязычных корпусов.

Таблица 3. Статистика собранных моноязычных корпусов для использования в методе

обратного перевода

Язык Количество предложений

Киргизский 4 087 428

Башкирский 2 059 817

Чувашский 335 447

Казахский 9 129 160

Татарский 9 706 458

Узбекский 5 931 222

Крымско-татарский 11 598

3. Эксперименты

План проведения экспериментов состоял из следующих основных этапов:

1. Обучение базовых многоязычных моделей на объединенном корпусе для всех языков (2 модели: для русско-тюркского и тюркско-русского направлений).

2. Дообучение базовых многоязычных моделей для каждой из языковых пар и направлений перевода (14 моделей: для русско-тюркского и тюркско-русского направлений для каждой из 7 пар языков).

3. Перевод моноязычных корпусов с помощью моделей, полученных на этапе 2, добавление полученных переведенных переводов в обучающие корпуса.

4. Дообучение базовых многоязычных моделей для каждой из языковых пар с

использованием метода обратного перевода.

5. Сравнение качества работы моделей переводчиков, полученных на этапе 2, с качеством работы систем 2020 года.

6. Сравнение качества работы моделей переводчиков с этапа 4 и этапа 2.

Модели переводчика обучались на основе нейросетевой архитектуры Transformer-Big.

Тестовые части параллельных корпусов были сохранены неизменными с 2020 года для обеспечения возможности сравнения качества переводчиков. В рамках экспериментов обучались две модели нейросетей: по одной в направлении перевода слева-направо и справа-налево.

Для контроля процесса обучения использовались 2 критерия: ce-mean-words и BLEU. В качестве критериев выхода было задано максимальное количество итераций, в ходе которых не будет достигнуто улучшения целевого критерия ce-mean-words, равное 5.

Для оценки качества построенных систем перевода мы использовали показатели BLEU и ChrF.

Результаты первого этапа

экспериментов по обучению базовых многоязычных моделей на объединенном корпусе для всех пар языков представлены в Таблице 4.

Таблица 4. Результаты первого этапа экспериментов по обучению базовых многоязычных моделей на объединенном корпусе для всех пар языков

Направление перевода BLEU ChrF

Русско-тюркская модель перевода 35.9 0.632

Тюркско-русская модель перевода 31.5 0.607

Результаты второго этапа

экспериментов по дообучению базовых многоязычных моделей для каждой из языковых пар и направлений перевода

представлены в Таблице 5. Для сравнения также приведены значения качества перевода аналогичных систем, обученных на корпусах 2020 года.

Таблица 5. Результаты второго этапа экспериментов по дообучению базовых многоязычных моделей для каждой из языковых пар и направлений перевода

Направление перевода BL] EU

2020 2021 Относительное изменение, %

Русско-казахский 47,8 50,8 +6,3%

Казахско-русский 62,6 67,8 +8,3%

Русско-татарский 33,6 34,5 +2,7%

Татарско-русский 36,4 39,9 +9,6%

Русско-киргизский 22,2 35,1 +58,1%

Киргизско-русский 25,0 42,0 +68%

Русско -узбекский 33,4 34,0 +1,8%

Узбекско-русский 35,5 39,8 +12,1%

Русско-башкирский 45,9 61,0 +32,9%

Башкирско-русский 47,3 51,2 +8,2%

Русско-чувашский 28,0 44,0 +57,1%

Чувашско -русский 30,4 47,3 +55,6%

Направление перевода BL] EU

2020 2021 Относительное изменение, %

Русско-крымско-татарский 22,7 39,1 +72,2%

Крымско-татарско-русский 24,4 43,9 +79,9%

Результатом применения метода обратного перевода стали эксперименты по дообучению базовых многоязычных моделей на данных расширенного параллельного корпуса. Тюркские части параллельных корпусов были переведены на русский язык, а получившиеся пары предложений были использованы при обучении моделей для русско-тюркских направлений перевода. Таким образом гарантировалось, что возможные неточности будут находиться в «исходной» части обучающих пар, а «целевое»

предложение будет точным, и обучаемая на этих данных нейросетевая модель сможет корректно переводить даже «зашумлен-ные» предложений. Аналогичный процесс был осуществлен и для обратного направления перевода: с русского на тюркские языки. Для этого русский моноязычный корпус был переведен на тюркские языки.

Сравнение качества работы моделей, обученных с применением метода обратного перевода и без него, представлены в Таблице 6.

Таблица 6. Результаты сравнения качества работы моделей машинного еревода с использованием метода обратного перевода (ВТ) и без него (no BT)

Направление перевода BLEU

No BT BT Относительное изменение, %

Русско-казахский 50,8 50,9 +0,2%

Казахско-русский 67,8 67,2 -0,9%

Русско-татарский 34,5 35,1 +1,7%

Татарско-русский 39,9 40,7 +2,0%

Русско-киргизский 35,1 37,2 +5,9%

Киргизско-русский 42,0 42,7 +1,7%

Русско -узбекский 34,0 36,2 +6,5%

Узбекско-русский 39,8 40,3 +1,3%

Русско-башкирский 61,0 59,3 -2,8%

Башкирско-русский 51,2 53,0 +3,5%

Русско-чувашский 44,0 47,9 +8,9%

Чувашско -русский 47,3 48,6 +2,7%

Русско-крымско-татарский 39,1 44,2 +13%

Крымско-татарско-русский 43,9 47,1 +7,3%

4. Заключение

В данной статье мы представили результаты нашей продолжающейся работы по созданию систем машинного перевода между русским и 7 тюркскими языками: обучающие параллельные корпуса были расширены, общий объем параллельных данных достиг 10.1 миллионов пар предложений; проведены эксперименты,

Библиографический список

1. Rico Sennrich, Barry Haddow, and Alexandra Birch. Improving neural machine translation models with monolingual data // arXiv preprint arXiv:1511.06709, 2015.

2. Khusainov A., Suleymanov D., Gilmullin R. The Influence of Different Methods on the Quality of the Russian-Tatar Neural Machine Translation // In: Kuznetsov S.O., Panov A.I., Yakovlev K.S. (eds) Artificial Intelligence. RCAI 2020. Lecture Notes in Computer Science, vol 12412. Springer, Cham. pp. 251261.

3. Хусаинов А., Гатиатуллин А., Сулейманов Д., Гильмуллин Р. К созданию комплекса систем машинного перевода между русским и тюркскими языками «TurkLang-7» // Сборник трудов Международной конференции по компьютерной обработке тюркских языков «TurkLang 2020». (Уфа, 18-20 октября 2020). Уфа, 2020.

подтверждающие рост качества перевода благодаря увеличившемуся объему данных; были собраны моноязычные данные и применен метод обратного перевода, позволивший получить прирост в качестве переводов для рассмотренных пар языков.

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 20-07-00823.

4. Mirzakhalov J., Babu A., Ataman D., Kariev S., Tyers F., Abduraufov O., Hajili M., Ivanova S., Khaytbaev A., Laverghetta A., Moydinboyev B., Onal E., Pulatova S., Wahab A., Firat O., and Chellappan S. A Large-Scale Study of Machine Translation in the Turkic Languages // arXiv preprint arXiv:2109.04593, 2021. References

1. Sennrich R., Haddow B., and Birch A. Improving neural machine translation models with monolingual data. arXiv preprint arXiv:1511.06709, 2015.

2. Khusainov A., Suleymanov D., and Gilmullin R. The Influence of Different Methods on the Quality of the Russian-Tatar Neural Machine Translation. In: Kuznetsov S.O., Panov A.I., Yakovlev K.S. (eds) Artificial Intelligence. RCAI 2020. Lecture Notes in Computer Science, vol. 12412. Springer, Cham. pp. 251261.

3. Khusainov A., Gatiatullin A., Suleymanov D., Gilmullin R. K sozdaniju kompleksa sistem mashinnogo perevoda mezhdu russkim i tjurkskimi jazykami «TurkLang-7» [Towards the creation of a complex of machine translation systems between Russian and Turkic languages "TurkLang-7"]. Proceedings of the 8th International Conference on Turkic Languages Processing (TURKLANG-2020). (Ufa, October 18-20, 2020). Ufa, 2020 (In Russian).

4. Mirzakhalov J., Babu A., Ataman D., Kariev S., Tyers F., Abduraufov O., Hajili M., Ivanova S., Khaytbaev A., Laverghetta A., Moydinboyev B., Onal E., Pulatova S., Wahab A., Firat O., and Chellappan S. A Large-Scale Study of Machine Translation in the Turkic Languages. arXiv preprint arXiv:2109.04593, 2021.

Хусаинов Айдар Фаилович - кандидат технических наук, зам. директора по научной работе института прикладной семиотики Академии наук Республики Татарстан, г. Казань, email: khusainov.aidar@gmail.com.

Кубединова Ленара Шакировна - кандидат филологических наук, доцент Крымский федеральный университет имени В.И. Вернадского, г. Симферополь, e-mail: kubedinova@gmail. com.

Aidar F. Khusainov- Candidate of Technical Sciences, Deputy Director for Scientific Work of the Institute of Applied Semiotics of the Tatarstan Academy of Sciences, Kazan, e-mail: khusainov.aidar@gmail .com.

Lenara Sh. Kubedinova- Candidate of Philological Sciences, Assistant Professor of the Crimean Federal University named after V.I. Vernadsky, Simferopol, e-mail: kubedinova@gmail.com.

Статья поступила в редакцию 29.11.2021

i Надоели баннеры? Вы всегда можете отключить рекламу.