Научная статья на тему 'Подходы к передаче имён собственных в машинном переводе'

Подходы к передаче имён собственных в машинном переводе Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
132
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
машинный перевод / имёна собственные / теггинг / транслитерация / транспозиция / калькирование / machine translation / proper nouns / tagging / transliteration / transposition / calque

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Александра Валерьевна Елинова, Данил Павлович Тоскин, Рафаэль Амирович Сайфутдинов

Рассматриваются вопросы передачи имён собственных в машинном переводе, описаны подходы к передаче имён собственных, а также проблемы, возникающие при переводе имён собственных, и решения, которые предложены в научной литературе. Рассмотрены методы передачи имён собственных, такие как транслитерация, транспозиция и калькирование.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Александра Валерьевна Елинова, Данил Павлович Тоскин, Рафаэль Амирович Сайфутдинов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Approaches to the transfer of proper names in machine translation

The issues of the transfer of proper names in machine translation are considered, approaches to the transfer of proper names are described, as well as problems arising in the translation of proper names, and solutions that are proposed in the scientific literature. Methods of transferring proper names, such as transliteration, transposition and calculus, are considered.

Текст научной работы на тему «Подходы к передаче имён собственных в машинном переводе»

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

Научная статья УДК 81322.4

Подходы к передаче имён собственных в машинном переводе

Александра Валерьевна Елинова1 Данил Павлович Тоскин2

3

Рафаэль Амирович Сайфутдинов

1,2,3Ульяновский государственный педагогический университет, Ульяновск, Россия

3

[email protected]

Аннотация. Рассматриваются вопросы передачи имён собственных в машинном переводе, описаны подходы к передаче имён собственных, а также проблемы, возникающие при переводе имён собственных, и решения, которые предложены в научной литературе. Рассмотрены методы передачи имён собственных, такие как транслитерация, транспозиция и калькирование.

Ключевые слова: машинный перевод, имёна собственные, теггинг, транслитерация, транспозиция, калькирование.

INFORMATION TECHNOLOGY Scientific article

Approaches to the transfer of proper names in machine translation Alexandra V. Elinova1 Danil P. Toskin2 Rafael A. Sayfutdinov3

1,2,3 Ulyanovsk State pedagogical University, Ulyanovsk, Russia

3 sfraf@mail. ru

Abstract. The issues of the transfer of proper names in machine translation are considered, approaches to the transfer of proper names are described, as well as problems arising in the translation of proper names, and solutions that are proposed in the scientific literature. Methods of transferring proper names, such as transliteration, transposition and calculus, are considered.

Keywords: machine translation, proper nouns, tagging, transliteration, transposition, calque.

Проблема перевода имён собственных актуальна в области перевода художественной и исторической литературы, так как именно там с наибольшей частотой наблюдается употребление имён, топонимов и названий различных рукотворных объектов.

Обращаясь к проблеме перевода имён собственных, необходимо обратиться к термину «ономастика». Ономастика (от др.-греч. ovo^aoтlкrj) - искусство давать имена - раздел лексикологии, изучающий имена собственные [3, с. 600]. Д. И. Ермолович считает, что «имена собственные служат для особого, индивидуаль-

© Елинова А. В., Тоскин Д. П., Сайфутдинов Р. А., 2022

ного обозначения предмета безотносительно к описываемой ситуации и без обязательных уточняющих определений» [2, с. 9].

Принято считать, что имена собственные переводятся автоматически. Однако такой подход приводит к возникновению ошибок и неточностей в переводе текстов и употреблении имён и названий из других языков. Данная проблема возникает из-за недостаточной исследованности вопроса. В лингвистике вопросам системы межъязыкового переноса онимов уделяется недостаточное внимание.

Сложнее ситуация в области машинного перевода, во-первых, из-за вышеупомянутой недостаточной изученности вопроса передачи имён собственных и, во-вторых, из-за значи-

тельных несовершенств систем машинного перевода. При машинном переводе имён собственных стоят две большие проблемы: распознавание имени собственного в тексте и его непосредственная передача.

Вопрос распознавания имени собственного в тексте при ручном переводе, как правило, не является трудным: переводчик или читатель понимает, что перед ним имя собственное либо по его графическому виду, то есть по написанию с большой буквы, либо по контексту. Однако у компьютерных программ отсутствует подобная функция.

Решение, которое видится в первую очередь, состоит в том, чтобы внести все имена собственные либо в систему анализа, либо в морфологический анализатор, либо в модуль постобработки программы машинного перевода. Но на практике такой список всегда был бы неполным, поскольку новые онимы появляются постоянно.

Арви Йоханнес Хурскайнен, финский учёный по языковым технологиям и лингвистике, считает лучшим подходом внесение в список только таких имён собственных, которые нуждаются в передаче, то есть таких онимов, которые не могут быть определены на основе собственной словоформы. Необходимость такой семантической информации, как категории одушевлённости, родовая категория и категория числа может также послужить причиной для включения в вышеупомянутый список. Остальные же слова, не являющиеся начальными словами предложения, но пишущиеся с заглавной буквы, интерпретировались бы программой как собственные по умолчанию [5, с. 1].

Но при таком подходе возникает проблема многозначности. Если некоторое слово имело нарицательное значение, программная система анализа выдавала бы по крайней мере два перевода: один - для имени собственного и один или несколько - для нарицательных. При рассмотрении вопроса об устранении такой неоднозначности было бы логично указать в системе лишь один перевод для слова, пишущегося с заглавной буквы не в начале предложения, однако ситуация не так проста. Во-первых, сами имена собственные довольно часто оказываются в начале предложения, особенно если речь идёт об именах персонажей в художественной литературе.

Во-вторых, тексты часто содержат слова с заглавной буквы внутри предложения по стилистическим или каким-либо другим причинам. Следовательно, в программе их следует хранить отдельно от настоящих имён собственных.

Хурскайнен считает, что решение состоит в том, чтобы «пометить» слова, которые могут

являться потенциальными именами собственными. Такие пометки могут быть добавлены в морфологический словарь программы или созданы в процессе постредактирования. При использовании этого метода представляется возможным контролировать, является ли слово именем собственным. Слова, у которых нет такой пометки, будут интерпретированы как обычные слова вне зависимости от их написания

[5, с. 2].

Однако, учитывая то, что имена собственные принадлежат к открытому классу слов, а соответственно их количество было бы правильнее прировнять к бесконечному, они не могут быть сохранены в словарях и лексических корпусах систем машинного перевода. Поэтому их «пометка» в программах представляется практически невозможной.

Более того, проблемы, заключающиеся в том, как обращаться с неоднозначными словами, начинающимися с заглавной буквы, и с именами собственными, стоящими в начальной позиции предложения, также остаются. А. Й. Хурскайнен отмечает, что на данный момент полностью проблему идентификации имён собственных при машинном переводе решить не удаётся, однако измерения частотности и вероятности употребления имён собственных в текстах могли бы привести к удовлетворительным результатам [5, с. 5]. ^

Учёные университета Нью-Йорка (США) предложили подход к переводу имён собственных, который способен тесно интегрировать их обработку путём совместного аннотирования параллельных лексических корпусов языка-источника и языка - перевода, извлечения грамматики и правил перевода с учётом наличия в тексте онимов, добавления таблицы имён и декодирования, который должен быть закодирован специально под перевод имён собственных [7, с. 604].

Их модель во многом схожа с предложенной А. Й. Хурскайненом. Они также считают, что теггинг имён собственных в программах машинного перевода может привести к улучшению качества передачи онимов. Но, по их мнению, традиционные подходы к тегированию имён для отдельных языков не могут полностью решить проблемы, описанные Хурскайненом, поскольку все они были построены на данных и ресурсах, специфичных для каждого языка, без использования каких-либо межъязыковых функций. Кроме того, из-за отдельных процессов декодирования результаты для параллельных данных могут не совпадать на разных языках. При учёте всех

факторов ими был разработан двуязычный совместный теггер имён для англо-китайского перевода, основанный на условных случайных полях, который включает в себя как одноязычные, так и межъязыковые функции онимов и проводит совместный вывод, так что теги имён с двух языков могут взаимодополнять друг друга и, следовательно, проблема полисемии и несовершенства графического способа обнаружения имён собственных могут быть исправлены одновременно [8, с. 1727- 1731].

Рассматривая непосредственную передачу имён собственных, следует остановиться на её методах. На данный момент часто используемым способом автоматического перевода имён собственных является транслитерация.

Транслитерация - точная передача знаков одной письменности знаками другой письменности [1, с. 17].

При таком типе передачи имя собственное зачастую утрачивает своё изначальное произношение, что сказывается на его восприятии носителями другого языка. Это связано с тем, что некоторые фонемы языка оригинала могут не иметь эквивалентных фонем в языке перевода, а потому вынуждены быть заменёнными примерно похожими звуками.

Дэвид Мэттьюс отмечает, что при транслитерации обычно существует множество приемлемых ответов, например английские транслитерации (Мухаммед) включают варианты Mohamad, Mohamed, Mohammad, Mohammed, Muhamad, Muhamed, Muhammad, Muhammed. По его мнению, чтобы повысить качественную производительность систем машинного перевода, необходимо найти предполагаемую транслитерацию, а не приемлемую транслитерацию [6, с. 2].

При использовании этого способа передачи имён собственных возникает ещё одна проблема - утрачивание семантического компонента.

Существуют и другие способы перевода имён собственных, которые стремятся сохранить их семантику.

Транспозиция - использование одной языковой формы в функции другой - её противочлена в парадигматическом ряду. При переводе этот принцип примёняется на основе того, что имена собственные в разных языках имеют общее лингвистическое происхождение, но различаются по форме в связи с разным устройством языков. Данный принцип в настоящее время используется в переводе достаточно редко, в основном для перевода исторических и библейских имён. Например, английский монарх по имёни Чарльз и

французский король по имёни Шарль будут в русском языке иметь имя Карл [4, с. 96].

Калькирование - воспроизведение не звукового, а комбинаторного состава слова или словосочетания, когда морфемы или лексемы переводятся соответствующими элементами переводящего языка. При ручном калькировании переводчику приходится проводить определённые трансформации: изменять падежные формы, количество слов в словосочетании, суффиксов, приставок, порядок слов и т. п. Например, храм Спаса на Крови можно перевести на английский язык как «Tserkov' Spasana Krovi» путём транслитерации или же как «The Church of the Savioron Spilled Blood» путём калькирования. Определённой сложностью данного способа является необходимость развертывания или свертывания исходной структуры - добавления в неё дополнительных элементов или сокращения исходных элементов.

На данный момент ни одна из существующих программ компьютерного перевода не обладает достаточным техническим потенциалом для столь сложной обработки лингвистических данных, ведь в основе представления нового лексического материала используется семантизация лексических единиц посредством концептуализации, синонимии, антонимии и других языковых явлений, которые, как известно, сложно поддаются формализации, как и весь естественный язык в целом.

Из этого рождается сложнейший способ решения проблемы машинного перевода имён собственных - внесение в базу данных компьютерных переводчиков большого количества этимологических, семантических, морфологических и других особенностей слов и алгоритмов по их распознаванию. Однако, учитывая проблемы, которые возникают при машинном переводе даже в вопросе передачи нарицательных существительных из-за многозначности, омонимии и других явлений, которые делают любой естественный язык сложным, иррациональным, а оттого трудно формализируемым, на данный момент это представляется практически невозможным. Хотя следует учитывать и тот факт, что не все имена собственные следует переводить путём транспозиции и калькирования. Список имён собственных для таких методов перевода значительно сокращается, но вместе с тем возникает проблема определения тех онимов, которые такого перевода всё же требуют. Эту проблему также решает метод теггинга имён собственных.

Основным, более реальным способом решения проблемы перевода имён собственных

является идея использования специальных словарей имён собственных. Существует недостаточное количество двуязычных, а тем более многоязычных словарей имён собственных, что затрудняет внесение лингвистических данных в программы машинного перевода.

Действительно, мысль о том, что машинный перевод в будущем станет точным и приблизиться к профессиональному уровню, остаётся фантастикой. Однако получение качественного машинного перевода - вполне реальная перспектива, которая позволит повысить эффективность работы и сэкономить финансовые и временные ресурсы на подготовку перевода текстов различных уровней.

СПИСОК ИСТОЧНИКОВ

1. Гиляревский Р. С., Старостин Б. А. Введение // Иностранные имена и названия в русском тексте: Справочник. Изд. 3-е, испр. и доп. М.: Высшая школа, 1985. С. 17.

2. Ермолович Д. И. Имена собственные на стыке языков и культур. М.: Р. Валент, 2001. C. 9.

3. Литература и язык. Современная иллюстрированная энциклопедия / под ред. проф. А. П. Горкина. М.: Росмэн, 2006. 600 с.

4. Устинов В. Почему Генрих - не Генрих, а Людовик - не Людовик? // Наука и жизнь. 2020. №2. С. 96.

5. Hurskainen A. Handling proper names in Machine Translation // Helsinki: Technical Reports in Language Technology Report. 2013, №12, P. 1-5.

6. Matthews D. Machine Transliteration of Proper Names. School of Informatics University of Edinburgh. 2007. P. 2.

7. Li, H. Li, H. Ji, W. Wang, J. Zheng, and F. Huang. Name-aware Machine Translation. / Computer Science Department and Linguistics Department Queens College and Graduate Center, City University of New York, 2012, рр. 604-605.

8. Li H., Ji H., Wang W., Zheng J. and Huang F. Joint Bilingual Name Tagging for Parallel Corpora. Computer Science Department and Linguistics Department Queens College and Graduate Center, City University of New York, 2012, рр. 1727-1731.

Информация об авторах

А. В. Елинова - студент Ульяновского государственного педагогического университета им. И. Н. Ульянова;

Д. П. Тоскин - студент Ульяновского государственного педагогического университета им. И. Н. Ульянова;

Р. А. Сайфутдинов - доцент кафедры «Инфор-

матика» Ульяновского государственного педагогического университета им. И. Н. Ульянова.

REFERENCES

1. Gilyarevsky R. S., Starostin B. A. Vvedenie [Introduction]. Inostrannye imena i nazvaniya v russkom tekste: Spravochnik. Izd. 3-e, ispr. i dop.[ [Foreign names and names in the Russian text: Handbook. 3rd edition, ispr. and additional]. M., Vysshaya shkola [Higher School], 1985, p. 17.

2. Ermolovich D. I. Imena sobstvennye na styke yazykov i kul'tur [Proper names at the junction of languages and cultures]. M., R. Valent, 2001, р. 9.

3. Literatura i yazyk. Sovremennaya illyustrirovannaya enciklopediya [Literature and language. Modern illustrated encyclopedia]. pod red. prof. A.°P. Gorkina [edited by prof. A. P. Gorkin]. M., Rosman, 2006, 600 p.

4. Ustinov V. Pochemu Genrih - ne Genrih, a Lyudovik - ne Lyudovik? [Why is Henry not Henry, and Louis is not Louis?]. Nauka i zhizn' [Science and Life]. 2020, No. 2, p. 96.

5. Hurskainen A. Handling proper names in Machine Translation // Helsinki: Technical Reports in Language Technology Report, 2013, No. 12, pp. 1-5.

6. Matthews D. Machine Transliteration of Proper Names. School of Informatics University of Edinburgh. 2007, p. 2.

7. Li, H. Li, H. Ji, W. Wang, J. Zheng, and F. Huang. Name-aware Machine Translation./ Computer Science Department and Linguistics Department Queens College and Graduate Center, City University of New York, 2012, pp. 604-605.

8. Li H., Ji H., Wang W., Zheng J., and Huang F. Joint Bilingual Name Tagging for Parallel Corpora. Computer Science Department and Linguistics Department Queens College and Graduate Center, City University of New York. 2012, pp. 17271731.

Information about the authors А. V. Elinova - student of Ulyanovsk State Pedagogical University named after I. N. Ulyanov; D. P. Toskin - student of Ulyanovsk State Pedagogical University named after I. N. Ulyanov; R. A. Sayfutdinov - Associate professor of the Department of «Informatics» of Ulyanovsk State Pedagogical University named after I. N. Ulyanov.

Статья поступила в pедакцию 10.09.2022; одобpена после pe^ro^oBaH^ 15.09.2022; ^инята к публикации 19.09.2022.

The article was submitted 10.09.2022; approved after reviewing 15.09.2022; accepted for publication 19.09.2022.

i Надоели баннеры? Вы всегда можете отключить рекламу.