Научная статья на тему 'Перевод идиоматических выражений в системах машинного перевода'

Перевод идиоматических выражений в системах машинного перевода Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
1203
221
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАШИННЫЙ (АВТОМАТИЧЕСКИЙ) ПЕРЕВОД / ИДИОМАТИЧНОСТЬ / АВТОМАТИЧЕСКИЙ СЛОВАРЬ ОБОРОТОВ / ЦЕЛЬНОСТЬ ОБОРОТА / ПРЕДСТАВЛЕНИЕ / ЯЗЫК-ПОСРЕДНИК (ИНТЕРЛИНГВА) / УНИВЕРСАЛЬНЫЙ СЕМАНТИЧЕСКИЙ ЯЗЫК / СИСТЕМА PROMT / MACHINE (AUTOMATIC) TRANSLATION / LANGUAGE-MEDIATOR (INTERLINGUA) / IDIOMATICITY / AUTOMATIC DICTIONARY OF PHRASES / PHRASE WHOLENESS / IDEA / UNIVERSAL SEMANTIC LANGUAGE / SYSTEM PROMT

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Хонькина П. В.

Тема данной статьи перевод идиоматических выражений в системах машинного перевода. Исследована актуальность данной проблемы, рассмотрены существующие методы разрешения проблемы идиоматичности при использовании электронных переводчиков, а также проведён анализ перевода отрывка из текста на немецком языке, осуществлённый в системе семейства PROMT.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Translating Idiomatic Expressions in the Machine Translation Systems

The subject-matter of this article is the translation of idiomatic expressions in the machine translation systems. The topicality of the problem is researched, the existing methods of solving the problem of idiomaticity of translations made by means of electronic translators are considered, and the translation of an extract from a German text made in the PROMT system is analyzed.

Текст научной работы на тему «Перевод идиоматических выражений в системах машинного перевода»

Вестник Московского университета. Сер. 22. Теория перевода. 2010. № 4

П.В. Хонькина,

студентка гуманитарного факультета Белорусского государственного

университета, г. Минск, Беларусь; е-mail: polblr@rambler.ru

ПЕРЕВОД ИДИОМАТИЧЕСКИХ ВЫРАЖЕНИЙ

В СИСТЕМАХ МАШИННОГО ПЕРЕВОДА

Тема данной статьи — перевод идиоматических выражений в системах машинного перевода. Исследована актуальность данной проблемы, рассмотрены существующие методы разрешения проблемы идиоматичности при использовании электронных переводчиков, а также проведён анализ перевода отрывка из текста на немецком языке, осуществлённый в системе семейства PROMT.

Ключевые слова: машинный (автоматический) перевод, идиоматичность, автоматический словарь оборотов, цельность оборота, представление, язык-посредник (интерлингва), универсальный семантический язык, система PROMT.

Polina V. Khonkina,

Student at the Faculty of Humanities, Belarusian State University, Minsk, Belarus; e-mail: polblr@rambler.ru

Translating Idiomatic Expressions in the Machine Translation Systems

The subject-matter of this article is the translation of idiomatic expressions in the machine translation systems. The topicality of the problem is researched, the existing methods of solving the problem of idiomaticity of translations made by means of electronic translators are considered, and the translation of an extract from a German text made in the PROMT system is analyzed.

Key words: machine (automatic) translation, idiomaticity, automatic dictionary of phrases, phrase wholeness, idea, language-mediator (interlingua), universal semantic language, system PROMT

Стремительное развитие информационных технологий в корне изменило отношение к традиционному процессу перевода. С середины семидесятых годов двадцатого века наблюдается устойчивый рост интереса к машинному переводу. Сама же история исследований и разработок в данной сфере насчитывает уже более пятидесяти лет.

Машинный, или автоматический, перевод — это «выполняемое компьютером действие по преобразованию текста на одном естественном языке в текст на другом естественном языке при сохранении эквивалентности содержания, а также результат такого действия» [Зубов, 2007, с. 253]. Осуществление перевода в существующих системах требует вмешательства человека в качестве предредактора, интерредактора или постредактора [там же, с. 254].

Весь процесс автоматического перевода текста делится на множество простейших операций и представляет собой последовательность организованных трансформаций, применяемых к тексту на исходном языке (ИЯ) и превращающих его в текст на перевод-

ном языке (ПЯ), который должен максимально воссоздавать смысл и, как правило, структуру исходного текста, но уже средствами ПЯ [Мамедова, 2006, с. 61].

Как известно, план содержания языка не всегда изоморфен плану его выражения. На всех уровнях языка наблюдается ассиме-трия между планом содержания и планом выражения. Одной из форм такой асимметрии является идиоматичность [Борисевич, 1972, с. 14]. Под идиомой мы будем понимать присущий только данному языку и непереводимый на другие языки устойчивый оборот речи, значение которого не вытекает из суммы значений составляющих его элементов.

Машинный перевод вызывает множество различных проблем, одной из которых является разрешение межъязыковой идиоматич-ности в процессе автоматической обработки текста.

Согласно М. Таубе, данная проблема возникает ввиду отсутствия взаимно-однозначных соответствий между единицами естественных языков.

Г. Фреге вводит понятие «представление», что является своего рода критерием определения соответствия между смыслом текста на ИЯ и смыслом того же текста, но уже на ПЯ. Согласно его концепции, разница между оригиналом и переводом не должна превышать представление. («...Можно усматривать три степени различия между выражениями (словами, словосочетаниями и целыми предложениями): различие затрагивает либо только представление, либо смысл, но не денотат (референт), либо, наконец, и смысл, и денотат... Разница между оригиналом не должна, вообще говоря, выходить за пределы первой степени различия» (Фреге, 1977, с. 187) (курсив мой. — П.Х.)) [Марчук, 1983, с. 42].

Проблема машинного перевода идиом заключается в том, что не всегда удаётся дать точный перевод, руководствуясь обычными правилами. Однако следует принять во внимание, что идиомы должны быть выявлены на начальном этапе во избежание их утери, и обрабатываться они должны как одно слово [Мамедова, 2006, с. 122].

«Разрешение идиоматичности является одной из формальных операций, обеспечивающих анализ и синтез в системах машинного перевода, и производится либо с помощью стандартных грамматических и лексических программ анализа текста, работающих совместно с автоматическим словарем, либо путём прямого соотнесения входного и выходного сегментов. Во втором случае и входной, и выходной сегменты рассматриваются как неделимые обороты. Один или несколько выходных оборотов или словоформ, поставленных в соответствие каждому входному обороту, составляют автоматический словарь оборотов» [Борисевич, 1973, с. 266].

В результате анализа идиоматическим выражениям приписывается определённый цифровой эквивалент, и они исключаются из дальнейшего грамматического анализа.

Согласно исследованиям Борисевича А.Д., составлению алгоритма поиска и переводу оборотов в тексте предшествует «лингвистическое исследование их дистрибуции». Следует выяснить посредством синтаксического анализа, является ли оборот цельным и включает ли он в себя изменяемые формы. «Оборот считается цельным, если он имеет неизменный состав и между его элементами нельзя вставить другие единицы» [там же, с. 275]. Приведём пример из английского языка: it goes without saying, in hand, to tell the truth, in truth. Если оборот не является цельным, следует учитывать это при составлении алгоритма. Например, due to... может выглядеть как due mainly to или due in part to. Таким образом, для обработки оборотов, разорванных другими членами предложения, необходимы данные синтаксического анализа [там же, с. 275].

Стремление упростить сам процесс машинного перевода привело в своё время к возникновению идеи об искусственном языке-посреднике (интерлингве), который стал бы своего рода решением таких проблем, как полисемантичность и идиоматичность, затрудняющих и даже порой исключающих перевод без понимания смысла входного текста. Наличие такого языка во много раз сократило бы количество машинных словарей, необходимых для осуществления перевода [Ровенский, 1960, с. 52].

Данная идея в свою очередь привела к возникновению концепции «универсального семантического языка», который являлся бы независимым от ИЯ и ПЯ [Баранов, 2003, с. 171]. Примером реализации этой концепции может послужить универсальный язык UNL (Universal Network Language). UNL — это универсальный семантико-синтаксический язык, представленный для описания, хранения и распространения информации в сети Internet в независимом от какого-либо естественного языка виде [Языкознание.ру, эл. рес.].

На примере отрывка из письма мужа любовнику своей жены, взятого из учебного пособия Н.И. Дзенса «Теория и практика перевода», продемонстрируем работу одной из существующих систем машинного перевода, а именно системы семейства PROMT. В данной системе разработано практически уникальное по полноте морфологическое описание для языков, включенных в систему (английский, немецкий, испанский, итальянский, русский и т.д.). Такое описание содержит 800 типов словоизменений для русского языка, более 300 типов для немецкого и французского языков, более 250 типов для английского языка. «Множество окончаний хранится в виде древесных структур, что обеспечивает не только

эффективный способ хранения, но и эффективный алгоритм морфологического анализа» [Мамедова, 2006, с. 77].

"Sehr geehrter Herr!

Ich muss Ihnen heute einmal energisch den Kopf waschen. Ich zerbreche mir schon tagelang den Kopf, und es will mir nicht in den Kopf hinein, warum Sie sich eigentlich in den Kopf gesetzt haben, meiner Frau den Kopf zu verdrehen; ausgerechnet Sie, dem doch schon der Kopf durch die Haare wächst! Ich weiß, meine Frau ist von Kopf bis Fuß auf Liebe eingestellt. Aber Sie können sich auf den Kopf stellen, ich werde es nicht dulden, dass Sie beide die Köpfe zusammenstecken" [Дзенс, 2007, с. 169].

Перевод в нейтральном стиле:

«Глубокоуважаемый Господин!

Сегодня я вынужден с Вами серьезно поговорить. Я целый день ломаю себе голову, но никак не могу понять, почему Вы считаете, что Вы можете вскружить голову моей жене; именно Вы, в Вашем-то возрасте! Я понимаю, моя жена сильно влюбилась. Но Вы можете делать все, что угодно, я не потерплю ваших отношений за моей спиной» (перевод мой. — П.Х.).

Перевод в фамильярном, граничащем с вульгарным, стиле:

«Глубокоуважаемый Господин!

Сегодня я должен Вам основательно промыть мозги. Я уже давно ломаю себе голову, но до меня никак не доходит, с чего вы взяли, что Вы можете пудрить мозги моей жене; именно Вы, которому плешь проела голову! Я понимаю, моя жена втрескалась по уши. Но Вы можете хоть в лепешку разбиться, я не стану терпеть, чтобы Вы крутили роман за моей спиной» (перевод мой. — П.Х.).

Перевод в системе машинного перевода PROMT:

«Глубокоуважаемый господин!

Я должен мыть Вам сегодня однажды энергично голову. Я ломаю себе голову уже целыми днями, и это не хочет войти мне в голову, почему Вы сели, собственно, в голову скручивать голову моей женщины; как раз Вас, который уже голова по волосам растет! Я знаю, моя жена установлена с головы до ног на любовь. Но Вы можете становиться на голову, я не буду терпеть это, что Вы соединяете обоих головы».

Можно выделить три основных недочёта данного машинного перевода:

1. Идиоматические выражения содержат изменяемые формы и не являются цельными, они разбиты другими членами предложения, поэтому на начальном этапе должен быть проведен синтаксический анализ, чтобы исключить идиомы, однако в системе PROMT это не произошло;

2. В системе отсутствует автоматический словарь оборотов, осуществлён пословный перевод;

3. В интерфейсе программы нет возможности предварительного выбора стиля и сферы перевода.

Таким образом, несмотря на интенсивные исследования в сфере машинного перевода и перспективность данного направления, до сих пор существует ряд проблем и задач, стоящих перед разработчиками программного обеспечения, и одной из основных проблем является перевод идиоматических выражений.

Список литературы

Баранов А.Н. Введение в прикладную лингвистику: учебное пособие.

2-е изд., испр. М.: Едиториал УРСС, 2003. 360 с. Борисевич А.Д. Англо-русский автоматический словарь оборотов: (К проблеме идиоматичности при обращении текста в системе «человек— машина—человек»): Автореф. дис. ... канд. филол. наук: (10663) / БГУ им. В.И. Ленина. Минск, 1972. С. 25. Дзенс Н.И., Перевышина И.Р., Кошкаров В.А. Теория и практика перевода.

СПб.: Антология, 2007. С. 560. Зубов А.В., Зубова И.И. Основы искусственного интеллекта для лингвистов: Учеб. пособие. М.: Университетская книга; Логос, 2007. 320 с. Лингвостатистика и автоматический анализ текстов: [Язык машины]. Сб. теорет. статей / М-во высш. и сред. спец. образования БССР. Мин. гос. пед. ин-т иностр. яз. / Отв. ред. А.В. Зубов. Минск: [Мин. пед. ин-т иностр. яз.], 1973. 460 с. Мамедова М.Т., Мамедова З.Ю. Машинный перевод. Эволюция и основные

аспекты моделирования. Баку: Informasiya texnologiyalari, 2006. 156 с. Марчук Ю.Н. Проблемы машинного перевода. М.: Наука, 1983. 234с. Ровенский З., Уемов А., Уемова Е. Машина и мысль. М.: Госиздат, 1960. 139c.

Языкознание.ру. Основные модели языка, базирующиеся на семантике [Электронный ресурс] / Языкознание.ру. Режим доступа: http://yazyko-znanie.ru/content/view/85/274/

i Надоели баннеры? Вы всегда можете отключить рекламу.