УДК 81'32
ОСОБЕННОСТИ И ВИДЫ МАШИННОГО ПЕРЕВОДА
Д.Р. Головко
Аннотация. Актуальность данной работы подчеркивается тем, что в современном мире технологии развиваются с необычайной скоростью и занимают важное место в жизни почти каждого человека. Сложно себе представить такую компанию, которая не использует достижения технологического прогресса. Развитие технологий касается и работы переводчика, поскольку в прикладной лингвистике машинный перевод является одним из самых перспективных и прогрессирующих направлений развития. Основной задачей машинного перевода является облегчение работы переводчика. Целью данной работы являлось подробное ознакомление с особенностями машинного перевода, механизмами работы программ-переводчиков и степенью участия человека в процессе перевода (то есть уровнем автоматизации). Использованные методы исследования: изучение и анализ специфической литературы, классификация, обобщение. В статье были выявлены специфические особенности использования различных систем машинного перевода, их достоинства и недостатки, а также рассмотрены механизмы их работы. В заключение можно отметить, что до уровня полной автоматизации современный машинный перевод еще не дошел, и его эффективность, прежде всего, зависит от сферы, в которой он применяется.
Ключевые слова: машинный перевод, особенности перевода, технологии перевода, автоматизированный перевод, системы машинного перевода.
PECULIARITIES AND TYPES
OF MACHINE TRANSLATION TECHNOLOGIES
D.R. Golovko
Abstract. The relevance of this work is highlighted by the rapid speed at which technology develops in the modern world, the place it takes in everyday lives of almost all humans. It is hard to imagine a company that doesn't utilize the achievements of technological progress. Nowadays, machine translation is one of the most promising branches of technological development in applied linguistics, and thus, it applies to the work of translators. Currently, the main objective of the aforementioned development is providing assistance to the work of translators. The main aims of this article are as follows: detailed study of the features and peculiarities of machine translation, the mechanisms of translational programs and the degree of human involvement in the process of translation (i.e. the level of automation). While writing this article, we utilized such methods of research as study and analysis of specific literature of varied origins, as well as classification and generalization of the discovered information. As a result of writing this article, specific features and mechanisms of machine translation systems were identified, including the advantages and disadvantages thereof, and also their operation mechanisms were examined. In conclusion, it can be noted that modern machine translation has yet to reach the level of full automation, and its effectiveness primarily depends on the area in which it is applied.
Keywords: machine translation, peculiarities of translation, technologies of translation, automatic translation, systems of machine translation.
Термин «машинный перевод» может пониматься в двух различных смыслах - в широком и в узком.
В широком смысле машинный перевод - это область научных исследований, изучающая лингвистику, кибернетику и отчасти - математику, которая имеет целью построение систем, реализующих непосредственно сам машинный перевод.
В узком смысле машинный перевод является процессом перевода некоторого текста с одного естественного языка на другой, реализуемый компьютером с возможным участием
человека. Как правило, входной текст не сопровождается никакими указаниями по контексту или цели перевода, хотя это и возможно.
Машинный перевод обладает собственными разновидностями, а также специфическими стратегиями и механизмами.
При машинном переводе человек может иметь разную степень участия:
1. Предредактирование - человек вручную подготавливает текст к машинной обработке: убирает неоднозначные сочетания, в некоторых ситуациях в целом упрощает исходный текст.
2. Интерредактирование - человек вмешивается непосредственно в процесс перевода и разрешает сложившиеся сложные ситуации.
3. Постредактирование - человек обрабатывает конечный результат машинного перевода и исправляет недочеты.
4. Смешанное участие человека - любые из трех вышеперечисленных вариантов могут быть применены к одному тексту одновременно.
Перевод, выполняемый человеком, но с помощью какой-либо программы-помощника (например, компьютерного словаря) называется автоматизированным. Разновидностями машинного перевода являются:
- статистический машинный перевод;
- машинный перевод на основе примеров;
- машинный перевод на основе правил;
- нейронный машинный перевод;
- гибридный машинный перевод.
Статистическим называется перевод, основанный на сравнении больших объемов языковых пар, или корпусов текста (text corpora). Первые идеи такого перевода были предложены Уорреном Уивером в 1949 г. и были глубоко связаны с теорией вероятности и информационной теорией Клода Шеннона, американского инженера, криптоаналитика и математика.
Словарь является основой любой статистической системы перевода, и обозначается термином «таблица переводов». Схема работы такой системы выглядит следующим образом: части исходного текста анализируются компьютером и происходит их сравнение с таблицей переводов. В ней находятся несколько самых вероятных переводов для каждой части исходного текста, а затем эти части оцениваются вероятностной моделью. Наиболее вероятные значения являются конечным результатом перевода. Такой перевод был очень времяемким, поскольку в более старых компьютерах не хватало памяти для хранения всех элементов - текста оригинала и соответствующим каждой части переводам. Изначально такой перевод производился пословно, но системы статистического перевода продолжали развиваться, и стало возможным разбивать текст на другие разные части, кроме как по словам: по фразам, по предложениям или по синтаксису. Чаще всего начал использоваться перевод по предложениям. Преимуществами такого перевода являются:
1. Более эффективное использование ресурсов по сравнению с другими методами.
2. Как правило, системы статистического машинного перевода не приспособлены под какие-то конкретные пары языков.
3. Легко добавлять новые направления перевода.
Недостатками являются:
1. Недостаточное количество параллельных корпусов текста, поскольку их создание достаточно дорогое.
2. Многочисленные грамматические ошибки, исправить появление которых достаточно тяжело.
3. Статистический машинный перевод, как правило, работает хорошо только для тех пар языков, в грамматиках которых нет значительных различий по порядку слов.
Примерами систем, которые используют статистический машинный перевод являются: Google Translate (до 2016 г.), Microsoft Translater (до 2016 г.), SYSTRAN (до 2016 г.), Yandex Translate (до 2017 г.)
Все вышеуказанные примеры отказались от данной системы в пользу нейронного машинного перевода, из чего можно сделать вывод что данная система является недостаточно совершенной и проигрывает нейронному переводу.
Машинный перевод на основе примеров состоит из двуязычных параллельных корпусов, содержащих пары предложений. В систему вносится большое количество таких предложений-примеров, и процесс перевода происходит по аналогии с этими примерами. Эта идея была впервые предложена японским специалистом по компьютерным наукам Ма-кото Нагао в 1984 г. Она основана на представлении о том, что любой человек-переводчик не проделывает глубокий лингвистический анализ при переводе, а пользуется аналогией: разбивает предложение на фразы, переводит их, а затем составляет из полученных фрагментов предложение, соответствующее грамматическим и лексическим нормам языка перевода.
Алгоритм работы данной системы схож со статистическим, поскольку они используют фактически тот же самый принцип словаря, только в этом случае он состоит не из языковых пар, а из предложений-примеров. Однако, в отличие от статистического машинного перевода, здесь после поиска соответствий происходит еще и рекомбинация, и выравнивание полученного результата, чтобы текст полностью соответствовал грамматике целевого языка.
Нагао отмечал, что эта система особенно хорошо приспособлена к переводу между двумя абсолютно разными языками, например, между английским и японским. Также стоит упомянуть и то, что ее принципы делают ее хорошо приспособленной для перевода фразовых глаголов.
Машинный перевод на основе правил, также называемый классическим подходом к машинному переводу, имеет в основе грамматические, синтаксические, морфологические и семантические закономерности языков перевода и оригинала. Этот подход включает в себя три разные стратегии перевода:
1. Системы пословного перевода.
2. Трансферные системы.
3. Интерлингвистические системы.
Стратегия, применяющая системы пословного перевода, является самой старой -первым поколением в машинном переводе. Ее суть заключается в преобразовании слов или словосочетаний языка оригинала в их эквивалент на языке перевода. Моделирование функционирования всей языковой системы в целом в этом методе не предусмотрено, используются фактически исключительно только языковые соответствия, предоставленные в словаре, который задействован в данной системе машинного перевода.
Стратегия, используемая трансферными системами, является более продвинутой, поскольку задействует знания как языка оригинала, так и языка перевода. Процесс перевода происходит таким образом:
- анализ текста оригинала и определение его грамматической структуры;
- перевод грамматической структуры языка оригинала в грамматическую структуру языка перевода;
- генерация текста на языке перевода.
Данная стратегия позволяет получить достаточно точный перевод, и во многом является вполне адекватной.
Поскольку стратегия прямого перевода во многом являлась несовершенной, появились интерлингвистические системы. При таком переводе текст оригинала преобразуется в интерлингву, то есть абстрактное, независимое от правил языка оригинала, понимание текста. Затем из этой интерлингвы текст преобразуется на язык перевода. Механизмы работы данной стратегии в некотором смысле схожи с трансферной системой. Принципиальным различием является то, что интерлингвистические системы полностью независимы от грамматик обоих языков при составлении абстрактного понимания текста, а трансферные системы не отходят в своем понимании от грамматик двух задействованных в работе языков.
Проблемой данной стратегии является, непосредственно, сама интерлингва, поскольку создание такого механизма и определение «абстрактного» языка в целом являются достаточно сложными задачами.
Достоинствами, общими для всех стратегий машинного перевода на основе правил, являются:
1. Независимость от области перевода. Большая часть принципов, задействованных этими стратегиями, подходит для перевода текстов абсолютно различных направленностей.
2. Развитие данных систем может продолжаться бесконечно. Не существует такой ошибки, которую было бы невозможно исправить добавлением в систему нового конкретного правила для той или иной ситуации.
3. Тотальный контроль над механизмами перевода. Поскольку все правила, задействованные этими системами, прописаны вручную, невозможно появление неотслеживаемых ошибок. Любое нарушение в работе механизмов подлежит отладке.
Недостатками являются:
1. Высокая стоимость составления словарей.
2. Тяжесть решения проблемы многозначности.
3. Несмотря на то, что ошибку в любом правиле возможно отследить, это дорого и трудно, на это уходит много времени.
Нейронный машинный перевод использует большую искусственную нейронную сеть. Такой подход задействует лишь крошечную часть всей той памяти, которая необходима статистическому машинному переводу, то есть является намного более ресурсоемкой. Нейронная сеть - это система, состоящая из огромного количества соединенных между собой простых процессоров. Ее основной чертой является способность самообучаться в пределах одного языка, и применять полученные знания при переводе. Нейронная сеть так же использует наработки машинного перевода на основе примеров, повышая точность и адекватность перевода.
Гибридный машинный перевод стремится объединить лучшие черты всех вышеописанных методов. Он характеризуется использованием нескольких механизмов машинного перевода одновременно, в пределах одной системы. Толчком к развитию такого подхода является стремление повысить точность и адекватность машинного перевода, исключить те недочеты, с которыми сталкивается и не может успешно справиться тот или иной подход.
Следует также упомянуть и концепцию памяти переводов. Она не является системой машинного перевода, а представляет из себя базу данных, которая содержит ранее переведенные сегменты текста. Это средство используется крайне часто, поскольку сокращает время, требуемое на перевод. Если система машинного перевода находит сегмент текста, полностью соответствующий имеющемуся в базе, она не переводит его заново, а использует перевод, уже хранящийся в базе.
У этой концепции есть свои недостатки:
1. Использованный сегмент текста может быть предназначен для использования в другом контексте и не совпадать по смыслу.
2. Если в базу попадет сегмент с ошибкой, она распространится на все тексты, в которых он будет использован.
3. Разработка и обновление таких баз - достаточно дорогостоящая работа, поскольку она все еще выполняется людьми, а не происходит автоматически.
4. Современные базы переводов поддерживают не все текстовые форматы.
У машинного перевода есть несколько преимуществ, доступных исключительно благодаря его механизированной сути.
Такой перевод происходит намного быстрее, чем выполняемый человеком. Современные компьютеры развиты настолько, что преуспевают в быстрой обработке массивов информации, неподвластной пока что человеческому мозгу в его биологической форме. Несмотря на то, что быстрый перевод не всегда будет точным (и возможно получится даже несколько абсурдным), для таких вещей, как просмотр иностранной Интернет-страницы или страницы запроса поисковых систем, этого поверхностного понимания будет вполне достаточно.
Загрузить в машину новый модуль информации по какой-либо узконаправленной и специфической теме можно намного быстрее, чем обучить человека-переводчика. Это также делает машинный перевод более универсальным. Компьютер никогда не станет задаваться вопросом, что именно он переводит, - и это обеспечивает не только вышеупомянутую универсальность, но и конфиденциальность. Некоторые люди предпочтут, чтобы их личная переписка оставалась исключительно личной.
Стоит отметить и цену вопроса - некоторые программы машинного перевода фактически не требуют от пользователя никаких финансовых вложений, кроме оплаты счета за Интернет. Работа же переводчика-человека является оплачиваемым трудом.
К недостаткам машинного перевода можно отнести высокую стоимость и сложность разработки его систем. Самым большим его недостатком все еще является сравнительно низкое качество, количество допускаемых ошибок в грамматике и лексике, несвязность итогового текста. Машинный перевод все еще неспособен самостоятельно выявлять и передавать нюансы текста, такие как культурные особенности мышления, в некоторых случаях - сленг, эмоциональную окраску. Машинный перевод неустойчив и не дает одинакового, держащегося на одном уровне качества, которое можно ожидать от переводчика-человека. С некоторыми текстами компьютер справится отлично, а с другими - плохо, и способа определить, по какому принципу это происходит, пока что не существует.
Переводимость - это возможность адекватного перевода текста с языка оригинала на язык перевода.
Машинный перевод сталкивается с большим количеством проблем, как специфических (связанных с сутью компьютерных систем и механизмов), так и общих (переводчики прошлого поднимали вопросы о переводимости за долгое время до появления каких-либо систем механизированного перевода в целом). Такие знаменитые личности, как В. Гумбольдт или Г.В. Лейбниц, ставили под сомнение саму возможность адекватной передачи колорита одной культуры и национального своеобразия через язык другой национальности. И вправду, проблема многозначности при машинном переводе является одной из самых сложных прикладных задач, связанных с лексическим значением, даже если принимать во внимание, что существует и другой подход - концепция универсальной переводимости, сформированная на идеях трансформационной грамматики Н. Хомского. «Все, что выражено на одном языке, может - пусть не без труда и не без потерь - быть выражено на любом другом языке... Сказанное касается не только рациональной информации, но даже «непереводимых» стихотворений, фразеологизмов и словесных каламбуров».
Стоит упомянуть и чисто техническую сторону вопроса - машинный перевод не обладает такими врожденными механизмами, как зрение или слух, с помощью которых любой
переводчик-человек распознает непосредственно сам материал перевода. Без вовлечения других областей науки машинный перевод попросту не представляется возможным, поскольку на эту проблему ответ ищут инженеры и программисты, а не сами переводчики. Такая вещь, как индивидуальная окраска звучания, все еще является для компьютеров абсолютно недоступной не то что для передачи на переводе, а даже для распознавания в целом, поскольку еще не создано такой системы, которая сможет соединить тон и значение.
Над поиском решений всех этих проблем ведутся активные работы и исследования, и совершено уже немало прорывов и открытий, помогающих улучшать системы машинного перевода. Существующие технологии уже могут оказывать посильную помощь в работе переводчика, предоставлять черновые варианты перевода текстов, которые в некоторых ситуациях быстрее отредактировать, чем переводить вручную с самого начала.
Несмотря на то, что современные компьютерные программы перевода уже достаточно адекватны по некоторым параметрам, и совершенствуются изо дня в день, на глазах улучшают результаты перевода в самых распространенных языках, они все же до сих пор не всегда справляются с задачей правильного подбора контекстуально необходимого варианта перевода. Контекст - это законченная в смысловом отношении часть текста, и от него зависит решение переводчика по применению того или иного эквивалента. Без контекста сложно понять точный смысл отдельных слов. Соответственно, и выбрать правильный эквивалент при переводе становится намного сложнее. Машинному переводу пока что неподвластен анализ контекста на том же уровне, что человеку-переводчику. Удачное решение данной проблемы важно не только для машинного перевода, но и для других систем обработки текстов - программ поиска и классификации.
Также проблему многозначности представляет грамматическая и лексическая полисемия, то есть многозначность внутри одного и того же слова. Лексическая полисемия подразумевает способность одного слова обозначать несколько предметов или явлений. Грамматическая - совпадение разных грамматических форм одной лексемы.
Существует два основных вида решения этой проблемы: автоматический и интерактивный (так же называемый диалоговым или полуавтоматическим).
Автоматический метод подразумевает полностью компьютерное решение проблемы, например, с помощью фильтров, которые сужают спектр возможных значений. Такими фильтрами могут служить правила сочетаемости лексем.
Интерактивный метод подразумевает участие человека-редактора в решении сложных моментов, где компьютер предлагает на выбор несколько вариантов перевода. Также редактор может составлять свои смысловые дополнения с помощью опорного толкового словаря языка перевода.
Для перевода многозначных слов могут использоваться контекстологические словари, в которых для каждого многозначного слова указывается его приоритетный переводной эквивалент для какой-либо конкретной предметной области.
Проблема многозначности будет считаться решенной, если для слов будут подобраны их регулярные значения как для обычных использований в предложении, так и метафорических.
Библиографический список
1. Зубов А.В. Информационные технологии в лингвистике: учебное пособие для студентов лингвистических факультетов высших учебных заведений. М., 2004.
2. Кулагина О.С. О современном состоянии машинного перевода // Математические вопросы кибернетики. Вып. 3. М., 1991.
3. Марчук Ю.Н. Компьютерная лингвистика: учебное пособие. М., 2007.
4. Нелюбин Л.Л. Компьютерная лингвистика и машинный перевод. М., 1991.
5. Ревзин И.И., Розенцвейг В.Ю. Основы общего и машинного перевода. М., 1964.
6. Рябцева Н.К. Информационные процессы и машинный перевод. Лингвистический аспект. М., 1986.
7. Семенов А.Л. Современные информационные технологии и перевод: учебное пособие для студентов переводческих факультетов высших учебных заведений. М., 2008.
8. Фролов С.В., Панькова Д.А. Проблемы построения систем машинного перевода. М., 2008.
9. Шевчук В.Н. Информационные технологии в переводе. Электронные ресурсы переводчика. М., 2013.
Д.Р. Головко
Студент
Московский информационно-технологический университет -Московский архитектурно-строительный институт E-mail: [email protected]