Научная статья на тему 'Машинный перевод: история, классификация, методы'

Машинный перевод: история, классификация, методы Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
6632
1403
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАШИННЫЙ ПЕРЕВОД / ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА / КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА / АВТОМАТИЧЕСКОЕ ПОНИМАНИЕ ТЕКСТОВ

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Дроздова К.А.

В статье рассмотрены основные достижения за всю историю существования машинного перевода. Автором представлены основные виды действующих систем машинного перевода, произведен их анализ и сравнение, описаны нерешенные проблемы автоматического понимания и перевода текстов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MACHINE TRANSLATION: HISTORY, CLASSIFICATION, METHODS

The paper presents the major developments in the entire history of machine translation. The author presents the main types of machine translation systems. They are analyzed and compared. The author also describes unsolved problems of automatic understanding and translation of texts.

Текст научной работы на тему «Машинный перевод: история, классификация, методы»

УДК 81'322.4

МАШИННЫЙ ПЕРЕВОД: ИСТОРИЯ, КЛАССИФИКАЦИЯ, МЕТОДЫ

В статье рассмотрены основные достижения за всю историю существования машинного перевода. Автором представлены основные виды действующих систем машинного перевода, произведен их анализ и сравнение, описаны нерешенные проблемы автоматического понимания и перевода текстов.

Ключевые слова: машинный перевод, обработка естественного языка, компьютерная лингвистика, автоматическое понимание текстов.

К. А. Дроздова K. A. Drozdova

Научный руководитель: М. И. Левин, профессор Research supervisor: M. I. Levin, professor

MACHINE TRANSLATION: HISTORY, CLASSIFICATION, METHODS

The paper presents the major developments in the entire history of machine translation. The author presents the main types of machine translation systems. They are analyzed and compared. The author also describes unsolved problems of automatic understanding and translation of texts.

Keywords: machine translation, natural language processing, computational linguistics, automatic understanding of texts.

В середине прошлого века родилась идея о том, чтобы переводить тексты с одного языка на другой автоматическим способом без помощи человека. Несмотря на то, что эта задача до сих пор не имеет удовлетворительного решения, за последнее время в этой области достигнут существенный прогресс, а сама постановка проблемы дала почву для развития новых лингвистических теорий [1; 2].

Датой рождения машинного перевода можно считать 1954 г.: именно в этот год произошла публичная демонстрация перевода с помощью вычислительной техники. В истории это событие носит название «Джорджтаунский эксперимент» - по имени университета, который совместно с компанией IBM участвовал в его подготовке.

Эксперимент заключался в следующем: машине на входе подавалось около 60 предложений на русском языке, записанных на перфокартах, а машина, в свою очередь, выдавала перевод этих предложений на английский язык. Выбор языка, с которого осуществлялся перевод, был обусловлен начинающейся холодной войной и необходимостью в связи с этим анализировать огромные объемы информации, поступающие на русском языке. Для перевода была выбрана достаточно узкая тематика нефтехимии, и все вводимые предложения были очень простыми: «Обработка повышает качество нефти», «Командир получает сведения по телеграфу». При таких условиях эксперимент оказался вполне успешным, более того, появилось мнение, что задача машинного перевода полностью решится в течение ближайших пяти лет. Однако дальнейшие годы исследований показали, что проблема машинного перевода гораздо сложнее и многограннее, чем ожидалось.

Системы машинного перевода за долгие годы претерпели значительные изменения. Так, первое поколение систем, которое принято датировать до середины 1960-х гг., приближено по своей технике к пословному переводу: каждому слову или речевому обороту в исходном тексте подбирается эквивалент на выходном языке, найденный в словаре. Системы первого поколения не обладали возможностями решения проблем многозначности,

не проводили никакого лингвистического анализа, в связи с чем выдавали довольно низкое качество перевода.

Следующий период развития систем машинного перевода (середина 1960-1970-х гг.) называют вторым поколением. Их внутреннее устройство несколько сложнее, чем у первого поколения: вместо пословного перевода для каждого предложения строится своя синтаксическая структура, основанная на правилах грамматики входного языка. После этого структура преобразовывается в синтаксическую структуру выходного языка, а затем выполняется подстановка слов из словаря, т. е. синтез предложения на выходном языке.

На этом этапе в технике машинного перевода уже широко применялись методы как морфологического, так и синтаксического анализа, что существенно улучшило качество выходных текстов, однако оставались трудности, связанные с семантикой. В связи с этим следующим этапом в развитии машинного перевода можно считать 1980-е гг., когда впервые появляются системы семантического типа. К этому классу относятся системы машинного перевода, в основу которых легла теория «Смысл ^ Текст».

Теория «Смысл ^ Текст» была создана прежде всего И. А. Мельчуком; активное участие в разработке также принимали два других советских лингвиста - Ю. Д. Апресян и А. К. Жолковский. Данная теория представляет собой многоуровневую модель, позволяющую перейти от текста к его смысловой структуре, записанной на некотором универсальном языке, после чего совершить обратный переход от записанной смысловой структуры к любому естественному языку. Переход от текста к смыслу и обратно происходит не непосредственно, а в несколько этапов. Выделяют шесть уровней этого перехода. Предельные уровни: фонологический и семантический; промежуточные уровни: поверхностно-морфологический, глубинно-морфологический, поверхностно-синтаксический и глубинно-синтаксический. Семантический уровень описывается графом, синтаксические уровни - в виде дерева зависимостей, а морфологические и фонологический уровни - линейно.

Несмотря на универсальность и весь потенциал данной теории, ее применение в системах машинного перевода пока не дало качественного прорыва. Десятилетия исследований по машинному переводу показали, насколько на самом деле велики трудности перехода от естественного языка к универсальному метаязыку, хранящему в себе смысл текста.

В дополнение к сказанному стоит упомянуть появление интерактивных систем машинного перевода, в которых на разных стадиях перевода привлекается участие человека. Такое участие может быть выражено в разных формах:

- Постредактирование: человек редактирует уже переведенный машиной текст.

- Предредактирование: человек редактирует входной текст, приспосабливая его для более легкого понимания машиной.

- Частично автоматизированный перевод: человек и машина взаимодействуют в процессе перевода. Например, использование человеком электронных словарей при переводе; участие человека в процессе машинного перевода для разрешения трудностей.

- Смешанные системы: например, с пост- и предре-дактированием.

Из всех разработанных ранее систем машинного перевода на сегодняшний день существует два основных, самых распространенных типа: основанный на правилах и основанный на статистике. Рассмотрим подробнее каждый из них.

Системы, основанные на правилах, по сути являются системами второго поколения. Среди них можно выделить два подтипа: трансферные и интерлингвистические, которые в своем фундаменте имеют общую идею - связь структуры входного и выходного предложения.

Трансферные системы включают в себя три этапа: анализ, трансфер и синтез. Для создания внутреннего представления сначала производится морфологический, лексический и семантико-синтаксический анализ входного текста. Затем для каждого предложения строится дерево разбора и производится так называемый трансфер: преобразование структуры входного предложения с учетом требований языка перевода. Последним этапом является синтез, т. е. формирование выходного предложения. Классическим примером трансферной системы перевода может служить распространенная система PROMT.

В основе интерлингвистических систем лежит идея существования универсального метаязыка, представляющего смысл предложения на любом естественном языке. Такие системы включают в себя два этапа: анализ и синтез. На этапе анализа входной текст трансформируется при помощи словаря и грамматических правил исходного языка в представление на универсальном метаязыке. На втором этапе это представление преобразуется в предложение выходного языка при помощи словаря и грамматических правил языка перевода. Основным недостатком такого типа систем является до сих пор не разрешенная проблема нахождения универсального для всех естественных языков смыслового представления.

Основными преимуществами систем, основанных на правилах, является высокая точность перевода. Однако

вместе с ней нередко появляется некоторый «машинный» акцент, неестественность выходного текста.

В конце ХХ в. стал доминировать статистический подход машинного перевода. Как можно догадаться, статистический перевод основывается не на правилах, а на статистике. Основной метод такого перевода - обучение машины посредством предоставления достаточно большого (сотни тысяч) количества параллельных текстов - содержащих одинаковую информацию на разных языках.

Рассмотрим методы статистического перевода на примере тех, которые использует «Яндекс» в системе «Ян-декс.Перевод», которая состоит из трех этапов: модель перевода, модель языка и декодер.

Модель перевода для пары языков представляет собой таблицу, состоящую из всех известных машине слов и фраз входного языка и их переводов на выходной язык с указанием вероятности такого перевода. Система учитывает не только отдельные слова, но и речевые обороты, состоящие из нескольких слов. Далее идет модель языка, на который необходимо перевести текст, - список, состоящий из всех встречаемых в предоставленных текстах слов и словосочетаний вместе с частотой их использования. Декодер занимается процессом перевода: для каждого предложения исходного текста подбираются все варианты перевода, фразы из модели перевода комбинируются и располагаются в порядке убывания вероятности. Таким образом, модель языка, основываясь на статистических данных, подсказывает декодеру, какой вариант перевода больше подходит данной фразе.

Основным преимуществом статистических систем является их качество не отставать от развития и подвижности языка: если в языке происходят какие-либо изменения, система сразу это распознает и самостоятельно обучается. Статистические системы также обладают высокой гладкостью, т. е. выдаваемый текст похож на речь, произнесенную человеком. Однако для существования такой системы необходимы серьезные технические ресурсы, качественные параллельные тексты большого объема. Еще одним существенным недостатком такой системы является отсутствие чувствительности к тонкой структуре текста, из-за чего в выходном тексте может содержаться большое количество грамматических ошибок.

В настоящее время существуют и развиваются высококачественные системы машинного перевода, на помощь которым приходят новые информационные технологии и корпусная лингвистика, но, несмотря на это, до сих пор существует ряд проблем для осуществления задач машинного перевода. Например, одной из главных сложностей машинного перевода является принципиальная неоднозначность языка. Так, при переводе на английский язык выражения «партия рабов», возникает проблема с определением того, какой смысл имеет это высказывание. Это может быть политическая партия, которую создали рабы, тогда выражение нужно переводить как «party of slaves». Либо это выражение можно трактовать как обозначение группы рабов, выставленной на продажу или привезенной на континент, тогда правильным переводом будет «consignment of slaves». Эта проблема делает необходимым понимание контекста предложения

Гуманитарные исследования • 2015 • № 3 (7)

157

автоматическим переводчиком, что, конечно, на порядок усложняет задачу.

Еще одна задача для улучшения качества перевода -обучить машину понимать текст как единое целое. Это необходимо при переводе машиной заголовков, подписей и других изолированных от контекста частей. Существует также необходимость подключения компонента специальных знаний в лингвистические процессоры.

Полное решение задачи машинного перевода до сих пор не реализовано ни в одном проекте, однако развитие новых лингвистических теорий, современные достижения в области машинного обучения, развитие электронных словарей, тезаурусов, прогресс вычислительной техники оставляют надежду на то, что в буду-

щем удастся получить удовлетворительное решение этой задачи.

1. Кузнецов П. С., Ляпунов А. А., Реформатский А. А. Основные проблемы машинного перевода // Вопр. языкознания. 1956. № 5. С. 40-44.

2. Леонтьева Н. Н. Автоматическое понимание текстов: системы, модели, ресурсы : учеб. пособие. М. : Академия, 2006. 303 с.

© Дроздова К. А., 2015

i Надоели баннеры? Вы всегда можете отключить рекламу.