Научная статья на тему 'О ДИНАМИКЕ РАЗВИТИЯ ОСНОВНЫХ КОНЦЕПЦИЙ АВТОМАТИЗИРОВАННОГО ПЕРЕВОДА'

О ДИНАМИКЕ РАЗВИТИЯ ОСНОВНЫХ КОНЦЕПЦИЙ АВТОМАТИЗИРОВАННОГО ПЕРЕВОДА Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
798
156
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАШИННЫЙ ПЕРЕВОД / АВТОМАТИЗИРОВАННЫЙ ПЕРЕВОД / ДЕШИФРОВКА / НЕЙРОСЕТЕВОЙ ПЕРЕВОД / СТАТИСТИЧЕСКИЙ ПЕРЕВОД / MACHINE TRANSLATION / AUTOMATED TRANSLATION / DECRYPTION / NEURAL MACHINE TRANSLATION / STATISTICAL MACHINE TRANSLATION

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Кузьмин О. И.

На протяжении всей истории развития автоматизированного перевода существовали определенные трудности, связанные прежде всего с семантико-стилистическим богатством естественного языка, а также с невозможностью формализации экстралингвистических знаний на программном уровне. Реализация полностью автоматизированного перевода высокого качества является одной из актуальных задач компьютерной лингвистики на сегодняшний день. Статья содержит описание этапов развития автоматизированного перевода, анализ особенностей характерных для каждого этапа, а также динамику развития основных концепций автоматизированного перевода. В завершение сделаны выводы и спрогнозированы определенные тенденции развития систем автоматизированного перевода с учетом существующих проблем.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE DYNAMICS OF DEVELOPMENT OF THE MAIN CONCEPTS OF AUTOMATED TRANSLATION

Throughout the history of the development of automated translation, there have been certain difficulties related, first of all, to the ambiguity of natural language, as well as with the inability to formalize extralinguistic knowledges at the software level. Implementation of fully automated high-quality translation from one natural language to another is today one of the most relevant tasks of computational linguistics. This article describes the stages of development of automated translation systems, contains the features typical for each stage, as well as the dynamics of the development of the main concepts of automated translation. At the end were made conclusions and predicted certain trends in the development of automated translation systems within the existing problems.

Текст научной работы на тему «О ДИНАМИКЕ РАЗВИТИЯ ОСНОВНЫХ КОНЦЕПЦИЙ АВТОМАТИЗИРОВАННОГО ПЕРЕВОДА»

УДК 81'33

О. И. Кузьмин

аспирант кафедры прикладной и экспериментальной лингвистики Института прикладной и математической лингвистики Московского государственного лингвистического университета; е-таН: oleg.kuzmin.999@mail.ru

О ДИНАМИКЕ развития ОСНОВНЫХ КОНЦЕПЦИЙ автоматизированного перевода

На протяжении всей истории развития автоматизированного перевода существовали определенные трудности, связанные прежде всего с семантико-стилистическим богатством естественного языка, а также с невозможностью формализации экстралингвистических знаний на программном уровне. Реализация полностью автоматизированного перевода высокого качества является одной из актуальных задач компьютерной лингвистики на сегодняшний день. Статья содержит описание этапов развития автоматизированного перевода, анализ особенностей характерных для каждого этапа, а также динамику развития основных концепций автоматизированного перевода. В завершение сделаны выводы и спрогнозированы определенные тенденции развития систем автоматизированного перевода с учетом существующих проблем.

Ключевые слова: машинный перевод; автоматизированный перевод; дешифровка; нейросетевой перевод; статистический перевод.

О. I. Kuzmin

PhD Student, Department of Theoretical,

Experimental and Applied Linguistics, Moscow State Linguistic University; e-mail: oleg.kuzmin.999@mail.ru

THE DYNAMICS OF DEVELOPMENT OF THE MAIN CONCEPTS OF AUTOMATED TRANSLATION

Throughout the history of the development of automated translation, there have been certain difficulties related, first of all, to the ambiguity of natural language, as well as with the inability to formalize extralinguistic knowledges at the software level. Implementation of fully automated high-quality translation from one natural language to another is today one of the most relevant tasks of computational linguistics. This article describes the stages of development of automated translation systems, contains the features typical for each stage, as well as the dynamics of the development of the main concepts of automated translation. At the end were made conclusions and predicted certain trends in the development of automated translation systems within the existing problems.

Key words: machine translation; automated translation; decryption; neural machine translation (NMT); statistical machine translation (SMT).

Введение

Сегодня едва ли возможно представить современный мир без технологий автоматизированного перевода. Каждый день ежесекундно совершаются миллиарды онлайн-операций по переводу не только отдельных слов, но и целых предложений, текстов. Автоматизированный перевод прошел огромный путь развития от серверов, занимавших целые комнаты и даже этажи, до портативных малогабаритных устройств. В 50-е годы XX века людям, у которых была потребность перевести какое-либо иностранное слово, название бренда на этикетке или отрывок из газеты, приходилось часами листать бумажные словари в поисках нужного слова или значения. Сегодня это кажется довольно смешным и нелепым явлением. И всё это благодаря стремительному развитию современных технологий, основанных на прогрессе вычислительной техники. Практически всё языковое богатство человечества автоматизировано и находится в общем доступе. Невозможно недооценить доступность, простоту и удобство компьютерных переводчиков. Однако, несмотря на видимое и неоспоримое значение современных технологий в нашей повседневной жизни, не все проблемы решаются с помощью алгоритмов, кодов, нейросетей и статистики. В статье приводится информация не только о том, как зарождались и развивались технологии автоматизированного перевода, но и указываются основные проблемы и задачи, которые стоят перед специалистами в области компьютерной лингвистики в ближайшее время.

Автоматизированный перевод как новая область научных исследований

Автоматизированный перевод (АП) как направление научных исследований зародился в середине прошлого века. Первые разработки были связаны прежде всего с сопоставлением естественного языка и кодовой системы. В этой связи стоит отметить и упомянуть двух специалистов: Уоррена Уивера и Норберта Винера. Они впервые попытались применить задачу дешифровки к лингвистическим исследованиям. В 1949 году Уивер опубликовал меморандум, в котором он теоретически описал и смоделировал систему АП [Weaver 1949]. Меморандум Уивера заложил основу развития АП. Впервые ученым была предложена концепция «интерлингва» (interlingva - язык-посредник).

Несмотря на современные достижения и многочисленные открытия в области информационных и компьютерных технологий, многие проблемы АП остаются актуальными и нерешенными до сих пор. Однако в те годы именно изобретение принципиально новых вычислительных систем ЭВМ позволило взглянуть по-новому на проблему АП. 7 января 1954 года компания IBM совместно с Джорджтаунским университетом (США) представили и продемонстрировали новую систему АП - IBM Mark II, более известную под аббревиатурой GAT (Джорджтаунский автоматизированный переводчик). Однако лексический запас данной системы был весьма скуден и составлял всего лишь 250 слов по заранее отобранной тематике [Nirenburg, Wilks, Somers 2003]. Демонстрация для того момента времени выглядела очень убедительной и впечатляющей. Сразу же в прессе появились упоминания о волшебных и невероятных способностях умной чудо-машины. Журналисты и ученые были глубоко убеждены, что через несколько лет АП почти полностью заменит классический перевод [Hutchins 2005].

Эксперимент IBM дал мощный толчок развитию технологий АП, однако все новые проекты вызывали огромные трудности, с которыми на тот момент невозможно было справиться. Несмотря на новаторские подходы, качество перевода оставляло желать лучшего, да и проблему полисемии решить было невозможно. В конечном итоге это направление сочли бесперспективным и про него забыли на долгие годы.

Автоматизированный перевод в СССР.

Первые коммерческие системы АП

Ключевым поводом к возобновлению работы и дальнейшему развитию систем АП стал тот факт, что лингвисты и исследователи в этой области обратили внимание на концепцию существования профессиональных подъязыков. Это позволило по-новому посмотреть на проблему АП и предложить новые пути решения тех вопросов, которые раньше считались нерешаемыми.

В 30-е годы XX века ученые СССР впервые заговорили о разработке технологий АП. Так появилась разработка советского инженера Смирнова-Троянского, которую в академических кругах восприняли довольно скептически [Бельская, Королев, Панов 1959]. В 50-е годы необходимо отметить Ю. Н. Марчука, который одним из первых начал

заниматься проблемами АП и через некоторое время возглавил Всесоюзный центр переводов. Ему удалось смоделировать систему АП и продемонстрировать на практике особенности ее работы. Ю. Н. Мар-чук является автором многих книг и учебных пособий по автоматизированному переводу [Марчук 1983].

В 60-е годы нельзя не отметить создателей лингвистического процессора ЭТАП И. А. Мельчука и Ю. Д. Апресяна. В своем знаменитом труде под названием «Смысл - Текст» И. А. Мельчук утверждал, что человек имеет способность смыслового выражения одного и того же факта с помощью различных лингвистических средств, используя методы перефразирования [Мельчук 1974].

В эти же годы Р. Г. Пиотровский создал Научно-исследовательскую лабораторию инженерной лингвистики и занимался разработкой первой коммерческой системы АП, которая позднее приобрела мировую известность как PROMT [Пиотровский 1975].

В конце 70-х годов появился первый в истории коммерческий АП - SYSTRAN. Причиной его появления стал возросший спрос на технологию быстрого перевода новостей, статей и документов.

В 80-90-е годы на кафедре прикладной и экспериментальной лингвистики Московского государственного лингвистического университета под руководством Р. К. Потаповой был проведен ряд исследований, где особое внимание было уделено разработке программ автоматизированного перевода [Потапова 1997]. Даже на сегодняшний день, учитывая тот факт, что системы АП улучшились и приблизились к уровню человека, невозможно обойтись без пред- и постредактирования [Potapova, Oskina 2015].

Виды современного автоматизированного перевода

Среди видов современного АП можно выделить статистический метод АП (SMT). Он выявляет вероятность, с которой то или иное предложение может быть переводом анализируемого предложения. На сегодняшний день системы статистического перевода являются наиболее эффективными среди других систем АП, однако имеют свои определенные недостатки, которые нельзя не принимать во внимание. Так, например, в онлайн-переводчиках нет подразделения на профессиональные подъязыки (например, язык математики, философии, журналистики). Для улучшения качества перевода необходимо разработать

словари подъязыков и использовать данные предметной области. При работе с системами автоматизированного перевода с одного языка на другой необходимо создать четкие критерии оценки этих систем. К примеру, создается «универсальная система оценки автоматических систем обработки текста на базе нечеткой логики, способная оценивать эффективность разнообразных интеллектуальных систем по комплексу изменяемых критериев» [Максименко 2003, с. 10]. По мнению О. И. Максименко, аппарат нечеткой логики наилучшим образом подходит для описания условий и метода решения слабо формализованных и трудно формализуемых задач, с которыми зачастую имеет дело прикладная лингвистика, на языке близком к естественному [там же]. Несомненно, ни одна система-онлайн перевода не может правильно и корректно переводить профессиональную терминологию (сокращения, названия организаций, контекстуальная лексика). Для этих задач подходят современные словари-тезаурусы, такие как «ABBYY Lingvo», «Multitran», общеязыковой тезаурус «WordNet», а также системы контекстуального поиска переводов, позволяющие найти, как слова и фразы переводились людьми в существующих билингвисти-ческих текстах «Reverso», «Linguee». Данные словари помогают переводчикам в профессиональной деятельности разрешить проблему многозначности слов, найти нужный эквивалент в языке перевода при постредактировании. На сегодняшний день системы онлайн-перевода предоставляют быстрый вариант подстрочного перевода и в целях экономии времени многие переводчики используют их в своей профессиональной деятельности. Однако без специальных онлайн-словарей для перевода контекстуальных слов-терминов обойтись невозможно. Необходимо отметить, что существующие онлайн-словари носят лишь рекомендательный характер, они не делают никаких решений о выборе значения слова за человека, а предлагают наиболее вероятный вариант из существующих, опираясь на чистую статистику и цифры. В тексте каждый отдельный случай употребления того или иного слова и его значения является уникальным явлением, это невозможно алгоритмизировать. Проблема выбора нужного значения слова кажется достаточно сложной для профессионального лингвиста, а для систем автоматического перевода она и вовсе является невыполнимой. «Разрешение лексической многозначности может обеспечить прорыв в обработке больших массивов данных, а также внести вклад

в разработку семантической паутины (semantic web). Потенциал разрешения лексической многозначности также оправдан при разработке систем машинного перевода»1 [Navigli 2009, с. 2]. Даже если удастся внедрить в систему онлайн-переводчика возможность разрешения полисемии, остается более сложная проблема формализации знаний и представлений о мире, которые существуют у человека. Семантический уровень языка является в ближайшие годы наиболее труд-ноформализируемым из всех уровней языка ввиду своей абстрактности. При разработке систем автоматической обработки текстов на естественном языке главные препятствия создает лингвистическая сторона проблемы. При этом семантическая сторона вопроса играет главенствующую роль. Несмотря на то, что многие трудности в синтаксическом анализе фразы решены, остаются еще сложные проблемы семантического описания, которые во многом определяют окончательный успех дела. В связи с этим возникает острая необходимость совершенствования систем семантической обработки текстов.

Нейросетевой метод АП (NMT)

Нейросетевой подход имеет массу преимуществ перед статистическим подходом. Искусственный интеллект использует для обучения абсолютно любую базу данных, и чем больше база данных, тем выше качество перевода. Важным аспектом в данной области будет являться также и количество слоев обучения, заданных программе.

АП на современном этапе его развития представляет собой сочетания правил, статистики и нейронных сетей. Такой подход называется комбинированной, или гибридной, системой перевода (HMT). Современные переводческие онлайн-системы, такие как «Яндекс» и «Google», c недавнего времени перешли на комбинированную систему перевода. Это означает, что SMT и NMT работают в связке и дополняют друг друга. Там, где не справляется с переводом SMT ему на помощь приходит алгоритм NMT. Это существенно повышает качество перевода. Однако стоит отметить, что, несмотря на, казалось бы, явный технологический прогресс, без главенствующей роли человека (специалиста в своей области) перевод по-прежнему невозможен.

1 Зд. и далее перевод наш. - О. К

Современный этап развития систем автоматизированного перевода.

Статистика, нейросети и сервисы онлайн-перевода

В 1991 году была основана хорошо известная компания PROMT, ее название - это аббревиатура от PROject of Machine Translation1. Данная программа используется достаточно активно и сегодня миллионами пользователей по всему миру. PROMT впервые предложила пользователям выбор предметной области (например, медицина, компьютеры, деловой язык) в зависимости от текстов, с которыми работает человек. Это было, действительно, необычно и вносило какое-то новаторство в стереотипные статистические методы автоматизированного перевода. Этот подход помогал также находить наиболее точные значения в рамках одного подъязыка.

Сегодня наиболее популярными сервисами онлайн-перевода являются «Google Translate» и его прямой конкурент «Яндекс. Перевод». Однако существуют и другие менее популярные системы, такие как «Microsoft Translater» и PROMT.

Конечно, если сравнивать качество двух основных систем онлайн-перевода, то «Google Translate» имеет в своем распоряжении миллиарды пользователей по всему миру за счет поисковой системы «Google» и, соответственно, его база данных сегодня самая обширная в мире. «Яндекс. Перевод» широко используется только в России и странах СНГ и, следовательно, имеет меньше данных в своей базе. Таким образом, исходя из приведенного аргумента можно сделать очевидный вывод о том, что «Google Translate» на данный момент переводит лучше остальных онлайн-переводчиков из-за большой статистической базы текстов, в отличие от своих конкурентов. Если рассматривать систему «Яндекс. Перевод», то данная система обучается на статистике Рунета и опирается на русскоязычные тексты, следовательно, качество перевода на русский язык у системы «Яндекс. Перевод» будет выше. С точки зрения профессиональной терминологии перевод «Google Translate» будет более точным из-за большого количества содержащихся в его поисковых и веб-сервисах лексических единиц, которые относятся к самым различным областям (начиная от бытовых и заканчивая научными). Данные лексические единицы хранятся в обширных базах, на серверах компании «Google» и многократно

1 URL: https://www.promt.ru/company/fakty/

используются, дополняются, что приводит к более точному языковому описанию предметных областей.

C 2017 года на просторах Интернета появилась новая система онлайн-перевода, разработанная компанией «DeepL GmbH». Данная система основана на сверточных нейронных сетях, обученных на основе базы «Linguee»1. Это первая система онлайн-перевода, которая использует такие технологии. Ранее конкуренты «Яндекс» и «Google» использовали рекуррентные нейронные сети или статистический перевод. На странице официального сайта «DeepL» отмечено, что лежащие в их основе нейронные сети превосходят конкурентов. Графики статистик качества переведенных текстов из разных областей показывают разницу в качестве и превосходство переводчика «DeepL» над «Google» и «Microsoft». Оценкой переводов занимались профессиональные переводчики, которые не имели информации о том, какая система выполнила тот или иной перевод2.

Стоит отметить, что сегодня идет работа с корпусами текстов, на которых обучаются нейросети и различные веб-алгоритмы поиска. Существует ряд научных проектов, например Национальный корпус русского языка3, основанный на собрании русских текстов в электронной форме. Сайт корпуса и поисковая система поддерживаются компанией «Яндекс». Специалисты по корпусной лингвистике и программисты занимаются разметкой текстов для выявления качественных характеристик, скрытых в них. Система разметки постоянно совершенствуется. Каждый корпус текста в Интернете на любом языке изобилует терминологией. Термины относятся к определенным подъязыкам и предметным областям, перевод которых на другой язык подобрать достаточно проблематично. Таким образом возникают лакуны: национально-специфические элементы культуры, которые присутствуют в одном языке, но могут отсутствовать в другом по тем или иным причинам. Исходя из этого, возникает вполне понятная и очевидная проблема. Многие профессиональные подъязыки предметных областей на сегодняшний день либо полностью отсутствуют или описаны крайне скудно, до сих пор не существует системности в этом аспекте. Стоит отметить, что, осуществляя перевод с одного

1 URL: https://www.linguee.ru/

2 URL: https://www.deepl.com/ru/quality.html

3 URL: https://ruscorpora.ru/new/

языка на другой, необходимо понимать, к какой предметной области, к какому подъязыку относится конкретное слово. Разработка систем, основанных на профессиональных подъязыках, которые умеют правильно ими манипулировать, получат существенный прирост в качестве перевода, а также ускорят развитие систем АП.

Заключение

На сегодняшний день можно отметить явно сложившийся симбиоз человека и компьютера. Однако не стоит предаваться мечтам о футуристическом мире. К сожалению, до сих пор даже сверхмощные и быстрые компьютеры не способны полностью заменить интеллектуальные и творческие способности среднестатистического человека. Компьютер прекрасно дополняет и расширяет возможности человека там, где это необходимо. Например, в случае с хранением большого количества информации справляться лучше будет компьютер. Однако в творческих проявлениях, где речь идет о создании новых текстов, с этим справится лучше человек.

При переводе терминов профессиональных подъязыков у систем АП возникают определенные ошибки, которые предлагается если не ликвидировать, то минимизировать с помощью создания глоссариев и словарей данных подъязыков. Многие подъязыки на сегодняшний день плохо описаны и формализованы, нет единой системы при работе с профессиональными терминами предметной области. В разных странах существуют свои определения, своя профессиональная терминология, эквивалентов которым не существует при переводе на другой язык. АП не умеет отыскивать такие слова, а тем более переводить их на нужный язык. Исходя из данного аргумента, возникает необходимость создания и использования специально обученной электронной системы, в которую будут заложены эти профессиональные термины и специфичная для этой области лексика, что в дальнейшем позволит усовершенствовать качество АП в пределах одного подъязыка.

Невозможно отрицать технологический прорыв, благодаря которому появились технологии АП, которыми большинство населения планеты сегодня активно пользуется. Сегодня в распоряжении пользователей большое разнообразие как онлайн-сервисов, мобильных переводчиков, электронных словарей, так и удобных мобильных

приложений, которые всегда под рукой, даже когда нет подключения к Интернету. Такое положение дел еще полвека назад казалось немыслимым и фантастическим. Однако не все вопросы АП решены полностью. До сих пор допускается множество ошибок из-за невозможности формализации многих лингвистических явлений. Наш язык слишком богат и сложен, чтобы его можно было описать цифрой.

СПИСОК ЛИТЕРАТУРЫ / REFERENCES

Бельская И. К., Королев Л. Н., Панов Д. Ю. Переводная машина П. П. Троянского: сборник материалов о переводной машине для перевода с одного языка на другие, предложенной П. П. Троянским в 1933 г. М.: Академия наук СССР, 1959. [Belskaya, I. K., Korolev, L. N., Panov, D. Yu. (1959). Perevodnaya mashina P. P. Trojanskogo. (P. P. Troyansky's translation machine): a collection of materials about a translation machine for translation from one language into others, proposed by P. P. Troyansky in 1933. Moscow: Akademia nauk SSSR. (In Russ.)]. Максименко О. И. Формальные методы оценки эффективности систем автоматической обработки текста: автореф. дис. ... д-ра филол. наук. М., 2003. [Maksimenko, O. I. (2003). Formalnyje metody ocenki effektivnosti sistem avtomaticheskoj obrabotki teksta. (Formal methods for assessing the effectiveness of automatic text processing systems): abstract of Senior Doctorate in Philology. Moscow. (In Russ.)]. Марчук Ю. Н. Проблемы машинного перевода. M.: Наука, 1983. [Marchuk, Yu. N. (1983). Problemy mashinnogo perevoda. (Machine translation problems). Moscow: Nauka. (In Russ.)]. Мельчук И. А. Опыт теории лингвистических моделей «Смысл - Текст»: Семантика, синтаксис. М.: Языки русской культуры, 1999. [Mel'chuk, I. А. (1999). Opyt teorii lingvisticheskih modelej «Smysl - Tekst»: Semantika, sintaksis. (Experience of the theory of linguistic models "Meaning - Text": Semantics, syntax). Moscow: Jazyki russkoj kul'tury. (In Russ.)]. Пиотровский Р. Г. Текст, машина, человек. Л.: Наука, 1975. [Piotrovskij, R. G. (1975). Tekst, mashina, chelovek. (Text, machine, man). Leningrad: Nauka. (In Russ.)].

Потапова Р. К. Речь: коммуникация, информация, кибернетика. М.: Радио и связь, 1997. [Potapova, R. K. (1997). Rech: kommunikatsija, informatsija, kibernetika. (Speech: communication, information, cybernetics). Moscow: Radio i svjaz. (In Russ.)]. Hutchins J. The History of Machine Translation in a Nutshell, 2005. URL: http:// www.hutchinsweb.me.uk/Nutshell-2005.pdf.

Navigli R. Word Sense Disambiguation: a Survey // ACM Computing Surveys. Vol. 41, No. 2. NY: ACM Press, 2009. P. 1-69.

Nirenburg S., Wilks Y., Somers H. Readings in Machine Translation Cambridge, MA: MIT Press, 2003.

Potapova R., Oskina K. Semantic multilingual differences of terminological definitions regarding the concept "artificial intelligence" // Speech and Computer - 17th International Conference, SPECOM 2015, Athens, Greece, September 20-24, 2015, Proceedings. Vol. 9319 of Lecture Notes in Computer Science. S.: Springer International Publishing, 2015. P. 356-363.

Weaver W. The Translation memorandum. 1949. URL: http://www.mt-archive. info/Weaver-1949.pdf.

i Надоели баннеры? Вы всегда можете отключить рекламу.