УДК: 81'25
DOI: 10.31249Л^/2021.03.05
Раренко М.Б.
МАШИННЫЙ ПЕРЕВОД : ОТ ПЕРЕВОДА «ПО ПРАВИЛАМ» К НЕЙРОННОМУ ПЕРЕВОДУ
(Обзор)
Институт научной информации по общественным наукам
Российской академии наук (ИНИОН РАН)
Аннотация. Поскольку в современном обществе наблюдается большой обмен информации на разных языках, а новые технологии, в том числе машинного перевода, постоянно появляются и совершенствуются, машинный перевод стремительно развивается. На смену устаревающим технологиям машинного перевода приходят более современные, позволяющие достичь более высоких результатов в более сжатые сроки. В обзоре представлена история возникновения машинного перевода, а также основные его виды, начиная с машинного перевода «по правилам» и заканчивая современными инструментами машинного перевода, основанного на технологии машинного обучения и искусственного интеллекта.
Ключевые слова: перевод; машинный перевод; естественные языки; история машинного перевода; машинный перевод «по правилам»; статистический машинный перевод; гибридный машинный перевод; нейронный машинный перевод; искусственный интеллект; компьютерная лингвистика.
В самом общем виде сегодня под «машинным переводом» следует понимать автоматизированное действие по преобразованию текста на одном естественном языке в эквивалентный по со-
70
держанию текст на другом естественном языке, а также результат такого действия.
Днем рождения машинного перевода как научного направления принято считать 4 марта 1947 г., поскольку именно в этот день американский математик, специалист по дешифровке Уоррен Уивер написал математику и философу Норберту Винеру письмо, в котором предложил рассматривать задачу перевода как дешифровку текста. Предложение У. Уивера возникло не спонтанно, а как логическое продолжение идей, «витавших» в воздухе на протяжении не одного десятилетия. Так, две первые машины (устройства) «для перевода» были запатентованы независимо друг от друга в СССР и во Франции еще в 1933 г. Строго говоря, эти механизмы почти ничего не переводили, но их появление было символично, поскольку мечта о машинах-переводчиках, заменяющих людей-переводчиков, приобрела физические очертания: запатентованные машины представляли собой реальные механизмы, потенциально успешные. Первый патент на изобретение переводной машины со многообещающим названием «Механический мозг» 22 июля 1933 г. получил французский гражданин армянского происхождения Жорж Арцруни. По сути «Механический мозг» представлял всего лишь большой механизированный словарь на бумажной ленте, однако на тот момент подобное новшество было воспринято общественностью с большим энтузиазмом. Советский ученый П.П. Троянский свой патент «Машину для подбора и печатания слов при переводе с одного языка на другой или на несколько других одновременно» (патент СССР № 40995 от 5 сентября 1933 г.) зарегистрировал спустя два с половиной месяца. Машина П.П. Троянского не представляла собой автоматизированное устройство, в ее работе требовались два помощника: один - владеющий исходным языком (языком оригинала), второй - языком перевода. Обязанностью первого помощника было задавать машине базовую форму каждого слова в подлежащем переводу предложении, его грамматические категории и роль в данном предложении (этот этап П.П. Троянский надеялся в скором времени механизировать, обратившись к помощи языковедов), после чего машина осуществляла «перевод». При этом в «переведенном» тексте все слова оказывались также в базовой форме, и уже второй помощник приводил «переведенный» машиной текст в соответ-
ствующий литературной норме вид. В 1937 г. на Парижской всемирной выставке Ж. Арцруни представил общественности работающий образец своей машины.
Спустя один год, в 1938 г., молодой немецкий инженер Конрад Цузе собрал первую в мире электронно-вычислительную машину, получившую название Z1, объемом 4 кв. метра и весом почти 500 кг, а вслед за ней - две улучшенные модели, Z2 и Z3 (при этом Z3, собранная на основе телефонных реле, обладала уже всеми свойствами современного компьютера), и приступил к работе над новой версией - Z4, для чего сам же разработал первый в мире высокоуровневый язык программирования «Планкалкюль» (букв. «исчисление планов»). К середине войны в мире действовало уже несколько электронно-вычислительных машин, а в конце 1943 г. в Великобритании был запущен компьютер Colossus, чьей единственной задачей была расшифровка секретных кодов фашистской Германии. Благодаря Colossus время расшифровки перехваченных сообщений сократилось в несколько раз - с нескольких недель до нескольких часов. Таким образом, к концу Второй мировой войны мировое сообщество было полностью готово к созданию компьютерных переводчиков - уже существовали и механические системы перевода, и компьютеры. Своеобразным «толчком» к соединению механических систем перевода и компьютеров выступило письмо Уоррена Уивера к Норберту Винеру.
Обращение У. Уивера, который во время Второй мировой войны работал шифровальщиком, к Н. Винеру было не случайным - в 18 лет он защитил в Гарварде диссертацию по математической логике, к началу Второй мировой войны был профессором пяти университетов и заведующим кафедрой Массачусетского технологического института. Уйдя добровольцем в армию, Винер разработал там математическую модель наведения зенитного огня, которую попытался распространить на все процессы, происходящие в окружающем мире. Итогом многолетней работы Н. Винера над проблемой устройства мира стал его главный труд - книга «Кибернетика, или управление и связь в животном и машине» (Cybemetics: Or Control and Communication in the Animal and the Machine, 1947).
Важной датой в истории машинного перевода стало 7 января 1954 г., когда американцы продемонстрировали всему миру
первую действующую программу машинного перевода, совместную разработку представителей фирмы IBM и сотрудников Джорджтаунского университета. В ходе так называемого «Джорджтаунского эксперимента» машина перевела 49 заранее отобранных предложений с русского на английский язык. При переводе предложений программа использовала словарь всего из 250 слов и грамматику, состоящую всего из шести синтаксических конструкций. Ввод предложений осуществлялся на перфокартах, а результат распечатывался на принтере. Тем не менее, успех превзошел все ожидания и, что более важно, стимулировал ученых на дальнейшую работу в области машинного перевода. Уже через год в СССР, в Институте точной механики и вычислительной техники Академии наук, был представлен первый советский компьютерный переводчик, который использовал словарь из 2300 (!) слов, в то время как еще один машинный переводчик разрабатывался в Институте прикладной математики под руководством А.А. Ляпунова (его создателями стали аспирантка О.С. Кулагина и студент филологического факультета МГУ Игорь Мельчук). В декабре 1956 г. в Москве появилось Объединение по машинному переводу, ставшее основным неформальным центром общения математиков и лингвистов (создатель В.Ю. Розенцвейг, заведующий кафедрой перевода в Московском государственном педагогическом институте иностранных языков) (более подробно см.: [Митренина, 2017]).
Изначально в основу машинного перевода был положен принцип перевода «по правилам» (Rule-Based Machine Translation, RBMT) (его также называют классическим). Машинный перевод «по правилам» разрабатывается на основе лингвистической информации об исходном и переводном языках. Разработчики такого перевода исходят из необходимости сопоставления двуязычных словарей и грамматик, которые описывают основные семантические, морфологические, синтаксические закономерности каждого языка. На основе этих данных исходный текст (текст, подлежащий переводу) последовательно, по предложениям, преобразуется в текст перевода.
Системы машинного перевода «по правилам» подразделяются внутри себя на три подгруппы: 1) системы пословного перевода (когда каждому слову исходного текста подбирается эквива-
лент в языке перевода); 2) трансферные системы (когда в ходе перевода происходит преобразование грамматической структуры текста на исходном языке в грамматическую конструкцию текста на языке перевода); 3) интерлингвистические системы (когда при переводе с одного языка на другой используется промежуточный язык описания смысла). К главным достоинством системы машинного перевода «по правилам» на основе трансфера относят весьма высокую полноту охвата текстов при приемлемом уровне качества перевода, отмечая сравнительно низкий уровень затрат на первичную разработку и модернизацию. Компонентами системы машинного перевода «по правилам» являются лингвистические базы данных (прежде всего, двуязычные словари) и модули перевода (грамматические правила и алгоритмы перевода). К основным преимуществам системы машинного перевода «по правилам» относят: 1) синтаксическую и морфологическую точность; 2) стабильность и предсказуемость результата; 3) возможность настройки на предметную область. Недостатки системы машинного перевода «по правилам» включают в себя: 1) трудоемкость и длительность разработки системы; 2) необходимость поддерживать и постоянно обновлять лингвистические базы данных; 3) так называемый «машинный акцент» при переводе.
Следующим этапом в развитии машинного перевода стал так называемый статистический перевод (Statistical Machine Translation, SMT), который был доминирующей парадигмой машинного перевода на протяжении нескольких десятилетий. Основанные на выравнивании данных двуязычных параллельных корпусов системы статистического машинного перевода вычисляют частоту выровненных сегментов в параллельном корпусе. Модель статистического машинного перевода, основанная на структуре двух языков и отношений между ними, реализуется после выравнивания текста на уровне слов и фраз.
Как о преимуществе статистического машинного перевода перед машинным переводом «по правилам» обычно говорят о «более гладком переводе», а к недостаткам относят непредсказуемый результат перевода.
Еще один вид машинного перевода - гибридный машинный перевод (Hybrid Machine Translation, HMT), в основе которого лежат достижения методов машинного перевода «по правилам» и
статистического машинного перевода. Эта методика получила название Translation Memory (TM), когда при переводе, осуществляемом машиной, оказываются задействованными двуязычные базы часто встречающихся предложений. В основе методики Translation Memory лежит принцип «не переводить один и тот же текст дважды, а сравнивать переводимые документы с данными, хранящимися в предварительно созданной базе переводов» [Ба-рашко, Храпцов, 2018, с. 6], т.е. в корпусе (массиве) текстов система находит соответствующие сегменты, которые уже были однажды переведены, и заменяет их. Методика Translation Memory используется такими компаниями, как PROMT, SDLTrados, Atril (системы Déjà Vu), OmegaT.
Исследование по сопоставлению «сильных» и «слабых» сторон машинного перевода «по правилам» и статистического машинного перевода показало, что система SMT уступает системе RBMT по ее потребности в больших вычислениях, которые требуют соответствующего задачам аппаратного обеспечения, в то время как система RBMT не требует мощного аппаратного обеспечения и при этом предоставляет приемлемое качество общего содержания переведенного фрагмента. Исследователи отмечают, что «возможность использования внешних подключаемых словарей расширяет потенциал программы, особенно при работе со специальной лексикой», заключая, что «система RBMT является более удобной и практичной в применении», а «качество перевода, сделанного при помощи системы SMT, полностью зависит от объема доступных ей корпусов» [Барашко, Храпцов, 2018, с. 7]. Исследователи подчеркивают: «Возможность использования внешних подключаемых словарей расширяет потенциал программы, и особенно при работе со специальной лексикой. Однако сложность состоит в том, что расширение возможностей требует определенных навыков и больше времени пользователя при работе с программой» [Барашко, Храпцов, 2018, с. 7].
В последнее время общемировое признание получил так называемый нейронный машинный перевод (Neutral Machine Translation, NMT), признанный перспективным и многообещающим подходом, поскольку потенциально способен устранить многие недостатки предыдущих систем машинного перевода - машинного перевода «по правилам» и статистического машинного
перевода. О.В. Митренина, поясняя, что «этот подход моделирует на основе статистики работу нейронных сетей человеческого мозга», уточняет, что «первый такой переводчик был запущен компанией Google в ноябре 2016 г.» и «сразу показал значительное улучшение качества переведенных текстов... и это направление, как и другие способы компьютерной обработки языка с помощью нейронных сетей, сейчас развивается наиболее активно» [Митренина, 2017, с. 9]. В основе работы моделей нейронного машинного перевода часто лежат словари с фиксированными словами, хотя перевод в основном осуществляется на основе открытого словаря (имена, числа, даты и т.д.). «Существуют две широкие категории подходов к переводу слов из словарного запаса. Один из подходов состоит в том, чтобы просто скопировать редкие слова из источника (поскольку наиболее редкие слова - это имена или числа, где правильный перевод - просто копия), либо на основе модели внимания, с использованием модели внешнего выравнивания, или даже используя более сложную специализированную сеть. Другая широкая категория подходов заключается в использовании единиц подслов, например, символов, смешанных слов / символов. Модели машинного перевода основаны на моделях от последовательности к последовательности, в которых у нас есть кодер, который изучает исходный язык, и декодер, который изучает целевой язык и декодирует закодированное исходное предложение. Итак, кодер и декодер являются двумя основными компонентами системы перевода... они сохраняют контекст предложения, в отличие от простого перевода слова в слово без контекста» [Котенко, 2020, с. 226].
Специалисты в области машинного перевода видят ключевое преимущество NMT в его способности анализировать и изучать непосредственно процесс перевода исходного текста в связный текст на переводном языке. Отмечается, что «его архитектура обычно состоит из двух рекуррентных нейронных сетей (RNN), одна из которых используется для ввода исходной текстовой последовательности, а другая - для генерации переведенного текста» [Котенко, 2020, с. 226]. Таким образом, получается, что рекуррентные сети принимают в качестве входных данных не только конкретный пример ввода, но и весь массив переводов, который был переведен до этого. То есть такие сети имеют дело с двумя
источниками информации: «настоящее» и «недавнее прошлое», которые принимают решение о том, как им следует обрабатывать новые данные. Механизм работы нейронного машинного перевода описан в статье В.В. Котенко «Перспективы развития нейронного машинного перевода в контексте концепции открытого образования»: «Рекуррентные сети отличаются от сетей с прямой связью тем, что петля обратной связи связана с их прошлыми решениями. Часто отмечается, что рекуррентные сети обладают собственной памятью. Добавление памяти в нейронные сети имеет достаточно понятную цель: в самой последовательности есть информация, и рекуррентные сети используют ее для выполнения задач, которые сети с прямой связью не могут. Эта информация сохраняется в рекуррентной сети, которой удается охватить много временных шагов, поскольку она учитывает прошлый опыт, который оказывает влияние на обработку каждого нового примера. Сеть находит корреляции между событиями, разделенными во времени, и эти корреляции называются "долговременными зависимостями", потому что событие, происходящее позднее, является функцией одного или нескольких событий, которые произошли ранее. Подобно тому, как функционирует человеческая память, воздействуя на наше поведение, информация циркулирует в повторяющихся сетях» [Котенко, 2020, с. 226]. В статье Д.Р. Сафиной и Р.Р. Камаева «Использование искусственных нейронных сетей в современном машинном переводе» отмечается, что «нейронный машинный перевод приближен к идеальному человеческому переводу и составляет от 5 до 5,7» [Сафина, Камаев, 2017, с. 71] (оценка происходит по шкале от 0 до 6).
Если еще тридцать лет назад критики машинного перевода сомневались в целесообразности дальнейших разработок в этой области, то сейчас в возможностях машины осуществлять перевод на весьма высоком уровне нет сомнений. Тем не менее нельзя однозначно утверждать преимущество машинного перевода перед переводом, выполненным человеком, и наоборот. Прежде всего следует отметить, что перед этими двумя видами перевода по-прежнему стоят совершенно разные задачи. И основное преимущество машинного перевода состоит, безусловно, в том, что он осуществляется максимально оперативно. Также, говоря о преимуществе машинного перевода перед переводом, осуществляе-
мым человеком, отмечается, что при выполнении заданий на перевод текста с одного языка на другой «компьютер опирается на адресные ссылки и осуществляет поиск по содержанию, что позволяет говорить о более надежной и оперативной памяти таких программ», однако преимуществом «человеческого» перевода признается то, что «человек обладает гораздо большей свободой выбора, а также восприятием контекста, что на данный момент позволяет ему показывать более эффективные и корректные результаты, чем машина» [Котенко, 2020, с. 226]. Также замечено, что наиболее современным подходом являются сети долгой краткосрочной памяти, представляющие собой тип рекуррентных нейронных сетей, в памяти которых сохраняется контекст от переводов, а ключевым преимуществом этого вида сетей является относительная невосприимчивость к длительности временных разрывов при совершении операций.
В заключение приведем следующую цитату: «...в технологиях машинного перевода существуют определенные недостатки. Машинный перевод не может достигнуть необходимого качества, он дороже, медленнее и менее точный по сравнению с переводом, выполненным человеком. И хотя компьютеры не в состоянии угнаться за постоянно меняющимися оттенками значений и ассоциациями из сотен областей знаний, машинный перевод будет совершенствоваться в дальнейшем и станет общественным благом, как электричество, водопровод и Интернет, т.е. предметом первой необходимости и одним из основных прав человека» [Барашко, Храпцов, 2018, с. 10].
Список литературы
Барашко Е.Н. Храпцов Д.А. Современные системы машинного перевода // Актуальные проблемы развития естественных и технических наук : материалы международной научно-практической конференции. - Новосибирск, 2018. -С. 5-11.
Котенко В.В. Перспективы развития нейронного машинного перевода в контексте концепции открытого образования // Ученые записки университета им. П.Ф. Лесгафта. - 2020. - № 4 (182). - С. 225-231. Митренина О.В. Назад, в 47-й: к 70-летию машинного перевода как научного направления // Вестн. Новосиб. гос. ун-та. Серия Лингвистика и межкультурная коммуникация. - 2017. - Т. 15, № 3. - С. 5-12.
Мифтахова Р.Г. Основные факторы улучшения машинного перевода // Вестник Башкирского университета. - 2015. - Т. 20, № 1. - С. 188-191.
Сафина Д.Р., Камаев Р.Р. Использование искусственных нейронных сетей в современном машинном переводе // Информационные технологии в исследовательском пространстве разноструктурных языков : сборник трудов конференции. - Казань, 2017. - С. 70-72.