Научная статья на тему 'ОСОБЕННОСТИ ПЕРЕВОДА ТЕХНИЧЕСКИХ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ СИСТЕМ GOOGLE TRANSLATE И PROMT ONLINE'

ОСОБЕННОСТИ ПЕРЕВОДА ТЕХНИЧЕСКИХ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ СИСТЕМ GOOGLE TRANSLATE И PROMT ONLINE Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
178
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛЮЧЕВЫЕ СЛОВА: МАШИННЫЙ ПЕРЕВОД / САТ СИСТЕМЫ / СТАТИСТИЧЕСКИЙ МАШИННЫЙ ПЕРЕВОД (SMT) / ПЕРЕВОД "ПО ПРАВИЛАМ" (RBMT) / СМЕШАННЫЙ ИЛИ ГИБРИДНЫЙ ПЕРЕВОД (HMT) / ПЕРЕВОД НА ОСНОВЕ ПРИМЕРОВ (EBMT) / АМБИВАЛЕНТНАЯ ЛЕКСИКА / АНАЛИЗ КОНТЕКСТА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Набоков К.В., Паникарова Н.Ф.

В статье анализируются особенности перевода технических текстов с использованием онлайн систем машинного перевода, используются методы сравнительного анализа и экспертной оценки; выводы делаются на основании проведенного исследования и изучения теоретического материала.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Набоков К.В., Паникарова Н.Ф.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FEATURES OF TRANSLATION OF TECHNICAL TEXTS WITH THE USE OF GOOGLE TRANSLATE AND PROMT ONLINE SYSTEMS

Тhe features of translating technical texts using online machine translation systems are analyzed, methods of comparative analysis and expert evaluation are used; conclusions are made on the basis of the study of theoretical material and the carried out research.

Текст научной работы на тему «ОСОБЕННОСТИ ПЕРЕВОДА ТЕХНИЧЕСКИХ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ СИСТЕМ GOOGLE TRANSLATE И PROMT ONLINE»

14. Сколько в Крыму крымских татар? // Голос Крыма new. - 2015. - №1.

15. Теперь без ханства: как приняли Россию крымские татары [Электронный ресурс] // https://lenta.ru/articles/2014/08/04/krymtatary/ (Дата обращения: 23.10.2017).

16. Тяглый М. Антисемитская доктрина на страницах крымскотатарской газеты «Азат Кърым» (1942-1944) // Научные записки. - №31. - С. 132-151.

17. У истоков Крымской трагедии [Электронный ресурс] // http://echovekov.ru/1997_3_4/03/03_2/ (Дата обращения: 28.10.2017).

18. Уголовный кодекс РСФСР с редакцией 1926 г. [Электронный ресурс] // https://coollib.eom/b/124310/read (Дата обращения: 13.11.2017).

19.Яблоновская Н.В. Окупационная газета «Азат Кърым» (1942-1944): национальная пресса в контексте информационных войн // Вопросы духовной культуры. - С. 122-125.

УДК 81'2

Набоков К. В. студент 4 курса

факультет прикладной математики и информатики научный руководитель: Паникарова Н. Ф.

доцент

кафедра романо-германских языков Московский государственный гуманитарно-экономический

университет Россия, г. Москва ОСОБЕННОСТИ ПЕРЕВОДА ТЕХНИЧЕСКИХ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ СИСТЕМ GOOGLE TRANSLATE И PROMT

ONLINE

Аннотация: В статье анализируются особенности перевода технических текстов с использованием онлайн систем машинного перевода, используются методы сравнительного анализа и экспертной оценки; выводы делаются на основании проведенного исследования и изучения теоретического материала.

Ключевые слова: машинный перевод; САТ системы; статистический машинный перевод (SMT); перевод «по правилам» (RBMT); смешанный или гибридный перевод (HMT); перевод на основе примеров (EBMT); амбивалентная лексика; анализ контекста.

Nabokov K. V.

4-th year student of the faculty of Applied Mathematics and Informatics Moscow State University of Humanities and Economics

Russia, Moscow Scientific supervisor: Panikarova N.F.

Docent

Associate professor of the department of Romano-Germanic languages Moscow State University of Humanities and Economics

Russia, Moscow

FEATURES OF TRANSLATION OF TECHNICAL TEXTS WITH THE USE OF GOOGLE TRANSLATE AND PROMT ONLINE SYSTEMS

Annotation: ne features of translating technical texts using online machine translation systems are analyzed, methods of comparative analysis and expert evaluation are used; conclusions are made on the basis of the study of theoretical material and the carried out research.

Key words: machine translation; CAT systems; statistic machine translation (SMT); rule-based machine translation (RBMT); hybrid machine translation (HMT); example-based machine translation (EBMT); ambivalent lexis; context analysis.

Условия современной жизни диктуют необходимость выполнять перевод внушительного объема научной, технической литературы в крайне сжатые сроки. Либо объем материала для перевода будет небольшим, но это будут тексты самой разнообразной узкоспециальной тематики с большим количеством узкоспециальных терминов и неологизмов. К тому же «ручной» или «человеческий» перевод не только трудоемок, но и дорог, а так как он требует больших временных затрат, то он будет отставать от потребностей современной многоязычной коммуникации. Справиться с переводом в таких ситуациях переводчику могут помочь электронные словари и компьютерные программы перевода.

Интерес к машинному или автоматическому переводу существует достаточно давно, с середины прошлого столетия, когда в США был проведен так называемый «Джоржтаунский эксперимент» по переводу текста при помощи компьютера. С того времени с прогрессом информационных технологий рос и интерес к исследованиям в области машинного перевода. В настоящее время в мире существует несколько проектов по разработке современных систем машинного перевода.

Машинным переводом называют процесс использования программного обеспечения для осуществления переводческой деятельности, то есть переноса информации с одного языка, который является исходным языком (ИЯ), на другой, являющийся переводящим (ПЯ), без вмешательства человека [5].

ЭВМ выполняет перевод по заранее составленному алгоритму. Под алгоритмом понимается определенная последовательность формальных

операций, выполнение которых приводит к переводу исходной фразы. По мнению Ю.В. Рождественского, машинный (автоматизированный) перевод сочетает в себе «теорию перевода как особую филологическую теорию и собственно лингвистическую теорию языковых соответствий двух и более языков» [6]. По соотношению системалогических и математических средств машинный перевод близок к АСУ (автоматизированным системам управления) [6].

Основные типы машинного перевода: статистический машинный перевод (Statistical Machine Translation или SMT), перевод «по правилам» (Rule-Based Machine Translation или RBMT) [1] и машинный перевод на основе примеров (Example-Based Machine Translation или EBMT). Этот вид машинного перевода был предложен японским исследователем М. Нагано в 80-х годах XX века [7]. Также широкое распространение последнее время получил так называемый «смешанный» или «гибридный» перевод (HMT), сочетающий как перевод «по правилам», так и перевод на основе примеров.

Мы проанализируем перевод текстов этими системами машинного перевода на примере двух наиболее широко распространенных и доступных программ онлайн перевода: Google Translate - программный продукт американской компании Google и Translate.ru - ^рвис онлайн перевода российской компании ПРОМТ.

Методом сопоставительного анализа переводов, выполненных программами, на материале английских текстов научно-популярной и технической литературы, мы выявим достоинства и недостатки каждой из этих систем, а также представим некоторые приемы, способствующие улучшению качества автоматического перевода.

Статистический машинный перевод (SMT) имеет в основе статистическую модель, основанную на анализе корпуса для генерации текста на ПЯ. Перевод «по правилам» (RBMT) использует лингвистические правила для переводимого материала, чтобы сгенерировать текст на ПЯ [2].

Примером SMT является программное обеспечение Google Translate (GT). Для осуществления перевода в этой программе используются различные алгоритмы, основанные как на статистике, так и на теории вероятности. Система GT обладает огромным и постоянно растущим корпусом, насчитывающим на настоящий момент свыше триллиона слов [1].

Кроме этого, Google осуществляет привязку своей «переводческой памяти» (translation memory TM) к выполняемому машинному переводу, это позволяет повысить качество генерируемого текста благодаря переведенным ранее фразам, содержащимся в корпусе.

Таким образом, комбинация машинного перевода с «переводческой памятью» увеличивает соответствие и, следовательно, качество перевода [2]. Следует отметить, что использование технологии TM приближает рассматриваемые программы машинного перевода к системам автоматизированного перевода (САТ systems - computer aided translation or computer assisted translation). От систем машинного перевода эти системы

отличаются тем, что перевод осуществляет исключительно человек, при помощи различного программного инструментария, как например, «память перевода» - TM.

База данных TM состоит из пар параллельно сопоставленных сегментов текста (чаще всего это предложение). Базы формируются по ходу перевода (изначально база пустая). CAT программа при переводе обращается к базе и, если новый сегмент имеет полное или частичное соответствие с имеющейся накопленной базой переводов, то предлагается соответствующий вариант перевода. Если же соответствия нет, то перевод производится «вручную», и вариант записывается в базу как новый сегмент

[3].

Самыми популярными в России являются системы SDL Trados (США), Deja Vu от ATRIL (США). Так же на рынке представлены:

• Transit - швейцарской фирмы Star;

• Translation Manager от IBM;

• Eurolang Optimizer - французской фирмы LANT;

• WordFisher (Венгрия) [3].

Статистическая технология машинного перевода базируется на идее EBMT (Example-based memory translation) и имеет строгую математическую базу, учитывающую статистику лингвистических закономерностей, которые получены на базе структурного анализа текста и анализа параллельных корпусов текстов [3].

Корпус параллельных текстов - это тексты, содержащие предложения на одном языке и соответствующие им предложения на другом языке (например, двуязычные сайты). Статистический МП использует свойство «самообучения» языку (machine learning), т.е., чем больше накоплено параллельных текстов и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода [4].

В модели перевода «по правилам» программы Translate.ru, используется лингвистическая информация для математического анализа ИЯ и ПЯ. Этот тип системы перевода может быть оснащен функцией управления терминологией для соответствия генерируемого текста специфике первоисточника. RBMT получает «знания», которые вносятся в нее специалистом: это правила грамматики, синтаксис, семантика и соответственно лексика ИЯ и ПЯ [2].

Системы SMT «запоминают» новые версии перевода и используют эти варианты в дальнейшем. С развитием перевода, программа «обучается», что повышает качество конечного перевода [3].

RBMT же требуется вмешательство специалиста для внесения поправок во внутренние правила и вокабуляр программы. В случае активного участия человека в процессе перевода, этот перевод уже можно отнести к так называемому "смешанному" или " гибридному"[3]. С другой стороны, системы RBMT могут не найти необходимого правила среди

заложенных в них или подходящего лексического эквивалента для слова ИЯ, пропустив лексическую единицу, тем самым серьезно исказив смысл оригинального материала. Но на практике мы встречали и обратный вариант.

Сравним перевод одного абзаца из научно-технического текста двумя системами машинного перевода:

ИЯ: «How often does this happen to you? You complete an important document just under the wire and send it off to a colleague as an e-mail attachment, only to hear that she couldn't open the file — she works on a different platform. Or maybe she doesn't have the right application loaded..»

ПЯ (посредством GOOGLE translate): «Как часто это происходит с вами? Вы заполняете важный документ под проводкой и отправляете его коллеге в качестве приложения для электронной почты, только чтобы узнать, что она не может открыть файл - она работает на другой платформе. Или, может быть, у нее нет подходящего приложения.»

ПЯ (посредством Translate.ru компании PROMT): «Как часто это происходит с Вами? Вы завершаете важный документ только под проводом и отсылаете его коллеге как почтовое присоединение, только чтобы услышать, что она не могла открыть file — она работает над различной платформой. Или возможно ей не загрузили правильное приложение.»

Проанализировав оба варианта перевода, приходим к следующим выводам:

- ни один машинный переводчик не перевел идиому «under the wire» -«в последнюю минуту, в спешке»,

- Translate.ru не перевел "file", оставив слово на латинице, очевидно, амбивалентность этой лексической единицы не позволила системе «понять» контекст,

-Translate.ru исказил смысл обращения к аудитории, используя местоимение "Вы" как обращение к одному лицу,

- Translate.ru неверно перевел определение "right" к существительному "application", так как приложение будет " подходящим", а не "правильным'',

- Translate.ru неверно перевел "e-mail attachment": это почтовое "вложение", а не "присоединение" к почте,

- Translate.ru неверно выбрал перевод предлога "on", возможно, из-за недостаточности заложенной лексической базы.

Таким образом, при переводе этого абзаца, исходя из количества переводческих ошибок, преимущество продемонстрировала система Google translate.

Также мы протестировали обе системы на переводе фразеологизмов, сложных временных грамматических форм и неологизмов. Фразеологизмы, также как и идиомы, остались непереведенными и тем, и другим переводчиком. Варианты перевода GT были более адекватными, хотя и имели лексические искажения и порой не соответствовали грамматическим нормам ПЯ. Например, пословица «No pains, no gains» была переведена

Translate.ru: «Никакие боли, никакая прибыль», а GT «Нет боли, нет прибыли».

Функция «добавления» корректного перевода, например, пословицы, ожидаемого результата не принесла. Даже после перезагрузки и обновления система не приводила адекватный перевод. Очевидно, статистика частотности обращения к этому варианту перевода была низкой, и вследствие этого система не выбирала скорректированный вариант.

С временными глагольными формами ситуация оказалась не столь обескураживающей. GT не перевел сложные перфектные формы глагола, в то время, когда Translate.ru допускал переводческие ошибки и в других, более простых временных формах. При переводе неологизмов Google.translate подтвердил преимущества своей системы, многие неологизмы, как в случае с "file" в нашем примере, остались непереведенными системой компании PROMT. Суммировав полученные результаты, приходим к выводу о преимуществах переводчика Google.translate. Однако, не все так однозначно.

Рассмотрим другие примеры:

ИЯ: «Perhaps you've just distributed an eye-catching new brochure or ad for review. But when your clients open the electronic file, text and columns are askew, the logo has mysteriously vanished, and computers have substituted plain vanilla Courier for the elegant font you selected. Then, after you've taken the extra time to distribute paper copies, your clients return a hodgepodge of papers cluttered with scrawled comments, sticky notes, and stapled attachments.»

ПЯ (посредством GT): «Возможно, у вас есть привлекательная новая брошюра или реклама для обзора. Но когда ваши клиенты открывают электронный файл, текст и столбцы искажены, логотип загадочно исчез, а компьютеры заменили обычный ванильный курьер на тот элегантный шрифт, который вы выбрали. Затем, после того, как вы потратили дополнительное время на распространение бумажных копий, ваши клиенты возвращают мешанину бумаг, заполненную нацарапанными комментариями, липкими заметками и скрепленными вложениями.»

ПЯ (посредством Translate.ru): «Возможно, Вы только что распределили привлекательную новую брошюру или объявление для анализа. Но когда Ваши клиенты открывают электронный файл, текст и колонки искоса, эмблема загадочно исчезла, и компьютеры заменили простым Курьером ванили изящный шрифт, который Вы выбрали. Затем после того, как Вы заняли дополнительное время, чтобы распределить бумажные копии, Ваши клиенты возвращают мешанину бумаг, загроможденных небрежно писавшими комментариями, липкими примечаниями и сшитыми приложениями.»

Анализ перевода этого абзаца даёт следующие результаты:

- Translate.ru перевёл фразу "text and columns are askew", как «текст и столбцы искоса», что не соответствует правилам грамматики ПЯ.

- GT, в отличие от Translate.ru, не уловил контекстуального значения

фразы "Computers have substituted plain vanilla Courier for the elegant font you selected". Перевод GT искажает смысл, говоря о том, что обычный Курьер заменяется изящным шрифтом, хотя речь идет о деструкции документа.

- PROMT перевёл "you've taken the extra time", как «Вы заняли дополнительное время», хотя перевод GT - «вы потратили дополнительное время» - является более адекватным. Кроме того, GT правильно определил, что текст адресован широкой аудитории, и местоимение «вы» в переводе написано со строчной буквы.

- Словосочетание "cluttered with scrawled comments" GT перевёл, как «загроможденную комментариями», хотя на бумаге комментарии модно только надписать. PROMT же перевёл его, как «нарушенный небрежно писавшими комментариями», что более адекватно.

- Слово "attachments" GT перевёл, как «скрепки», т.е. канцелярские скрепки. Однако PROMT перевёл более адекватно - «сшитыми присоединениями», что подразумевает «прикреплённые вложения».

По итогам анализа следует заключить, что и GOOGLE Translate, и PROMT в разных частях текста могут допускать контекстуальные неточности, конкурируя друг с другом в адекватности перевода. PROMT не всегда ориентируется на правила русской грамматики.

Таким образом, отвечая на вопрос, каким онлайн переводчиком лучше воспользоваться, в настоящий период времени в языковой паре «русский-английский» преимущество остается за системой Google.translate, которая использует самообучающийся алгоритм машинного перевода. Хотя эта система может допускать контекстуальное искажение смысла, что существенно влияет на качество перевода. Поэтому редактирование «вручную» остается необходимым условием работы с машинными переводчиками.

В будущем, с развитием самообучающихся нейронных сетей систем искусственного интеллекта, возможно, будут разработаны и более совершенные системы автоматизированного перевода, в которых будет решена проблема машинного перевода амбивалентной лексики [3]. Но это вопрос будущего. В настоящее время только человек способен верно передать смысл иноязычного текста, его стилистические особенности, нюансы и многие другие тонкости перевода.

Использованные источники:

1. Зубов А.В., Зубова И.И. Информационные технологии в лингвистике. Мн., 2004.

2. Исламов Р.С., Фомин А.Г. «Анализ современных систем машинного перевода типа SMT и RBMT» // Филологические науки. Вопросы теории и практики Тамбов: Грамота, 2013. № 3 (21): в 2-х ч. Ч. I.

3. Исламов Р.С. «Лексическая амбивалентность естественного языка в среде систем машинного перевода (на материале английской официально-деловой документации)- вузе - Дисс. канд. филол.наук. - Кемерово, 2013.

4. Леонтьева Н.Н., Шаляпина З.М. Современное состояние машинного

перевода // Искусственный интеллект. Справочник. Кн. 1. Системы общения и экспертные системы. - М., 1990.

5. Нелюбин Л. Л. Компьютерная лингвистика и машинный перевод. М.: ВЦП, 1991. 207 с.

6. Рождественский Ю.В. Философия языка. Культуроведение и дидактика. Современные проблемы науки о языке / Ю.В. Рождественский - М.: ГрантЪ, 2003. - 239 с.

УДК 332.146.2

Назарова Н. В. студент 2 курса факультет базовой подготовки Новосибирский государственный университет

экономики и управления Россия, г. Новосибирск ЦЕЛЕСООБРАЗНОСТЬ РАСПРОСТРАНЕНИЯ ОПЫТА ТЕРРИТОРИЙ ОПЕРЕЖАЮЩЕГО РАЗВИТИЯ НА РЕГИОНЫ

РОССИИ

Аннотация: В статье приводятся результаты анализа перспектив создания ТОР в России. Выявлено, что они играют важную роль для экономики и населения региона. Подтверждена необходимость создания ТОР в моногороде Заринске. Обосновано расширение состава ТОР на другие регионы России.

Ключевые слова: территория опережающего развития, Алтайский край, инвестиции, инфраструктура.

Nazarova N. V. second-year student Basic Department

Novosibirsk State University of Economics and Management

Russia, Novosibirsk city

THE ADVISABILITY OF PROPAGATION THE EXPERIENCE OF TERRITORIES OF ADVANCED DEVELOPMENT TO THE RUSSIAN

REGIONS

Abstract: In the article the analysis of the prospects for the creation of TAD in Russia is carried out. It is revealed that they play an important role for the economy and population of the region. The need of creating TAD in the monocity Zarinsk is confirmed. The expanding of the composition of TAD on other regions of Russia is justified.

Keywords: the territory of advanced development, Altai Territory, investments, infrastructure.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В современном мире возрастает значимость достижения достойного уровня экономического развития для всех участников общественных отношений и для каждой страны в целом. Особенностью Российской

i Надоели баннеры? Вы всегда можете отключить рекламу.