Perehodko Irina Valerievna, Myachin Dmitry Alekseevich LINGUISTIC FEATURES OF COMPUTER TRANSFER ..
philological sciences -linguistics
УДК 81322:8125:004:811.133.1
ЛИНГВИСТИЧЕСКИЕ ОСОБЕННОСТИ КОМПЬЮТЕРНОГО ПЕРЕВОДА НАУЧНО-ТЕХНИЧЕСКИХ ТЕРМИНОВ СЕТЕЙ ПЕРЕДАЧИ ДАННЫХ
© 2018
Переходько Ирина Валерьевна, кандидат педагогических наук Мячин Дмитрий Алексеевич, студент
Оренбургский государственный университет (460018, Россия, Оренбург, пр. Победы, 13, e-mail [email protected])
Аннотация. В современной лингвистической науке остаются актуальными вопросы изучения текстов, выполненных с помощью компьютерного перевода, с целью выявления наиболее типичных и частотных ошибок, так как их исследование позволяет разработать алгоритм работы переводчика на этапе постредактирования текста компьютерного перевода. Исследование лингвистических особенностей компьютерного перевода научно-технических терминов сетей передачи данных, выполненных с помощью систем компьютерного перевода Google, Яндекс и Промт, позволило определить наиболее частотные ошибки компьютерного перевода. В ходе исследования сделан вывод о том, что системы компьютерного перевода допускают значительное количество ошибок (лексических, грамматически, стилистических), тем не менее, у систем компьютерного перевода, основанных на нейросетях, ошибок значительно меньше. Сегодня Google выдает наиболее адекватный и эквивалентный вариант перевода, но тем не менее еще есть проблемы, связанные с переводом терминов. Таким образом, на основе выявленных лингвистических особенностей компьютерного перевода научно-технических терминов сетей передачи данных были определены основные принципы работы переводчика на этапе постредактирования на уровне языковых и переводческих норм.
Ключевые слова: компьютерный перевод, научно-технический текст, сети передачи данных, лексико-стили-стические ошибки, постредактирование.
LINGUISTIC FEATURES OF COMPUTER TRANSFER OF SCIENTIFIC AND TECHNICAL TERMS OF DATA NETWORKS
© 2018
Perehodko Irina Valerievna, Candidate of Pedagogical Sciences Myachin Dmitry Alekseevich, student
Orenburg State University (460018, Russia, Orenburg, pr. Pobedy, 13, e-mail [email protected])
Abstract. In modern linguistic science the questions of studying texts performed with computer translation remain relevant for the purpose of identifying the most typical and frequency errors since their investigation allows us to develop an algorithm for the work of an interpreter at the stage of post-editing the text of a computer translation. The study of the linguistic features of the computer translation of the scientific and technical terms of data transmission networks carried out with the help of Google, Yandex and Promt computer translation systems made it possible to determine the most frequent errors in computer translation. The study concluded that computer translation systems allow a significant number of errors (lexical, grammatical, stylistic) nevertheless for computer translation systems based on neural networks errors are much less. Today, Google issues the most appropriate and equivalent version of the translation but nevertheless there are still problems associated with the translation of terms. Thus, based on the revealed linguistic features of computer translation of scientific and technical terms of data transmission networks the basic principles of the translator's work at the stage of post-editing at the level of linguistic and translational norms were determined.
Keywords: computer translation, scientific and technical text, data transmission networks, lexical and stylistic mistakes, post-editing.
Обмен информацией сегодня усиливается многократно с каждым днем, соответственно увеличивается количество сервисов ее получения, но доступ к этой информации усложняется тем, что большая часть сервисов представлена на иностранном языке. При этом для их перевода сегодня широко используются программы компьютерного перевода. Перспективы развития машинного перевода строятся на идее осуществления процесса машинного перевода без участия человека, то есть создания такой системы перевода, которая могла бы самообучаться и выдавать хороший результат перевода, который бы требовал лишь небольшого постредактирования со стороны человека. Вместе с тем сегодня такие системы разрабатываются, но не имеют промышленного применения. В связи с этим актуализируются вопросы изучения текстов, выполненных с помощью компьютерного перевода, с целью выявления наиболее типичных и частотных ошибок, так как данные исследования позволят разработать алгоритм работы переводчика на этапе постредактирования текста компьютерного перевода.
Компьютерный перевод, также называемый машинный или автоматический - это, согласно оксфордскому словарю - перевод, осуществляемый при помощи компьютера» [2]. Иными словами - это процесс, который использует двуязычные данные и его результатом является перекодирование текста одного естественного языка на другой. Особое место в данном вопросе занимает компьютерный перевод научно-технических текстов, так как он вызывает определенные сложности ввиду его характера.
Научно-технический текст - это текст, обладающий совокупными характеристиками научного и технического функциональных стилей [5]. Характер научно-технического текста отличается тем, что его основной стилистической чертой является точное и четкое изложение материала при почти полном отсутствии выразительных элементов, придающих речи эмоциональную насыщенность [3].
Вопросами перевода и компьютерного перевода научно-технических текстов занимались такие ученые как А. Нойберт, Л.В. Щерба, И.А. Лиокумович, все они подчеркивают номинативный характер текстов данной тематики. Это обуславливается большим количеством терминов, содержащихся в текстах, которые и вызывают наибольшие проблемы у систем компьютерного перевода, так как последние не всегда могут верно определить семантику переводимого текста.
Приведем пример. Во фразе «La liaison half-duplex (parfois appelée liaison à l'alternat) caractérise une liaison dans laquelle les données circulent dans un sens ou l'autre, mais pas les deux simultanément», взятой из французского текста о сетях передачи данных присутствует большое количество научно-технических терминов. Так система Промт оставляет без перевода термин half-duplex, при этом присутствуют грамматическая и синтаксическая ошибки при переводе словосочетания «liaison à l'alternat - связью к чередованию», неверно употреблен предлог и нет согласования слов. Это говорит нам о том, что системы компьютерного перевода еще не совершенны, а вопросы, связанные с переводом научно-технических
98
Baltic Humanitarian Journal. 2018. Т. 7. № 4(25)
филологические науки - Переходько Ирина Валерьевна, Мячин Дмитрий Алексеевич
языкознание ЛИНГВИСТИЧЕСКИЕ ОСОБЕННОСТИ КОМПЬЮТЕРНОГО ...
текстов еще не до конца решены.
История развития систем компьютерного перевода связана с системами, основанными на правилах, которые могли быть трансферными системами или системами-интерлингвами. Трансферные системы при переводе производят анализ текста и используют следующие компоненты: лингвистические базы данных, двуязычные словари, файлы имен и транслитерации, морфологические таблицы, а также модули перевода, разработанные с учетом грамматических правил и алгоритмов перевода. В основе систем-интерлингвов лежит теория о том, что смысл предложения одного языка можно выразить на универсальном метаязыке, с которого после можно перевести на язык перевода. Примером таких систем является система ZARDOZ, ориентированная на ряд языков, в частности, американский, ирландский, японский языки.
При этом следует отметить, что современное развитие систем компьютерного перевода получило начало с внедрением статистических систем компьютерного перевода, которые строятся на использовании больших объемов параллельных корпусов текстов, с помощью которых система учится, выявляя закономерности при переводе. В процессе перевода статистическая система подбирает наиболее вероятный вариант, используемый с точки зрения частотности. При статистическом методе компьютер делит текст языка оригинала на N-граммы, после чего из огромного количества проанализированных параллельных текстов, компьютер выбирает варианты перевода данных N-грамм, составляет из них множество вариантов перевода исходного текста и выбирает один наиболее употребительный вариант, основываясь на проанализированных параллельных текстах [6].
Гибридные системы компьютерного перевода - это системы, использующие принципы одновременно статистических систем и систем, основанных на правилах. К такому виду программ относится, например, система Промт [6].
Единственным минусом гибридных систем компьютерного перевода, с технологической точки зрения, является высокая сложность разработки и настройки такой системы. Долгое время система Google Translate работала по принципу гибридной системы компьютерного перевода. Но в ноябре 2016 года корпорация Google представила свою обновленную систему компьютерного перевода - нейронный машинный перевод Google. С этого момента технология машинного перевода изменилась полностью. Благодаря развитию искусственного интеллекта и его глубокого обучения (deep learning) были пересмотрены сами подходы к процессу компьютерного перевода. Машинное обучение - это способность компьютера учиться на опыте, т. е. модифицировать свою работу на основе недавно полученной информации [4].
Непосредственный переход от технологий гибридного машинного перевода к технологиям, основанным на глубоком машинном обучении, произошел в 2014 году, когда команда Kyung Hyun Cho осуществила прорыв, показав возможность перевода с одного языка на другой, без участия языка посредника, как это было в статистическом машинном переводе [1]. Модель, предложенная в этой работе и реализованная в нейронном машинном переводе Google, использует систему кодировок, то есть преобразование информации в некую последовательность цифр. Система выполняет сохранение семантики предложения в его числовой эквивалент, а затем подбирает ему эквивалент на языке перевода, основываясь на частотности, на собственных ошибках, сделанных ранее, на нормах и правилах языка перевода, усвоенных ей в ходе обучения на основе корпуса параллельных текстов.
Такой вид машинного перевода имеет ряд плюсов, таких как: ограниченность такого подхода к переводу лишь количеством анализируемых данных и вычислительной мощью, ему предоставленной и независимость Балтийский гуманитарный журнал. 2018. Т. 7. № 4(25)
системы от правил языка, в том смысле, что системе не нужны исходные данные лингвистов о грамматических правилах используемых языков, она сама получает их, исходя из проанализированного корпуса параллельных текстов.
В настоящее время, только некоторые системы компьютерного перевода перешли на технологию нейро-сетей. Первой была система Google, в конце 2016 года. Система Яндекс с 2017 года также использует нейро-сеть, но в отличии от первопроходца, система компьютерного перевода Яндекс производит сразу два варианта перевода - статистический и с помощью нейросети, а затем механизм Catboost, выбирает наиболее подходящий вариант [8].
В ходе практической части исследования был проведён анализ переводов научно-технических текстов, выполненных с помощью систем компьютерного перевода Google, Яндекс и Промт. Материалом нашего исследования являются научно-технические тексты сферы сетей передачи данных.
Сеть передачи данных — совокупность оконечных устройств (терминалов) связи, объединённых каналами передачи данных и коммутирующими устройствами (узлами сети), обеспечивающими обмен сообщениями между всеми оконечными устройствами.
Тематика сетей передачи данных вызывает все больший интерес в связи с переходом в исторической перспективе развития интернета в фазу интернета вещей (Intemet of things). Именно переход к этой фазе, в которой доступ в интернет имеют не только компьютеры, но и практически любая необходимая бытовая техника, обязывает пользователя искать доступ к новой информации, и в этом может помочь компьютерный перевод. Мы также провели оценку машинного перевода по методу оценивания Макото Нагао.
В ходе исследования, были выявлены ошибки, допущенные системами компьютерного перевода, которые следует отнести к следующим группам: грамматические, лексико-семантические и синтаксические.
Приведем примеры лексико-семантических ошибок. Так система Google дает неверный перевод термина l'âme в следующем тексте «Il a longtemps été utilisé dans les réseaux Ethernet, ce qui lui a valu l'appellation de «Câble Ethernet Standard». Etant donné que son âme a un plus gros diamètre, la distance susceptible d'être parcourue par les signaux est grande, cela lui permet de transmettre sans affaiblissement des signaux sur une distance atteignant 500 mètres (sans réamplification du signal)» (Он уже давно используется в сетях Ethernet, что заработало название «Стандартный Ethernet-кабель». Поскольку его душа имеет больший диаметр, расстояние, которое может перемещаться по сигналам, велико, оно позволяет передавать его без ослабления сигналов на расстояние до 500 метров (без повторного усиления сигнала)) . Ошибка перевода данного термина, как «душа» связана с тем, что система компьютерного перевода не учитывает тематику переводимого текста. Поэтому на этапе постредактирования переводчику необходимо использовать термин «сердечник». Такую ошибку допустили все исследуемые системы компьютерного перевода.
Одной из наиболее распространенных лексико-се-мантических ошибок является неверный перевод аббревиатур, и если система Google уже практически полностью решила данную проблему, то системы Яндекс и Промт выдают ошибки такого характера.
Так для фразы «Ainsi, pour transmettre ce signal, l'ETCD doit effectuer une convolution» система Яндекс предлагает перевод «Таким образом, для передачи этого сигнала DTE должен выполнить свертку», где заменяет французскую аббревиатуру английским аналогом, хотя в русском языке присутствует эквивалент - АКС или аппаратура канала связи.
Наибольшие проблемы с переводом наблюдаются у системы Промт. В варианте, которой, практически все
Perehodko Irina Valerievna, Myachin Dmitry Alekseevich philological sciences -
LINGUISTIC FEATURES OF COMPUTER TRANSFER ... linguistics
термины были переведены неверно. Примером является фраза «de quelques kilomètres à 60 km dans le cas de fibre monomode» (от нескольких километров до 60 км в случае волокна моноспособ), где термин le fibre monomode имеет значение - одномодовое волокно.
Анализ типологии ошибок позволил сделать вывод о том, что лексико-семантические ошибки системы компьютерного перевода Google составили 62,1% от общего числа, 56,7% у системы Яндекс и 75,5% у системы Промт.
Группа лексико-семантических ошибок составляет наибольшее количество. Это связано с тем, что системы компьютерного перевода часто неспособны верно интерпретировать семантику переводимого текста.
Интерпретация семантики компьютером - это ключевой вопрос компьютерной лингвистики, и сегодня, с переходом от гибридных систем компьютерного перевода к системам, основанным на нейросетях, эта проблема получила возможность своего решения.
Вторая по численности группа ошибок - это синтаксические ошибки. Их число составило у системы Google- 37,9%, у системы Яндекс - 39,2%, у системы Промт - 16,7%.
Часто синтаксические ошибки связаны с неверным употреблением предлогов, либо их неверным переводом. Так система Google допускает ошибку при переводе предложения - «La transmission analogique de données consiste à faire circuler des informations sur un support physique de transmission sous la forme d'une onde» (Передача аналоговых данных состоит из циркулирующей информации о физической передающей среде в виде волны). В данном контексте французский предлог sur имеет значение «по» и относится не к слову информация, а к слову передача.
Система компьютерного перевода Яндекс допускает синтаксическую ошибку, также связанную с неверным употреблением предлога, при переводе предложения «Lorsque les données numériques ont fait leur apparition, les systèmes de transmission étaient encore analogiques, il a donc fallu trouver un moyen de transmettre des données numériques de façon analogique» (Когда цифровые данные появились, системы передачи были аналоговыми, поэтому нужно было найти способ передачи цифровых данных по аналоговым способом) . В данном варианте перевода ошибочно употреблен предлог «по», которого быть не должно.
Система статистического машинного перевода Промт допускает примерно одинаковое с остальными системами количество ошибок данного типа. Один из примеров иллюстрирует ошибку, связанную с неверной расстановкой членов предложения, так фраза «Le câble coaxial a longtemps été le câblage de prédilection» (Коаксиальный кабель был долго прокладкой кабеля предпочтения), где слово prédilection лучше переводить как «предпочтительный вариант» и ставить перед определяющим словом - «Коаксильный кабель был долго предпочтительным вариантом для прокладки кабеля».
Грамматические ошибки составляют наиболее немногочисленную группу, так как проблемы с грамматикой возникают достаточно редко, особенно у систем перевода, основанных на принципе нейросетей. Так система Google вообще не допускает грамматических ошибок, у системы Яндекса их число составило 4,1%, а у Промт 7,8% соответственно.
Переводя фразу «La transmission des données se fait par l'intermédiaire d'une onde porteuse» (Передача данных выполняется через несущей волны), система Яндекс допускает грамматическую ошибку в согласовании форм слов, тогда как верным вариантом будет -«Передача данных выполняется через несущую волну».
Система компьютерного перевода Промт также допускает ошибку в согласовании форм слов в переводе фразы «c'est la raison pour la quelle la transmission analogique est généralement appelée transmission par 100
modulation d'onde porteuse» (и это причина, по которой аналоговая передача, как правило, называют передачи модуляции несущей волны), так сделав грамматически верное согласование, получаем перевод - «и это причина, по которой аналоговую передачу, как правило, называют передачей модуляции несущей волны».
С целью оценки адекватности и эквивалентности мы использовали методику Макото Нагао, с помощью которой компьютерному переводу присваивается оценка от 1 балла (смысл предложения понятен и не возникает никаких вопросов, грамматика, словоупотребление и стиль соответствуют общей структуре текста и не требуют постредактирования) до 5 баллов (в предложении имеется большое количество грамматических и стилистических ошибок, смысл предложения с трудом можно понять после внимательного изучения). Тексты, выполненные системой компьютерного перевода Google, получили оценку 2 балла по шкале, перевод тех же текстов, но выполненный системой Яндекс получает 3 балла, а перевод системы Промт - 5 баллов [7].
Таким образом, можно сделать вывод о том, что некоторые проблемы еще не решены и системы компьютерного перевода допускают значительное количество ошибок, но, тем не менее, у систем компьютерного перевода, основанных на нейросетях, ошибок значительно меньше. Анализ показывает, что на текущий момент система Google выдает наиболее адекватный и эквивалентный вариант перевода, но тем не менее еще есть проблемы, связанные с переводом редких слов и терминов в их числе, а также несоответствием количества слов оригинала и перевода, что при компьютерном переводе часто влияет на смысл.
В заключении необходимо отметить, что системы компьютерного перевода развиваются очень быстро и дальнейшее их развитие связано с продолжением тщательного учета контекста и тематики. Именно поэтому сегодня изучение текстов, выполненных с помощью систем компьютерного перевода - это одно из наиболее перспективных направлений лингвистических исследований, так как позволяет разработать алгоритмы работы переводчика на этапе постредактирования научно-технического текста, выполненного с помощью систем компьютерного перевода на уровне языковых и переводческих норм. Следовательно, контроль восприятия и понимания (уточнение смысла исходного фрагмента), грамматический, лексический и стилистический самоконтроль, контроль лексико-грамматической сочетаемости, контроль связности и логичности переводного текста, контроль на предмет избыточной информации (многословия), контроль орфографии и пунктуации переводчик проводит на уровне языковых норм. Также контроль на адекватность и приемлемость, прагматический самоконтроль (ориентирование на читателя), кон-нотативный контроль и контроль применяемых переводческих трансформаций контроль на предмет опущения информации, интенциональный контроль, приемов и стратегий проводится на уровне переводческих норм.
СПИСОК ЛИТЕРАТУРЫ:
1. Learning Phrase Representations using RNN Encoder—Decoder for Statistical Machine Translation / Kyunghyun Cho, Bart van Merrienboer, CaglarGulcehre / Universite de Montreal. [Электронный ресурс] URL: https://arxiv.org/pdf/1406.1078v3.pdf
2. Oxford University Press, Oxford Dictionaries, 2016, -[Электронный ресурс]. — Режим доступа: https://en.oxforddictionaries. com (Дата обращения 07.06.2018).
3. ИНТУИТ. Национальный открытый университет. Введение в машинное обучение. [Электронный ресурс]. — Режим доступа: https:// www. intuit. ru/studies/courses'/10621/1105/lecture/17981
4. Клименко, А.В. Ремесло перевода: практический курс // АСТ, Восток-Запад //М.: 2008
5. Крапивкина, О.А., Мусохранова А.А. Лингво-прагматические аспекты перевода научно-технических текстов // Гуманитарные научные исследования. 2014. № 8 [Электронный ресурс]. Режим доступа: http://human.snauka.ru/2014/08/7629 (Дата обращения 07.06.2018).
6. Молчанов, А. Статистические и гибридные методы перевода в технологиях компании promt // [Электронный ресурс]. Режим доступа: http://controleng. ru/wp-content/uploads/ce46_p68_statistiches-kie i gibridnye -metody perevoda v tekhnologiyakh kompanii promt.
Baltic Humanitarian Journal. 2018. Т. 7. № 4(25)
филологические науки -языкознание
Переходько Ирина Валерьевна, Мячин Дмитрий Алексеевич
ЛИНГВИСТИЧЕСКИЕ ОСОБЕННОСТИ КОМПЬЮТЕРНОГО ...
7. Переходько Ирина Валерьевна, Мячин Дмитрий Алексеевич Оценка качества компьютерного перевода // Вестник ОГУ. 2017. №2 (202). URL: https://cyberlenmka.ru/article/ri/otsenka-kachestva-kompyuternogo-perevoda (дата обращения: 01.06.2018).
8. Яндекс запустил гибридную систему перевода. [Электронный ресурс]. — Режим доступа: https://yandex.ru/blog/company/kak-pobedit-mornikov-yandeks-zapustil-gibridnuyu-sistemu-perevoda
Статья поступила в редакцию 14.10.2018 Статья принята к публикации 27.11.2018
Балтийский гуманитарный журнал. 2018. Т. 7. № 4(25)
101