Научная статья на тему 'НОВЫЙ ЛИНГВИСТИЧЕСКИЙ ИНСТРУМЕНТ ПРОБЛЕМЫ И ПЕРСПЕКТИВЫ МАШИННОГО ПЕРЕВОДА ВОЕННЫХ ТЕКСТОВ'

НОВЫЙ ЛИНГВИСТИЧЕСКИЙ ИНСТРУМЕНТ ПРОБЛЕМЫ И ПЕРСПЕКТИВЫ МАШИННОГО ПЕРЕВОДА ВОЕННЫХ ТЕКСТОВ Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
165
54
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВОЕННЫЙ ПЕРЕВОД / КОММУНИКАЦИЯ / ТЕРМИНОЛОГИЯ / МАШИННЫЙ ПЕРЕВОД / АВТОМАТИЗИРОВАННАЯ СИСТЕМА / ЭЛЕКТРОННЫЙ ПЕРЕВОДЧИК / МАШИННОЕ ОБУЧЕНИЕ / MILITARY TRANSLATION / COMMUNICATION / TERMINOLOGY / MACHINE TRANSLATION / AUTOMATED SYSTEM / ELECTRONIC TRANSLATOR / MACHINE LEARNING

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Жуков Евгений Сергеевич, Стрижак Павел Сергеевич

В статье рассматривается вопрос специфики машинного перевода военных текстов, предлагается концепция универсальной автоматизированной системы военного перевода для российских Вооруженных Сил.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NEW LINGUISTIC TOOL PROBLEMS AND PROSPECTS OF MACHINE TRANSLATION MILITARY TEXTS

The article addresses the issue of the specificity of machine translation of military texts, proposes a concept of a universal automated military translation system for the Russian Armed Forces.

Текст научной работы на тему «НОВЫЙ ЛИНГВИСТИЧЕСКИЙ ИНСТРУМЕНТ ПРОБЛЕМЫ И ПЕРСПЕКТИВЫ МАШИННОГО ПЕРЕВОДА ВОЕННЫХ ТЕКСТОВ»

■•ГТПГИ f.ifUf

ir^^flM;

Е.С. ЖУКОВ, П.С. СТРИЖАК

E.S. ZHUKOV, P.S. STRIZHAK

НОВЫЙ ЛИНГВИСТИЧЕСКИИ ИНСТРУМЕНТ

NEW LINGUISTIC TOOL

ПРОБЛЕМЫ И ПЕРСПЕКТИВЫ МАШИННОГО ПЕРЕВОДА ВОЕННЫХ ТЕКСТОВ PROBLEMS AND PROSPECTS OF MACHINE TRANSLATION MILITARY TEXTS

Сведения об авторах: Жуков Евгений Сергеевич — методист лаборатории ТСО ФГКОУ «Тверское суворовское военное училище Министерства обороны Российской Федерации» (г. Тверь);

Стрижак Павел Сергеевич — суворовец 7 курса ФГКОУ «Тверское суворовское военное училище Министерства обороны Российской Федерации» (г. Тверь).

Аннотация. В статье рассматривается вопрос специфики машинного перевода военных текстов, предлагается концепция универсальной автоматизированной системы военного перевода для российских Вооруженных Сил.

Ключевые слова: военный перевод, коммуникация, терминология, машинный перевод, автоматизированная система, электронный переводчик, машинное обучение.

Information about the authors: Evgeny Zhukov — Methodist laboratory TSO FGKOU «Tver Suvorov military school of the Ministry of defense of the Russian Federation» ( Tver);

Pavel Strizhak — Suvorov 7th course FGKOU «Tver Suvorov military school of the Ministry of defense of the Russian Federation» ( Tver).

Summary. The article addresses the issue of the specificity of machine translation of military texts, proposes a concept of a universal automated military translation system for the Russian Armed Forces.

Гл

¿3 с

Keywords: military translation, communication, terminology, machine translation, automated system, electronic translator, machine learning.

Перевод военных текстов — это область в лингвистике и теории перевода, в которой современные достижения машинного перевода не только максимально востребованы, но и могут получить свое дальнейшее развитие и совершенствование.

Военный перевод востребован в различных условиях мирного и военного времени: при переговорах с местным населением, в военно-дипломатических переговорах, в регионах с высокой политической напряженностью и т.д. Это относится как к пись-

менному, так и устному переводам, а также инженерно-технической, юридической документации. К переводам радиоперехватов и зашифрованных с помощью внутренней логики естественного языка сообщений.

Согласно традиционному лингвистическому определению, военный перевод представляет собой один из видов специального перевода с ярко выраженной военной коммуникативной функцией.

Военный перевод — это также вид перевода оперативного назначе-

ния, объектом которого являются военные материалы.

Военная лексика — это совокупность слов и словосочетаний, характерных для самых различных отраслей военного дела. Военная лексика, как и лексика любого функционального стиля, неоднородна по составу. Ее основу составляют военные термины, т.е. слова и словосочетание, обозначающие специальные понятия и предметы, используемые только или преимущественно в военном деле.

Итак, военный перевод является разновидностью перевода специ-

ализированных (профессиональных) текстов, изобилующих особой терминологией и предназначенных для сравнительно узкого круга лиц, объединенных конкретной профессиональной деятельностью. Для него характерны:

— специфичность и варьируе-мость терминологии (в зависимости от военных и инженерно-технических традиций тех или иных государств и отражений этих традиций в языке);

— относительная информационная закрытость (в отличие от обычных текстов военные тексты зачастую имеют иерархию уровней допуска, грифы секретности и т.д., что значительно затрудняет, например, использование машинных методов в военном переводе на основе стратегии «памяти переводов», поскольку база данных подобной системы перевода должна будет включать как общедоступные тексты, так и тексты «закрытого сегмента»);

— наличие наряду с узкоспециализированной научной и юридической терминологией большого пласта разговорной лексики, связанной с повседневными военными реалиями (своего рода военных профессионализмов, жаргонизмов, арготизмов, понятных только в рамках определенной военной традиции и потому с достаточным трудом поддающихся точному переводу). Вместе с тем знание подобных лексики и фразеологии в боевой обстановке (например, при ситуации радиоперехвата сообщений противника) позволит быстро сориентироваться в тактике противника и принять соответствующие оперативные или стратегические решения.

Военный сленг весьма разнообразен и захватывает все без исключения области военной жизни. Практически любые понятия, виды вооружения, армейского имущества, военной техники, армейские специальности, многие детали повседневного быта имеют названия как и на литературном

языке, так и в рамках военного сленга. Это необходимо для сжатого оперативного обозначения предметов и явлений в быту и в рамках непосредственной деятельности военных, а также, согласно мнению некоторых ученых, для формирования активного взаимодействия военнослужащих, армейского братства, когда сленг содействует сближению людей из различных социальных групп, создает атмосферу непринужденного общения и доверия (психологическая функция военного сленга).

Для примера приведем одно из самых простых выражений-жаргонизмов, встречающихся среди военнослужащих армии США: выражение Roger That означает просто — «принято». Иными словами, все услышанное по средству коммуникации (как правило, по рации) адресатом воспринято и понято. Но «принято» по-английски — Received. Как появилось слово Roger? От буквы «R». В фонетическом английском алфавите ее обозначили как Roger (в современных радиопереговорах более часто используется словоформа Romeo, но традиция Roger также осталась). Также предположительно, что своей популярностью именно слово Roger обязано одноименному проекту ВМС США, начатому в 1941 году и занимавшегося средствами радиоперехвата и авиационного радиоконтроля.

Для того чтобы проверить возможности современных электронных переводчиков в сфере военного перевода, нами было проведено небольшое исследование, целью которого стало сравнение машинного перевода с переводом, совершаемым профессиональным и непрофессиональными переводчиками, а также сравнение методов перевода, использующих в своем составе элементы технологии нейронных сетей, с наиболее распространенным до активного внедрения глубинного обучения статистическим методом перевода.

i м 3 * - i Г|-г .

ú ¡ j| ■ ■ 1 1 1 i а

1ÜJ1&;' "И ИГЛ i

В качестве первичного образца нами был взят фрагмент отчета о действиях британских Королевских Военно-воздушных Сил в Сирийской Арабской Республике, связанного с противодействием запрещенной в России террористической организации «Исламское государство» (ИГИЛ, ДАИШ).

В качестве электронных переводчиков были задействованы он-лайн-переводчики Promt (Translate, ru), Яндекс. Переводчик, Google Translator и Microsoft Translator Neural (тестовая версия, на данный момент процедура тестирования закрыта, основной версией переводчика снова стал Bing Microsoft Translator). Последний переводчик дает возможность моментального сравнения машинного перевода, осуществленного с помощью статистического метода, с машинным переводом на основе технологии глубинного обучения искусственных нейронных сетей. В качестве военных переводчиков выступили преподаватель военного перевода Тверского суворовского военного училища и трое суворовцев с разным уровнем владения английским языком (перевод осуществлялся «на время» — 20 мин.), качество перевода оставлено без редактирования и изменений.

После завершения первого этапа был взят контрольный фрагмент другого текста на ту же тему, но уже без участия военных переводчиков, чтобы проверить степень идентичности трудностей автоматизированного перевода: онлайн-переводчик предельно логичен, поэтому в одинаковых ситуациях будет выдавать одинаковые результаты и выбирать одну и ту же «стратегию поведения».

По итогам эксперимента в первичном тексте были выявлены следующие недостатки машинного перевода:

Первое. Непоследовательность и неполнота специфической военной терминологии, используемой онлайн-переводчиками. Так, некоторые используют для наиме-

нования ракет, которыми были атакованы группы террористов, исходный англоязычный вариант Hellfire, другие делают семантический перевод названия — «Адский огонь»; БПЛА Reaper MQ9A называется «удаленно пилотируемый самолет Жнец» и т.д. В контрольном тексте ракета Paveway IV остается без перевода и транслитерации, либо (в одном случае) переводится как «дорога 4». Отдельные термины оставались в своей англоязычной форме: например, название-аббревиатура запрещенного в России «Исламского государства» ни разу (ни в первичном, ни в контрольном текстах) не было переведено аббревиатурой, принятой в России (ИГ, ИГИЛ), но либо не переводилось вообще и оставалось в исходной англоязычной орфографии, либо эта орфография транслитерировалась русскими буквами: DAESH/ ДАИШ-ДАЕШ. Такой перевод свойствен даже для системы «Яндекс. Переводчик», ориентированной на пользователей Рунета.

Второе. Сравнительно низкое качество синтаксического оформления перевода (нарушение грамматической и синтаксической сочетаемости слов), при этом статистический метод перевода дает худшие результаты, чем машинный перевод на основе нейронных сетей. Например:

Бронированный грузовик были замечены припаркованный на главной дороге, впереди SDF заранее и была оценена быть вероятный грузовик бомба. (Microsoft Translator Neural, статистический перевод.)

Бронированный грузовик был определен припаркованный на главной дороге, перед прогрессом SDF, и был оценен, чтобы быть вероятной бомбой грузовика (он-лайн-переводчик Promt).

Бронированный грузовик был замечен припаркованные на главной дороге, впереди SDF заранее, и был оценен как вероятный грузовик-бомба. (Microsoft Translator Neural, перевод с использованием технологии нейронных сетей.)

При этом следует отметить, что качество перевода повышается по мере перехода от чисто статистического метода к использованию искусственных нейронных сетей. Данное качество перевода уже может быть равным или превосходить переводы непрофессиональных переводчиков, однако данной точности все еще недостаточно для сравнения с вариантом переводчика-профессионала.

Третье. Сложность с переводом многозначных слов. Ярким примером здесь служит предложение А second Hellfire missile was fired..., где сразу несколько переводчиков

перевели was fired как «была уволена».

Итак, на наш взгляд, вопросы автоматизации машинного перевода военных текстов являются весьма актуальными и не могут быть решены сугубо средствами общедоступных программ и систем машинного перевода. В связи с этим целесообразно рассмотреть концепцию автоматизированной системы перевода военных текстов, ориентированной специально на военный перевод, заимствующей лучшие черты онлайн-переводчи-ков и автономных средств машинного перевода.

В условиях потенциально недостаточной эффективности общедоступных программ машинного перевода военных текстов, а также специфичности военного перевода, призванного учитывать как терминологические, так и лингвокульту-рологические особенности языка, необходима система, которая бы учитывала всю специфику и разнообразие военной лексики, степень закрытости научно-технических и административных военных текстов. Важными требованиями для такой системы будут:

— относительная автономность и недоступность для внешнего вмешательства со стороны вероятного противника при одновременном наличии обширной базы данных текстов и мощных средств их обработки. Возможность организации иерархического доступа к текстовой базе, с учетом степени секретности переводимой информации. (Автономность и независимость от онлайн-переводчиков необходима потому, что любая крупная поисковая система, включающая в себя систему машинного перевода в качестве компонента, является мощным средством сбора и анализа данных, в том числе о переводимых текстах. Например, при необходимости анализ того, какие военные тексты изучаются российскими военными переводчиками, и как следствие — какие технологии и аспекты военной доктрины ве-

роятного противника их интересуют, представляется нетривиальной, но вполне решаемой технически задачей.);

— возможность применения как в обычной (мирной), так и в оперативной обстановке (например, непосредственно в боевых условиях для распознавания и анализа речи противника);

— способность к активному самообучению (предполагается использование продвинутых технологий нейронных сетей);

— модульность (возможность подключения новых модулей перевода в зависимости от необходимой области знаний).

Структурно автоматизированная система перевода военных текстов, на наш взгляд, должна в соответствии со спецификой предметной области перевода состоять из открытого и закрытого сегментов.

Открытый сегмент данной автоматизированной системы должен содержать общеупотребительную военную терминологию и базу данных переведенных военных текстов для применения технологии «памяти переводов».

Закрытый сегмент содержит базу данных переведенных текстов, доступ к которым категорирован в соответствии с уровнем доступа к служебной и секретной информации того или иного лица (подразделения).

Общие модули автоматизированной системы перевода:

1. Словарный модуль. Представляет собой структурированный словарь военных терминов с возможностью поиска слов и пословного перевода предложений с учетом максимального числа контекстов.

2. Модуль «памяти переводов». Содержит варианты переводов максимального числа «образцовых» для данного государства (данной армии) текстов (уставы, приказы, военные доктрины, агитационные материалы и т.д.). В случае закрытых сегментов — это также

техническая и юридическая документация с ограниченным доступом.

3. Модуль голосового распознавания речи. Он должен осуществлять распознавание голоса в оперативной обстановке (например, при радиоперехвате, переговорах с местным населением, допросе военнопленных и т.д.) и выдавать моментальные варианты перевода с возможностью пословного анализа фразы и полного ее воспроизведения на основе «глубинного обучения».

4. Модуль самообучения. Позволяет совершенствовать словарный запас программы и правила синтаксического конструирования текстов на естественном языке с учетом анализа новых языковых единиц различного уровня (терминов, сленга, построения предложений в рамках устной речи и т.д.).

5. Обучающий модуль. Содержит систему занятий, с помощью которых военнослужащий может оперативно осваивать необходимый ему иностранный язык и особенности его военной лексики (должен содержать грамматический справочник, аудиоприложения, облегченный учебный вариант общеупотребительного словаря основной и военной лексики).

Данная концепция является лишь первично и приблизительно

отображающей реальные потребности в области лингвистического освоения перевода военных текстов машинными методами, однако дальнейшая ее разработка, на наш взгляд, позволит создать мощный и автономный вспомогательный инструмент для солдат и военных специалистов Российской Армии в сфере автоматизированного перевода, облегчить освоение военнослужащими иностранных языков, чтение и восприятие сложной документации.

ЛИТЕРАТУРА

1. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие.— М.: МИЭМ, 2011.

2. Банман, В. П. Военный переводчик: требования и компетенции // Шрз://суЬег1етпка. ги/агйс1е/п/уоеппуу-регеуо^Ь1к-1геЬоуатуа-1-котре1егЛ8п

3. Дроздова, К.А. Машинный перевод: история, классификация, методы // Гуманитарные исследования, 2015. № 3 (7). С. 156-158.

4. Зубов, АВ., Зубова, И.И. Основы искусственного интеллекта для лингвистов. — М., 2007.

5. Щипицина, Л. Я. Информационные технологии и лингвистика.— М.: Флинта, 2013.

i Надоели баннеры? Вы всегда можете отключить рекламу.