Научная статья на тему 'Машинный перевод в работе переводчика: практический аспект'

Машинный перевод в работе переводчика: практический аспект Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
3032
482
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАШИННЫЙ ПЕРЕВОД / АВТОМАТИЧЕСКИЙ СЛОВАРЬ / ПРЕДРЕДАКТИРОВАНИЕ / ПОСТРЕДАКТИРОВАНИЕ / АВТОМАТИЧЕСКОЕ РАБОЧЕЕ МЕСТО ПЕРЕВОДЧИКА / КОМПЕТЕНЦИИ ПЕРЕВОДЧИКА / ТЕХНИЧЕСКАЯ КОММУНИКАЦИЯ / MACHINE TRANSLATION / AUTOMATIC DICTIONARY / PREEDITING / POSTEDITING / TRANSLATOR’S WORKSTATION / TRANSLATOR’S COMPETENCES / TECHNICAL COMMUNICATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Беляева Л.Н.

Описываются особенности современного процесса работы с практической системой машинного перевода (МП) в рамках технологической цепочки обработки и перевода научных и технических текстов. Системы машинного перевода рассматриваются в составе автоматизированного рабочего места переводчика, при этом учитывается современная парадигма 4.0 (Промышленность 4.0 и Информация 4.0), диктующая условия, при которых состояние технологии и науки определяются потенциалом процессов автоматизации в промышленности и соответствующими способами представления информации к разрабатываемым проектам. Раскрывается понятие авторской разработки структурированного контента; излагаются требования к представлению информации в рамках нового подхода. Приведены наборы стандартных и дополнительных компетенций, которыми должны сегодня обладать специалисты в области разработки технической документации. Работа с системами машинного перевода представлена как поэтапный процесс, который имеет объективные ограничения, обусловленные технически вынужденным переводом по предложениям, необходимостью обработки лексики, отсутствующей в словаре системы, терминологической вариативностью исходного текста, повышенной длиной предложений, линейностью распознавания коллокаций. Ряд ограничений успешно преодолевается за счет особого алгоритма предредактирования (введение артиклей и союзов, синтаксическое упрощение, устранение эллиптических построений и т.д.). Представлена структура автоматического словаря системы машинного перевода. Описаны основные действия по постредактированию машинного перевода, предполагающие как изменения в переводе отдельных лексических единиц, так и синтаксические преобразования. Показано, что перевод на базе системы МП должен завершаться перенастройкой лингвистических ресурсов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MACHINE TRANSLATION IN A TRANSLATOR WORKFLOW: PRACTICAL VIEW

The paper presents the peculiarities of using a modern MT system in the technological chain of scientific and technical translation. MT systems are considered as a part of translator’s workstation, specifics of both text preand postediting and automatic dictionaries management are analyzed. Modern paradigm 4.0 (Industry 4.0 and Information 4.0) dictates a new trend in automation and data exchange in manufacturing, such that will greatly influence both technology and science. Working with machine translation systems is presented as a step-by-step process which has objective limitations because of the technically imposed processing at sentence level, a need to process words absent in the system's dictionary, terminological variation of the source text, increased length of sentences, linearity of collocation recognition. A number of restrictions are successfully overcome by a special pre-editing algorithm (addition of articles and conjunctions, syntactic simplification, elimination of elliptical constructions, etc.). The structure of an automatic dictionary of the machine translation system is presented. The basic operations for post-editing machine translation are described, which imply both changes in the translation of individual lexical units and syntactic transformations. It is shown that the translation on the basis of the MP system must be completed by linguistic resources upgrade.

Текст научной работы на тему «Машинный перевод в работе переводчика: практический аспект»

Раздел I. ЯЗЫКОЗНАНИЕ, ПЕРЕВОДОВЕДЕНИЕ

УДК 81'255-027.44

DOI: 10.15593/2224-9389/2019.2.1

Л.Н. Беляева

Российский государственный педагогический университет им. А.И. Герцена, Санкт-Петербург, Российская Федерация

Получена: 10.05.2019 Принята: 25.05.2019 Опубликована: 10.07.2019

МАШИННЫМ ПЕРЕВОД В РАБОТЕ ПЕРЕВОДЧИКА: ПРАКТИЧЕСКИЙ АСПЕКТ

Описываются особенности современного процесса работы с практической системой машинного перевода (МП) в рамках технологической цепочки обработки и перевода научных и технических текстов. Системы машинного перевода рассматриваются в составе автоматизированного рабочего места переводчика, при этом учитывается современная парадигма 4.0 (Промышленность 4.0 и Информация 4.0), диктующая условия, при которых состояние технологии и науки определяются потенциалом процессов автоматизации в промышленности и соответствующими способами представления информации к разрабатываемым проектам. Раскрывается понятие авторской разработки структурированного контента; излагаются требования к представлению информации в рамках нового подхода. Приведены наборы стандартных и дополнительных компетенций, которыми должны сегодня обладать специалисты в области разработки технической документации. Работа с системами машинного перевода представлена как поэтапный процесс, который имеет объективные ограничения, обусловленные технически вынужденным переводом по предложениям, необходимостью обработки лексики, отсутствующей в словаре системы, терминологической вариативностью исходного текста, повышенной длиной предложений, линейностью распознавания коллокаций. Ряд ограничений успешно преодолевается за счет особого алгоритма пред-редактирования (введение артиклей и союзов, синтаксическое упрощение, устранение эллиптических построений и т.д.). Представлена структура автоматического словаря системы машинного перевода. Описаны основные действия по постредактированию машинного перевода, предполагающие как изменения в переводе отдельных лексических единиц, так и синтаксические преобразования. Показано, что перевод на базе системы МП должен завершаться перенастройкой лингвистических ресурсов.

Ключевые слова: машинный перевод, автоматический словарь, предредактирование, постредактирование, автоматическое рабочее место переводчика, компетенции переводчика, техническая коммуникация.

MACHINE TRANSLATION IN A TRANSLATOR WORKFLOW:

PRACTICAL VIEW

The paper presents the peculiarities of using a modern MT system in the technological chain of scientific and technical translation. MT systems are considered as a part of translator's workstation, specifics of both text pre- and postediting and automatic dictionaries management are analyzed. Modern para-

Herzen State Pedagogical University of Russia, St. Petersburg, Russian Federation

L.N. Belyaeva

Received: 10.05.2019 Accepted: 25.05.2019 Published: 10.07.2019

digm 4.0 (Industry 4.0 and Information 4.0) dictates a new trend in automation and data exchange in manufacturing, such that will greatly influence both technology and science. Working with machine translation systems is presented as a step-by-step process which has objective limitations because of the technically imposed processing at sentence level, a need to process words absent in the system's dictionary, terminological variation of the source text, increased length of sentences, linearity of collocation recognition. A number of restrictions are successfully overcome by a special pre-editing algorithm (addition of articles and conjunctions, syntactic simplification, elimination of elliptical constructions, etc.). The structure of an automatic dictionary of the machine translation system is presented. The basic operations for post-editing machine translation are described, which imply both changes in the translation of individual lexical units and syntactic transformations. It is shown that the translation on the basis of the MP system must be completed by linguistic resources upgrade.

Keywords: machine translation, automatic dictionary, preediting, postediting, translator's workstation, translator's competences, technical communication.

Многолетнее использование систем машинного перевода (МП) не только специалистами в различных областях знаний, но и переводчиками научных и технических (специальных) текстов определяет необходимость предварительного подведения итогов, касающихся собственно процедуры работы с такими системами, минимизации объема постредактирования результатов МП, а также связи методов постредактирования с полнотой и точностью автоматического словаря (АС) соответствующей системы.

Основными профессиональными пользователями систем МП являются специалисты, именующиеся в современной англоязычной литературе термином language worker, который приблизительно можно перевести как специалист в области переработки текстов. Под этим термином объединяются все лингвисты, работающие в области переработки научных и технических текстов: терминологи, переводчики, технические писатели, специалисты в области передачи технической информации [1; 2]. Современный переводчик специальной литературы является участником технологического процесса обработки текста, поэтому использование специализированной предметно-ориентированной системы МП, выбранной лично им или компанией, в которой он работает, сегодня обязательно. Огромный выбор систем машинного перевода, автоматизированных словарей, баз данных и знаний определяет необходимость формирования автоматизированного рабочего места (АРМ) переводчика [3].

Известно, что автоматизированное рабочее место переводчика, как правило, включает специализированную систему машинного перевода с настроенными пользовательскими словарями, средства переводческой памяти, онлайновые словари, доступные средства автоматизации работы с терминологией [4, с. 5], комплекс резидентных словарей, тезаурусов, систем проверки орфографии, систем доступа к информации по различным сетям передачи данных, средства формирования моделируемых текстов определенной структуры [5; 6]. В переводческих системах, создаваемых в больших производственных компаниях, используются как описание специально создаваемого контролируемого языка, так и средства работы с ним. Наиболее распространенные и активно

реализуемые АРМ предназначены для непосредственного использования профессиональными переводчиками, знающими как исходный язык, так и язык перевода, лексическое описание которых включено в словарное обеспечение. Такие АРМ позволяют переводчику сохранить полный контроль над продуцированием собственных переводов. Системы машинного перевода, составляющие неотъемлемую часть АРМ, обеспечивают получение рабочего варианта перевода, жестко ориентированного на конкретную предметную область, задачи пользователя и тип документации. Любая система машинного перевода, выбранная и настроенная на необходимую предметную область, дает вариант перевода, который требует анализа и постредактирования.

В процессе любого перевода выделяются 3 основных этапа: ознакомление с текстом, создание перевода, его редактирование [7, с. 109] или постредактирование в случае работы с системой МП. Само постредактирование, входящее в работу с результатами МП как обязательный этап, теоретически не должно вызывать затруднений, однако при его проведении необходимы определенные знания особенностей работы системы МП, а также структуры и состава АС.

Поскольку умение перевести специальный текст вырабатывается тогда, когда человек способен создать этот текст на родном языке, то профессиональные переводчики, терминологи, технические писатели должны обладать базовыми компетенциями в области создания специальных текстов на родных и иностранных языках, а также в области их перевода и обработки. В качестве такой обработки может рассматриваться извлечение информации, а также создание вторичных текстов любого типа и назначения.

Выполнение всех этих видов работ требует от специалистов в области обработки текстов:

1) знания типологии специальных и технических текстов на родном (русском) языке и иностранных языках, их различий и особенностей;

2) умения создавать все типы специальных текстов на родном языке;

3) умения создавать все типы специальных текстов на иностранном языке;

4) умения переводить тексты с учетом различий в требованиях к специальным текстам в различных культурах.

В то же время современное развитие науки и техники во многом определяется не только скоростью и качеством переработки постоянно расширяющегося потока научной и технической информации на разных языках, в большой степени поддерживаемое качественным переводом, но и степенью внедрения информационных технологий при реализации новых научных проектов и/или при разработке и внедрении конкретной научной и/или технической продукции. Успешность реализации этих процессов также во многом зависит от квалификации переводчика, его умения не только быстро и каче-

ственно переводить предлагаемый материал, но и активно участвовать в его разработке и структурировании. Последнее требование непосредственно связано с особым подходом к процессам создания документации и обмена информацией, то есть технической коммуникацией, что определяется новым подходом к автоматизации и обмену информацией в промышленном производстве - Промышленностью 4.0 (Industry 4.0) [9].

В основе представления и перевода научной и технической документации в рамках этого нового подхода лежит понятие авторской разработки структурированного контента (structured content authoring), которая предполагает предварительное разделение текста на небольшие части, называемые тематическими разделами (topics). Для создания окончательного варианта конкретного документа эти разделы далее объединяются на основе карт (maps).

Подход к формированию текста в этих новых условиях опирается на особые требования к представлению информации, которая должна быть: молекулярной, то есть формируемой из информационных молекул, а не из готовых документов, динамической, то есть непрерывно обновляемой, предлагаемой, а не поставляемой в готовом виде, универсальной, то есть интерактивной, доступной и удобной для поиска, спонтанной, то есть вызываемой конкретными контекстами, профилируемой автоматически [10].

При этом сами молекулы рассматриваются как завершенные крупицы информации, а тематические разделы должны соответствовать темам текста. Тогда подобные молекулы могут алгоритмически маркироваться и использоваться для создания текстов разных типов, этот процесс, в свою очередь, также может быть автоматизирован. Известно, что различные инструментальные средства разрабатывались и применялись для того, чтобы оптимизировать продуцирование и поддержание больших массивов текстовых документов на основе систем, которые позволяют создавать тексты параллельно, избегая дублирования контента за счет повторяющихся тематических разделов. Тем самым облегчается модификация текстов, связанная с разработкой новых версий изделия, уменьшаются расходы на услуги переводчиков и т.д.

В основе нового подхода к формированию документации лежит анализ продуктивности (productivist approach), при котором степень детализации тематических разделов определяется задачами создания научной и технической документации и потенциально отделена от самого содержания, то есть от тех тем, которые реально обсуждаются в тексте [11].

Специалисты в области разработки технической документации остро необходимы сегодня, они должны обладать рядом стандартных компетенций в области:

1) планирования своей работы, учитывая:

- особенности адресатов текста и их профессиональный уровень,

- конкретное предназначение текста и собственное владение материалом,

- бюджет времени, отведенный на создание текста, включая оценку времени на написание текста, его пересмотр и редактирование;

2) создания специального текста, учитывая такие требования, как ясность, краткость, простота выбираемых выражений, использование корректной терминологии, активного залога, полных синтаксических конструкций, отказ от использования синонимических терминов;

3) необходимость анализа и редактирования получаемого результата [12].

Однако Информация 4.0 требует новых компетенций, к которым в самом общем виде относятся следующие:

- способность собирать, анализировать и отбирать подходящую информацию, чтобы разрабатывать информационный продукт;

- способность выбирать такую стратегию разработки продукта, благодаря которой возможно получать соответствующие информационные продукты для различных целей и потребителей;

- способность гарантировать, что информация является извлекаемой и доступной, представляет связную ментальную модель и согласуется по продуктам и средам;

- умение выбирать аппаратные средства и программное обеспечение, необходимое для использования в научной и технической коммуникации;

- способность разрабатывать и оценивать модули электронного обучения;

- знание процесса издания информационного продукта и его стадии;

- достаточное понимание предметных областей, которые являются релевантными для специалистов по распространению технической информации (информатика, машиностроение, физика и т.д.), чтобы быть способными сотрудничать с экспертами в предметной области;

- знание основных принципов и методов терминоведения;

- способность формировать ресурсные и лексикографические базы данных и корпуса текстов для решения профессиональных задач [ср. 13].

Работа большинства систем МП осуществляется на нескольких иерархически соподчиненных уровнях автоматического предредактирования текста; лексико-морфологического анализа; контекстного анализа и анализа групп; анализа функциональных сегментов; анализа предложений; синтеза выходного текста; автоматического постредактирования. Для полноценного использования системы МП переводчик должен представлять себе в общем виде общую процедуру анализа текста в системе, что позволит заранее готовить текст так, чтобы результат МП требовал минимального редактирования. Анализ текста системой МП начинается с уровня формального анализа, результатом решения этой задачи является предварительная разметка текста: установление границ отдельных разделов, заголовков, оглавления, таблиц, рисунков, формул. Кроме того, особым образом обрабатывается и запоминается формально-графическая

структура текста, что необходимо для ее восстановления при синтезе перевода. Алгоритмы морфологического, синтаксического и семантического анализа реализуются в системах машинного перевода на разных уровнях: слов, функциональных групп, предложений. Результат их работы определяется тем, насколько однозначно могут быть приняты решения на основе вариативности результатов анализа на каждом уровне.

Сегодня системы машинного перевода делятся на несколько типов: предметно-ориентированные бинарные системы, системы, работающие на основе использования накопленных примеров (example-based), и системы статистического машинного перевода. Последние два типа систем основаны на использовании результатов переводческой памяти, и, по сути, все современные варианты систем МП являются гибридными, поскольку сочетают использование архивов систем переводческой памяти с процедурами, реализующими МП для тех фрагментов текста, которые в этих архивах не найдены (ср. [14; 15]).

При условии использования в таком гибридном варианте предметно-ориентированных бинарных систем МП с трансфером, которые являются практическими системами и основаны на предварительном терминологическом анализе соответствующей предметной области, пользователю необходимо учитывать, что автоматический словарь является ядерной частью любой системы, он предназначен не только для преобразования текста на лексическом уровне, что является нижним уровнем анализа и трансфера, но и для обеспечения работы алгоритмов автоматического синтаксического анализа (парсинга). При анализе результатов работы системы следует иметь в виду, что парсинг осуществляется в рамках одного предложения, а не в пределах сверхфразового единства и тем более не текста как целого. Поэтому с каждым новым предложением система МП как бы начинает анализ заново, теряя информацию о границах именных и глагольных групп, функциональных сегментах, установленную при анализе предыдущего предложения. Разработчики систем МП прекрасно осознают ущербность такого подхода, но он жестко определяется требованием перехода на начальном этапе работы от конкретных лексических единиц к их кодовым обозначениям. Эти семантико-синтаксические коды, суть и разнообразие которых зависят от системы и заданных в ней алгоритмов, являются основой применения универсальных для конкретного языка алгоритмов анализа и синтеза.

Практическая работа переводчика с системой машинного перевода предусматривает:

♦ подготовку исходного текста (массива текстов) к переводу - ручное предредактирование текста;

♦ редактирование результатов работы системы МП - ручное постредактирование переводов;

♦ ведение собственного (пользовательского) словаря, фиксирующего результаты работы с машинными переводами и определяющего настройку системы МП на задачи конкретного переводчика.

При реализации работы на этих этапах следует учитывать ограничения, которые накладываются на результаты работы любой системы МП. Это ограничения:

1) вследствие локального перевода (перевода по предложениям), эта особенность приводит к тому, что в системе затруднены анализ связей внутри сверхфразового единства и поиск антецедентов, что приводит к неверному переводу местоимений-заместителей. Следовательно, при предварительном редактировании исходного текста необходимо обратить внимание на использование таких заместителей и по возможности заменить их соответствующими знаменательными словами;

2) вследствие особенностей работы со словами, отсутствующими в словарях системы (геоназваниями и именами собственными, фирменными знаками и редкими словами), что приводит к возможным нарушениям в синтаксическом анализе входного предложения. Кроме того, возможны ситуации неправильного опознавания имен собственных как имен нарицательных и, соответственно, их перевода. При предварительном редактировании следует обратить внимание на использование таких имен и маркировать их так, чтобы не допустить их перевода;

3) вследствие вариативности использования терминов в исходном тексте, что может нарушить унификацию перевода терминологии в рамках одного и того же текста. При предварительном редактировании следует проанализировать наиболее частотные номинации (используемые термины), окказиональные аббревиатуры, которые могут совпадать в различных терминологических системах и языках для специальных целей, а также способы использования дефисных конструкций;

4) вследствие того, что в реальных текстах встречаются очень длинные предложения, а в системах введены ограничения на длину предложения, при которой синтаксическая структура распознается достаточно устойчиво. Это ограничение может быть снято за счет предварительного редактирования очень длинных предложений. Опыт показывает, что при средней длине предложения в 12 слов результат МП оптимальный, однако в реальном тексте этот показатель очень часто превышается;

5) вследствие линейности распознавания устойчивых коллокаций (машинных оборотов), которые составляют большую часть словарного обеспечения любой системы машинного перевода.

Предредактирование текста позволяет заранее снять некоторые ограничения систем МП, оно необходимо для установления единства используемой терминологии, например, в системах извлечения данных (data min-

ing systems), в которых часто неверные результаты возникают в результате расхождения между данными, извлекаемыми из текста, и номинацией соответствующих объектов в словарном обеспечении (базах данных или онтоло-гиях). Предредактирование должно использоваться для исправления ошибок и в целом для упрощения текста в связи с решением задач перевода и инженерии знаний. Предредактирование предполагает выполнение следующих действий:

♦ введение в иноязычный текст артиклей там, где это необходимо или грамматически оправданно;

♦ повторение элементов при сочинительной связи словосочетаний в предложении;

♦ введение союзов при использовании бессоюзной связи между предложениями;

♦ устранение конструкций в скобках в середине именной группы или в середине предложения;

♦ замена окказиональных аббревиатур на полные наименования либо введение специальных символов, предотвращающее их перевод как обычных слов;

♦ устранение эллипсисов, неформальных конструкций и метафор;

♦ приведение к единому виду конструкций, которые могут иметь разное написание.

Лингвистическое обеспечение систем МП обычно реализуется как скор-релированная система автоматических словарей (АС) и грамматических правил. В соответствии с таким подходом автоматический словарь системы МП функционально можно разделить на 4 составные части:

1) словарные статьи так называемых стоп-слов, то есть служебной лексики, которая определяет привлечение конкретных алгоритмов парсинга;

2) терминологические словарные базы, ориентированные на фиксацию терминов-универбов или многокомпонентные термины, характерные для использования в конкретных предметных областях или подобластях;

3) словарные статьи общенаучной лексики, используемой практически во всех научных и технических текстах;

4) словарные статьи лексических единиц (слов и словосочетаний), добавляемых пользователем в так называемый пользовательский словарь. Эта часть АС формируется переводчиком и/или терминологом в рамках собственного АРМ и обеспечивает его более тонкую настройку на лексический спектр текстов, предназначенных для перевода.

Каким бы полным и ориентированным на узкую подобласть ни был АС, результат МП требует постредактирования как на уровне синтаксической структуры предложения, так и на уровне уточнения и/или изменения переводов отдельных слов и словосочетаний, а также изменения морфологических

характеристик рода, числа, падежа, уточнения форм времени и залога, изменения пунктуации. При оценке трудоемкости этого процесса внесение стилистических изменений обычно не рассматривается. Как ни парадоксально, именно этот процесс вызывает неприятие переводчиков и отрицательное отношение к результатам МП в целом. Проведенные исследования [16] показали, что такое неприятие больше свойственно профессиональным переводчикам, чем тем, кто еще только получает эту профессию. Возможно, это связано еще и с уровнем компьютерной грамотности испытуемых, а также с небольшим опытом перевода. Многолетний опыт собственной работы автора показывает, что работа с постредактированием результатов МП оставляет простор для решения творческих и лингвистических задач, однако обучение постредактированию результатов МП должно составлять обязательную часть подготовки переводчиков.

Постредактирование на лексическом уровне требует уточнения и изменения переводов конкретных лексических единиц, на синтаксическом - преобразования структуры предложения. Например, в случаях перевода с английского языка на русский необходимы проверка согласования по роду, числу и падежу, уточнение места подлежащего, иногда полная перестройка предложения или переход к непрямой структуре типа we have ^мы имеем ^у нас есть.

Постредактирование результатов МП и получение окончательного варианта перевода текста требуют обращения к словарным и энциклопедическим базам данных, выбранным переводчиком и входящим в состав АРМ, а также к заранее выбранным корпусам текстов. В результате работы на этапе собственно перевода формируется пользовательский словарь, уточняющий терминологические особенности конкретного текста. Этот словарь на этапе поддержки выбранной системы машинного перевода включается в ее лингвистические ресурсы.

Таким образом, после завершения перевода конкретного текста должна происходить перенастройка лингвистических ресурсов: пополняться корпус параллельных текстов за счет исходного текста и его перевода, формироваться и/или пополняться пользовательский словарь, включающий терминологию, выявленную и проверенную переводчиком, пополняться база словарей. Только постоянное ведение собственной системы машинного перевода позволяет использовать ее с максимальным эффектом, настраивая словари на необходимую терминологию и выбирая удобные средства и методы постредактирования.

Рассмотрим особенности процесса постредактирования и ведения пользовательского словаря при работе переводчика с результатами МП. Первая часть словаря включает особую строевую лексику, которая задает опорную информацию для реализации алгоритмов трансфера, поэтому эта часть словаря - словарь стоп-слов является «неприкосновенной» в том смысле, что никакие ее единицы (вспомогательные и модальные глаголы, союзы, предлоги или

омонимы с ними) не должны включаться в пользовательский словарь даже в том случае, если переводчика не устраивает выбранный в системе вариант перевода. Этот вариант при постредактировании может быть исправлен в режиме замены во всем тексте так, как это предпочитает переводчик, но не в словаре.

Вторая (терминологическая) часть словаря включает словарные статьи с выверенными описаниями терминологических единиц и их семантико-синтаксические коды. Эта терминологическая база ориентирована на предметную область, и за ее ведение, как правило, отвечают разработчики системы или терминологи, которым это специально поручается в команде тех, кто готовит и переводит тексты.

К третьей части словаря относятся слова широкой семантики, которые и вызывают самый большой объем постредактирования. Дело в том, что значение и перевод этих слов задаются в АС лексическими единицами, определяющими самые обобщенные значения, входящие в объем соответствующего понятия. Значения слов широкой семантики частично уточняются за счет введения в АС фразовых глаголов и словосочетаний. Поскольку в реальном тексте у автора есть большая свобода формирования новых уточняющих словосочетаний, использования низкочастотных или не свойственных научному стилю выражений, то никакой АС не в состоянии включить их все, соответственно, при постредактировании именно эти лексические единицы требуют особого внимания и решения креативных задач.

Пользовательский словарь формируется в результате работы на этапе постредактирования, этот словарь фиксирует терминологические особенности конкретных текстов, с которыми работает переводчик. Исследование результатов МП, научных и технических текстов, а также реального объема постредактирования позволяет рекомендовать особую осторожность при выборе новых лексических единиц и их переводов, включаемых в пользовательский словарь. Необходимо проанализировать весь текст в целом, чтобы понять, насколько эти переводу ему (и не только ему) соответствуют. Только в случае, если соответствие установлено, можно в режиме замены отредактировать все употребления подобных слов и словосочетаний, а затем ввести их в пользовательский словарь для использования при переводе других текстов из той же предметной области.

Сегодня использование машинного перевода в научных, технических и исследовательских проектах, а также в коммерческих целях постоянно растет. Серьезные достижения по качеству машинного перевода привели к широкому использованию МП непрофессионалами для извлечения сути текстов, написанных на незнакомых языках. Соответственно, возникли особые требования к процедурам и технологиям постредактирования [16]. В то же время можно утверждать, что для полноценного использования системы МП профессиональный переводчик должен представлять себе в общем виде процедуру

анализа текста в системе, что позволит ему заранее подготовить текст так, чтобы минимизировать объем постредактирования. Кроме того, пользователи системы МП должны хорошо понимать, что качество результатов машинного перевода зависит от настройки системы АС на задачи конкретного пользователя. Учет спектра и возможностей и ограничений выбранной системы перевода позволит переводчику получать результат, легко редактируемый с помощью современных лингвистических технологий. Корректное использование всего спектра этих технологий сегодня приобретает особую важность.

Список литературы

1. Vasiljevs A., Pinnis M., Gomostay T. Service model for semi-automatic generation of multilingual terminology resources // Terminology and Knowledge Engineering 2014. - 19-21 Jun 2014. - P. 67-76.

2. Беляева Л.Н. Лингвистические технологии в современном сетевом пространстве: language worker в индустрии локализации. - СПб.: Книжный дом, 2016. - 134 с.

3. Автоматизированное рабочее место филолога в структуре образовательного пространства современного вуза / Л.Н. Беляева, Т.Л. Джепа, Г.Н. Зак, О.Н. Камшило-ва, В.Р. Нымм, В.В. Разумова. - СПб.: Книжный дом, 2013. - 123 с.

4. Steinberger R. Language Engineering Technologies and their use for TF-UCLAF: A Report on JRC's Institutional Support Activities [Электронный ресурс]. - URL: http://langtech.jrc.it/Documents/Report-98_Steinberger_LangTech4OLAF.pdf] (дата обращения: 20.04.2019).

5. Rychtyckyj N. An Assessment of Machine Translation for Vehicle Assembly Process Planning at Ford Motor Company / S.D. Richardson (ed.) // AMTA 2002. Lecture Notes in Computer science. - Vol. 2499. - Berlin Heidelberg: Springer-Verlag, 2002. -P. 207-215.

6. Knebel M., Ralf F. DITA Customization - Create Your Own Flavor // Tekom-Jahrestagungund tcworld conference in Stuttgart. Zusammenfassungen der Referate. -Stuttgart: tcworld GmbH Verantwortlich. - 2016. - P. 51-53.

7. Погосов А.А. Развитие переводческого процесса: подход современных ученых // Вестник Военного университета. - 2009. - № 4 (20). - С. 109-114.

8. Ермаков А.Е. Язык семантических трансформаций для компьютерной интерпретации текста // Информационные технологии. - 2017. - Т. 23, № 6. - С. 403-412.

9. Gollner J. Information 4.0 for Industry 4.0 // Towards a European Competence Framework: Tekom-Jahrestagungund tcworld conference in Stuttgart. Zusammenfassungen der Referate. - Stuttgart: tcworld GmbH Verantwortlich, 2016. - P. 93-94.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

10. Gallon R. Information 4.0, the Next Steps // Towards a European Competence Framework: Tekom-Jahrestagungund tcworld conference in Stuttgart. Zusammenfassungen der Referate. - Stuttgart: tcworld GmbH Verantwortlich, 2016. - P. 95-97.

11. Lacroix F. Writing for the 21st Century // Towards a European Competence Framework: Tekom-Jahrestagungundtcworld conference in Stuttgart. Zusammenfassungen der Referate. - Stuttgart: tcworldGmbHVerantwortlich, 2016. - P. 102-106.

12. Беляева Л.Н., Гейхман Л.К., Камшилова О.Н. Компетентностный потенциал современного переводчика: проблемы лингвообразования // Профессиональное

лингвообразование: материалы Девятой междунар. науч.-практ. конф.; июль 2015 г. -Н. Новгород: Изд-во НИУ РАНХиГС, 2015. - С. 337-350.

13. Meex B., Karreman J. TecCOMFrame. Towards a European Competence Framework // Towards a European Competence Framework: Tekom-Jahrestagungund tcworld conference in Stuttgart. Zusammenfassungen der Referate. - Stuttgart: tcworld GmbH Verantwortlich, 2016. - P. 486-489.

14. Dandapat S., Morrissey S., Way A., Forcada M.L. Using example-based MT to support statistical MT when translating homogeneous data in a resource-poor setting // Proceedings of the 15 th annual meeting of the European Association for Machine Translation (EAMT 2011), 2011. - P. 201-208.

15. Dandapat S., Morrissey S., Way A., van Genabith J. Combining EBMT, SMT, TM and IR technologies for quality and scale // Proceedings of the Joint Workshop on Exploiting Synergies between Information Retrieval and Machine Translation (ESIRMT) and Hybrid Approaches to Machine Translation (HyTra). - 2012 - P. 48-58.

16. Moorkens J., O'Brien S. Post-Editing Evaluations: Trade-offs between Novice and Professional Participants // EAMT 2015. Proceedings of the 18th Annual Conference of the European Association for Machine Translation. - Antalya, Turkey, May 11-13, 2015. -P. 75-81.

References

1. Vasiljevs A., Pinnis M., Gornostay T. Service model for semi-automatic generation of multilingual terminology resources. Terminology and Knowledge Engineering, 2014, pp. 67-76.

2. Beliaeva L.N. Lingvisticheskie tekhnologii v sovremennom setevom prostranstve: language worker v industrii lokalizatsii [Linguistic technology in modern network space: Language worker in localization industry]. St. Petersburg, Knizhnyi dom, 2016, 134 p.

3. Beliaeva L.N., Dzhepa T.L., Zak G.N., Kamshilova O.N., Nymm V.R., Razu-mova V.V. Avtomatizirovannoe rabochee mesto filologa v strukture obrazovatel'nogo pros-transtva sovremennogo vuza [Philologist's workstation in the structure of modern educational institutions]. St. Petersburg, Knizhnyi dom, 2013, 123 p.

4. Steinberger R. Language engineering technologies and their use for TF-UCLAF. A Report on JRC's institutional support activities. Available at: http://langtechjrc.it/Docu-ments/Report-98_Steinberger_LangTech4OLAF.pdf (accessed 20 April 2019).

5. Rychtyckyj N. An Assessment of machine translation for vehicle assembly process planning at Ford Motor Company. Ed. S.D. Richardson. AMTA 2002, Lecture Notes in Computer science, vol. 2499, Berlin Heidelberg, Springer-Verlag, 2002, pp. 207-215.

6. Knebel M., Ralf F. DITA customization - Create your own flavor. Tekom - Jah-restagungund tcworld Conference in Stuttgart. Zusammenfassungen der Referate. Stuttgart, Tcworld GmbH Verantwortlich, 2016, pp. 51-53.

7. Pogosov A.A. Razvitie perevodcheskogo protsessa: podkhod sovremennykh uchenykh [Translation process development: Contemporary scientists' view]. Vestnik Voen-nogo universiteta, 2009, no. 4 (20), pp. 109-114.

8. Ermakov A.E. Iazyk semanticheskikh transformatsii dlia komp'iuternoi interpretatsii teksta [Language of semantic transformations for automated text interpretation]. Informat-sionnye tekhnologii, 2017, vol. 23, no. 6, pp. 403-412.

9. Gollner J. Information 4.0 for Industry 4.0. Towards a European Competence Framework. Tekom-Jahrestagungund tcworld conference in Stuttgart. Zusammenfassungen der Referate. Stuttgart, Tcworld GmbH Verantwortlich, 2016. - pp. 93-94.

10. Gallon R. Information 4.0, the Next Steps. Towards a European Competence Framework. Tekom-Jahrestagungund tcworld conference in Stuttgart. Zusammenfassungen der Referate. Stuttgart, Tcworld GmbH Verantwortlich, 2016, pp. 95-97.

11. Lacroix F. Writing for the 21st Century. Towards a European Competence Framework. Tekom-Jahrestagungundtcworld conference in Stuttgart. Zusammenfassungen der Referate. Stuttgart, Tcworld GmbH Verantwortlich, 2016, pp. 102-106.

12. Beliaeva L.N., Geikhman L.K., Kamshilova O.N. Kompetentnostnyi potentsial sovremennogo perevodchika: problemy lingvoobrazovaniia [Professional linguistic competence: Educating translators]. Professional'noe lingvoobrazovanie. Proc. IX Int. Sci.-Pract. Conf., July 2015. Nizhny Novgorod, RANEPA, 2015, pp. 337-350.

13. Meex B., Karreman J. TecCOMFrame. Towards a European Competence Framework. Tekom-Jahrestagungund tcworld conference in Stuttgart. Zusammenfassungen der Referate. Stuttgart, Tcworld GmbH Verantwortlich, 2016, pp. 486-489.

14. Dandapat S., Morrissey S., Way A., Forcada M.L. Using example-based MT to support statistical MT when translating homogeneous data in a resource-poor setting. Proc. of 15th Annual meeting of the European Association for Machine Translation (EAMT 2011), 2011, pp. 201-208.

15. Dandapat S., Morrissey S., Way A., van Genabith J. Combining EBMT, SMT, TM and IR technologies for quality and scale. Proc. of the Joint Workshop on Exploiting Synergies between Information Retrieval and Machine Translation (ESIRMT) and Hybrid Approaches to Machine Translation (HyTra), 2012, pp. 48-58.

16. Moorkens J., O'Brien S. Post-editing evaluations: Trade-offs between novice and professional participants. EAMT 2015. Proc. of the 18th Annual Conference of the European Association for Machine Translation, Antalya, Turkey, May 11-13, 2015, pp. 75-81.

Сведения об авторе

БЕЛЯЕВА Лариса Николаевна

e-mail: lauranbel@gmail.com

Доктор филологических наук, профессор, заслуженный деятель науки РФ, РГПУ им. А.И. Герцена (Санкт-Петербург, Российская Федерация)

About the author

Larisa N. BELYAEVA

e-mail: lauranbel@gmail.com

Doctor of Philology, Professor, Honored Scientist of the Russian Federation, Herzen State Pedagogical University of Russia (Saint Petersburg, Russian Federation)

i Надоели баннеры? Вы всегда можете отключить рекламу.