Научная статья УДК 81'33
DOI 10.52070/2542-2197_2021_11_853_127
ОПЫТ ПРИМЕНЕНИЯ ПРОГРАММНЫХ РЕШЕНИЙ
ДЛЯ ПОВЫШЕНИЯ КАЧЕСТВА ПЕРЕВОДА (на материале лексики подъязыка «логистика»)
О. И. Кузьмин
Московский государственный лингвистический университет, Москва, Россия, oleg.kuzmin.999@mail.ru
Аннотация. Перевод текстов предметных областей, выполненный с помощью систем машинного перевода, не всегда является идеальным вследствие терминологического разнообразия семантических полей подъязыков и наличия богатой контекстуальной синонимии. Самостоятельный поиск ошибок и последующее редактирование текстов отнимают у переводчиков много времени. Для автоматизации процесса, оптимизации времени и облегчения работы с текстами предметных областей был разработан программный продукт, который способен улучшить качество конечного результата.
Ключевые слова: машинный перевод, автоматизированный перевод, предметная область, терминологический глоссарий, семантическое поле
Для цитирования: Кузьмин О. И. Опыт применения программных решений для повышения качества перевода (на материале лексики подъязыка «логистика») // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2021. Вып. 11 (853). С. 127-136. DOI: 10.52070/2542-2197_2021_11_853_127
Original article
THE EXPERIENCE OF USING SOFTWARE SOLUTIONS TO IMPROVE THE QUALITY OF TRANSLATION (based on the vocabulary of the sublanguage «logistics»)
O. I. Kuzmin
Moscow State Linguistic University, Moscow, Russia, oleg.kuzmin.999@mail.ru
Abstract. Translation of subject areas texts performed by using machine translation systems is not always ideal due to the terminological diversity of semantic fields of sublanguages and the presence of a rich contextual synonymy. The search of errors and post-editing of the text takes a lot of time. To automate the process, optimize time
and facilitate work with texts of subject areas, a software product has been developed that is aimed to improving the quality of the final text.
Keywords: machine translation, automated translation, subject area, terminological glossary, semantic field
For citation: Kuzmin, O. I. (2021). The experience of using software solutions to improve the quality of translation (based on the vocabulary of the sublanguage «logistics»). Vestnik of Moscow State University. Humanities, 11 (853), 127-136. DOI: 10.52070/2542-2197_2021_11_853_127
Введение
Приступая к переводу текста на иностранном языке, прежде всего стоит определить, для каких целей выполняется перевод, так как от этого будут зависеть критерии оценки его качества. Результат, полученный с помощью систем машинного перевода, варьируется от отличного до посредственного. Почти идеальным будет являться перевод, который необходим для поверхностного ознакомления с содержанием текста, и совершенно непригодным, если текст будет использоваться в юридически значимых международных документах или для публикации результатов научного труда. Однако даже самый приблизительный перевод можно использовать для работы как подстрочник, если в нем содержится достаточно ключевой информации для использования в рамках предметной области. Благодаря этой технологии можно легко восстановить содержание полного текста и оценить его информационную значимость для реципиента. Категоризация текстов необходима для определения его пригодности для машинного перевода и предварительной оценки результатов его работы.
Кроме того, необходимо определить предметную область текста, к которой он относится. Стоит отметить, что за последние годы была проделана существенная работа, связанная с повышением качества машинного перевода с одного языка на другой. Нейронные системы машинного перевода, такие как Яндекс. Переводчик и Google Translate, обученные на статистической базе данных Интернета, уже могут выдавать приличные результаты перевода, которые способны конкурировать с человеком [Zong, 2018]. Однако область применения данных программ остается достаточно узкой. Они применяются там, где важны скорость перевода и моментальный результат, но не столь важно качество. Машинный перевод сегодня успешно
используется в новостных лентах и информационных сообщениях в аэропортах, на вокзалах, в залах ожидания и др.
Стоит отметить, что машинный перевод может справиться далеко не со всеми текстами. Творческие аспекты человеческого мышления, такие как специальные устойчивые обороты, метафоры, особый авторский стиль, напрямую влияют на качество перевода [Calude, 2003]. Тексты, которым свойственны последовательность и однозначность, наиболее соответствуют требованиям машинного перевода. Это могут быть как научные и технические, так и образовательные тексты. Публицистический стиль, в котором много специфических словосочетаний, прямой речи и диалогов, также может быть использован для ознакомительного перевода, однако в этом случае уже потребуется ручная правка с помощью словаря [Koponen, Salmi, Nikulin, 2019]. Художественную литературу, к сожалению, невозможно переводить автоматическим путем. Несомненно, что литературный перевод требует от человека большего вклада, творческих способностей, лингвистического таланта и умения работать с языком. Машинный перевод в этом случае выступает в роли словаря [Toral, Way, 2015].
Несмотря на популярность систем машинного перевода (МП) и на то, что они широко применяются для решения переводческих задач, качество конечного текста часто остается неудовлетворительным. В этой связи разработчики продолжают отыскивать способы автоматизировать процесс ручного поиска и классификации ошибок, повысить качество и разработать новые методы оценки результатов перевода [Popovic, 2018]. Потребность в более точном переводе существует во многих сферах, таких как международные отношения, политика, экономика, торговля и логистика. Оттенки значений слова могут меняться в зависимости от предметной области и радикально изменить значение текста, что может привести к искажению смысла. Чтобы не допускать профессиональных ошибок при работе с текстами, необходима специализированная экспертная программа, которая поможет в ликвидации подобных ошибок и приведет к более точному изложению собственных мыслей в рамках предметной области на иностранном языке. Используя специальные автоматизированные словари, которые являются частью функционала программы, можно получить полностью связный перевод, который потребует лишь небольшой редакторской правки. Благодаря этому существенно возрастет качество и сократится время проверки переведенного текста.
Рекомендации по работе с текстами машинного перевода и составлению терминологических глоссариев
Семантическое поле подъязыка «логистика» является сложным и многообразным. При переводе различных текстов на немецком и английском языке встречаются синонимические ряды терминов, которые в каждом отдельном случае переводятся по-особенному. Проведенный в ходе работы над диссертационным исследованием анализ многоязычных текстов, переведенных с помощью систем машинного перевода, и текстов, которые были переведены людьми-экспертами в данной области, носителями языка, были отмечены расхождения, которые влияли на восприятие текста читателем на уровне семантики. Так, в процессе работы с текстами машинного перевода подъязыка «логистика» были выявлены лингвистические неточности, на основе которых была составлена классификация основных ошибок.
Учитывая тот факт, что большинство ошибок относятся к области семантики, возникла потребность в разработке и реализации специализированного программного продукта, задачами которого станут: а) выявление ошибок при переводе многозначных терминов предметных областей; б) рекомендации по замене терминов на более точные, которые соответствуют данной предметной области. Для отздания данной программы были проанализированы существующие на сегодняшний день автоматизированные решения, изучены принципы работы систем машинного и автоматизированного перевода, выявлены их ключевые особенности, преимущества и недостатки. Во-первых, были исследованы основные системы онлайн машинного перевода (PROMT, Яндекс. Переводчик, Google Translate), составлена классификация типов ошибок, отмечен ряд семантических неточностей при переводе многозначных терминов предметных областей. Во-вторых, исследованы наиболее популярные программы на рынке автоматизированного перевода SmartCAT, SDL Trados, MemSource, MemoQ, OmegaT, WordFast, DejaVu, MetatTexis и др., проведена переводческая работа с помощью данных программ. В ходе практического применения систем была отмечена необходимость, а также практическая целесообразность использования функции глоссария и памяти переводов при работе с текстами предметных областей.
В ходе работы с семантическим полем предметной области «логистика» были выявлены некоторые лексические особенности
и устойчивые сочетания, которые переводятся автоматическими системами неверно [Quinlan, O'Brien, 1993]. На основе проанализированных баз данных и текстов (около 20 текстов на трех языках: немецкий, английский и русский) был составлен семантический глоссарий, включающий более 100 слов и словосочетаний на немецком, русском и английском языках, которые встречаются наиболее часто при переводе текстов предметной области «логистика» на иностранные языки и при ведении межгосударственного документооборота.
При разработке глоссария предметной области были отобраны синонимические ряды, исследованы аналогичные базы данных и глоссарий предметной области, в которых встречаются схожие лексические единицы, были отмечены определенные особенности формирования подобных баз. Так, например, если система автоматизированного перевода работает с несколькими словарями, то для правильного выбора эквивалента перевода необходимо минимизировать наложение словарей друг на друга и создать правильную иерархию. На первом месте должен быть словарь текущего текста, на втором - тематический (предметной области), на третьем - словарь общеупотребительных понятий. Например, при переводе текста о железнодорожных грузоперевозках прежде всего необходимо использовать специальный словарь «Железная дорога», затем - «Транспорт», «Логистика» и в конце - общий словарь. Объём узкоспециализированных пользовательских словарей достаточно мал, в отличие от общего. Для эффективности работы словарей необходимо их ранжировать от частного к общему. Несмотря на эффективность работы такой схемы стоит отметить, что встречаются некоторые лексические единицы, которые отсутствуют в общих и специальных словарях. Вследствие этого большое количество терминологических единиц автоматические системы переводят неправильно.
Добавляя новое слово в пользовательский словарь, необходимо провести поисково-аналитическую работу с целью выявления уникальности данной лексической единицы. Некоторые слова можно встретить в предметной области лишь несколько раз, другие же встречаются в каждом абзаце и предложении. Ранжирование слов по частотности является важным фактором в достижении эффективности при работе с системами машинного перевода. Правильная работа с системой машинного перевода состоит в том, чтобы дифференцировать
общее и частное. В глоссарий вносятся только постоянно встречающиеся эквиваленты перевода, единичные, в большинстве случаев, исправляются редактором вручную. Выполняя поисковую работу слов, которые были добавлены в автоматизированный глоссарий подъязыка «логистика», необходимо ориентироваться на данный набор правил.
Ключевые особенности и функционал программы автоматизированного перевода предметной области
После формирования базы данных была задействована специализированная программа для исправления неточностей, которые допустил машинный перевод. Основой создания программы послужили существующие автоматизированные системы (Computer-Assisted Translation), которые задействуют векторное представление слов (Word2Vec) [Mikolov et al., 2013] и возможность поиска слов в базах данных по N-граммам (попарной лексической сочетаемости), а также технологию «памяти переводов» или «накопитель переводов» (translation memory). После анализа существующих систем было разработано собственное техническое задание для программы автоматизированного перевода для подъязыка «логистика».
Основной задачей программы стала сегментация текста на значимые синтаксические и смысловые единицы (абзацы и предложения). Второй столбик необходим для вписывания перевода напротив исходного текста. Если переводчик будет не согласен с версией, которую предоставила система машинного перевода, то он сможет самостоятельно отредактировать вариант по своему усмотрению. Для более точного перевода была добавлена функция «памяти переводов», которая сохраняет успешно переведенные и подтвержденные сегменты параллельных билингвистических текстов. К подтвержденному сегменту можно вернуться для проверки или редактирования перевода. Проверенный и подтвержденный сегмент может быть использован из «памяти переводов» неограниченное количество раз, что делает процесс перевода текста автоматическим и ускоряет время, необходимое для его редактирования. В базе данных переведенных текстов можно выполнять поиск сегментов, которые частично или полностью совпадают с уже переведенным и предлагать подсказки по их переводу. Кроме того, есть функция подстановки слов из существующих
или добавленных глоссариев, возможность подключения терминологической базы на нескольких языках. В случае выявления совпадения какого-либо слова программа должна предлагать заменить полученный вариант на более точный из терминологической базы глоссария, которая соответствует данной предметной области. Невозможно обойтись и без технологии проверки орфографии, подключая модуль проверки правописания Word на том языке, на который пользователь осуществлял перевод.
В конечном итоге после завершения редактирования текста с помощью разработанной программы было выявлено, что благодаря созданному глоссарию качество текста, несомненно, выросло. По окончанию составления более обширной терминологической базы и задействования большего количества специализированных текстов планируется проведение экспертной оценки, что поможет статистически и экспериментально подкрепить необходимость дальнейшего улучшения и развития данной программы. Для содержательного анализа двух текстов и практического подтверждения целесообразности использования программы предлагается провести опрос специалистов в области подъязыка «логистика» с предоставлением им для ознакомления текстов машинного перевода и текстов, выполненных с использованием программы со встроенным глоссарием предметной области. Опрос покажет значимость практического использования и дальнейшего усовершенствования данной системы, в том числе, с целью разработки и применения новых глоссариев других предметных областей. На основе полученных статистических данных и выборки планируется построение вариационного статистического ряда, что наглядно продемонстрирует эффективность и значимость разработанного продукта.
Заключение
Тексты машинного перевода не являются идеальными вследствие многих причин, в частности, из-за сложности естественного языка и лингвистических особенностей подъязыков. Несомненно, перевод человека-эксперта будет оставаться лучшим при сопоставлении человека и машины. Ручная редакторская правка является эффективным способом ликвидации ошибок, однако требует значительного количества времени [White, John, 2003]. Разработка и применение
экспертных программ для перевода текстов подъязыков будет именно тем решением, которого сегодня не хватает на рынке автоматизированного перевода.
Несомненно, что разработанная программа для перевода текстов подъязыка «логистика» должна показать при задействовании большей выборки текстов свою практическую значимость и тем самым доказать перспективность дальнейшей разработки в рамках не только данной предметной области, но и за ее пределами. Стоит отметить, что отдельные глоссарии уже существуют для отдельных областей знаний и предлагаются пользователям на коммерческой основе. Однако до сих пор не предполагалось попыток создания отдельной специальной программы, которая была бы направлена на решение лингвистической вопросов перевода в рамках одной предметной области. Исходя их уникальности проводимого исследования и полученных промежуточных результатов стоит отметить перспективность разработки и улучшения данной программы, которая будет в полной мере решать поставленные перед ней задачи и предоставлять готовый продукт.
Что касается перспектив дальнейшего усовершенствования подобных программ и рынка автоматизированного перевода в целом, то в этой связи стоит отметить интеграцию специализированных программ перевода, которые имеют более широкий и профессиональный инструментарий с системами машинного перевода на платформе единого сервиса. Усовершенствование работы с базами данных и корпусами текстов является перспективным направлением исследований [Hacken, 2004]. Эта синергия в дальнейшем способна предложить наибольшую точность перевода предметных областей с минимальной редакторской правкой, что позволит сэкономить время и человеческий ресурс при работе с большим количеством документации на иностранных языках.
СПИСОК ИСТОЧНИКОВ
1. Zong Z. Research on the Relations Between Machine Translation and Human Translation. Journal of Physics: Conference Series. 2018. 062046. Doi: 10.1088/1742-6596/1087/6/062046
2. Calude Andreea S. Machine translation of various text genres, Te Reo. 2003, Vol. 46. P. 67-94.
3. Koponen M., Salmi L. & Nikulin M. A product and process analysis of posteditor corrections on neural, statistical and rule-based machine translation
output // Machine Translation. 2019. # 33. P. 61-90. Doi.org/10.1007/ s10590-019-09228-7
4. Toral A., Way A. Machine-assisted translation of literary text: A case study // Translation Spaces. # 4. P. 240-267. 10.1075/ts.4.2.04tor
5. Popovic M. Error Classification and Analysis for Machine Translation Quality Assessment. In: Moorkens J., Castilho S., Gaspari F., Doherty S. (eds) Translation Quality Assessment // Machine Translation: Technologies and Applications. Vol 1. Springer, 2018. Cham. https://doi.org/10.1007/978-3-319-91241-7_7
6. Quinlan E., O'Brien S. Sublanguage: Characteristics and Selection Guidelines for M.T. In: Ryan K., Sutcliffe R.F.E. (eds) AI and Cognitive Science '92. Workshops in Computing. Springer, London. 1993. https://doi. org/10.1007/978-1-4471-3207-3_36
7. Mikolov T. et al. Efficient Estimation of Word Representations in Vector Space / T. Mikolov, K. Chen, G. Corrado, J. Dean. In Proceedings of Workshop at ICLR. 2013a.
8. White John. S. How to evaluate machine translation, in Somers, Harold (ed), Computers and translation - a translator's guide, Amsterdam, Philadelphia, John Benjamins, 2003. P. 211-244.
9. Hacken P. Computers and translation: A translator's guide. System. 2004. # 32. P. 462-465. 10.1016/j.system.2004.06.004.
REFERENCES
1. Zong, Z. (2018). Research on the Relations Between Machine Translation and Human Translation. Journal of Physics: Conference Series, 1087. 062046. 10.1088/1742-6596/1087/6/062046.
2. Calude, Andreea S. (2003). Machine translation of various text genres, Te Reo (pp. 67-94). Vol. 46.
3. Koponen, M., Salmi, L. & Nikulin, M. (2019). A product and process analysis of post-editor corrections on neural, statistical and rule-based machine translation output. In: Machine Translation, 33, 61-90. https://doi.org/10.1007/ s10590-019-09228-7
4. Toral, A., Way, A. (2015). Machine-assisted translation of literary text: A case study. In: Translation Spaces, 4, 240-267. 10.1075/ts.4.2.04tor
5. Popovic, M. (2018). Error Classification and Analysis for Machine Translation Quality Assessment / J. Moorkens, S. Castilho, F. Gaspari, S. Doherty (eds). Translation Quality Assessment. In: Machine Translation: Technologies and Applications. Vol 1. Springer. Cham. https://doi. org/10.1007/978-3-319-91241-7_7
6. Quinlan, E., O'Brien, S. (1993) Sublanguage: Characteristics and Selection Guidelines for M.T. / K. Ryan, R. F. E. Sutcliffe (eds). AI and Cognitive
Science '92. Workshops in Computing. Springer, London. https://doi. org/10.1007/978-1-4471-3207-3_36
7. Mikolov T. et al. (2013a). Efficient Estimation of Word Representations in Vector Space / T. Mikolov, K. Chen, G. Corrado, J. Dean In: Proceedings of Workshop at ICLR. 2013a.
8. White, John. S. (2003). How to evaluate machine translation, in Somers, Harold (ed), Computers and translation - a translator's guide (pp. 211-244). Amsterdam, Philadelphia: John Benjamins.
18. Hacken, P. (2004). Computers and translation: A translator's guide. System, 32, 462-465. 10.1016/j.system.2004.06.004.
Информация об авторе
Кузьмин О. И. - аспирант кафедры прикладной и экспериментальной лингвистики Московского государственного лингвистического университета
Information about the author:
Kuzmin O. I. - Post-graduate Student of the Department of Applied and Experimental Linguistics Moscow State Linguistic University
Статья поступила в редакцию 05.07.2021;
одобрена после рецензирования 30.07.2021; принята к публикации 02.08.2021.
The article was submitted 05.07.2021; approved after reviewing 30.07.2021; accepted for publication 02.08.2021.