УДК 004.9:519.768 DOI:10.25729/ESI.2024.34.2.016
Оптимизационное предредактирование узкоспециальных русскоязычных
текстов для их машинного перевода на английский язык
Животова Алена Анатольевна, Бердоносов Виктор Дмитриевич
Комсомольский-на-Амуре государственный университет,
Россия, Комсомольск-на-Амуре, [email protected]
Аннотация. В статье исследуется процесс перевода текстов, а именно метод оптимизационного предредактирования, как способ повышения качества машинного перевода на английский язык при работе с русскоязычными узкоспециальными текстами. Авторы рассматривают математическую модель процесса перевода и постановку задачи машинного перевода, предлагают новую теорию вероятностной оценки сложности задачи перевода, приводят постановку и решение задачи оптимизационного предредактирования, описывают методику подготовки данных для обучения модели автоматического оптимизационного предредактирования. В результате исследования реализован программный комплекс оптимизационного предредактирования русскоязычных текстов. При разработке программного комплекса использованы ресурсы Центра коллективного пользования научным оборудованием «Центр обработки и хранения научных данных ДВО РАН». Данные для обучения и валидации моделей предоставлены ООО «Агентство переводов "ФИАС-Амур"». Тестирование программного комплекса показало эффективность предложенных методик для повышения качества машинного перевода узкоспециальных русскоязычных текстов на английский язык.
Ключевые слова: машинный перевод, оптимизационное предредактирование, сложность задачи перевода, качество перевода
Цитирование: Животова А.А. Оптимизационное предредактирование узкоспециальных русскоязычных текстов для их машинного перевода на английский язык / А.А. Животова, В.Д. Бердоносов // Информационные и математические технологии в науке и управлении. - 2024. - № 2(34). - С. 169-182. -DOI:10.25729/ESI.2024.34.2.016.
Введение. Перевод - рутинная необходимость во многих отраслях, включая науку, производство, медицину и т.д., и с ростом количества информации и скорости ее генерирования растет и потребность в повышении качества перевода наряду с сокращением затрат на него. Несмотря на выдающиеся прорывы нейросетевых, гибридных и больших языковых моделей машинного перевода (МП) в области семантической точности и гладкости перевода, вопрос качества перевода системами МП нельзя назвать решенным. Результат работы МП - черновик, который пользователь должен оценить и доработать самостоятельно. При этом пользователь без знания языка перевода не имеет инструментов для того, чтобы влиять на результат или хотя бы оценить качество полученного перевода [1, 2]. Эту проблему активно освещают зарубежные исследователи A. Lear, C. Quinci, C. Canfora, A. Ottman, D. Kenny, P. Sanchez-Gijon. Предоставляя пользователю средства обработки текста на языке, носителем которого он является, на любом из этапов перевода, можно повысить его качество. Именно на этот принцип опирается концепция интерактивного перевода, широко описанная в литературе [3]. Одним из направлений интерактивного перевода является перевод с предредактированием, когда исходный текст предварительно редактируется с целью его адаптации для более легкого «понимания» системой МП.
Значительный вклад в разработку теоретических и практических основ в области под -готовки исходных текстов к переводу, предварительного редактирования и упрощения естественных языков для систем автоматической обработки текстов, в частности систем МП, внесли зарубежные авторы: V. Kumar, F. Azadi, M. Federico, V. Alabau - в области интерактивного перевода [4]; V. Sereton, P. Bouillon, J. Gerlach, A. Taufik, Y. Liang, W. Han, A. G. Arenas, C. Shei, Y. Hiraoka, M. Yamada, R. Miyata, A. Fujita - в области разработки подходов к пред-
редактированию [5, 6, 7]; L. O'Brien, D. Folaron, W. Aziz, M. Toledo - в области контролируемых и упрощенных языков [7]. Среди российских авторов и для русского языка данная тема освещена незначительно, однако известны работы И. В. Оборневой [8], А.Д Дмитриевой, А. Н. Лапошиной, М. Ю. Лебедевой [9] и др. в области оценки восприятия текста и упрощения русскоязычных текстов в соответствии с квалификацией реципиента.
Целью работы является разработка моделей и алгоритмов и их реализация для повышения качества МП узкоспециальных технических текстов путем автоматического оптимизационного предредактирования.
Основная задача заключается в том, чтобы, используя особенности работы алгоритмов систем МП и основы теории перевода, автоматизировать предварительное редактирование исходных текстов, оптимизировав их структуру, благодаря чему системы МП будут эффективнее переводить их на требуемый язык и допускать меньше стилистических ошибок, для распознания которых требуется более высокая компетенция пользователя в области языка перевода.
В основе проведенного исследования лежит применение апробированных математических методов, включая теорию множеств, численные методы оптимизации, такие, как метод наименьших квадратов и метод градиентного спуска, статистические методы, в том числе метод максимального правдоподобия.
В работе предложен новый алгоритм, позволяющий расширить область применения оптимизационного метода градиентного спуска путём использования элементов нечеткой логики в выражении функции правдоподобия через функцию принадлежности полученного текста низкой сложности задачи перевода для выбранной системы МП; предложен новый алгоритм, позволяющий расширить область применения метода наименьших квадратов для поиска весов значимости параметров исходного текста для вероятностной оценки ожидаемого качества его перевода на целевой язык; предложена новая архитектура и реализован программный комплекс для повышения качества МП текстов с русского языка на английский язык, отличающийся от существующих применением ансамбля моделей для оптимизационного предредактирования на основе вероятностной оценки сложности задачи перевода с целью повышения качества МП текстов с русского языка на английский язык.
1. Математическая модель процесса перевода. Перевод - передача смысла текста на языке оригинала в соответствии с языковыми и культурными традициями языка перевода согласно требованиями конечного реципиента.
Процесс перевода формально может быть представлен совокупностью множеств и операций над этими множествами. В дальнейшем слово «множество» опускается для удобства повествования. Пусть txtjTxx - исходный текст, характеризующийся множеством выраженных смысловых единиц CMj, язвх - язык исходного текста, язвых - язык перевода, дп^дп -предметная область (домен приложения) исходного текста, TP|txtjTXT : ^ ОК|ТР ей - требования к переводу исходного текста на язык перевода, такие, что существует ОК - аналитически вычислимая оценка качества перевода, соответствующая критериям, зафиксированным в требованиях к переводу, перевод выполняется переводчиком пер^пЕР, обладающим компетенцией КперупЕР и специализацией СперупЕР, дпдп, тогда качественный перевод - это сгенерированный текст txtyTXT на языке язвых, характеризующийся множеством выраженных смысловых единиц СМу: (СМу ^ CMj). В общем виде соотношения множеств функция перевода ^Лер может быть описана как
^пер : (txtiTXT'КперУПЕР , СперШЕР, дп;Дл) ^ txt/TXT |(СМ/ ^ CMi' TP|txtiTXT). (1)
Обобщенно модель процесса перевода представлена на рисунке 1. Подробное описание полной модели было опубликовано авторами ранее [10].
КперПЕР ЯЗвх
1 + ЯЗвых
ОТ (Швх, Жвых) Еоб СпергПЕР дпщп
Ко, пергПЕР
Со, пергПЕР
-\Соц
Епредред
-'пергПЕР, дпщ.
Епер
I
(£СЬТХТ, Житгтхт)
к к
___]
н
Епостред
Обучение
Еоб - функция обучения переводчиков
1 Постановка 1 Этап 1 1 Этап 2 Этап 3 1 Этап 4 1 Этап 5
1 задачи , Еоц - функция 1 оценки сложности 1 задачи перевода , Епредред - функция предредактирования 1 исходного текта Епер - функция перевода 1 Екк - функция контроля качества перевода , Епостред - функция постредактирования переведенного текста
Рис. 1. Модель процесса перевода Математически, для систем МП задачу перевода можно формализовать через метод максимизации функции правдоподобия [11] следующим образом. Опишем условия задачи, пусть: ^х^тхт - исходный текст на языке язвх . ^х^/тхт - переведенный текст на языке язвых .
- множество всех возможных вариантов перевода текста на язык язвых:
Т'.^Т"'^^ = {£х£о, ..., £х£у , где ] - общее число вариантов перевода, txtyTXT £ .
ОК^ - множество нормированных оценок качества перевода текста в соответствии
с требованиями к переводу ТР | txt¿тхт для всех возможных вариантов перевода :
ОКйг§ = {ОКо,ОК1..... ОКу),
где ОКу - оценка качества для у'-го варианта переведенного текста.
Каждому варианту перевода соответствует одна оценка качества перевода, то есть множества и ОК^ биективны: ^ ОК^ . [ш/пОК; шахОК] - диапазон значений оценок качества перевода ОК^ . ОКдоп - минимально допустимое значение критерия «Высокая оценка качества перевода»
при допущении, что чем выше значение ОКу, тем лучше. КП - нечёткое подмножество множества ОК^Г5, определяющее принадлежность элементов множества ОК^ классу «Высокая оценка качества перевода текста txt¿тхт>>:
КП = {(ОК, Дкш(ОК))|ОК £ ОКЙГ8). ^кш(ОК) - функция принадлежности, указывающая, в какой степени текст txt с оценкой ОК принадлежит нечеткому множеству КП .
^кш(ОК) £ [0; 1] и имеет вид логистической кривой:
1
^КШ (ОК) = - / ОК- ОКдоп \ . (2)
1+е \шахОК-ОКдоп/2Я
Требуется максимизировать правдоподобие сгенерированного системой МП текста ^х^/тхт, то есть вероятность того, что txtyтхт примет такое значение, при котором Мкш(ОК) будет максимальна. Тогда логарифмическая функция правдоподобия МП Рмп примет вид:
^мп(0,^Кш(ОК)) =/пР0(тах Дкш(ОК)) ^тах, (3)
и
где 0 - параметры системы МП из множества исполнителей перевода, или переводчиков: пер ¿пер £ ПЕР, максимизирующие вероятность Р получить максимальное значение функции принадлежности ц.кт(ОК).
К
К
пергПЕР
С
С
р1ПЕР,дтДП
К
р}ПЕР,дтДП
С
ряПЕР,дпщП
К
К
пергПЕР
С
ргПЕР, дтДП
Решение поставленной задачи лежит в области оптимизации и совершенствования алгоритмов генерации переведенного текста.
В результате теоретического моделирования определено, что в системах МП не реализован этап переводческого процесса, который выполняется при «ручном переводе», а именно, оценка сложности задачи перевода. На этом этапе переводчик оценивает вероятность получения качественного перевода, то есть соответствующего требованиям заказчика, и, если эта вероятность низкая, выбирает стратегию оптимизации предредактирования исходного текста с целью повышения вероятности получения качественного перевода.
2. Сложность задачи перевода. Для разработки стратегии и методики оптимизационного предредактирования требуется определить критерий оптимизации исходного текста. В качестве такого критерия была выбрана оценка сложности задачи перевода. При оценке сложности задачи перевода переводчик обращает внимание на неизвестные ему слова и сочетания слов на языке язвх, для которых он не может идентифицировать значение смысловой единицы, либо смысловые единицы, для которых он не может найти аналог на языке перевода язвых среди известных ему слов и сочетаний слов. Множества свойств и параметров исходного текста СВ^х^тхт и ГП^х^тхт, и то, обладает ли переводчик достаточной компетенцией КперЛ1Ер относительно языков язвх и язвых и специализациейСперЛ1Ер, дшдп, т.е. навыками описания семантических единиц на языке перевода в рамках заданной предметной области исходного текста, определяет вероятность создания переводчиком переведенного текста на таком уровне качества, который определяется требованиями ТР^х^тхт.
Оценки сложности задачи перевода включает следующие шаги:
Шаг 1. Исходя из домена приложения текста дп^дп, формируется множество оценок текста ОЦ = СВ и ГП. Свойства текста СВ условно можно разделить на группы признаков: общие (количество символов/слов/строк и т.д., стиль, язык, домен приложения и пр.); лексические (процент покрытия текста лексическими минимумами, частотными списками и др.); морфологические (количество различных частей речи и грамматических форм); синтаксические (глубина глагольных и именных групп, связи между глаголами в предложениях); признаки, основанные на базовых подсчетах (средняя длина слов и предложений и пр.). Совокупность свойств и признаков определяет главные параметры текста ГП, к которым относится целостность, связность, удобочитаемость, сложность и другие.
Шаг 2. Для каждого значения св^св, гп^п £ ОЦ, на основе требований к переводу , компетенций переводчика относительно языковой пары Кпер/ПЕР и специализации переводчика относительно домена приложения текста Спер^ЕР, дшдп формируется значение значимости , множество нормированных значений значимости формирует матрицу значимости оценок сложности ^0ц размерностью 1 X где к - общее число оценок, которые выступают коэффициентами уравнения поиска теоретического значения качества перевода.
Шаг 3. Для каждого /-го фрагмента текста при / = 1, N формируется матрица оценок фрагмента исходного текста Соц размерностью 1 X где к - общее число оценок.
Шаг 4. На основании оценок Соц и значимости ^0ц формируется уравнение поиска теоретического результирующего фактора, т.е. качества перевода КП:
= Шо + ^^оц1Сощ1 + ^оц2Сощ2 + + ^оц£Сощ£. (4)
Для системы МП веса значимости оценок рассчитываются на основании тренировочных данных с использованием численного метода наименьших квадратов [12], при котором минимизируется сумма квадратов отклонений эмпирических значений результативного признака от теоретических, полученных по уравнению (4):
= 2]=1(ОК - О^(Соц^))2,
^О) = Я=1(ОК( - Шо + W0цlС0ц¿l + ^0ц2С0ц^2 + - + w0цfcС0ц¿fc)2 ^ тт, (5)
где Я - объем тренировочной выборки.
Для решения задачи минимизации необходимо найти стационарные точки функции 5(ш), продифференцировав её по неизвестным параметрам н и приравняв производные к нулю
Я=1(0К - 0К;(С0Ц;,^))э^""") = о. (6)
Получаем систему нормальных уравнений с к неизвестными:
^ ОК = ЙШо + Ш0Ц1 ^ С0Ц1 + Ш0Ц2 ^ С0Ц2 + -+ ^ ^
^ ОК • С0Ц1 = Шо^ С0Ц1 + Ш0Ц1 ^ С0Ц12 + Ш0Ц2 ^ С0Ц2С0Ц1 + - +
^^ 0К • С0ц& = ^ ^ С0ц& + ^ С0ц1С0ц& + ^0ц2 ^ С0ц2С0ц& +----+ ^ц^ ^ С0ц&2
Решение этой системы уравнений дает нам общую формулу поиска весов значимости Ж0ц в матричной форме:
^0ц = (С0цГ • С0ц)-1 • С0цГ • ОК = (1С0Ц7 • С0ц)-11С0ЦГ • ОК. (7)
Шаг 5. Для каждого ¿-го фрагмента текста рассчитывается вероятность получения переведенного текста на таком уровне качества, который определяется требованиями , применив к уравнению (4) логит-преобразование:
^ = Т—-КгТ. (8)
1+е К111
Шаг 6. Сложность задачи перевода ¿-го фрагмента текста оценивается по формуле:
1
СлЗП = -. (9)
Шаг 7. Результирующая сложность задачи перевода текста - это наибольшее значение сложности задачи перевода СлЗП среди N фрагментов исходного текста, то есть
СлЗП^тхт = тах СлЗП (10)
В зависимости от значения СлЗП^тхт определяется стратегия дальнейшей обработки текста, в том числе необходимость применять оптимизационное предредактирование.
3. Задача оптимизационного предредактирования. Задача оптимизационного предре-дактирования состоит в том, чтобы максимизировать правдоподобие, то есть вероятность того, что при параметрах V предредактора, текст txt'¿тхт на языке язвх будет эквивалентен txt¿тхт по смыслу, понятен системе МП пер^ЕР и оценка качества ОКу перевода txtyтхт относительно ^¿гхг при генерации перевода из будет максимальной. Далее опишем задачу более
подробно.
Опишем условия задачи, пусть:
1) ^^¿тхт - текст на языке язвх, созданный системой автоматического оптимизационного предредактирования, такой, при котором СМ'; ^ СМ; и txt'¿тхт Ф ^¿тхт, где СМ -смысл или упорядоченный набор семантических единиц, описываемый текстом: СМ = {(се0, се1,..., сепсм): се^см £ СЕ }, СМ^ и СМ^ - смыслы £х^тхт и £^тхт, соответственно;
2) ГХ7^ГС - множество всех возможных вариантов предредактированного текста, т.е. выражения смысла СМ^ текста £х^тхт на языке язвх:
3) ГХ7^гс = {txtо, .,
4) где к - обще число вариантов предредактированного текста, причем txt¿тхт, txt'¿тхт £
5) мСлЗП^гС - множество оценок сложности задачи перевода вариантов предредактирования текста £х^тхт в соответствии с компетентностью КперЛЕР и специализацией Спер/ПЕР, дПудп системы МП пер^ПЕР для всех возможных вариантов предредактированного текста ГХ7^ГС:
6) мСлЗП^гС = {СлЗП0, СлЗП1,..., СлЗП^};
7) Каждому варианту предредактированного текста соответствует одна оценка сложности задачи перевода для системы МП пер^ЕР, то есть множества ТХТ^ГС и мСлЗП^гС биек-
тивны: ТХТ^ГС ^ мСлЗП^ГС;
8) СлЗЩ £ мСлЗП^ГС - оценка сложности задачи перевода варианта предредактирован-ного текста txt'jTXT для системы МП пер^ЕР-'
9) [ттСлЗП; шахСлЗП] - диапазон значений оценок сложности задачи перевода
мСлЗП^с;
10) СлЗПдоп - максимально допустимое значение критерия «Низкая сложность задачи перевода» при допущении, что чем ниже значение СлЗЩ, тем лучше;
11) нСлЗП - нечёткое подмножество множества мСлЗП^го определяющее принадлежность элементов множества мСлЗП^ГС и соответствующих элементов множества ТХТ^ГС классу «Низкая сложность задачи перевода»:
12) нСлЗП; = {(СлЗП, ц.нСлЗШ(СлЗП))|СлЗП £ мСлЗП^ГС};
13) ЦНСлзш(СлЗП) - функция принадлежности, указывающая в какой степени текст txt с оценкой СлЗП принадлежит нечеткому множеству нСлЗП;
14) ЦНСлзш(СлЗП) £ [0; 1] и имеет вид логистической кривой:
1
М-нСлзш (СлЗП) =-
СлЗП-СлЗПдоп . (11)
1+е(|Ш1пСлЗП-СлЗПдоп|)2ге
Требуется максимизировать правдоподобие сгенерированного системой оптимизационного предредактора текста txt'jTZT, то есть вероятность того, что txt'jTZT примет такое значение, при котором ц.нСлЗт(СлЗП) будет максимальна.
В дискретном случае функция правдоподобия FAotP(V, ЦнСлЗш(СлЗП)) - вероятность выборки цнСлЗт(СлЗП) = {^о,^,... , ц.г} в рассматриваемой серии экспериментов будет равняться {max ЦнСлЗш(СлЗП)о, max ^Слзш(СлЗП)1, ..., max ЦнСлзш(СлЗП)г}. Эта вероятность меняется в зависимости от
L
^АОПР(^нСлЗШ(СлЗП)) = ^ ^ОПР^^^Щ^
l=1
= = max ЦнСлЗП^(СлЗП)о) • ... • Р¥(цг = max ^Слзш(СлЗП)г) = (12)
= М^о = max ЦнСлЗш(СлЗП)о), ... = max ЦнСлЗП1(СлЗП)г), где I - номер экземпляра в обучающей выборке объемом L.
Тогда логарифмическая функция правдоподобия автоматического оптимизационного предредактирования РАОПР имеет вид:
¿аопр(^, ^нСлзш(СлЗП)) = ZnP¥(max ^Слзш(СлЗП)), (13)
где V - параметры системы автоматического оптимизационного предредактирования, максимизирующие вероятность P получить максимальное значение функции принадлежности
^нСлЗш(СлЗП).
Поскольку /п(у) монотонна, то точки максимума Раопр(^, И-НСлзш(СлЗП)) и ¿АОПР(^, ^нСлЗш(СлЗП)) совпадают, и оценкой максимального правдоподобия можно назвать точку максимума функции ¿АОПР(^, ЦнСлЗш(СлЗП)) по V. Задача оптимизации, таким образом, заключается в поиске оценки максимального правдоподобия V вектора параметров V, или:
V = argmax^аопр№ ^Слзш(СлЗП)) (14)
Решение поставленной задачи оптимизации выполняется методом градиентного спуска (подъема) [13]. Для этого необходимо найти градиент логарифмической функции правдоподобия ¿АОПР(V, ЦнСлЗш(СлЗП)) - вектор, который показывает направление возрастания функции.
Учитывая, что V - вектор параметров системы автоматического оптимизационного предредактирования и V = {у , у2 ,..., ут }, где т - количество параметров модели, градиент функции ¿АОПР(V, ЦнСлЗш(СлЗП)) может быть найден по формуле:
^¿АОПР = (3£АОПР ^¿АОПР ...,^¿АОПР /дут), (15)
где 9!АОПР/3^т - частная производная функции правдоподобия по т-ному параметру. Обновление параметров V происходит итеративно для каждого £
¥[5+1] = + а • 7 ¿аопр (Vй), (16)
где 5 - шаг оптимизации, 5 £ [0; 5] и 5 - общее число шагов оптимизации, а ¥[0] - начальное приближение параметров модели; а - скорость обучения, т.е. положительное число, определяющее размер шага на каждой итерации.
Для оценки сходимости используется евклидова норма градиента функции VLА0ПР (V):
«V ¿АОПР ГОН= J(дLАОПР)2+(дLАОS£)2+^+(дLАОПР)2. (17)
Уменьшение нормы градиента указывает на сходимость оптимизации. Если норма градиента не снижается, это свидетельствует о медленной сходимости и необходимости изменения параметров оптимизации, например, скорости обучения а.
Оптимизация выполняется, пока норма градиента не достигла заданной точности в, критерий остановки:
LА0ПР (Vй)!! < в. (18)
Используя описанную математическую модель, создадим модель автоматического оптимизационного предредактирования.
4. Обучающие данные для модели оценки сложности задачи перевода. Для обучения модели оценки сложности задачи перевода заданного текста £х£(ХХХ с языка язвх на язык язвых переводчиком пер;ПЕР в соответствии с формализованными требованиями к переводу ТР|£х£(ХХХ требуются исходные данные в виде корпуса параллельных текстов следующей структуры:
Ггапя/а^гЯхрСог: [яге; ¿гд; ге/], где яге - это оригинал, т.е. текст на языке язвх, ¿гд - это перевод (текст на языке язвых), выполненный переводчиком или системой МП пер;ПЕР; ге/ - это контрольный перевод (текст на языке язвых), т.е. проверенный эталон.
Путем обработки корпуса Гга^/а^гЯхрСог модулями оценки качества МП и препро-цессинга текстовых данных для взвешенной оценки параметров русскоязычного текста формируется база данных структурного анализа предложений, содержащая расчет вещественных параметров по морфологическим, синтаксическим, лексическим и прочим признакам [14].
5. Обучающие данные для модели автоматического оптимизационного предредакти-рования. Для обучения модели, которая будет преобразовывать текст на языке язвх в текст требуемой структуры для повышения качества перевода, необходимо создать корпус тренировочных текстов в паре язвх — язвх. Для оптимизации временных затрат на подготовку исходных данных для тренировки модели предредактирования текста предлагается методика с использованием обратного перевода для генерирования эталонного предредактированного текста.
Структура параллельного корпуса исходных данных: Йе/Сог: ^гс_ге^ tgt_ref], где src_ref - это оригинал, т.е. текст на языке язвх, tgt_ref - это перевод (текст на языке язвых).
Методика сбора корпуса обучающих текстов для модели оптимизационного предредакти-рования включает следующие шаги:
1. Настраиваем системы МП МТ: tgt — src, МТ: src — tgt.
При помощи системы МТ: tgt — src переводим текст tgt_ref на язык язвх, получим массив текстовых данных pre_src (массив условно предредактированных текстов).
При помощи системы МТ: src — tgt переводим текст src_ref на язык язвых, получим массив текстовых данных tgt1 ^ tgt1).
При помощи системы МТ: src — tgt переводим текст pre_src на язык язвых, получим массив текстовых данных tgt2 ^ tgt1).
Оцениваем качество выполненного перевода на язык язвых tgt1 и tgt2 относительно эталона
tgt_ref, получаем массивы оценок QC_score(tgt1) и QC_score(tgt2). Для дальнейшей работы отберем тренировочный корпус ТгатСог, включающий пары src_ref¿ и pre_srcj, для которых наблюдается повышение оценки качества перевода на английский язык при применении предредактирования и при условии, что ДQC_score¿ является условно значимой йтах для выбранного типа оценки:
ТТат^ = {^ГСГ6^; ^^¡Д^О^^согеО^) >
> QC_score(tgt1¿) & ДQC_score¿ > ^тах) (19)
Полученный корпус обучающих текстов TrainCor объемом выборки Ь будем использовать для обучения языковой модели LM: src — pre_src для решения задачи автоматического оптимизационного редактирования текстов на языке язвх.
6. Оценка качества выполненного перевода. Для реализации программного комплекса определим критерий качества МП QC_score. Традиционно, для оценки качества перевода используются алгоритмы, которые сравнивают выполненный перевод с одним или несколькими эталонными переводами при помощи числовой метрики. В рамках исследования была выбрана метрика hLEPOR [15], которая имеет наивысший балл корреляции Пирсона с человеческими суждениями по языковой паре английский-русский.
- гармоническое среднее между штрафом за длину перевода в сравнении с эталоном, штрафом за различие в позициях и степенью перекрытия п-грамм; рассчитывается в диапазоне от 0 до 1, где 0 - полое несовпадение; 1 - полное совпадение:
1
ШР0Я = О™™** (20)
(—+—+—)3
ЧР РР оя^
где ¿Р — штраф за длину, который учитывает различие в длине между переводом и эталонным переводом; РР — штраф за различие в позициях, который учитывает различие в расположении слов в переводе и эталоне; ОР — степень перекрытия, которая учитывает совпадение п-грамм в переводе и эталоне.
Для расчета каждого из компонентов используются следующие формулы:
(х ге/
е сапй > ге/ (21)
1, сап^ < ге/
где сап^ — длина переведенного текста, а ге/ — длина эталонного перевода;
РР = —1—, (22)
где р^// — среднее арифметическое различий позиций одинаковых п-грамм в переводе и эталоне;
ОР = АР ■ п#ргес ■ (1 — реп), (23)
где 5Р — штраф за слишком короткий перевод, реп — дополнительный штраф за ошибки, ОДргес — точность п-грамм, которая рассчитывается как отношение количества совпадающих ^грамм в переводе и эталоне к общему количеству п-грамм в переводе.
6. Программный комплекс оптимизационного предредактирования русскоязычных текстов. Опираясь на описанные математические модели и методики, была разработана архитектура программного комплекса, который состоит из трех основных подсистем: подсистемы тренировки языковой модели, подсистемы оценки сложности задачи перевода, подсистемы оптимизационного предредактирования русскоязычного текста и генерации МП на английский язык. При реализации приняты следующие допущения:
1. Критерий качества перевода должен быть четко определен и формализован с возможностью получения вещественного нормированного значения. Могут применяться любые метрики оценки качества в зависимости от требований к качеству перевода.
2. Для тестирования МП необходим тренировочный корпус, включающий тексты на языке оригинала и перевод, принятый за эталон. В компаниях, внедривших ISO 17100 и CAT, процесс накопления тренировочных корпусов, включающих исходный текст, перевод, выполненный системой МП и проверенный перевод, утвержденный редактором, происходит автоматически в режиме реального времени.
Схематично архитектура программного комплекса представлена на рисунке 2.
Рис. 2. Архитектура программного комплекса оптимизационного предредактирования
русскоязычных текстов Подсистема тренировки языковой модели оптимизационного предредактирования русскоязычных текстов (I) состоит из пяти программных компонентов: Мод.1 DataPrep - модуля подготовки «сырых данных», полученных из памятей переводов «Translation Memories» поставщика лингвистических услуг, который формирует корпуса TranslatorExpCor и RefCor для тренировки моделей оценки сложности задачи перевода и оптимизационного предредактирования соответственно; Мод.2 MT:Ru-En, Мод.3 MT:En-Ru - модулей МП (генератор перевода в языковой паре русский-английский и генератор в языковой паре английский-русский); Мод.4 hLEPOR - модуля оценки качества МП реализует алгоритм по метрике hLEPOR; модуля фильтрации данных, подходящих для тренировки модели, в котором производится отбор по условию повышения оценки качества после предредактирования. В результате обработки эталонного корпуса RefCor модулями системы 1 - 3 полученный тренировочный корпус TrainCor используется для обучения модели оптимизационного предредактирования LM:Ru-preRu.
Подсистема оценки сложности задачи перевода (II) состоит из трех модулей: модуля оценки качества перевода, выполненного системой МП, относительно эталонного по метрике hLEPOR; Мод.5 Text Eval. - препроцессора для взвешенной оценки свойств русскоязычного текста, включая морфологические, синтаксические, лексические и другие, всего 96 параметров; Мод.6 TTC Eval. - модуля оценки сложности задачи перевода с применением модели логистической регрессии LRM-'СлЗП, которая определяет ожидаемое качество перевода полученного текста на основании взвешенной оценки его свойств и весов значимости оценок относительно системы МП.
Подсистема оптимизационного предредактирования и генерации МП (III) состоит из двух модулей: Мод.7 Pre-editing - модуля автоматического предредактирования русскоязычных текстов на основе модели LM:Ru-preRu, которая в качестве опорной использует модель
русского языка rut5-base-multitask на основе нейронной сети типа text-to-text transfer transformer (T5), представленной командой Google в 2020 г., дообученной на корпусе параллельных русскоязычных текстов подзадачу перефразирования [16]; модуля генерации МП с русского языка на английский язык на основе модели Helsinki-NLP/opus-mt-ru-en.
7. Тестирование программного комплекса. Программный комплекс [17] реализован на языке Python, модули обучения моделей LRM-.СяЗП и LM:Ru-preRu развернуты в Центре коллективного пользования научным оборудованием «Центр обработки и хранения научных данных ДВО РАН», созданного и функционирующего на базе ВЦ ДВО РАН - обособленном подразделении ХФИЦ ДВО РАН. Тип используемой ЭВМ: компьютер с архитектурой x86, x86_64.
Исходные данные для обучения моделей и тестирования в виде русскоязычных узкоспециальных технических текстов, переведенных на английский язык, предоставлены ведущей компанией по оказанию лингвистических услуг в области технического перевода в Хабаровском крае ООО «Агентство переводов «ФИАС-Амур» в объеме ~60 000 ст. стр. текста (1 ст. стр. = 1800 знаков с пробелами). Из предоставленных данных сформированы корпуса RefCor объемом ~140 000 экземпляров и TranslatorExpCor объемом ~90 000 экземпляров. После обработки корпуса RefCor в подсистеме тренировки языковой модели оптимизационного предредактирования русскоязычных текстов в корпус TrainCor вошло ~84 000 экземпляров. Тестовая выборка для оценки работы системы TestCor составила ~17 000 экземпляров. Тестирование программного комплекса включало следующие этапы:
1. Машинный перевод тестовой выборки и оценка его качества алгоритмом hLEPOR ^ получение оценки hLb'POP^nl).
2. Оценка сложности задачи перевода тестовой выборки СлЗП(Ри) ^ применение оптимизационного предредактирования только к тем семплам, для которых СлЗП(Ри) > СлЗПдоп ^ оценка СлЗП после оптимизационного предредактирования СлЗП(ргеРи) ^ машинный перевод ^ получение оценки hL^POP (ТТС/РЯ).
3. Сравнение и анализ полученных результатов.
В рамках тестирования принято, что минимально допустимая сложность задачи перевода СлЗПдоп = 1,43. Так как сложность задачи перевода обратно пропорциональна вероятности получения перевода требуемого качества, при СлЗПдоп = 1,43 данная вероятность составляет 0,7.
С использованием оценки сложности задачи перевода из тестовой выборки было отобрано 5440 экземпляров для оптимизационного предредактирования (32,58% тестовой выборки).
Примеры оптимизационного предредактирования и его влияния на сложность задачи перевода для системы МП представлены в таблице 1. Результаты перевода текстов после оптимизационного предредактирования на английский язык представлены в таблице 2.
Таблица 1. Оптимизационное предредактирование русскоязычных текстов
Экз. Исходный текст (Яи геО Текст после предредактирования (ргеЯи) ЛСлЗП
1 Высоковольтные испытания проводятся по отдельно разрабатываемой и утверждаемой «Программе проведения высоковольтных испытаний кабеля 110 кВ». Испытания на высоковольтные кабели проводятся в соответствии с отдельно разработанной и утвержденной программой испытаний высоковольтных кабелей 110 кВ. -1,356
2 Оборудование должно быть рассчитано на двойные фидеры, а если такое оборудование отсутствует, в центральном шкафу предусматривают установку контроллера автоматического ввода резерва. Оборудование должно быть способно управлять двумя фидерами, в случае отсутствия такого оборудования в центральном шкафу должен быть установлен переключатель ввода резерва. -0,444
3 ТУ на поставку включают в себя, помимо прочего, следующее: Спецификация покупки должна содержать и не ограничиваться: -0,167
4 По результатам месяца подготовка отчета (10 число) по отклонениям от намеченного графика. Отчет о ходе месяца (10 числа) об отклонениях от плана работы. -0,271
Таблица 2. Результаты машинного перевода на английский язык
Экз. МП исходного текста (En1) МП после предредактирования (En2) AhLEPOR
1 The high voltage tests are conducted on a separate design and approval of the 110 kV high voltage test programme. High voltage cables shall be tested according to a separately developed and approved 110 kV high voltage cables programme. 0,271
2 The equipment shall be designed for double feeders, and if such equipment is not available, an automatic backup controller shall be installed in the central cabinet. The equipment shall be capable of controlling two feeders, in the absence of such equipment, a standby switch shall be installed in the central cabinet. 0,146
3 TA for supply includes, inter alia, the following: The purchase specification shall contain and not be limited to: 0,135
4 Based on the month's results, the report (10 times) is based on deviations from the schedule. Monthly progress report (10th) on deviations from the workplan. 0,131
Результаты оценки качества после оптимизационного предредактирования представлены в таблице 3.
_Таблица 3. Результаты применения оптимизационного предредактирования
h LEPOR (En1) h LEPOR (En2) AhLEPOR СлЗП (Ru) СлЗП (preRu)
mean 0,508044336 0,583044424 0,075 2,111294 1,075499
std 0,140363512 0,128616684 0,0739 0,75958 0,052124
min 0 0,10348 1E-05 1,431731 1
25% 0,4253 0,506915 0,02056 1,692549 1,035022
50% 0,52027 0,59196 0,05472 1,928669 1,067745
75% 0,60549 0,67087 0,104235 2,314225 1,107176
max 0,99834 1 0,58203 20,19173 1,310526
Принятые обозначения: mean - математическое ожидание; std - среднеквадратичное отклонение; min - минимальное значение выборки; 25% - значение, меньше которого 25% значений выборки; 50% - медиана, т.е. значение, меньше и больше которого 50% значений выборки; 75% - значение, меньше которого 75% значений выборки; max - максимальное значение в выборке.
Показано, что качество перевода отдельных сегментов, подвергшихся оптимизационному предредактированию, в среднем, возросло на 15%. Максимальное повышение качества перевода составило 30% в отдельных сегментах.
Использование полученных результатов исследования и внедрение программного комплекса в работу агентства переводов «ФИАС-Амур» позволило повысить эффективность использования систем МП и производительность труда редакторов переводов, а также оптимизировать затраты на оказание услуг перевода узкоспециальной технической документации.
В ходе внедрения за время мониторинга при помощи программного комплекса было переведено на английский язык 677 стандартных страниц текста. При этом, средняя производительность редакторов переводов при работе с программным комплексом увеличилась с 3,8 до 4,3 стандартных страницы в час. Таким образом, внедрение программного комплекса позволило увеличить производительность редакторов переводов на 13,16%, что является значимым показателем при переводе большого объема документации в условиях дефицита квалифицированных кадров.
Описанные модели и методы могут быть масштабированы на различные языковые пары и способы перевода, включая ручной перевод, они намечают подходы к управлению рисками, связанными с качеством перевода в зависимости от компетенции выбранных исполнителей, и предоставит индустрии инструмент объективной оценки исполнителей в рамках поставленной задачи на перевод.
Программный комплекс может быть внедрен в компаниях, генерирующих от 1000 страниц перевода в месяц, предоставив инструментарий повышения качества перевода, в том числе для редакторов без знания языка перевода.
Заключение. В ходе работы впервые предложена методика оценки сложности переводческой задачи для переводчика на основе его компетенции и специализации и параметров исходного текста, которая позволяет прогнозировать риски некачественного и/или несвоевременного решения задачи перевода; предложена новая методика для повышения качества машинного перевода текстов с русского языка на английский язык, отличающаяся от существующих применением обратного перевода для сбора тренировочных данных и оптимизационного предредактирования на основе вероятностной оценки сложности задачи перевода.
Программный комплекс представляет собой ансамбль алгоритмов и моделей, включая модель классификации и генеративную модель русского языка, каждая из которых имеет потенциал к доработке с целью повышения точности, что позволит улучшить эффективность программного комплекса в целом.
Результаты исследования подтверждают эффективность применения оптимизационного предредактирования русскоязычных узкоспециальных текстов с целью повышения качества МП на английский язык. Разработанный авторами программный комплекс оптимизационного предре-дактирования имеет потенциал к доработке и повышении точности. Интеграция программного комплекса в контур автоматизации процессов перевода технической документации позволяет снизить затраты на постредактирование МП и организацию переводческих процессов.
Благодарности. Работа выполнена в рамках соглашения о стратегическом научно-технологическом сотрудничестве между ФГБОУ ВО «КнАГУ» (г. Комсомольск-на-Амуре), Центром обработки и хранения научных данных ДВО РАН на базе ВЦ ДВО РАН - обособленного подразделения ХФИЦ ДВО РАН (г. Хабаровск) и ООО «Агентство переводов «ФИАС-Амур» (г. Комсомольск-на-Амуре).
Список источников
1. Quinci C., Pontrandolfo G. Testing neural machine translation against different levels of specialization. Trans-kom, 2023, vol.1, pp.174-209.
2. Canfora C., Ottmann A. Risks in neural machine translation. Translation spaces, 2020, vol. 9(1), pp. 58-77.
3. Kumar V., Kulkarni A., Singh P., Ramakrishnan G. A machine assisted human translation system for technical documents. Miami MT Summit XV, 2015, vol.2, pp. 259-272.
4. Hiraoka Y., Yamada M. Pre-editing plus neural machine translation for subtitling: effective pre-editing rules for subtitling of TED Talks. MT Summit XVII, Dublin, Ireland, 2019, vol.2, pp. 64-74.
5. Miyata R., Fujita A. Dissecting human pre-editing toward better use of off-the-shelf machine translation systems. Proceedings of the 20th Annual Conference of the European association for machine translation (EAMT), User studies papers, Prague, Czech Republic, 2017.
6. Taufik A. Pre-editing of Google neural machine translation. Journal of English language and culture, 2020, vol. 10, no. 2, pp. 64-74.
7. O'Brien, S. Controlling controlled English: an analytical of several controlled language rule sets. Proceedings of EAMT-CLAW, Dublin, Ireland, 2003, pp. 105-114.
8. Оборнева И. В. Автоматизация оценки качества восприятия текста / И. В. Оборнева // ВЕСТНИК Московского городского педагогического университета, 2015. - №2(5). - С. 221-233.
9. Дмитриева А.Д. Квантитативное исследование стратегий упрощения на материале адаптированных текстов для изучающих РКИ / А.Д. Дмитриева, А.Н. Лапошина, М.Ю. Лебедева // Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог», 2021. - С. 191-204.
10. Zhivotova A.A., Berdonosov V.D., Gordin S.A. Mathematical modeling of the translation process and its optimization by the criterion of quality maximization. Information Technologies and intelligent decision-making systems: communications in computer and information science, 2023, vol. 1821, pp. 1-15.
11. Barber D. Bayesian Reasoning and machine learning. Cambridge: Cambridge university press, 2012, D0I:10.1017/CB09780511804779.
12. MacKay D.J.C. Information theory, inference, and learning algorithms. Cambridge: Cambridge University Press, 2003, DOI: 10.2277/0521642981
13. Bishop, C.M. Pattern Recognition and Machine Learning. Springer, Berlin, 2006.
14. Животова А.А. Регрессионный анализ корреляции качества машинного перевода и параметров исходного текста / Животова А.А., Бердоносов В.Д. // Информатика и системы управления, 2023. - №2(76). - С.121-133.
15. Li-Feng Han A., Wong D.F., Chao L.S. et al. Language-independent model for machine translation evaluation with reinforced factors. Proceedings of machine translation Summit XIV: Posters, Nice, France, 2013, pp. 215222.
16. Дале Д. Многозадачная модель T5 для русского языка. - URL: https://habr.com/ru/articles/581932/ (дата обращения: 20.08.2023).
17. Свидетельство о государственной регистрации программы для ЭВМ № 2023682260 Российская Федерация. Программный комплекс для предредактирования и машинного перевода узкоспециальных русскоязычных текстов на английский язык: № 2023680875: заявл. 09.10.2023: опубл. 24.10.2023 / А. А. Животова, В. Д. Бердоносов; заявитель Животова А.А. - 1 с.
Животова Алена Анатольевна. Аспирант, ассистент кафедры Прикладная математика факультета компьютерных технологий Комсомольского-на-Амуре государственного университета, ORCID: 0000-0003-10375503, SPIN: 3142-9290, РИНЦ AuthorlD: 771774, [email protected], г. Комсомольск-на-Амуре, пр. Ленина, д. 27.
Бердоносов Виктор Дмитриевич. К.т.н., доцент кафедры Прикладная математика факультета компьютерных технологий Комсомольского-на-Амуре государственного университета, ORCID: 0000-0003-4093-779X, SPIN: 8730-2226, РИНЦ AuthorlD: 644399, [email protected], г. Комсомольск-на-Амуре, пр. Ленина, д. 27.
UDC 004.9:519.768 DOI:10.25729/ESI.2024.34.2.016
Optimizational pre-editing of highly specialized Russian-language texts for its
machine translation into English
Alena A. Zhivotova, Victor D. Berdonosov
Komsomolsk-na-Amure State University,
Russia, Komsomolsk-na-Amure, [email protected]
Abstract. The authors study the process of text translation, particularly the method of optimizing pre-editing as a way to improve the quality of machine translation into English for Russian-language highly specialized texts. The paper considers the mathematical model of translation process and machine translation task formulation, proposes a new theory for probabilistic estimation of translation task complexity, provides the formulation and solution of optimizing pre-editing task, describes data preparation methodology for training automatic optimizing pre-editing model. As the research result the software package for optimizing pre-editing of Russian-language texts is developed. The software package has been developed using resources of the Center for Scientific Equipment Collective Use "Center for Processing and Storage of Scientific Data of the Far Eastern Branch of the Russian Academy of Sciences". Data for models training and validation are provided by Translation Agency FIAS-Amur Co., Ltd. Software package testing has proved the effectiveness of the proposed methods for improving the quality of machine translation of highly specialized Russian-language texts into English.
Keywords: machine translation, optimizational pre-editing, translation task complexity, translation quality
Acknowledgements: the research was conducted within the agreement on strategic scientific and technological
cooperation between Komsomolsk-na-Amure State University (Komsomolsk-na-Amure), Center for Processing
and Storage of Scientific Data of the Far Eastern Branch of the Russian Academy of Sciences (Khabarovsk), and
Translation Agency FIAS-Amur Co., Ltd. (Komsomolsk-na-Amure).
References
1. Quinci C., Pontrandolfo G. Testing neural machine translation against different levels of specialization. Trans-kom, 2023, vol.1, pp.174-209.
2. Canfora C., Ottmann A. Risks in neural machine translation. Translation spaces, 2020, vol. 9(1), pp. 58-77.
3. Kumar V., Kulkarni A., Singh P., Ramakrishnan G. A machine assisted human translation system for technical documents. Miami MT Summit XV, 2015, vol.2, pp. 259-272.
4. Hiraoka Y.,Yamada M. Pre-editing plus neural machine translation for subtitling: effective pre-editing rules for subtitling of TED Talks. MT Summit XVII, Dublin, Ireland, 2019, vol.2, pp. 64-74.
5. Miyata R., Fujita A. Dissecting human pre-editing toward better use of off-the-shelf machine translation Systems. Proceedings of the 20th Annual Conference of the European association for machine translation (EAMT), User studies papers, Prague, Czech Republic, 2017.
6. Taufik A. Pre-editing of Google neural machine translation. Journal of English language and culture, 2020, vol. 10., no. 2, pp. 64-74.
7. O'Brien, S. Controlling controlled English: an analytical of several controlled language rule sets. Proceedings of EAMT-CLAW, Dublin, Ireland, 2003, pp. 105-114.
8. Oborneva, I. V. Avtomatizaciya ocenki kachestva vospriyatiya teksta [Automation of text perception quality assessment]. VESTNIK Moskovskogo gorodskogo pedagogicheskogo universiteta [Herald of Moscow City Pedagogical University], 2015, no.2(5), pp. 221-233.
9. Dmitrieva A.D., Laposhina A., Lebedeva M. Kvantitativnoe issledovanie strategij uproshheniya na materiale adaptirovanny'x tekstov dlya izuchayushhix RKI [A Quantitative Study of Simplification Strategies in Adapted Texts for L2 Learners of Russian]. Komp'yuternaya lingvistika i intellektual'ny'e texnologii: po materialam mezhdunarodnoj konferencii "Dialog" [Computer Linguistics and Intelligent Technologies: Proceedings of the International Conference "Dialog"], 2021, pp. 191-204.
10. Zhivotova A.A., Berdonosov V.D., Gordin S.A. Mathematical modeling of the translation process and its optimization by the criterion of quality maximization. Information Technologies and intelligent decision-making systems: communications in computer and information science, 2023, vol. 1821, pp. 1-15.
11. Barber D. Bayesian Reasoning and machine learning. Cambridge: Cambridge university press, 2012, D0I:10.1017/CB09780511804779.
12. MacKay D.J.C. Information theory, inference, and learning algorithms. Cambridge: Cambridge University Press, 2003, DOI: 10.2277/0521642981
13. Bishop, C.M. Pattern Recognition and Machine Learning. Springer, Berlin, 2006.
14. Zhivotova A.A., Berdonosov V.D. Regressionnyj analiz korrelyacii kachestva mashinnogo perevoda i parametrov iskhodnogo teksta [Regression analysis of the correlation between machine translation quality and source text features]. Informatika i sistemy upravleniya [Information science and control systems], 2023, no.2(76), pp.121133.
15. Li-Feng Han A., Wong D. F., Chao L.S. et al. Language-independent model for machine translation evaluation with reinforced factors. Proceedings of machine translation Summit XIV: Posters, Nice, France, 2013, pp. 215222.
16. Dale, D. Mnogozadachnaya model' T5 dlya russkogo yazy'ka [T5 multitasking model for Russian language]. Available at: https://habr.com/ru/articles/581932/ (accessed: 08/20/2023).
17. Zhivotova A.A., Berdonosov V.D. Programmny'j kompleks dlya predredaktirovaniya i mashinnogo perevoda uzkospecial' ny' x russkoyazy' ch-ny' x tekstov na anglij skij yazy' k [Program complex for pre-editing and machine translation of highly specialized Russian-language texts into English]. Software Registration Certificate of the Russian Federation no. 2023680875 (2023).
Alena Anatolievna Zhivotova. Postgraduate student, assistant of Applied Mathematics department, faculty of computer technologies, Komsomolsk-na-Amure state university, ORCID: 0000-0003-1037-5503, SPIN: 3142-9290, AuthorID: 771774, [email protected], Russia, Komsomolsk-na-Amure, 27 Lenin Ave.
Victor Dmitrievich Berdonosov. PhD in technical sciences, associate professor of Applied Mathematics department, faculty of computer technologies, Komsomolsk-na-Amure state university, ORCID: 0000-0003-4093-779X, SPIN: 87302226, AuthorID: 644399, [email protected], Russia, Komsomolsk-na-Amure, 27 Lenin Ave.
Статья поступила в редакцию 08.12.2023; одобрена после рецензирования 29.03.2024; принята к публикации 06.06.2024.
The article was submitted 12/08/2023; approved after reviewing 03/29/2024; accepted for publication 06/06/2024.