УДК 519.72
СЕГМЕНТИРОВАНИЕ ТЕКСТА В СИСТЕМЕ МАШИННОГО ПЕРЕВОДА Е.К. Осьминина
В статье анализируется процесс осуществления сегментации текста при машинном переводе с одного языка на другой с учетом алгоритмической обработки исходного текста. Рассматривается многоуровневая модель памяти переводов, как механизм неявной индексации
Ключевые слова: многоуровневая модель памяти переводов, сегментация
Первое поколение систем машинного перевода базировалось на алгоритмах последовательного перевода «слово за словом, «фраза за фразой». Возможности таких систем определялись
доступными размерами словарей, прямо зависящими от объема памяти компьютера. Перевод текста осуществлялся отдельными предложениями, смысловые связи между ними никак не учитывались. Таки системы называют системами прямого перевода. На смену им со временем пришли системы последующих поколений, в которых перевод от языка к языку осуществлялся на уровне синтаксических структур. В алгоритмах перевода использовался набор операций, позволяющий путем анализа переводимого
предложения построить его синтаксическую
структуру по правилам грамматики языка входного предложения, а затем преобразовать ее в синтаксическую структуру выходного предложения и синтезировать выходное предложение, подставляя нужные слова из словаря. Такие системы называются Т-системами (Т - от английского слова “transfer” -преобразование).
Наиболее совершенным считается подход к построению систем машинного перевода на основе получения некоторого, независимого от языков, смыслового представления входного предложения путем семантического анализа. В таких системах производится синтез выходного предложения по полученному смысловому представлению. Такие системы называют И - системами (И - от слова «интерлингва»). Однако проблема извлечения смысла переводимого текста и его представления на другом языке оказалась преждевременной.
Более того, она не решена в общем виде мировой информатикой и в настоящее время, хотя многие частные результаты, связанные с семантическим анализом текстов были получены и он представляют интерес.
В современных системах, предназначенных для автоматизированного перевода текстов с
Осьминина Екатерина Константиновна - ВГТУ, преподаватель, тел. (473) 223-36-45
русского языка на английский и обратно, используются оригинальные алгоритмы сжатия словарных баз и поиска переводных эквивалентов, позволяющих транслировать «на лету» не только фрагменты текста, импортируемые из текстового редактора MS Word, но и Web - страницы.
В словарях хранятся миллионы понятий, к которым относятся не только традиционные устойчивые фразеологические обороты, но, прежде всего, словосочетания, используемые в
повседневной речи. Наличие программы концептуального анализа позволяет автоматически выделять из текста новые словосочетания и включать их в словарь. В среднем объем политематического машинного словаря - около 3,4 млн. слов (1,8 млн. в русско-английской части, 1,6 млн. - в англо - русской), причем 20% их них являются словами, а 80% - устойчивыми
словосочетаниями со средней «длиной» в 2,2 слова.
С практической точки зрения, имея в виду качество результирующего текста и его соответствие исходному, программы машинного перевода подразделяют на три категории:
- полностью автоматический перевод;
- автоматизированный машинный перевод при участии человека;
- перевод, осуществляемый человеком с использованием компьютера.
Программы машинного перевода первой из названных категорий являются делом будущего, поскольку в общем виде не решены проблемы автоматического понимания, перевода и синтеза текстов, но и в настоящее время ведутся активные разработки для достижения конкретных результатов.
Программы второй категории разработчики называют МТ - программы (от Machine Assisted Translation - машинный перевод). Реально автоматизированный (с участием человека) машинный перевод возможен только в условиях искусственно ограниченного, как по словарному запасу, так и по грамматике языка.
Программы третьей категории разработчики называют ТМ - программы (от translation memory -память перевода). Эту категорию программ применяют профессиональные переводчики. Основу ТМ - программ составляют специализированные словари, созданные переводчиком текстов по
заданной проблематике и занесенные им в
память. Эти словари подключаются к базовым словарям и позволяют переводить большие объемы текстов группой переводчиков. Таким образом, достигается унификация терминологии и приобретается возможность делиться наработками в пределах рабочей группы. ТМ - программы помогают сократить время выполняемого перевода, поскольку словари и уже переведенные фрагменты текстов, запоминаемые в ТМ - системе, могут быть повторно использованы в больших коллективных проектах. ТМ - системы представляют собой важное средство автоматизации труда профессиональных переводчиков [1].
По мере снятия технических ограничений, налагаемых возможностями компьютеров по
производительности и памяти, возникала задача автоматизированного представления контекста, смыслового содержания переводимого текста,
знаний о понятиях предметной области, к которой относится переводимый текст.
Вместе с тем современные достижения в области вычислительной техники, информационных технологий и технологий телекоммуникаций
позволяют выдвигать практические задачи поиска и выбора требуемой информации на перспективу. Это относится и к пользователям, находящихся в корпоративных и глобальных информационнотелекоммуникационных сетях.
В качестве примера такой перспективной задачи можно привести системы запросов к информационным ресурсам сетей, например к базам данных, с возможностью формирования ответов по телефону в виде устной речи. Для этого требуется сочетание систем машинного перевода с системами распознавания и синтеза речи.
На этапе выделения терминов производится исследование текста с целью выяснения, какие слова или словосочетания могут быть взяты в качестве терминов. После того, как определен термин на исходном языке, осуществляется анализ терминологии на предмет того, какой термин на целевом языке следует выбрать для обозначения нужного концепта. Например, если в исходном тексте встретилось словосочетание «операционная система», то программа должна проанализировать его в качестве возможного термина, даже если в системе уже определены термины «операционный» и «система».
Процесс автоматического поиска
терминологии может быть сравнен с машинным переводом на уровне отдельных терминов. Суть его заключается в том, что в процессе работы над текстом переводчик имеет возможность видеть варианты перевода для каждого термина, и быстро вставлять нужный перевод в текст на целевом языке, не рискуя допустить ошибку. Затем идет сегментация текста. Разбиение текста на сегменты является важным подготовительным этапом для полной или частичной автоматизации перевода. Сегменты должны по возможности содержать фрагменты текста, грамматически независимые друг
от друга. Иными словами, должна быть обеспечена возможность корректного перевода каждого сегмента независимо от других. Обычно разбиение на сегменты выполняется по знакам пунктуации.
Автоматическая память переводов, или просто память переводов (Translation Memory), подразумевает, в первую очередь, просмотр ранее переведенных текстов. Она сравнивает
переводимый в текущий момент текст с тем, что хранится в базе, «вспоминает» сегменты, которые изменились незначительно, и предлагает использовать их перевод повторно. Разумеется, критерии сходства сегментов могут быть различны, и она играют очень важную роль в расширении возможностей памяти переводов. Способ
машинного перевода заключается в
алгоритмической обработке исходного текста, в ходе которой происходит разбор сегментов,
выделяются отдельные термины и отношения между ними, после чего осуществляется замена всех терминов на соответствующие термины целевого языка в нужной форме и взаиморасположении. Машинный перевод (Machine Translation) применим только в узком контексте, и требует значительного постредактирования переведенного текста.
По окончании перевода осуществляется проверка целостности сегментов, формата и грамматик, имеющая своей целью проверить, все ли сегменты остались на своих местах, сохранилась ли форматирующая информация и насколько корректен результирующий текст с точки зрения грамматики целевого языка.
В отличие от словарей, основной функцией которых является наличие необходимых речевых эквивалентов и предоставлении их в процессе осуществления перевода, с использованием технологий ТМ дело обстоит сложнее. Наряду с тривиальной задачей поиска языковой пары, включающий сегмент, идентичный заданному, память переводов должна обеспечивать возможность поиска сегментов, похожих на данный по некоторому критерию. Таким образом, центральной проблемой классической памяти переводов является построение анализатора таких «нечетких совпадений», характеристики которого и определяют преимущества и недостатки каждой конкретной системы профессионального перевода.
Как следует из вышеизложенного, основой функционирования любой системы памяти переводов являются ранее переведенные тексты. Множество этих текстов постоянно пополняется новыми переводами, вследствие чего, процент автоматически переводимых сегментов, постепенно растет. Это означает, что для наиболее эффективного использования памяти переводов, все тексты должны содержать достаточное количество похожих фраз, но объем речевых конструкций и моделирований вариантов построения различных ситуаций в речи так велик, что встает вопрос о поиске более совершенного пути трансформации исходного текста на производное требуемого языка. Использование памяти переводов требует от
переводчика специальной подготовки, а также наличия соответствующего аппаратного и программного обеспечение. Негативным фактором является так же и, то, что для обеспечения ожидаемого эффекта все переводы должны быть сделаны в одной и той же среде, либо средах, совместимых по формату представления данных. Резюмируя вышесказанное, можно выделить три условия применимости рассматриваемой технологии:
1. Большой объем перевода;
2. Однотипность переводимых текстов;
3. Готовность к отсроченному возврату капиталовложений
Эффективность работы памяти переводов во многом определяется тем, насколько удачно решены следующие задачи:
1. Сегментация;
2. Обработка специальных символов и
форматирующей информации.
Очевидно, что с увеличением размера сегментов будет уменьшаться число полных совпадений (и увеличиваться число частичных). Однако, уменьшение размера сегментов сделает их малопригодными для повторного использования, поскольку сильно возрастает влияние контекста на перевод. Оптимальной единицей сегментации чаще всего оказывается фрагмент предложения, ограниченный знаками препинания. Во избежание ошибочной сегментации по точкам внутри аббревиатур и других подобных случаев используют регулярные выражения и списки исключений [2].
До тех пор, пока память переводов была линейной, сегменты неделимы, а сравнение строгим, решение задачи поиска сводилось к введению отношения четкого лексикографического порядка над множеством сегментов на исходном языке. Иными словами, определялся оператор «меньше», на основе которого можно было осуществить обыкновенный двоичный поиск, и проверку на равенство. С введением оператора «нечеткого совпадения», который позволял оценить степень сходства для любых двух сегментов, решение проблемы поиска резко осложнилось и, без дополнительных ухищрений с различного рода индексацией, стало эквивалентно задаче полного перебора. Предложенная многоуровневая модель памяти переводов, собственно, и предоставляет некоторый механизм неявной индексации: каждое входящее в сегмент слово, по сути, идентифицирует некоторое подмножество ориентированного графа памяти переводов, состоящее из узлов, которые можно достичь, начав обход от узла, соответствующего выбранному слову.
Используя особенности выбранной структуры памяти переводов, задачу поиска сегментов, похожих на заданные, можно решить путем выполнения следующих действий:
1. Разбить заданный сегмент на слова;
2. Найти в памяти переводов все узлы,
соответствующие этим словам;
3. Спускаясь по графу отношений наследования, помещать в список найденных сегментов все встречаемые узлы.
Сложным остается вопрос, в каком порядке следует предоставлять найденные сегменты переводчику: ведь приведенная процедура поиска выберет из памяти все сегменты, пересекающиеся с заданным, по крайней мере, по одному слову. Каковы правила фильтрации и сортировки найденных сегментов?
Результат поиска представляет собой классический вариант одноуровневой памяти переводов, анализ которого может быть произведен методами, формализованными в рамках существующих сред перевода. Для обеспечения эффективности поиска целесообразно осуществлять оценку «пригодности» сегментов по мере их нахождения. Например, если некоторый сегмент полностью совпадает с эталоном, то все его потомки в графе могут быть автоматически исключены из поиска.
При добавлении нового сегмента в память переводов, необходимо учитывать условие корректности процедуры. Добавляемый сегмент должен иметь в числе своих базовых формаций (не обязательно прямых) все составляющие его слова. Следуя целям оптимальности, можно предположить, что наличие также узлов графа, содержащих фрагменты данного сегмента, является приоритетным. Иными словами, если в памяти переводов присутствуют сегменты “АВ” и “СО”, то сегмент “АВСБ” должен стать наследником этих двух сегментов. Аналогично, если в памяти присутствует сегмент ”АВСБ” , то добавляемый сегмент “АВ” должен стать его предком. В общем случае при добавлении сегмента в граф памяти переводов могут существовать альтернативные варианты наследования. В такой ситуации схема добавления заметно усложнится. Долгое время системы машинного перевода и памяти переводов представляли два конкурирующих направления и никогда не рассматривались вместе кроме как в противопоставлении. На сегодняшний день взгляды меняются и заметна тенденция к совместному использованию в некоторых системах обеих технологий [3].
Выполняя компьютерную обработку текста, важно учитывать наиболее распространенные ошибки, появляющиеся как результат некорректного компьютерного перевода и передачи исходного текста.
Неясность, неточность, искажение оказывают не столько дезинформирующее, сколько
дезориентирующее воздействие. Как показывает практика, причиной недочетов в части передачи исходного содержания может быть не только непонимание или недостаточное понимание этого текста программой, но и просто неудачный подбор переводческого соответствия.
Развитие компьютерных технологий в области лингвистики - это весьма актуальная проблема. Создание новых способов автоматического
(компьютерного, машинного перевода) - будущее компьютерной лингвистики.
Человеческий мозг настолько сложен, что для создания программы, которая могла хотя бы в какой-то степени составить абсолютную
конкуренцию нашей голове, потребуется еще много времени. Однако идти по этому пути нужно, а имеющийся алгоритм и практический опыт машинного перевода позволяет делать оптимистические прогнозы.
Литература
1. Сонин О.МТ или ТМ // Компьютерная неделя № 26-27. М., 1999. С. 200 - 201.
2. Соловьева А.А. Профессиональный перевод с помощью компьютера: учебное пособие. СПб.:Питер, 2005. - 160 с.
3. http://www.unl.ias.unu.edu/unlsvs/unl/UNL%20Spe cifications.htm
4. www.metatext.net
Воронежский государственный технический университет
TEXT SEGMENTATION IN MACHINE TRANSLATION SYSTEM E.K. Osminina
The article is devoted to the process of text segmentation in machine translation from one language into another with a glance of algorithmic word processing. Multilevel memory model as a mechanism of implicit indexing is considered
Key words: multilevel memory model, segmentatio