ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ______________________________________2011, том 54, №4__________________________________
ИНФОРМАТИКА
УДК 004.414.2::[811.161.1+811.222.8]81’32
Л.А.Гращенко, Э.С.Клышинский , С.Р.Тумковский , академик АН Республики Таджикистан З.Д.Усманов
КОНЦЕПТУАЛЬНАЯ МОДЕЛЬ СИСТЕМЫ РУССКО-ТАДЖИКСКОГО МАШИННОГО ПЕРЕВОДА
Институт математики АН Республики Таджикистан,
Московский государственный институт электроники и математики
В статье описываются концептуальная и информационно-логическая модели перспективной системы таджикско-русского машинного перевода, планируемой к реализации международным коллективом разработчиков.
Ключевые слова: русский язык - таджикский язык - машинный перевод - концептуальная модель -автоматизированная система обработки текста.
Потребности межъязыковой коммуникации на пространстве стран-участниц СНГ обуславливают потребность в скорейшей разработке автоматизированных систем машинного перевода (МП), в том числе многозвенных. В соответствии с выбранным вариантом разработки элементов такой перспективной системы для стран Центрально-Азиатского региона [1] на повестке дня стоит задача проектирования и реализации пилотной системы двустороннего машинного перевода между русским (РЯ) и таджикским (ТЯ) языками. В настоящей работе на основе современных достижений в области компьютерной лингвистики [2, 3] и состояния информатизации таджикского языка [4] приводится описание концептуальной модели перспективной автоматизированной системы русско-таджикского машинного перевода (АСРТМП), которая планируется к реализации международным коллективом разработчиков.
Ввиду значительного разрыва в уровнях количества и доступности языковых ресурсов для РЯ и ТЯ, а также пионерского характера настоящей разработки, в основу концептуальной модели системы АСРТМП были положены следующие принципы:
- для лучшей апробации и вовлечения широкого круга пользователей к процессам совершенствования системы целесообразно реализовать планируемую АСРТМП в виде online-переводчика;
— в связи с необходимостью непрерывной и своевременной адаптации АСРТМП под изменения лексики языков перевода и требований пользователей целесообразно применить спиральную модель жизненного цикла автоматизированной системы;
Адрес для корреспонденции: Усманов Зафар Джураевич, Гращенко Леонид Александрович. 734063, Республика Таджикистан, г. Душанбе, пр. Айни, 299/1, Институт математики АН РТ. E-mail: [email protected], graschenko @mail. ru
Тумковский Сергей Ростиславович, Клышинский Эдуард Станиславович. 109028, Российская Федерация, г.Москва, Б. Трёхсвятительский пер., д. 3, Московский государственный институт электроники и математики. E-mail: [email protected], [email protected]
— в основу реализации разрабатываемой системы положен модульный принцип, при котором последовательность этапов обработки текстовой информации осуществляется в отдельных функциональных блоках, связанных унифицированными интерфейсами;
— предполагается, что входная текстовая информация, подлежащая переводу, представляет собой текст в литературном варианте входного языка, предварительно проверенный на отсутствие ошибок;
— встречающиеся во входном тексте словоформы, записанные символами прочих языков, передаются в выходной текст без изменений.
Русский и таджикский языки относятся к общей индоевропейской языковой семье, используют алфавиты на основе кириллицы. Таджикский язык, помимо прочего, вобрал в себя значительный пласт русской лексики за счет заимствования отдельных понятий и терминов, доля которых в словарях доходит до 4%. Сравнительная характеристика рассматриваемой пары языков с позиций задач настоящего исследования приведена в таблице.
Таблица
Сравнительная характеристика русского и таджикского языков
Язык Свойство Таджикский Русский
Алфавит Расширенный кирилловский Базовый кирилловский
Система письма Однонаправленная, двурегистровая, фонетическая
Морфологическая система Агглютинативного строя с элементами аналитизма Синтетического типа с элементами аналитизма
Синтаксис Порядок слов в предложении выражает падежные отношения и строится по схеме «субъект - объект - глагол». Экспли-цитность языка Порядок слов в предложении строго не установлен и может варьироваться. Имплицитность языка
Приведенные характеристики демонстрируют определенную схожесть русского и таджикского языков и позволяют воспользоваться в качестве основной трансферной схемой [3] реализации АСРТМП ( рис. 1).
Рис. 1. Принципиальная схема трансферной системы перевода.
Основным достоинством систем на основе трансфера является высокая полнота охвата текстов при приемлемом уровне качества перевода, а также низкий уровень затрат на первичную разработку и модернизацию.
Раскроем содержание блоков такой системы на примере перевода на таджикский язык русского предложения «Вводная конструкция ставится на первое место».
Текст Т, подлежащий переводу, на входе системы представлен последовательностью символов Т = а1а2 ... а„, где а1 и а„ - соответственно первый и последний символы текста. В блоке 1 осуществляется графематический анализ текста Т, в ходе которого входная последовательность символов членится на цепочки однотипных символов (буквы, цифры, знаки, символы формата) и выполняется приведение графических символов к одному регистру. Каждая такая цепочка снабжается графемати-ческим дескриптором - дополнительным описанием, указывающим её тип (например: слово, число, разделитель) и её подтип (например: слово на иностранном языке, аббревиатура, сокращение, датовременная группа). Таким образом, текст Т представляется последовательностью цепочек S, отделенных друг от друга цепочками разделителей V: Т = 81В1Б2В2 ... БкВк, к < „. На основе анализа символов формата формируется описание структуры документа (основной текст, заголовки, вставки, врезки, комментарии и т.д.), которая должна быть восстановлена на заключительном этапе перевода.
Таким образом, рассматриваемое предложение будет представлено в виде <(«вводная», русское слово с заглавной буквы), (одиночный разделитель), («конструкция», русское слово со строчной буквы), (одиночный разделитель), ... (одиночный разделитель, конец фразы)>, см. этап I на рис. 2. В завершение этапа опционально производится расшифровка аббревиатур и сокращений, выделение неизменяемых словосочетаний.
На этапе морфологического анализа (блок 2 рис. 1) элементами текста выступают словоформы - буквенные цепочки ■ = 1,...,к. На основе выделения морфов (корней, аффиксов) каждой цепочке сопоставляется множество всевозможных для данного языка пар {(Ь, 0)}г, где Ь - номер по словарю или нормализированное имя лексемы и G - вектор грамматических параметров (часть речи и соответствующие ей атрибуты, например, для существительного русского языка - род, число, падеж, одушевленность) словоформы <%■,.
На этом же этапе могут быть выполнены нормализация (замена одних морфов на другие, например, замена диалектизмов общеупотребительными словами, малоупотребительных слов более употребительными) и частичное разрешение омонимии (ситуации одинакового написания различных по значению слов) за счет удаления из множеств {(Ь, G)}г■ наименее вероятных элементов на основе статистики их сочетаемости для данного языка.
Так, в рассматриваемом примере слово «вводная» может выступать как неодушевленное существительное единственного числа женского рода именительного падежа (в смысле «указание»), так и как качественное прилагательное единственного числа женского рода именительного падежа (этап II рис. 2). На основе анализа атрибутов следующего за ним слова делается вывод о правильности второго варианта.
Указанные информационные наборы поступают на синтаксический анализ (блок 3 рис. 1), элементами которого являются предложения и фразы. Предварительно на основе разметки текста на предложения и результатов морфологического разбора слов, происходит синтаксическая сегментация
- разбиение сложных предложений на простые; выделение неразрывных и устойчивых словосочетаний; дальнейшее разрешение омонимии.
Собственно синтаксический анализ состоит в определении ролей отдельных слов предложения и установлении связей между ними. Каждое предложение, таким образом, представляется ин-
формационной структурой, описываемой графом, в котором узлами являются слова, а дугами - их отношения (этап III рис. 2). Правила синтаксического анализа для РЯ и ТЯ схожи в части зависимости подлежащего от сказуемого, определений от определяемых, существительных от предлогов и т.д. I. Графематический анализ
/вводная /пробелу конструкция пробел ставится пробел на пробел первое пробел место у точка |
V 31 , 1 Р1 1 V 32 , 1 Р2 і вэ 1 Р3 1 в4 1 Р4 1 . в5 , 1 Р5 1 в6 1 Р6 ,)
II. Морфологический анализ
вводный
конструкция
прил., ж.р., ед.ч., им.пад.
вводная
сущ., ж.р., ед.ч.,
ставить
гл., несов., 2 спр.,
на
им
.пад. Учнеперех.,безлич.^^
предлог, указ.
О
первый
место
сущ., ж.р., ед.ч им.пад.
III. Синтаксический анализ
Разрешение омонимии
прил., с.р., ед.ч., им.пад.
первое
сущ., с.р., ед.ч., ч им.пад.
сущ., с.р., ед.ч., ^ им.пад.
(^1^ вводный (У) конструкций ^3^ ставить^ ^4^ на (^5^ первый (^6^ место
IV. Трансляция + Синтаксический синтез
..*
/1
.*
МО
5 ) аввал
гузоштан
V. Морфологический синтез
дар
Чои
аввал
гузошта
мешавад
Рис. 2. Результаты работы некоторых этапов русско-таджикского перевода.
На этапе трансляции (блок 4 рис. 1) производится словарная замена нормальных форм слов и словосочетаний входного языка на соответствующие структуры выходного, а также отображение морфологических атрибутов входных слов в выходные. Так, для рассматриваемого направления перевода теряется категория рода, а падежные отношения в РЯ могут передаваться предлогами в ТЯ. Здесь же осуществляется преобразование структуры синтаксического графа к структуре, принятой для выходного языка, которая применяется на этапе синтаксического синтеза (блок 5 рис. 1), и в нашем примере подразумевает перестановку слов предложения (этап IV рис. 2).
Далее последовательно выполняются этапы морфологического синтеза (блок 6 рис. 1) и гра-фематического синтеза (блок 7 рис. 1), содержание которых противоположно содержанию одноименных этапов анализа. Результирующее предложение выглядит следующим образом: «Сохтори мукаддимавй дар ч,ои аввал гузошта мешавад». Заметим, что на этапе морфологического синтеза при согласовании времени инфинитив глагола «гузоштан» был преобразован в конструкцию «гузошта мешавад», состоящую из двух слов (этап V рис. 2).
Принципиальная схема на рис. 1 линейна и достаточно условна. На практике перечисленные этапы более тесно связаны между собой, а также с информационными хранилищами и сервисными модулями, обеспечивающими настройку системы, взаимодействие с пользователем, предоставлением
3
веб-интерфейса и т.д. На основе проработки концептуального описания системы трансферного перевода, учета особенностей рассматриваемой языковой пары и введенной системы ограничений, предлагается следующая функционально-логическая структура разрабатываемой АСРТМП, рис. 3.
Приведенная схема отражает совокупность функциональных блоков (обозначены прямоугольниками), информационных хранилищ (цилиндры) и связей между ними — информационных (непрерывные стрелки) и управляющих (пунктирные стрелки). Функциональные блоки 1-12 реализуют собственно машинный перевод, а блоки 13-15 представляют внешние по отношению к процессу перевода функции, обеспечивающие сигнализацию исключительных ситуаций и процессы адаптации системы.
Принципиальными моментами предложенной модели являются:
- наличие модуля рубрикации (блок 4), обеспечивающего отнесение входного текста к одной из заранее заданных предметных областей, что позволяет повысить эффективность процесса разрешения полисемии (блок 6) омонимии и точность перевода терминологии (блок 8);
- наличие модуля верификации (блок 14), осуществляющего сравнение полученного перевода с переводами, выполненными альтернативными системами перевода; выполненными ранее или выполненными пользователями (например, при наличии в Интернете билингв текстов, схожих с текстами, представленными для перевода). По результатам верификации генерируются команды на актуализацию баз данных и правил (блоки 13, 14), а также сообщения о нештатных ситуациях.
Приведенное содержательные описание концептуальной модели системы русско-таджикского машинного перевода позволяет перейти к инфологическому моделированию информационных баз и хранилищ, установлению конкретных закономерностей на множестве отношений лингвистических конструкций рассматриваемой пары языков, разработке алгоритмов функциональных подсистем и прототипированию.
В дальнейшем, на основе незначительного изменения предложенной структуры возможен переход от трансферной системы перевода к системе с полным анализом текста [3], что хорошо согласуется с выбранной моделью жизненного цикла разрабатываемой системы.
Поступило18.03.2011 г.
ЛИТЕРАТУРА
1. Гращенко Л.А. - В сб. Новые информационные технологии в автоматизированных системах: материалы 14 научно-практ. семинара. - М.: МГИЭМ, 2011, с. 92-106.
2. Васильев В.Г., Кривенко М.П. Методы автоматизированной обработки текстов. - М.: ИПИ РАН, 2008, 305 с.
3. Клышинский Э.С. и др. Методы обработки данных в корпоративных информационных системах: уч. пособие. - М.: МГУП, 2010, 428 с.
4. Усманов З.Д. - В сб. Материалы международной научно-практ. конф. «Подготовка научных кадров и специалистов новой формации в свете инновационного развития государств». - Душанбе: Ирфон, 2010, с. 339 - 343.
Л.А.Грашенко, Э.С.Клишинский*, С.Р.Тумковский*, З.^.Усмонов СОХТИ КОНСЕПСУАЛИИ СИСТЕМАИ ТАРЦИМАИ МОШИНЙ МАТНИ
РУСЙ-ТОЧИКЙ
Институти математикаи Академияи илмх;ои Цум^урии Тоцикистон,
*Институти давлатии электроника ва математикаи Москва
Дар макола сохти консепсуалй ва функсионалй-мантикии рушди системаи автоматики кунонида шудаи тарчимаи матни русй-точикй ба воситаи мошин шарх дода шудааст, ки аз та-рафи гурухи байналмилалии тахиягарон амалй хохад шуд.
Калима^ои калиди: забони руси - забони тоцикй - тарцимаи компютери - сохти консепсуали -системами автоматики тарцимаи матнуо.
L.A.Graschenko, E.S.Klyshinsky*, S.R.Tumkovsky*, Z.J.Usmanov
CONCEPTUAL MODEL OF THE RUSSIAN-TAJIK MACHINE TRANSLATION SYSTEM
Institute of Mathematics, Academy of Sciences of Republic Tajikistan,
*The Moscow State Institute of Electronics and Mathematics
The article describes conceptual and functional-logic models of a perspective Russian-Tajik machine translation system. The system is planned to be realized by the international development team.
Key words: Russian language - Tajik language - machine translation - conceptual model - automated text processing system.