Научная статья на тему 'Концептуальная модель системы русско-таджикского машинного перевода'

Концептуальная модель системы русско-таджикского машинного перевода Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
436
143
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
Русский язык / таджикский язык / Машинный перевод / концептуальная модель / автоматизированная система обработки текста / Тajik language / RUSSIAN language / Machine Translation / conceptual model / automated text processing system

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Гращенко Л. А., Клышинский Э. С., Тумковский С. Р., Усманов З. Д.

В статье описываются концептуальная и информационно-логическая модели перспективной системы таджикско-русского машинного перевода, планируемой к реализации международным коллективом разработчиков.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The article describes conceptual and functional-logic models of a perspective Russian-Tajik machine translation system. The system is planned to be realized by the international development team.

Текст научной работы на тему «Концептуальная модель системы русско-таджикского машинного перевода»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ______________________________________2011, том 54, №4__________________________________

ИНФОРМАТИКА

УДК 004.414.2::[811.161.1+811.222.8]81’32

Л.А.Гращенко, Э.С.Клышинский , С.Р.Тумковский , академик АН Республики Таджикистан З.Д.Усманов

КОНЦЕПТУАЛЬНАЯ МОДЕЛЬ СИСТЕМЫ РУССКО-ТАДЖИКСКОГО МАШИННОГО ПЕРЕВОДА

Институт математики АН Республики Таджикистан,

Московский государственный институт электроники и математики

В статье описываются концептуальная и информационно-логическая модели перспективной системы таджикско-русского машинного перевода, планируемой к реализации международным коллективом разработчиков.

Ключевые слова: русский язык - таджикский язык - машинный перевод - концептуальная модель -автоматизированная система обработки текста.

Потребности межъязыковой коммуникации на пространстве стран-участниц СНГ обуславливают потребность в скорейшей разработке автоматизированных систем машинного перевода (МП), в том числе многозвенных. В соответствии с выбранным вариантом разработки элементов такой перспективной системы для стран Центрально-Азиатского региона [1] на повестке дня стоит задача проектирования и реализации пилотной системы двустороннего машинного перевода между русским (РЯ) и таджикским (ТЯ) языками. В настоящей работе на основе современных достижений в области компьютерной лингвистики [2, 3] и состояния информатизации таджикского языка [4] приводится описание концептуальной модели перспективной автоматизированной системы русско-таджикского машинного перевода (АСРТМП), которая планируется к реализации международным коллективом разработчиков.

Ввиду значительного разрыва в уровнях количества и доступности языковых ресурсов для РЯ и ТЯ, а также пионерского характера настоящей разработки, в основу концептуальной модели системы АСРТМП были положены следующие принципы:

- для лучшей апробации и вовлечения широкого круга пользователей к процессам совершенствования системы целесообразно реализовать планируемую АСРТМП в виде online-переводчика;

— в связи с необходимостью непрерывной и своевременной адаптации АСРТМП под изменения лексики языков перевода и требований пользователей целесообразно применить спиральную модель жизненного цикла автоматизированной системы;

Адрес для корреспонденции: Усманов Зафар Джураевич, Гращенко Леонид Александрович. 734063, Республика Таджикистан, г. Душанбе, пр. Айни, 299/1, Институт математики АН РТ. E-mail: zafar-usmanov@rambler.ru, graschenko @mail. ru

Тумковский Сергей Ростиславович, Клышинский Эдуард Станиславович. 109028, Российская Федерация, г.Москва, Б. Трёхсвятительский пер., д. 3, Московский государственный институт электроники и математики. E-mail: srt@itas.miem.edu.ru, klyshinsky@mail.ru

— в основу реализации разрабатываемой системы положен модульный принцип, при котором последовательность этапов обработки текстовой информации осуществляется в отдельных функциональных блоках, связанных унифицированными интерфейсами;

— предполагается, что входная текстовая информация, подлежащая переводу, представляет собой текст в литературном варианте входного языка, предварительно проверенный на отсутствие ошибок;

— встречающиеся во входном тексте словоформы, записанные символами прочих языков, передаются в выходной текст без изменений.

Русский и таджикский языки относятся к общей индоевропейской языковой семье, используют алфавиты на основе кириллицы. Таджикский язык, помимо прочего, вобрал в себя значительный пласт русской лексики за счет заимствования отдельных понятий и терминов, доля которых в словарях доходит до 4%. Сравнительная характеристика рассматриваемой пары языков с позиций задач настоящего исследования приведена в таблице.

Таблица

Сравнительная характеристика русского и таджикского языков

Язык Свойство Таджикский Русский

Алфавит Расширенный кирилловский Базовый кирилловский

Система письма Однонаправленная, двурегистровая, фонетическая

Морфологическая система Агглютинативного строя с элементами аналитизма Синтетического типа с элементами аналитизма

Синтаксис Порядок слов в предложении выражает падежные отношения и строится по схеме «субъект - объект - глагол». Экспли-цитность языка Порядок слов в предложении строго не установлен и может варьироваться. Имплицитность языка

Приведенные характеристики демонстрируют определенную схожесть русского и таджикского языков и позволяют воспользоваться в качестве основной трансферной схемой [3] реализации АСРТМП ( рис. 1).

Рис. 1. Принципиальная схема трансферной системы перевода.

Основным достоинством систем на основе трансфера является высокая полнота охвата текстов при приемлемом уровне качества перевода, а также низкий уровень затрат на первичную разработку и модернизацию.

Раскроем содержание блоков такой системы на примере перевода на таджикский язык русского предложения «Вводная конструкция ставится на первое место».

Текст Т, подлежащий переводу, на входе системы представлен последовательностью символов Т = а1а2 ... а„, где а1 и а„ - соответственно первый и последний символы текста. В блоке 1 осуществляется графематический анализ текста Т, в ходе которого входная последовательность символов членится на цепочки однотипных символов (буквы, цифры, знаки, символы формата) и выполняется приведение графических символов к одному регистру. Каждая такая цепочка снабжается графемати-ческим дескриптором - дополнительным описанием, указывающим её тип (например: слово, число, разделитель) и её подтип (например: слово на иностранном языке, аббревиатура, сокращение, датовременная группа). Таким образом, текст Т представляется последовательностью цепочек S, отделенных друг от друга цепочками разделителей V: Т = 81В1Б2В2 ... БкВк, к < „. На основе анализа символов формата формируется описание структуры документа (основной текст, заголовки, вставки, врезки, комментарии и т.д.), которая должна быть восстановлена на заключительном этапе перевода.

Таким образом, рассматриваемое предложение будет представлено в виде <(«вводная», русское слово с заглавной буквы), (одиночный разделитель), («конструкция», русское слово со строчной буквы), (одиночный разделитель), ... (одиночный разделитель, конец фразы)>, см. этап I на рис. 2. В завершение этапа опционально производится расшифровка аббревиатур и сокращений, выделение неизменяемых словосочетаний.

На этапе морфологического анализа (блок 2 рис. 1) элементами текста выступают словоформы - буквенные цепочки ■ = 1,...,к. На основе выделения морфов (корней, аффиксов) каждой цепочке сопоставляется множество всевозможных для данного языка пар {(Ь, 0)}г, где Ь - номер по словарю или нормализированное имя лексемы и G - вектор грамматических параметров (часть речи и соответствующие ей атрибуты, например, для существительного русского языка - род, число, падеж, одушевленность) словоформы <%■,.

На этом же этапе могут быть выполнены нормализация (замена одних морфов на другие, например, замена диалектизмов общеупотребительными словами, малоупотребительных слов более употребительными) и частичное разрешение омонимии (ситуации одинакового написания различных по значению слов) за счет удаления из множеств {(Ь, G)}г■ наименее вероятных элементов на основе статистики их сочетаемости для данного языка.

Так, в рассматриваемом примере слово «вводная» может выступать как неодушевленное существительное единственного числа женского рода именительного падежа (в смысле «указание»), так и как качественное прилагательное единственного числа женского рода именительного падежа (этап II рис. 2). На основе анализа атрибутов следующего за ним слова делается вывод о правильности второго варианта.

Указанные информационные наборы поступают на синтаксический анализ (блок 3 рис. 1), элементами которого являются предложения и фразы. Предварительно на основе разметки текста на предложения и результатов морфологического разбора слов, происходит синтаксическая сегментация

- разбиение сложных предложений на простые; выделение неразрывных и устойчивых словосочетаний; дальнейшее разрешение омонимии.

Собственно синтаксический анализ состоит в определении ролей отдельных слов предложения и установлении связей между ними. Каждое предложение, таким образом, представляется ин-

формационной структурой, описываемой графом, в котором узлами являются слова, а дугами - их отношения (этап III рис. 2). Правила синтаксического анализа для РЯ и ТЯ схожи в части зависимости подлежащего от сказуемого, определений от определяемых, существительных от предлогов и т.д. I. Графематический анализ

/вводная /пробелу конструкция пробел ставится пробел на пробел первое пробел место у точка |

V 31 , 1 Р1 1 V 32 , 1 Р2 і вэ 1 Р3 1 в4 1 Р4 1 . в5 , 1 Р5 1 в6 1 Р6 ,)

II. Морфологический анализ

вводный

конструкция

прил., ж.р., ед.ч., им.пад.

вводная

сущ., ж.р., ед.ч.,

ставить

гл., несов., 2 спр.,

на

им

.пад. Учнеперех.,безлич.^^

предлог, указ.

О

первый

место

сущ., ж.р., ед.ч им.пад.

III. Синтаксический анализ

Разрешение омонимии

прил., с.р., ед.ч., им.пад.

первое

сущ., с.р., ед.ч., ч им.пад.

сущ., с.р., ед.ч., ^ им.пад.

(^1^ вводный (У) конструкций ^3^ ставить^ ^4^ на (^5^ первый (^6^ место

IV. Трансляция + Синтаксический синтез

..*

/1

.*

МО

5 ) аввал

гузоштан

V. Морфологический синтез

дар

Чои

аввал

гузошта

мешавад

Рис. 2. Результаты работы некоторых этапов русско-таджикского перевода.

На этапе трансляции (блок 4 рис. 1) производится словарная замена нормальных форм слов и словосочетаний входного языка на соответствующие структуры выходного, а также отображение морфологических атрибутов входных слов в выходные. Так, для рассматриваемого направления перевода теряется категория рода, а падежные отношения в РЯ могут передаваться предлогами в ТЯ. Здесь же осуществляется преобразование структуры синтаксического графа к структуре, принятой для выходного языка, которая применяется на этапе синтаксического синтеза (блок 5 рис. 1), и в нашем примере подразумевает перестановку слов предложения (этап IV рис. 2).

Далее последовательно выполняются этапы морфологического синтеза (блок 6 рис. 1) и гра-фематического синтеза (блок 7 рис. 1), содержание которых противоположно содержанию одноименных этапов анализа. Результирующее предложение выглядит следующим образом: «Сохтори мукаддимавй дар ч,ои аввал гузошта мешавад». Заметим, что на этапе морфологического синтеза при согласовании времени инфинитив глагола «гузоштан» был преобразован в конструкцию «гузошта мешавад», состоящую из двух слов (этап V рис. 2).

Принципиальная схема на рис. 1 линейна и достаточно условна. На практике перечисленные этапы более тесно связаны между собой, а также с информационными хранилищами и сервисными модулями, обеспечивающими настройку системы, взаимодействие с пользователем, предоставлением

3

веб-интерфейса и т.д. На основе проработки концептуального описания системы трансферного перевода, учета особенностей рассматриваемой языковой пары и введенной системы ограничений, предлагается следующая функционально-логическая структура разрабатываемой АСРТМП, рис. 3.

Приведенная схема отражает совокупность функциональных блоков (обозначены прямоугольниками), информационных хранилищ (цилиндры) и связей между ними — информационных (непрерывные стрелки) и управляющих (пунктирные стрелки). Функциональные блоки 1-12 реализуют собственно машинный перевод, а блоки 13-15 представляют внешние по отношению к процессу перевода функции, обеспечивающие сигнализацию исключительных ситуаций и процессы адаптации системы.

Принципиальными моментами предложенной модели являются:

- наличие модуля рубрикации (блок 4), обеспечивающего отнесение входного текста к одной из заранее заданных предметных областей, что позволяет повысить эффективность процесса разрешения полисемии (блок 6) омонимии и точность перевода терминологии (блок 8);

- наличие модуля верификации (блок 14), осуществляющего сравнение полученного перевода с переводами, выполненными альтернативными системами перевода; выполненными ранее или выполненными пользователями (например, при наличии в Интернете билингв текстов, схожих с текстами, представленными для перевода). По результатам верификации генерируются команды на актуализацию баз данных и правил (блоки 13, 14), а также сообщения о нештатных ситуациях.

Приведенное содержательные описание концептуальной модели системы русско-таджикского машинного перевода позволяет перейти к инфологическому моделированию информационных баз и хранилищ, установлению конкретных закономерностей на множестве отношений лингвистических конструкций рассматриваемой пары языков, разработке алгоритмов функциональных подсистем и прототипированию.

В дальнейшем, на основе незначительного изменения предложенной структуры возможен переход от трансферной системы перевода к системе с полным анализом текста [3], что хорошо согласуется с выбранной моделью жизненного цикла разрабатываемой системы.

Поступило18.03.2011 г.

ЛИТЕРАТУРА

1. Гращенко Л.А. - В сб. Новые информационные технологии в автоматизированных системах: материалы 14 научно-практ. семинара. - М.: МГИЭМ, 2011, с. 92-106.

2. Васильев В.Г., Кривенко М.П. Методы автоматизированной обработки текстов. - М.: ИПИ РАН, 2008, 305 с.

3. Клышинский Э.С. и др. Методы обработки данных в корпоративных информационных системах: уч. пособие. - М.: МГУП, 2010, 428 с.

4. Усманов З.Д. - В сб. Материалы международной научно-практ. конф. «Подготовка научных кадров и специалистов новой формации в свете инновационного развития государств». - Душанбе: Ирфон, 2010, с. 339 - 343.

Л.А.Грашенко, Э.С.Клишинский*, С.Р.Тумковский*, З.^.Усмонов СОХТИ КОНСЕПСУАЛИИ СИСТЕМАИ ТАРЦИМАИ МОШИНЙ МАТНИ

РУСЙ-ТОЧИКЙ

Институти математикаи Академияи илмх;ои Цум^урии Тоцикистон,

*Институти давлатии электроника ва математикаи Москва

Дар макола сохти консепсуалй ва функсионалй-мантикии рушди системаи автоматики кунонида шудаи тарчимаи матни русй-точикй ба воситаи мошин шарх дода шудааст, ки аз та-рафи гурухи байналмилалии тахиягарон амалй хохад шуд.

Калима^ои калиди: забони руси - забони тоцикй - тарцимаи компютери - сохти консепсуали -системами автоматики тарцимаи матнуо.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

L.A.Graschenko, E.S.Klyshinsky*, S.R.Tumkovsky*, Z.J.Usmanov

CONCEPTUAL MODEL OF THE RUSSIAN-TAJIK MACHINE TRANSLATION SYSTEM

Institute of Mathematics, Academy of Sciences of Republic Tajikistan,

*The Moscow State Institute of Electronics and Mathematics

The article describes conceptual and functional-logic models of a perspective Russian-Tajik machine translation system. The system is planned to be realized by the international development team.

Key words: Russian language - Tajik language - machine translation - conceptual model - automated text processing system.

i Надоели баннеры? Вы всегда можете отключить рекламу.