Научная статья на тему 'Комплекс средств автоматизации межъязыковых преобразований текстов для центрально-азиатского региона'

Комплекс средств автоматизации межъязыковых преобразований текстов для центрально-азиатского региона Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
164
46
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОМПЛЕКС СРЕДСТВ АВТОМАТИЗАЦИИ / МАШИННЫЙ ПЕРЕВОД / МЕЖЪЯЗЫКОВОЕ ПРЕОБРАЗОВАНИЕ ТЕКСТОВ / ТАДЖИКСКИЙ ЯЗЫК / ПЕРСИДСКИЙ ЯЗЫК / УЗБЕКСКИЙ ЯЗЫК / ЯЗЫК ПУШТУ

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Гращенко Л. А.

В статье дается описание комплекса существующих и разрабатывающихся средств автоматизации для межъязыковых преобразований текстов между языками Центрально-азиатского региона по состоянию на конец 2012 года.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Комплекс средств автоматизации межъязыковых преобразований текстов для центрально-азиатского региона»

Комплекс средств автоматизации межъязыковых преобразований текстов для центрально-азиатского региона

Л. А. Гращенко

Институт математики Академии наук Республики Таджикистан

graschenko @ mail. ru

Аннотация: В статье дается описание комплекса существующих и разрабатывающихся средств автоматизации для межъязыковых преобразований текстов между языками Центрально-азиатского региона по состоянию на конец 2012 года.

Ключевые слова: комплекс средств автоматизации; машинный перевод; межъязыковое преобразование текстов; таджикский язык; персидский язык; узбекский язык; язык пушту

Введение

В 2012 году активно продолжала свою работу школа по компьютерной лингвистике Таджикистана под руководством академика АН РТ Зафара Джураевича Усманова (www.complingv.tj). Деятельность ряда исследователей из состава школы была направлена на развитие комплекса средств автоматизации (КСА) межъязыковых преобразований текстов для языков Центрально-азиатского региона (ЦАР), в соответствии с ранее предложенной стратегией [1]. Работа проходила по шести основным направлениям, рис. 1:

1. Разработка и совершенствование средств конверсии графических систем письма между фарси (Fa), дари (Da) и таджикским (Tj) языками;

2. Разработка и совершенствование средств внутриязыкового согласования текстов для таджикского языка;

3. Разработка системы машинного перевода (СМП) с языков фарси-дари (Fa-Da) на русский язык (Ru);

4. Исследование межморфемных отношений узбекского (Uz) и таджикского языка (Tj);

5. Исследование афганского языка (пушту, Af) и фарси (Fa);

6. Вспомогательные исследования в рамках разработки средств машинного перевода с таджикского на русский язык.

1-3 направления находятся в стадии разработки и совершенствования программных продуктов, а по 4-6 направлениям исследования носят подготовительный и перспективный характер. Ниже дадим характеристику текущих достижений в рамках каждого из перечисленных направлений.

Средства конверсии графических систем письма (Fa-Da 8 Tj).

В рамках настоящего направления продолжалось развитие функционала таджикско-персидского конвертера графических систем письма и начата разработка обратного конвертера. К исходу 2012 года прототип персидско-таджикского конвертера обеспечивает конверсию с точностью порядка 65-75% на широкой выборке текстов, рис. 2. Объемы информационных баз составляют соответственно: корней - 700, стоп-слов - 72, префиксов - 146, постфиксов - 516.

Для повышения точности конверсии производится наполнение базы корней, а также совместно с А.Ю. Фоминым исследуются вопросы распознавания в персидском тексте изафетных конструкций [2].

Рис. 1. Схема проводимых исследовании по разработке КСА межъязыковых преобразовании

текстов для языков ЦАР

П Персидско-таджикский ко-зертер метем гц*сьуа ¡\. 0-31.13)

I :н]

Файл Вид Се^еис Справка

а 1. х ► ЙЩ

J SJA1ÍLL

- 3 -г^ У У*- V ^ ^ „^ЗЗ-Ч1' 6 ЛЗ-У О1^

" '*: 'т-'З^ аА ^ I) Ajjj.ii J ' -1

^ J Л-« и! 1 j JL— -" ■ О1^1 3 ^

Л*

З^н й Ь оЫ

-г*-*- 4 ¿^т —■- «II:

И н

1

J ^

, ■ I <

ж ч:

.1 ^ н ш

Британия мусгэ ь. [ара дошг в а чавохири чун Индия, зер нигинаш оуд в а сарват анбуд мустаъмарот оа Лондон сарозир. чумхурй и сломи ба унвон як ак,ио м он дай таърихм, [устаы 1а р а дорад в а он дам сурпя аст. Чанг, Эрон в а сурия ро бо хам бар о дар кард, бародар танй щзб баас сурия, Сад дом \усайн хамлай кард ва Эрон, хашт сол набурд ро идоыа дод

Рисунок 2. Экранная форма главного окна персо-таджикского конвертера систем письма

Инструментарий внутриязыкового согласования текстов (Tj 8 Tj).

На основе ранее выполненных разработок мастера согласования таджикских шрифтов и автоматического корректора специфических букв таджикского языка, К.С. Бахтеевым начаты исследования по созданию унифицированного символьного препроцессора таджикских текстов. В настоящее время исследована проблематика предметной области и сформулирована последовательность этапов решения данной научной задачи. В результате должен быть создан отдельный модуль, реализующий начальный этап работы любой системы автоматической обработки текстов на таджикском языке, предшествующий этапу графематического анализа.

Система машинного перевода «Папирус» (Fa-Da 9 Ru).

Начата разработка системы машинного перевода «Папирус», рис. 3. К настоящему времени разработана и апробирована система графематического анализа персидского языка, набрана словарная база порядка 40 тыс. словоформ и база памяти переводов - около 9,5 тыс. выражений. Производится адаптация системы морфологического анализа, реализованная в персидско-таджикском конвертере систем письма, для реализации в данной СМП.

Рис. 3. Экранная форма главного окна СМП «Папирус» Разработка морфемного преобразователя текстов (Ш 9 Т|).

Таджикский и узбекский языки, не являясь близкими, развивавшись в одном регионе в условиях конвергентной эволюции приобрели определенное сходство в части базовой лексики, в части общих арабских заимствований, во взаимопроникновении части лексики друг в друга, в количестве и сопоставимости грамматических категорий, в морфологическом строе. С учетом данного наблюдения

начата разработка средств автоматического установления межморфемных соответствий данной языковой пары для последующей реализации межъязыкового преобразователя.

Разработка морфемного преобразователя текстов (Af 9 Fa-Da).

А.Ю. Фоминым начаты исследования в направлении установления взаимосвязей персидско-таджикского языкового кластера и афганского языка (пушту) на предмет применимости методов языковой трансформации. Точкой соприкосновения указанных языков является пласт заимствованной арабской лексики, составляющая от 35 до 45% словарного фонда.

Разработка средств машинного перевода (Tj 9 Ru).

В рамках реализации СМП с таджикского языка на русский язык в соответствии с ранее представленной концепцией [3], Д. Д. Собировым проводились вспомогательные исследования автоматического распознавания глагольных конструкций таджикского зыка. Получена предварительная статистика распределения различных глаголов и элементов глагольных конструкций по таджикским текстам.

Список литературы

1. Гращенко Л.А. Анализ состояния и перспектив развития систем машинного перевода для стран Центральной Азии и Кавказа // Новые информационные технологии в автоматизированных системах: материалы 14 научно-практического семинара. - М.: МГИЭМ, 2011. - С. 92-106.

2. Гращенко Л.А. Обзор проблематики персидско-таджикской конверсии графических систем письма // Материалы международной научно-практической конференции «Подготовка научных кадров и специалистов новой формации в свете инновационного развития государств». - Душанбе: «Ирфон», 2010. - С. 363 - 365.

3. Гращенко Л.А., Клышинский Э.С., Тумковский С.Р., Усманов З.Д. Концептуальная модель систему русско-таджикского машинного перевода // Доклады АН РТ - том 54, №4 - 2011 г. - С. 279-285.

i Надоели баннеры? Вы всегда можете отключить рекламу.