Научная статья на тему 'Концептуальная модель таджикско-персидской конверсии графических систем письма'

Концептуальная модель таджикско-персидской конверсии графических систем письма Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
223
73
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

In article the informative exposition of the comprehensive approach to implementation of a system of the Tajik-to-Persian letter systems conversion is offered on the basis of the registration of regularities in written representation of word forms of the indicated language pair and the determined exposition of eliminations of the retrieved regularities.

Текст научной работы на тему «Концептуальная модель таджикско-персидской конверсии графических систем письма»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ___________________________________2009, том 52, №2_______________________________

ИНФОРМАТИКА

УДК 81:32+003.034

Л.А.Гращенко

КОНЦЕПТУАЛЬНАЯ МОДЕЛЬ ТАДЖИКСКО-ПЕРСИДСКОЙ КОНВЕРСИИ ГРАФИЧЕСКИХ СИСТЕМ ПИСЬМА

(Представлено академиком АН Республики Таджикистан З.Д.Усмановым 30.12.2008 г.)

В ходе изучения закономерностей таджикско-персидской конверсии графических систем письма были систематизированы существующие представления предметной области [1], выполнен анализ средств, методов и программных реализаций алгоритмов конверсии [2], предложены частные модели отдельных сторон рассматриваемой проблематики [3]. В настоящей статье полученные результаты используются для описания концептуальной модели перспективной автоматизированной конверсии графических систем письма указанной языковой пары.

В соответствии с [4] определим таджикско-персидскую конверсию графических систем письма как представление текстов, составленных на таджикском языке, средствами системы письма, принятой для персидского языка. При этом такая операция подразумевает:

- преобразование языковых знаков письма, то есть замену слов, записанных в системе письма таджикского языка, на слова, записанные в системе письма персидского языка;

- преобразование алфавитных знаков таджикского алфавита Атадж в алфавитные знаки персидского алфавита Лперс (в том числе и служебные);

- преобразование свойств и атрибутов текста в соответствии с характеристиками исходной и принимающей систем письма [5] рассматриваемой языковой пары (табл. 1).

Таблица 1

Сравнительная характеристика систем письма таджикского и персидского языков

Язык Свойство Таджикский Персидский

Регистровость Двурегистровый Однорегистровый

Направленность Однонаправленный Двунаправленный

Наличие изменяющихся символов Нет Да

Наличие п-графов Нет Да (цепочки гласных)

Алгоритм преобразования таджикского текста в персидский содержит три основных блока, независимо от используемой математической модели конверсии языковых знаков письма: предобработки, конверсии и постобработки.

В блоке предобработки последовательно реализуются функции:

- входного кодирования (преобразования Ишсоёе-символов во внутренний формат представления символов в системе);

- нормализации (сокращения мощности алфавита входного потока символов, в частности приведения текста к одному регистру);

- токенизации (разбиения текста на цепочки однотипных символов, в частности - разбивки текста на слова);

- предварительный анализ входных цепочек символов (сопоставления входным цепочкам набора атрибутов, определяющих последовательность их дальнейшей обработки). Блок постобработки реализует ряд функций, обратных приведенным в блоке предобработки:

- преобразование направленности обработанных цепочек символов в соответствии с их типом;

- сшивка обработанных цепочек символов;

- выходное кодирование (преобразования символов из внутреннего формата представления в системе в ишсоёе-символы);

- форматирование выходного текста в соответствии с наборами атрибутов, определенных для цепочек символов на этапе конверсии.

Результатом работы блока предобработки является последовательность цепочек символов, с каждой из которых сопоставлен набор атрибутов, определяющих их принадлежность к тому или иному типу данных: текстовых, числовых, либо служебных.

В блоке конверсии решается основная задача - отображение словоформы X таджикского языка, получаемой на выходе блока предобработки в виде цепочки символов, в тождественную в фонетическом смысле персидскую словоформу У, [3]:

^ у | х < Фонетич у у

Содержание блока конверсии определяется выбранной моделью конверсии и представлено информационными базами и средствами их обработки. Применительно к таджикско-персидской конверсии структура этого блока формируется на основе комплексного подхода, сочетающего отдельные стороны детерминированного (на основе словарей) и вероятностного (на основе учета статистических закономерностей) подходов и позволяющего сгладить недостатки и усилить достоинства каждого из указанных подходов. В блоке конверсии учитываются наиболее общие закономерности отношений таджикских и персидских слово-

форм, а исключения из этих закономерностей перечисляются в отдельных словарях, значительно меньших по объему, чем словарь всех возможных пар таджикских и фонетически тождественных им персидских словоформ. В этом же блоке сочетаются операции поиска по словарным базам, вычисления аналитических функций и преобразования символьных цепочек в соответствии с вычисленными значениями.

Обобщенная структура конвертера приведена на рисунке.

Рис. Схема системы таджикско-персидской конверсии систем письма

Приведенная схема отражает совокупность функциональных блоков (обозначены прямоугольниками), информационных хранилищ (цилиндры) и связей между ними: информационных (непрерывные стрелки) и управляющих (пунктирные стрелки).

Функциональные блоки 1 -2 реализуют этап предобработки, блоки 3 -8 этап конверсии, блоки 11-13 - этап постобработки. Блоки 9 и 10 представляют внешние по отношению к процессу конверсии функции, обеспечивающие сигнализацию исключительных ситуаций и процессы адаптации системы.

Рассмотрим последовательность шагов обработки некоторой символьной цепочки X, выделенной из входного текста на этапе предобработки (блоки 1-2).

1. Блок конверсии цепочки X определяется её типом, устанавливаемым в блоке 2: цепочки чисел поступают в блок 3, символов-разделителей в блок 4, цепочки служебных символов или букв иных алфавитов не конвертируются. Если цепочка Х определена как таджикская словоформа, то в зависимости от установленных в блоке 2 признаков её обработка переходит в блок 5 (для аббревиатур), 6 (для имен собственных) или блок 7 (для всех иных словоформ).

2. Если в блоках 5 и 6 установлено, что цепочка Х не содержится в базах аббревиатур и номенов, то в зависимости от настроек системы и выбора пользователя либо генерируется исключительная ситуация (производится обновление баз в блоке 10), либо цепочка признаётся обычной словоформой и поступает в блок 7.

3. Поступившие в блок 7 словоформы подвергаются автоматическому морфологическому анализу, на основе которого производится поиск основы слова в базе исключений, а также определяется принадлежность словоформы к одному из трёх классов слов: словам персидского, арабского либо европейского происхождения. Расчленённая на аффиксы и основу слова словоформа Х, а также управляющая информация о классе словоформы и наличии основы слова в базе исключений поступает на конверсию в блок 8.

4. В блоке 8 в соответствии с управляющей информацией производится конверсия основ слов, аффиксов и осуществляется их сшивка в цепочку У. Основы таджикских слов, обнаруженные в базе исключений, заменяются на содержащиеся в той же базе основы персидских слов.

5. В зависимости от настроек системы и результатов конверсии в блоке 9 производится генерация предупреждений, реализуемых на этапе постобработки в блоке 13.

6. По завершению этапа конверсии цепочка У подается на последовательность блоков этапа постобработки (11 - 13).

Приведенное содержательное описание концептуальной модели таджикско-персидской конверсии систем письма позволяет перейти к установлению конкретных закономерностей на множестве отношений словоформ таджикско-персидской языковой пары [1, 3], проведению инфологического моделирования информационных хранилищ перспективной автоматизированной системы конверсии и прототипированию.

Институт математики Поступило 30.12.2008 г.

АН Республики Таджикистан

ЛИТЕРАТУРА

1. Усманов З.Д., Гращенко Л.А., Фомин А.Ю. - Известия АН РТ. Отд. физ.-мат., хим., геол. и техн. наук, 2008, №1(130), с. 20-26.

2. Гращенко Л.А., Фомин А.Ю. - ДАН РТ, 2008, т.51, №8, с. 580-583.

3. Гращенко Л.А. - ДАН РТ, 2008, т.51, №5, с. 339-345.

4. ГОСТ 7.79-2000 (ИСО 9-95) «Правила транслитерации кирилловского письма латинским алфавитом» - М.: Издательство стандартов, 2002, 19 с.

5. Информационные технологии. Термины Юникод. Проект отраслевого стандарта. [Электронный ресурс]: http://gsnti-norms.m/norms/common/doc.asp?0&/norms/dict/unicode.htm

Л.А.Грашенко

ШАКЛИ КОНСЕПСУАЛИИ КОНВЕРСИЯИ СИСТЕМАИ ХАТТЙ ДАР СОХТОРИ КАЛИМА^ОИ ТО^ИКЙ-ФОРСЙ

Дар мак;ола шархи мухтасари тахлили хамачонибаи системаи конверсияи точикй-форсй бо дар назардошти к;онуниятхои хаттй дар забонхои мазкур бо баёни мукддаррот ва ихтибосот дар чорчубаи к;онунияти ин забонхо пешниход карда шудааст.

L.A.Graschenko

CONCEPTUAL MODEL OF THE TAJIK-TO-PERSIAN CONVERSION OF GRAPHICAL LETTER SYSTEMS

In article the informative exposition of the comprehensive approach to implementation of a system of the Tajik-to-Persian letter systems conversion is offered on the basis of the registration of regularities in written representation of word forms of the indicated language pair and the determined exposition of eliminations of the retrieved regularities.

i Надоели баннеры? Вы всегда можете отключить рекламу.