Научная статья на тему 'Опыт реализации средств таджикско-персидской конверсии графических систем письма'

Опыт реализации средств таджикско-персидской конверсии графических систем письма Текст научной статьи по специальности «Языкознание»

CC BY
42
16
Поделиться

In article the experience of development of an experimental system of the Tajik-Persian graphical letter systems conversion is generalized. On the basis of comparative characteristic of the developed and existing systems the conclusions about perspectivity of the further researches are done.

Текст научной работы на тему «Опыт реализации средств таджикско-персидской конверсии графических систем письма»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН __________________________________2008, том 51, №8_____________________________

ИНФОРМАТИКА

УДК 410:31+414.7+491.550

Л.А.Гращенко, А.Ю.Фомин ОПЫТ РЕАЛИЗАЦИИ СРЕДСТВ ТАДЖИКСКО-ПЕРСИДСКОЙ КОНВЕРСИИ ГРАФИЧЕСКИХ СИСТЕМ ПИСЬМА

(Представлено академиком АН Республики Таджикистан ЗД.Усмановым 5.06.2008 г.)

В ходе реализации начального этапа исследований в области автоматизированной таджикско-персидской конверсии систем письма [1] авторами был проведён анализ существующих средств, методов и программных реализаций алгоритмов, обеспечивающих конверсию текстов с таджикского на персидский язык. Результаты этого анализа стали исходными данными для разработки опытных автоматизированных систем таджикско-персидской конверсии систем письма.

При этом установлено, что основой письменного общения носителей указанных языков являются сервисы сети Интернет - электронная почта, службы обмена сообщениями (ICQ, IRC и т.д.), файлообменные сети и Web-сервисы (чаты, форумы, блоги, Интернет-конференции), а также сервисы операторов мобильной связи (SMS). При этом вся нагрузка на преобразование графических систем письма ложится на пользователей - участников меж-культурной таджикско-персидской коммуникации, которые непосредственно формируют сообщения на языке получателя либо используют опорное конвертирование на основе соответствующих стандартов [3,4]. Для последнего случая обобщенная модель общения таджик-скоязычных и персоязычных пользователей указанных сервисов представлена в графологической форме на рисунке.

Рис. Модель общения таджикскоязычных и персоязычных пользователей сервисов обмена сообщениями.

Среди существующих средств автоматизации конвертирования текстов с таджикского на персидский языки был выделен онлайн-конвертер культурного института Ирана «Пендар» [5] (далее ОК «Пендар»). Для целей дальнейшего исследования был разработан прототип

автоматизированной системы таджикско-персидской конверсии систем письма (далее - Прототип АСК), обладающий минимальной функциональностью.

Математическая модель функционирования Прототипа АСК задаётся в терминах ранее выполненных исследований [1, 2] и представляется системой правил применения заданного в табличном виде (таблица 1) параметрического преобразования Уг ’=ТЕАЫ8(Хь Ро5(/, X)) каждого г-го символа хг словоформы X таджикского текста в цепочку Уг ’, последовательная конкатенация которых образует словоформу У персидского текста:

, , , , [У'КЛЫ^Ух^Рол//^)),еслих! фх, , . .

У = Х<^У = Ух ®72®...®7й\У1 =\ 1 1 1<7<Ш,

\@,еслих{ =

где @ - пустой символ, определенный в [2].

Параметр Pos(i, X) соотносит положение г-го символа в словоформе Х со шкалой <начало, середина, конец> и представляется числом из множества {1, 2, 3}. Значение параметра Роя(1, X) задаётся следующим образом:

Ро>і(і,Х) =

1, если і = 1,

2, если1< і < |Х|,

3, если і = ІХІ.

Таблица 1

Преобразование TRANS(xi, Ро^(і, X)) символов таджикских словоформ в символы персидских словоформ для модели функционирования Прототипа АСК

Хі У" Хг У" Хг У"

Ро8(і, X) Ро8(і, X) Ро8(і, X)

1 2 3 1 2 3 1 2 3

А I @ 0 Й У

Б К Ф

В Л к; Х С

Г Л Л X 0

F І М Ч г

Д л Н и Ч г

Е О I 1 1 Ш

Ё Ь П Ъ 1

Ж 3 Р J Э і 0

З j С Ю

И 1 @ @ Т Я ь

и У .У @ @

В качестве характеристик для сравнения двух указанных автоматизированных систем конверсии были выбраны:

а с

- доля корректно конвертированных слов - Д ;

- доля корректно конвертированных словоформ - Дсф;

- среднее количество ошибок в словоформе - 8.

Для расчета приведенных статистик на конкретном языковом материале была выбрана статья на таджикском языке [6] длиной 1353 слова, содержащая в числе 789 словоформ числительные, имена собственные, заимствования из других языков (арабского и русского). Для автоматизации расчетов был создан эталонный словарь персидских словоформ. При сравнении слов, полученных в результате конверсии, со словами из эталонного словаря делались следующие допущения: ? = <Д Э = ів = іМ.

На этапе первичной подготовки данных был выявлен серьёзный недостаток системы ОК «Пендар», состоящий в неспособности данной системы распознавать и конвертировать следующие специфичные буквы таджикского алфавита: х, й, ч, к,, у, ю. Для продолжения исследования в исходном тексте, подаваемом на вход ОК «Пендар», была произведена замена указанных букв на близкие по звучанию, по следующему правилу:

«X» ^ «х», «й» ^ «и», «ч» ^ «ч», «к» ^ «к», «у» ^ «у», «ю» ^ «у».

Сравнительная характеристика ОК «Пендар» и Прототипа АСК по выбранным показателям приведена в табл.2.

Таблица 2

Результаты испытаний ОК «Пендар» и Прототипа АСК

Система конверсии Показатель

Д с % ©х Дсф, % 8

ОК «Пендар» 29.1 23.2 1.01

Прототип АСК 47.4 42.7 0.75

Таким образом, качество конверсии таджикского текста в персидский с помощью Прототипа АСК по показателю Дсф в 1.85 раза выше, чем посредством ОК «Пендар», однако в обоих случаях полученные показатели явно недостаточны для практического использования указанных систем. При этом для ОК «Пендар» требуется пред- и постредактирование конвертируемого текста, вследствие чего эффект от автоматизации процесса конверсии нивелируется значительными трудозатратами на этих этапах.

Поэтому разработку перспективной автоматизированной системы таджикско-персидской конверсии систем письма целесообразно производить на основе совершенствования модели функционирования Прототипа АСК.

Институт математики АН Республики Таджикистан

Поступило 5.10.2008 г.

ЛИТЕРАТУРА

1. Усманов З.Д., Гращенко Л.А., Фомин А.Ю. - Известия АН РТ, 2008, №1(130), с. 20-31.

2. Гращенко Л.А. - ДАН РТ, 2008, т.51, №5, с. 339-345.

3. ГОСТ 7.79-2000 (ИСО 9-95) «Правила транслитерации кирилловского письма латинским алфавитом» - М.: Издательство стандартов, 2002, 19 с.

4. ISO 233:3-1999. «Транслитерация арабских письменных знаков латинскими». Часть 3. «Персидский язык. Упрощенная транслитерация».

5. Интернет-ресурс: онлайн-конвертер культурного института «Пендар»,

http: //www.pendar.net/convertor.asp.

6. Интернет-ресурс: статья «Суханронии Президента Ч,ум^урии Точ,икистон Эмомалй Рах,мон дар муло^от бо сокинони ша^ри Турсунзода дар варзишгох,и марказй», www.khovar.tj.

Л.А.Грашенко, А.Ю.Фомин ТАЧ,РИБАИ КОРБАСТИ ВАСОИТИ ТАБДИЛДИХИИ СИСТЕМАХОИ ГРАФИКИИ ХАТТИ ТОЧИКЙ-ФОРСЙ

Дар мак;ола корбасти системаи малакаи тачрибавии табдилдихди системах,ои хаттии точ,икй-форсй ч,амбаст карда мешаванд. Дар асоси мук;оисаи хосиятх,ои системах,ои мавчудбудаву сохташуда оиди перспективанок будани тадк;ик;от кулосах,о бароварда мешаванд.

L.A.Graschenko, A.Y.Fomin EXPERIENCE OF TOOLS IMPLEMENTATION OF THE TAJIK-PERSIAN CONVERSION OF GRAPHICAL LETTER SYSTEMS

In article the experience of development of an experimental system of the Tajik-Persian graphical letter systems conversion is generalized. On the basis of comparative characteristic of the developed and existing systems the conclusions about perspectivity of the further researches are done.