ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН __________________________________2008, том 51, №8_____________________________
ИНФОРМАТИКА
УДК 410:31+414.7+491.550
Л.А.Гращенко, А.Ю.Фомин ОПЫТ РЕАЛИЗАЦИИ СРЕДСТВ ТАДЖИКСКО-ПЕРСИДСКОЙ КОНВЕРСИИ ГРАФИЧЕСКИХ СИСТЕМ ПИСЬМА
(Представлено академиком АН Республики Таджикистан ЗД.Усмановым 5.06.2008 г.)
В ходе реализации начального этапа исследований в области автоматизированной таджикско-персидской конверсии систем письма [1] авторами был проведён анализ существующих средств, методов и программных реализаций алгоритмов, обеспечивающих конверсию текстов с таджикского на персидский язык. Результаты этого анализа стали исходными данными для разработки опытных автоматизированных систем таджикско-персидской конверсии систем письма.
При этом установлено, что основой письменного общения носителей указанных языков являются сервисы сети Интернет - электронная почта, службы обмена сообщениями (ICQ, IRC и т.д.), файлообменные сети и Web-сервисы (чаты, форумы, блоги, Интернет-конференции), а также сервисы операторов мобильной связи (SMS). При этом вся нагрузка на преобразование графических систем письма ложится на пользователей - участников меж-культурной таджикско-персидской коммуникации, которые непосредственно формируют сообщения на языке получателя либо используют опорное конвертирование на основе соответствующих стандартов [3,4]. Для последнего случая обобщенная модель общения таджик-скоязычных и персоязычных пользователей указанных сервисов представлена в графологической форме на рисунке.
Рис. Модель общения таджикскоязычных и персоязычных пользователей сервисов обмена сообщениями.
Среди существующих средств автоматизации конвертирования текстов с таджикского на персидский языки был выделен онлайн-конвертер культурного института Ирана «Пендар» [5] (далее ОК «Пендар»). Для целей дальнейшего исследования был разработан прототип
автоматизированной системы таджикско-персидской конверсии систем письма (далее - Прототип АСК), обладающий минимальной функциональностью.
Математическая модель функционирования Прототипа АСК задаётся в терминах ранее выполненных исследований [1, 2] и представляется системой правил применения заданного в табличном виде (таблица 1) параметрического преобразования Уг ’=ТЕАЫ8(Хь Ро5(/, X)) каждого г-го символа хг словоформы X таджикского текста в цепочку Уг ’, последовательная конкатенация которых образует словоформу У персидского текста:
, , , , [У'КЛЫ^Ух^Рол//^)),еслих! фх, , . .
У = Х<^У = Ух ®72®...®7й\У1 =\ 1 1 1<7<Ш,
\@,еслих{ =
где @ - пустой символ, определенный в [2].
Параметр Pos(i, X) соотносит положение г-го символа в словоформе Х со шкалой <начало, середина, конец> и представляется числом из множества {1, 2, 3}. Значение параметра Роя(1, X) задаётся следующим образом:
Ро>і(і,Х) =
1, если і = 1,
2, если1< і < |Х|,
3, если і = ІХІ.
Таблица 1
Преобразование TRANS(xi, Ро^(і, X)) символов таджикских словоформ в символы персидских словоформ для модели функционирования Прототипа АСК
Хі У" Хг У" Хг У"
Ро8(і, X) Ро8(і, X) Ро8(і, X)
1 2 3 1 2 3 1 2 3
А I @ 0 Й У
Б К Ф
В Л к; Х С
Г Л Л X 0
F І М Ч г
Д л Н и Ч г
Е О I 1 1 Ш
Ё Ь П Ъ 1
Ж 3 Р J Э і 0
З j С Ю
И 1 @ @ Т Я ь
и У .У @ @
В качестве характеристик для сравнения двух указанных автоматизированных систем конверсии были выбраны:
а с
- доля корректно конвертированных слов - Д ;
- доля корректно конвертированных словоформ - Дсф;
- среднее количество ошибок в словоформе - 8.
Для расчета приведенных статистик на конкретном языковом материале была выбрана статья на таджикском языке [6] длиной 1353 слова, содержащая в числе 789 словоформ числительные, имена собственные, заимствования из других языков (арабского и русского). Для автоматизации расчетов был создан эталонный словарь персидских словоформ. При сравнении слов, полученных в результате конверсии, со словами из эталонного словаря делались следующие допущения: ? = <Д Э = ів = іМ.
На этапе первичной подготовки данных был выявлен серьёзный недостаток системы ОК «Пендар», состоящий в неспособности данной системы распознавать и конвертировать следующие специфичные буквы таджикского алфавита: х, й, ч, к,, у, ю. Для продолжения исследования в исходном тексте, подаваемом на вход ОК «Пендар», была произведена замена указанных букв на близкие по звучанию, по следующему правилу:
«X» ^ «х», «й» ^ «и», «ч» ^ «ч», «к» ^ «к», «у» ^ «у», «ю» ^ «у».
Сравнительная характеристика ОК «Пендар» и Прототипа АСК по выбранным показателям приведена в табл.2.
Таблица 2
Результаты испытаний ОК «Пендар» и Прототипа АСК
Система конверсии Показатель
Д с % ©х Дсф, % 8
ОК «Пендар» 29.1 23.2 1.01
Прототип АСК 47.4 42.7 0.75
Таким образом, качество конверсии таджикского текста в персидский с помощью Прототипа АСК по показателю Дсф в 1.85 раза выше, чем посредством ОК «Пендар», однако в обоих случаях полученные показатели явно недостаточны для практического использования указанных систем. При этом для ОК «Пендар» требуется пред- и постредактирование конвертируемого текста, вследствие чего эффект от автоматизации процесса конверсии нивелируется значительными трудозатратами на этих этапах.
Поэтому разработку перспективной автоматизированной системы таджикско-персидской конверсии систем письма целесообразно производить на основе совершенствования модели функционирования Прототипа АСК.
Институт математики АН Республики Таджикистан
Поступило 5.10.2008 г.
ЛИТЕРАТУРА
1. Усманов З.Д., Гращенко Л.А., Фомин А.Ю. - Известия АН РТ, 2008, №1(130), с. 20-31.
2. Гращенко Л.А. - ДАН РТ, 2008, т.51, №5, с. 339-345.
3. ГОСТ 7.79-2000 (ИСО 9-95) «Правила транслитерации кирилловского письма латинским алфавитом» - М.: Издательство стандартов, 2002, 19 с.
4. ISO 233:3-1999. «Транслитерация арабских письменных знаков латинскими». Часть 3. «Персидский язык. Упрощенная транслитерация».
5. Интернет-ресурс: онлайн-конвертер культурного института «Пендар»,
http: //www.pendar.net/convertor.asp.
6. Интернет-ресурс: статья «Суханронии Президента Ч,ум^урии Точ,икистон Эмомалй Рах,мон дар муло^от бо сокинони ша^ри Турсунзода дар варзишгох,и марказй», www.khovar.tj.
Л.А.Грашенко, А.Ю.Фомин ТАЧ,РИБАИ КОРБАСТИ ВАСОИТИ ТАБДИЛДИХИИ СИСТЕМАХОИ ГРАФИКИИ ХАТТИ ТОЧИКЙ-ФОРСЙ
Дар мак;ола корбасти системаи малакаи тачрибавии табдилдихди системах,ои хаттии точ,икй-форсй ч,амбаст карда мешаванд. Дар асоси мук;оисаи хосиятх,ои системах,ои мавчудбудаву сохташуда оиди перспективанок будани тадк;ик;от кулосах,о бароварда мешаванд.
L.A.Graschenko, A.Y.Fomin EXPERIENCE OF TOOLS IMPLEMENTATION OF THE TAJIK-PERSIAN CONVERSION OF GRAPHICAL LETTER SYSTEMS
In article the experience of development of an experimental system of the Tajik-Persian graphical letter systems conversion is generalized. On the basis of comparative characteristic of the developed and existing systems the conclusions about perspectivity of the further researches are done.