Научная статья на тему 'Алгоритм формирования словаря соответствий таджикских и персидских словоформ'

Алгоритм формирования словаря соответствий таджикских и персидских словоформ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
164
70
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

In article the mathematical approach is resulted in the decision of task of the automated Tajik-Persian texts conversion within the framework of which the conformity establishment algorithm for sets of the Tajik and Persian word forms is described.

Текст научной работы на тему «Алгоритм формирования словаря соответствий таджикских и персидских словоформ»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ____________________________________2008, том 51, №5_________________________________

ИНФОРМАТИКА

УДК 410:31+414.7+491.550

Л.А.Гращенко

АЛГОРИТМ ФОРМИРОВАНИЯ СЛОВАРЯ СООТВЕТСТВИЙ ТАДЖИКСКИХ И ПЕРСИДСКИХ СЛОВОФОРМ

(Представлено академиком АН Республики Таджикистан З.Д.Усмановым 05.02.2008 г.)

В рамках решения задачи автоматизированной таджикско-персидской конверсии систем письма ключевым этапом является исследование отношений множеств п-грамм буквенных элементов алфавитов таджикского и персидского языков [1]. Реализация указанного этапа предполагает наличие двуязычного таджикско-персидского словаря, то есть множества пар взаимно однозначных отношений словоформ таджикского и персидского языков. В настоящее время такого словаря, отвечающего задачам исследования, не существует.

В статье предлагается подход на основе автоматического формирования словаря за счет реализации процедур фильтрации словоформ-кандидатов по системе правил, либо заданной заранее, либо определяемой в ходе работы вычислительного алгоритма. При этом минимизируется человеческий фактор и временные затраты, а также реализуется возможность установить минимальный набор правил для установления однозначного соответствия словоформ обоих языков.

Терминология. В дальнейшем письменным языком Ь будем называть произвольное множество текстов Т, каждый из которых в свою очередь является упорядоченной совокупностью элементов алфавита А. Выделяя среди элементов алфавита буквенные щеАбукв : А6укв(^А и служебные Ъ[&Аслуж : АслужсА символы, определим словоформу Z языка Ь над алфавитом А как цепочку буквенных символов длины |^, ограниченную служебными символами: Z = ъ\ъг. ..га, г[еАбукв. Введем понятие пустого символа @:

[г Абуке => г ® @ = @© г = г,

= @^>|2| = 0.

Здесь ф - операция конкатенации.

Множество словоформ {2{. ^ > 0} языка Ь составляют словарь № = {2{. \ = 1...п} длины |№| = п.

Обозначим через Атадж буквенный алфавит таджикского языка, а через Аперс буквенный алфавит персидского языка. Соответственно:

Ьтадж. Жтадж = {X} - словарь словоформ таджикского языка;

Ьперс. Жперс = {У} - словарь словоформ персидского языка;

и- АтадЖ(_ ^ Аперс^ и

- множество символов Юникод, являющееся универсальным множеством по отношению ко всем возможным графическим символам рассматриваемой языковой пары.

Пусть VOCL(Z) - функция вокализации, определенная на множестве словоформ {2} письменного языка Ь, отображающая цепочку графем словоформы Z в звукоряд, соответствующий произношению данной словоформы на речевом языке Ь ’, имеющем общую с письменным языком Ь языковую систему [2].

Тогда словоформу Х таджикского языка Ьтадж назовем тождественной в фонетическом смысле словоформе У персидского языка Ьперс, если их произношение совпадает с точностью, достаточной для их отождествления носителями обоих языков:

Уостадж(Х) * Уосперс(У)с^Х = У.

Постановка задачи. На основе имеющихся словарей Жтадж и Жперс разработать алгоритм формирования двуязычного словаря:

IV = {(Хг <-> У}): X еЖтаджа Г е}Уперс д X = У}}.

Исходные данные. На основе графем рассматриваемой пары языков определим состав множеств Атадж и Аперс:

Атадж = {д, Б, в, г, Г, Д, Е, Ё, Ж, З, И, Й, Й, К, К,, Л, М, Н, О, П, Р, С, Т, У, У, Ф, Х, Ц, Ч, Ц, Ш, Ъ, Э, Ю, Я}, Атадж1 = 35.

Аперс = {1,1^, у, ^, £), £, £, £, £, ^, Ь, д j, Д ^, ^, ^, ^, ^, ^, £, £, ^, з, <^,

^, Ц ^, й, J, °, ^, }, ^перс| = 34.

Словарь таджикских словоформ Жтадж получен путем перевода в электронный вид словаря [3, 4], 1Жтадж1 = 40220. Словарь персидских словоформ Жперс получен в результате обработки электронного словаря [5], \Ж1ер°1 = 20998.

Подход к решению задачи. Для уменьшения пространства возможных решающих признаков предлагается двухступенчатая обработка. На первом этапе каждой таджикской словоформе сопоставляется промежуточное множество М возможных персидских слово-форм-кандидатов:

< \Утадж, \Уперс > {(Х;, М,): Х;е\утадж, М, = {У/: У/е\¥перс}, М;с Wпepc}.

На втором этапе производится фильтрация каждого такого промежуточного множества путем применения к каждой словоформе-кандидату анализирующей функции, заданной на основе определенной системы правил.

Для реализации первого этапа обработки оказалось целесообразным применение опорного конвертирования, то есть сопоставления каждой словоформе из обоих словарей цепочек символов над промежуточным (опорным) алфавитом Аопорн, которые можно непосредственно сравнивать между собой. Для этих целей задаются два преобразования - ¥ над словоформами таджикского языка, и ¥1 над словоформами персидского языка, переводящими их соответственно в цепочки символов опорного алфавита V: V; е Аопорн и V’: V;’ е Аопорн, которые будут равны друг другу при фонетической тождественности исходных словоформ:

\/(Х = У)(Х еАопорн еАопорн эК-Г) (1)

Данные преобразования задаются на основе выделения в алфавитах каждого из рассматриваемых письменных языков 1та'и,г и Ьперс подмножеств опорных графем с: Атадж

и А™рсрн<^ Аперс, имеющих однозначные отображения в множество звуков соответствующих

им речевых языков Цпадж и Ьперс. Вследствие родства рассматриваемых языков, будем полагать тождественными соответствующие им речевые языки [2], то есть имеющими общий звуковой (фонетический) алфавит: 1та'и" = Ц1ерс Эти множества были установлены в результате предварительных исследований [1].

Тогда зададим в табличной форме отображение Я множества опорных символов таджикского языка Ато:Ж и отображение Я1 множества опорных символов персидского языка

АПеРСн во множество символов опорного алфавита Аопорн (таблица ).

Таблица

Отображения Я и Я1 в промежуточный опорный алфавит Аопорн множеств опорных элементов

алфавитов таджикского и персидского языков

лтадж опорн допорн л перс опорн лтадж опорн допорн л перс опорн лтадж опорн допорн л перс опорн

Б ь К к

Г ё К »» С Б

Г о 1 Л 1

Д а К к Т \

Ж я »» J М т

Н п и Ф

З ъ П Р и »» Х ъ с

Р г J Ч 0 г

Ш Б »» Ч с

К опорным отнесены графемы, имеющие однозначное отображение в элементы фонетического алфавита. Иными словами, каждая из этих графем независимо от их расположения в словоформе передает один и тот же звук.

В соответствии с (1) введем в рассмотрение преобразования ¥ и ¥1:

X —£—: V. = <

{у^Аопорн:уК1х^х = х1.

у Р,

' ' \гХ'у^у^у,.

Замечание 1. Для данной языковой пары характерно, что удвоение согласного звука, передаваемое в таджикском языке диграммой х^Х1+1: хг- = х^+1, будет соответствовать в персидской записи единичной графеме. Таким образом, перед преобразованием ¥ над таджикской словоформой все указанные диграммы необходимо преобразовать по правилу:

@, если х; = х;+1, хм, в обратном случае.

Замечание 2. С учетом двунаправленности персидского письма индексация элементов персидских словоформ производится справа налево.

Тогда математическая модель сравнения таджикской и персидской словоформ представляется в следующем виде:

х = с, ® ^ е... е ап е сп+1, а, е сг ■. С] е - дцу,

< ¥ = с; 0 4 0... 0 < 0 с:+1, а; е а^н , с;: с; е - а:р0;н , (2)

X = ¥ «. Щ, <, ег, & Й?г¥ег л с/;/^г з е. = £ .

Моделью (2) каждая словоформа таджикского и персидского языков представляется последовательным чередованием опорных символов и цепочек неопорных символов С, при этом:

— первым и последним элементами всегда является цепочка неопорных символов, и

- между двумя опорными символами всегда есть цепочка неопорных символов.

Иллюстрация представления фонетически тождественных таджикской и персидской

словоформ в соответствии с приведенной математической моделью их сравнения приведена на рис.1.

X Ст Й1 с2 Сз с4

фаъолияти @ ф АЪО Л ИЯ Т И

У С-1 С1’1 С’2 сГ2 С'з сГ3 С’4

** @ 1_а 1с- J 13 С1] @

V = Р(Х) = Р^У) VI

т @ f @ 1 @ 1 @

Рис. 1. Представление фонетически тождественных таджикской и персидской словоформ.

На втором этапе обработки для каждой пары (X М) происходит исключение из множества М элементов ТД не отвечающих системе правил соответствий между цепочками неопорных символов таджикского и персидского языков.

Общий вид вычислительного алгоритма представлен блок-схемой, приведенной на рис.2. В начале работы алгоритма (блоки 1 - 4, 6, 7) происходит загрузка исходных словарей, их перекодировка в промежуточный алфавит для удобства вычислений, а также инициализация выходного словаря.

Блоками 8 - 10 реализуется первый этап обработки, на котором попарно сравниваются результаты преобразования таджикских ¥(Х) и персидских ГДТ/) словоформ из входных словарей и, в случае их равенства, пополняется множество кандидатов-словоформ М, соответствующее X

Если для таджикской словоформы X найден хотя бы один кандидат из Жперс (|М1| > 0), то блоками 12 - 15 реализуется второй этап обработки - вычисление функции Б(М;п) соответствия п-го элемента множества М системе правил допустимых отношений цепочек неопорных символов.

Если в результате отработки блоков второго этапа словоформе X соответствует одна или более словоформ-кандидатов, то происходит добавление пары (Х;, Мг) в выходной словарь соответствий Ж (блок 19).

Выводы. Реализация предложенного алгоритма позволяет перейти к следующим этапам исследований [1] в области автоматизированной таджикско-персидской конверсии систем письма.

Рис. 2. Блок-схема алгоритма формирования словаря соответствий таджикских

и персидских словоформ.

ЛИТЕРАТУРА

1. Усманов З.Д., Гращенко Л.А., Фомин А.Ю. - Известия АН РТ. Отд.физ.-мат., хим., геол. и техн.наук, 2008, №1, с. 11-20.

2. Зиндер Л.Р. Очерк общей теории письма. - Л.: Наука, 1987, 112 с.

3. Таджикско-русский словарь, т.1 /Под ред. С.Д.Холматовой, С.Солехова, С.Каримова. - Душанбе: Дониш, 2004, 388 с.

4. Таджикско-русский словарь, т.2 /Под ред. Д.Саймиддинова, С.Д.Холматовой, С.Каримова. - Душанбе: Дониш, 2005, 461 с.

5. Свободно распространяемая программа Persian multi-language dictionary версии 2.0 (автор - Амир Шакиб-Манеш), http://users.jyu.fi/~amishak/.

Институт математики Поступило 05.02.2008 г.

АН Республики Таджикистан

Л.А.Грашенко

АЛГОРИТМИ ТАШАККУЛЁБИИ ЛУГАТИ МУТОБИЦАТИ СОХТОРИ КАЛИМА^ОИ ТОНИКИ ВА ФОРСИ

Дар мак;ола дар асоси тарх,и математикии табдилдихй, дар чорчубаи тадк;ик;отх,о оиди мук;оисаи точикй-форсии системаи матнх,о, усули бо тарзи автомата ташаккул до-дани лугати фонетикй айниятии калимасозии точикй ва форсй пешних,од шудааст.

L.A.Graschenko

THE CONFORMITY DICTIONARY FORMATION ALGORITHM OF THE TAJIK AND PERSIAN WORD FORMS

In article the mathematical approach is resulted in the decision of task of the automated Ta-jik-Persian texts conversion within the framework of which the conformity establishment algorithm for sets of the Tajik and Persian word forms is described.

i Надоели баннеры? Вы всегда можете отключить рекламу.