ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ____________________________________2009, том 52, №1________________________________
ИНФОРМАТИКА
УДК 491.550+492.7]-3
А.Ю.Фомин СИСТЕМА ПРИЗНАКОВ АВТОМАТИЗИРОВАННОГО РАСПОЗНАВАНИЯ АРАБСКИХ ЗАИМСТВОВАНИЙ В ТАДЖИКСКИХ ТЕКСТАХ
(Представлено академиком АН Республики Таджикистан ЗД.Усмановым 10.11.2008 г.)
В рамках исследований различных аспектов автоматизации обработки таджикских текстов [1-4] одной из актуальных задач является выявление в произвольном таджикском тексте словоупотреблений, являющихся заимствованиями из других языков, в частности из арабского языка.
Для таджикско-персидской языковой пары характерно наличие трёх основных групп словоформ-заимствований:
- из арабского языка (по данным [5] - до 45% словоформ);
- из европейских языков - английского, французского и русского;
- из тюркских языков.
Задачей данной статьи является формализация правил распознавания в таджикском тексте заимствований из арабского языка и алгоритмизация процесса их классификации внутри упомянутой группы.
1. Анализ и систематизация сведений об арабских заимствованиях в таджикском языке (арабизмов) позволяют выделить следующие основные группы таких словоформ [5 - 8]:
- масдары - отглагольные образования арабского языка, обозначающие названия действий или состояний, выраженных глаголом;
- причастия действительного и страдательного залогов.
Существует также третья, малочисленная группа заимствований, которая в силу трудностей формализации признаков их выделения остается за рамками настоящего исследования. Такие словоформы должны выявляться путем их учета в информационной базе слов -исключений.
Информационной основой построения автоматического распознавателя арабизмов первых двух групп является установленная в ходе настоящего исследования группа следующих идентифицирующих признаков:
- множества специфических префиксов и постфиксов;
- определенный диапазон длин словоформ;
- определенная конструкция основы слова, базирующаяся на вошедших в персидский и таджикский языки 9 из 12 арабских форм словообразования (пород).
Породами в арабском языке называют глагольные формы, образованные из корня, состоящего из трёх согласных букв, путем прибавления (вставки) одной или нескольких добавочных гласных и служащие для различных изменений в первичном значении корня, прежде всего изменений в направлении действия (то есть залоговых отношений), а также характера его протекания (то есть видов, оттенков) [7].
2. В [6] предложена форма записи основ слов-арабизмов различных пород, основанная на обозначении согласных букв исходного корня цифрами в порядке их следования, то есть 1, 2, 3. В согласии с этим основу слова-арабизма Rpa6 можно представить записью вида:
ао 1 ai 2 a2 3 аз,
где а0, a¡, a2, a3 - цепочки добавочных символов, включая пустой символ @, [2]. Такую запись будем называть образом корня и обозначать Ptrn (Rpaб).
В ходе развития таджикско-персидской языковой пары часть арабских заимствований претерпела изменения, связанные с добавлением к ним аффиксов персидского происхождения или вхождения в состав сложных слов. Однако сама корневая основа таких заимствований сохранилась и может быть поставлена в соответствие существующим словам в арабском языке. С учетом этого, обобщенная модель арабизма A представляется в виде последовательной конкатенации префиксов ргтадж и постфиксов р$тадж таджикского происхождения (в том числе самостоятельных слов - частей сложных слов), префиксов Ргараб и постфиксов Psapa6 арабского происхождения и основы слова рараб\
А = ргтадж 0 Ргараб © Rapa6 © Psapa6 © PsTÍWK.
Пример 1. Слово истиро^атго^ представляется в виде:
' Ргтадж = @, Ргараб = и,
< Rapa6 = стирох, : Ptrn (Rapa6) = 1ти2оЗ (ао = @, ai = ти, аг = о, аз = @),
Psapa6 = ат, р8тадж = гох
Таким образом, при анализе произвольного таджикского слова на предмет его принадлежности к арабским заимствованиям предварительно необходимо определить и отбросить аффиксы таджикского происхождения, например по алгоритмам, приведенным в [4].
3. Введем следующую буквенно-цифровую систему обозначений рассматриваемых групп арабизмов:
М1, ..., М10 - масдары, соответственно, 1-10 пород;
ПД1,..., ПД10 - причастия действительного залога 1-10 пород;
ПС1, ., ПС10 - причастия страдательного залога 1-10 пород.
В ходе систематизации данных литературных источников [5-9] и изучения словарного материала на основе словарей [10, 11], предлагается следующая система признаков распознавания арабских заимствований в таджикском языке в форме таблицы.
Таблица
Система признаков арабских заимствований таджикского языка
Длина таджикского слова 5 6 7 8 9 10
ПРЕФИКСЫ - 1о2и3 ПД1
И, А, Е, Э 12о3 М4 1ти2о3 1та2о3 М8
ИН, АН, ЕН, ЭН 1и2о3 1а2о3 М7
ТА 1и23 М2 1о2у3 1о2у3 М6 1а22у3 1а22у3 1а22а3 М5
МУ МУ МА 12и3 12е3 ПД4 1о2и3 1о2е3 ПД3 1о2а3а М3
12а3 ПС4 1о2а3 ПС3 1а22и3 1а22е3 ПД2
12у3 12у3 ПС1 1а22а3 ПС2
1та2и3 1та2е3 ПД8 1та2а3 ПС8
Н Н Н 1а2и3 1а2е3 ПД7 1а2а3 ПС7
МУТА МУТА МАТА 3 3 ие 22 аа 6 Д 3 3 ие 22 22 сз ^ Д
1а2а3 ПС6 1а22а3 ПС5
МУСТА МУСТА МАСТА 12и3 12е3 ПД10 1а2а3 ПС10
ИСТА ЭСТА ЕСТА АСТА 12о3 М10
Данная таблица позволяет:
- за конечное число шагов определить факт принадлежности рассматриваемой словоформы к арабскому заимствованию;
- определить тип (масдар или причастие) и породу арабизма;
- дать оценку формы записи данного слова в арабском языке.
Алгоритм идентификации арабизма при помощи таблицы представляется следующей последовательностью действий:
1. В распознаваемой словоформе находятся и откидываются префиксы и постфиксы таджикского происхождения.
2. В оставшейся части словоформы определяется наличие арабского постфикса из множества {«ия», «ийят», «ият», «от», «ат», «иат», «оат», «ият»}. Если постфикс не найден, то переход к шагу 4.
3. Найденный постфикс откидывается.
4. Определяется длина (число букв) получившейся цепочки символов. Если длина меньше 5 или больше 10, то переход к шагу 8.
Начиная с последующего шага, происходит обращение к таблице и попутно поясняется её содержание.
5. В получившейся цепочке символов определяется наидлиннейшая начальная подцепочка из множества префиксов, указанных в первом столбце таблицы. Если такая подцепочка отсутствует, то следует переход к шагу 8.
6. В таблице на пересечении столбца, соответствующего длине цепочки и строки, содержащей найденный на шаге 5 префикс, находится клетка, в верхнем правом углу которой указан образ, совпадающий с образом корня текущей словоформы, а в нижнем левом углу -тип соответствующего образу арабизма. Если такая клетка не найдена, то следует переход к шагу 8.
7. Исходная словоформа идентифицирована как арабизм с параметрами, указанными буквенно-цифровым индексом в нижнем левом углу клетки. Переход шагу 11.
8. Произвести поиск словоформы в списке арабизмов-исключений. Если слово не найдено, то переход к шагу 10.
9. Исходная словоформа идентифицирована как арабизм-исключение. Переход к шагу
11.
10. Исходная словоформа не идентифицирована как арабизм.
11. Переход к анализу следующей словоформы.
Пример 2. Рассмотрим работу алгоритма для словоформы «интихобот». Не найдя на первом шаге алгоритма таджикских префиксов и постфиксов, на втором шаге обнаруживаем арабский постфикс «-от», и в соответствии с пунктом 3 отбрасываем его. Длина полученной
цепочки «интихоб» равна 7, поэтому переходим к шагу 5 и находим префикс «ин-». Образ корня рассматриваемого слова равен 1и2о3 и, действительно, на пересечении столбца под номером «7» и строки, соответствующей префиксу «ин-», имеется клетка с таким образом и буквенно-цифровым кодом М7. В соответствии с принятой системой обозначений и пунктом 7 алгоритма указанная словоформа идентифицирована как арабизм - масдар 7 породы.
4. Представленные система признаков и алгоритм идентификации арабизмов могут быть использованы при реализации подсистемы морфоанализа в перспективных системах машинного перевода, а также для сопоставления таджикской словоформе её эквивалента в арабском языке с целью правильного отображения на письме кратких и длинных гласных при таджикско-персидской конверсии графических систем письма.
Институт математики Поступило 24.11.2008 г.
АН Республики Таджикистан
ЛИТЕРАТУРА
1. Усманов З.Д., Гращенко Л.А., Фомин А.Ю. - Известия АН РТ. Отд.физ.-мат.,хим.,геол. и техн. наук, 2008, №1 (130), с. 20-26.
2. Гращенко Л.А. - ДАН РТ, 2008, т. 51, №5, с. 339-345.
3. Гращенко Л.А., Фомин А.Ю. - ДАН РТ, 2008, т. 51, №8, с. 580-583.
4. Исмаилов М.А. Основы автоматизированного анализа слов таджикского языка. - Душанбе: НПИ-Центр, 1994.
5. Бердыева Т. Арабские заимствования в таджикском языке. Автореферат дисс... канд. филол. наук.
- Душанбе: Дониш, 1968, 28 с.
6. Рубинчик Ю.А. Грамматика современного персидского литературного языка. - М: Восточная литература, 2001, 600 с.
7. Ковалев А.А., Шарбатов ГШ. Учебник арабского языка. Изд. 3-е, испр. и доп. - М.: Издательская фирма «Восточная литература» РАН, 2000, 751 с.
8. Жирков Л.И. Персидский язык: Элементарная грамматика. Изд. 2-е. - М.: Издательство ЛКИ, 2007, 208 с.
9. Овчинникова И.К. Учебник персидского языка. Под общ. ред. проф. В.Б. Иванова - М.: ИД «ФИЛОЛОГИЯ ТРИ», 2002, 527 с.
10. Персидско-русский словарь: в 2-х т. Свыше 60000 слов (Под рук. Ю.А. Рубинчика)- 2-е изд., стереотип., с приложением новых слов. - М.: Рус. яз., 1983, 1600 с.
11. Таджикско-русский словарь. - Душанбе: Пайванд, 2006, 782 с.
А.Ю.Фомин
СИСТЕМАИ АЛОМАТ^ОИ ШИНОХТИ АВТОМАТИКУНОНИДАШУДАИ КАЛИМА^ОИ АРАБЙ ДАР МАТЩОИ ТОНИКИ
Дар мак;ола дар шакли чадвалй системаи аломатхое, ки бо ёрии алгоритми со-хташуда калимахои арабии дар забони точикй мавчудабуда шинохта мешаванд, оварда шудаанд.
A.Y.Fomin
THE SYSTEM OF ATTRIBUTES OF THE AUTOMATED RECOGNITION OF THE ARABIAN LOANS IN TAJIK TEXTS
In the article in the tabulared form the system of the attributes allowing with the help of developed algorithm to identify a word borrowed from the Arabian language in the Tajik language is resulted.