Научная статья на тему 'Об автоматическом разложении слов на слоги'

Об автоматическом разложении слов на слоги Текст научной статьи по специальности «Математика»

CC BY
146
41
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

In the article an algorithm for separating Tajik words by syllables is discussed.

Текст научной работы на тему «Об автоматическом разложении слов на слоги»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ______________________________________2007, том 50, №5__________________________________

ИНФОРМАТИКА

УДК 410:51+491.550

Х.А.Худойбердиев ОБ АВТОМАТИЧЕСКОМ РАЗЛОЖЕНИИ СЛОВ НА СЛОГИ

(Представлено академиком АН Республики Таджикистан З.Д.Усмановым 31.08.2007 г.)

В настоящей статье дается концептуальное описание последовательности процедур, реализация которых в виде компьютерной программы позволяет осуществлять автоматическое разделение произвольного таджикского слова на слоги. Процесс разделения основывается на понятии слоговой структуры слова и существенно использует 6 структур слогов, выявленных в [1].

Пусть W - какое-либо таджикское слово, представляющее собой определенную последовательность букв таджикского алфавита, и W0*j - слоговая структура слова W, то есть закодированная запись W в виде совокупности нулей и единиц. Напомним, что W0*j получается

из W путем замещения в W согласных букв цифрой 0 и гласных букв цифрой 1.

Предлагаемый алгоритм состоит из двух частей: в первой части осуществляется разделение W0\ на слоговые структуры, во второй части полученный результат используется непосредственно для представления исходного слова W в виде упорядоченной совокупности слогов.

Часть 1. Итак, в таджикском языке имеются 6 слоговых структур -

1; 10; 01; 010; 100; 0100.

В первой части алгоритма, осуществляющем разделение W0\ на слоговые структуры,

выполняются следующие процедуры.

1. Начало работы.

2. Ввод слова W .

3. Выполнение преобразования W —» Wlx.

4. Подсчет числа к единиц в записи W0^. Поскольку цифрой 1 кодируются гласные буквы, то число к, по-существу, указывает на число слогов, составляющих слово W .

5. Если к = 1, то, очевидно, запись W0*j состоит из одного слога, и этот слог выявляется путем отождествления Wqj с одним из 6 указанных ранее слогов. Далее следовать к пункту 9.

Если же к ф 1, то следовать к пункту 6.

6. Если к = 2, то запись Ш01 состоит из двух слогов. Какие именно слоги составляют

, определяется путем отождествления с одной из всевозможных записей, состав-

ленной из двух слоговых структур и получаемых присоединением к каждой из 6 слоговых структур одной из 6 структур. Очевидно, что из 6 слоговых структур можно составить 36 таких парных комбинаций. Далее следовать к пункту 9.

Если же к Ф 2, то следовать к пункту 7.

7. Если к = 3, то запись состоит из трех слогов. Какие именно слоги составляют

, определяется путем отождествления с одной из всевозможных записей, состав-

ленной из трех слоговых структур и получаемых присоединением к каждой из 6 слоговых структур одной из 6 структур и затем к полученной записи еще одной из 6 структур. Очевидно, что из 6 слоговых структур можно составить 216 таких трехслоговых комбинаций. Далее следовать к пункту 9.

Если же к Ф 3, то следовать к пункту 8.

8. Аналогичным образом распознается слоговый состав записей , для которых

к > 3, но при этом к < 8, ибо в настоящее время известно, что в таджикском языке отсутствуют слова, содержащие более 8 слогов.

9. Конец.

ПРИМЕР. Пусть Ш = “хуршед”. Тогда в соответствии с пунктом 3 преобразование Ж —» Ж,,*! приводит к Ж,,*! = “010010”.

Далее в соответствии с пунктом 4 имеем к = 2.

Теперь в соответствии с пунктом 6 формируются 36 двухслоговых записей:

1). 11 2). 110 3). 101 4). 1010 5). 1100 6). 10100

7). 101 8). 1010 9). 1001 10). 10010 11). 10100 12).100100

13).011 14) 0110 ......................................... 18).010100

19).0101 ........................ 22). 010010 ..................

25).1001 ........................................................... 30).1000100

31) 01001 ...................................................... 36).01000100

Выбранное нами в качестве примера слово “хуршед” в кодировке с помощью нулей и единиц отождествляется с 22-й записью. Следовательно, в закодированном виде это слово получает слоговое представление

К (“хуршед”) = 010 ® 010,

где © - знак агглютинации, то есть присоединения (приклеивания) одной слоговой структуры к другой без пробела.

Часть 2. После разложения W0\ на слоговые структуры, разбиение исходного слова

W осуществляется совсем просто. Из первой части алгоритма достаточно сохранить в памяти число букв, составляющих 1-й слог, 2-й слог и т.д. Эти числа используются для выделения слогов уже в самом исходном слове W .

Так, в приведенном примере при разделении W0\ (“хуршед”) были получены 2 слога,

причем и первый и второй слоги состояли из 3-х букв. Следовательно, при разделении самого слова W = “хуршед” получаем результат “хур - шед”.

Задача автоматического разделения таджикских слов на слоги была сформулирована З.Д.Усмановым в 1988 г. Ее первоначальное решение было получено Т.Хаитовым и Б.Паллаевым и зафиксировано в отчете Института математики АН Республики Таджикистан в 1989 г. Предложенный в настоящей статье алгоритм существенно отличается как от предложенного ими решения, так и того решения, которое впоследствии было опубликовано М.А.Исмаиловым, см. [2].

Отметим, что на основе авторского алгоритма и разработанной на его основе компьютерной программы проведены статистические исследования по многообразию слогов таджикского языка, результаты которых опубликованы в [3].

Худжандский филиал Поступило 31.08.2007 г.

Технологического университета Таджикистана

ЛИТЕРАТУРА

1. Усманов З.Д., Худойбердиев Х.А. - ДАН РТ, 2006, т.49, № 6, с. 489-492.

2. Исмаилов М.А. - ДАН РТ, 2000, т.43, № 3, с.95-99.

3. Худойбердиев Х.А. - Известия АН РТ. Отд. физ.-мат., хим. и геол. наук, 2007, № 2 (127), с. 31-34.

Х.А.Худойбердиев

ОИД БА ТАЦСИМИ АВТОМАТИКИИ КАЛИМА^ОИ ТОЧ,ИКЙ БА ^И^О^О

Дар мак;ола алгоритми так;сими калимахои забони точикй ба хичохо пешкаш карда шудааст.

Kh.A.Khudoiberdiev ON AN AUTOMATIC SEPARATION OF TAJIK WORDS BY SYLLABLES

In the article an algorithm for separating Tajik words by syllables is discussed.

i Надоели баннеры? Вы всегда можете отключить рекламу.