Научная статья на тему 'О слоговой структуре слов таджикского языка'

О слоговой структуре слов таджикского языка Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
339
78
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

In the article concepts of tajik word structure and tajik syllable structure are introduced. On the basis of statistical processing to a representative sampling, made up by various tajik texts, 2978 different syllable structures of tajik words and 6 different structures of tajik syllables are brought to light.

Текст научной работы на тему «О слоговой структуре слов таджикского языка»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН

2006, том 49, №6

ИНФОРМАТИКА

УДК 410:51+414.7+491.550

Академик АН Республики Таджикистан З.Д.Усманов, Х.А.Худойбердиев

О СЛОГОВОЙ СТРУКТУРЕ СЛОВ ТАДЖИКСКОГО ЯЗЫКА

Введение

Слогом, согласно определению, называется минимальная произносительная единица речи, состоящая из одного или нескольких звуков, которые образуют тесное фонетическое единство [1]. В соответствии с несколько иной эквивалентной интерпретацией, слог - это звук или сочетание звуков в слове, произносимые одним толчком выдыхаемого воздуха [2].

Для изучения закономерностей таджикского языка, связанных с понятием слога, введем дополнительно понятие слоговой структуры слова.

Пусть Ж - какое-либо слово, представляющее собой определенную последовательность букв. Замещая в ней гласные буквы цифрой 1, а согласные - цифрой 0 (букву “й” считаем согласной), мы, тем самым, преобразуем слово Ж в упорядоченную совокупность Ж^\ нулей и единиц. Такое преобразование назовем кодированием слова Ж, а получаемый результат, т.е. запись Ж*, - слоговой структурой слова Ж .

Размерностью структуры Ж* будем называть число букв, составляющих слово Ж, или же число символов (двоичных знаков), которые используются в записи Ж(*х . Структуры

двух слов назовем одинаковыми, если их представления в двоичной записи тождественны, в противном случае - различными. Вполне понятно, что структуры могут быть одинаковыми только при условии, что они обладают одинаковой размерностью. Очевидно также, что всякому слову Ж ставится в соответствие один и только один образ Ж* . В свою очередь, по

существу для любого естественного языка всякому Ж0\ соответствует одновременно несколько слов Ж . Это значит, что различные слова с одинаковым числом букв могут обладать одинаковой слоговой структурой. Например, словам “дилшод”, “кардам” и т.п. соответствует одна и та же структура “010010”.

Результаты, формулируемые в дальнейшем, основаны на статистической обработке репрезентативной выборки, составленной из фрагментов произведений С.Айни («Ёддоштх,о», «Ятим», «Ках,рамони халк;и точик Темурмалик» - всего 30 стр.), Б.Гафурова («Точикон» - 10 стр.), С.Улугзода («Пири хакимони Машрикзамин» - 10 стр.), Ф.Мухаммадиева («Куллиёт» - 10 стр.), Дж.Икроми («Асарх,ои мунтахаб» - 10 стр.), А.Бахори («Бозгашт» - 10 стр.), Р.Джалила («Одамони човид» - 10 стр. и «Чор дарвеш» - 10 стр.), «МБ^огё» М.Г.Ганиева (54 стр.), «Оила ва оиладори» Хакими Ра-

химзода, 30 стр. из газет «Ч,умхурият», «Сугд», «Садои мардум», «Чархи гардун», а также «Фархднги забони точикй».

Объем репрезентативной выборки составил 458628 слов. В дальнейшем образы этих слов, т.е. соответствующие им слоговые структуры, представленные множеством {Ж*}, стали объектом статистического анализа.

Обсуждение результатов

1. На множестве {Ж*} обнаружено 2978 различных слоговых структур таджикских

слов, при этом 1 и 14 - размерности минимальной и максимальной структур слов, соответственно.

2. Получено статистическое распределение структур, т.е. установлено соответствие между слоговыми структурами слов и частотами их встречаемости в текстах на таджикском языке.

3. Обнаружено, что 17 структур осуществляют 50%-е, а 34 структуры -75%-е покрытия таджикских текстов. Эти данные представлены в табл. 1. В первой колонке дается номер структуры (в порядке убывания частоты её встречаемости), во второй - запись самой структуры и в третьей - процент её встречаемости в текстах. Отметим, что первые 17 наиболее часто встречающиеся структуры закрашены серым цветом.

Таблица 1

№ Ж * "0,1 %

25 1 0.807

26 010010101 0.795

27 01010100 0.793

28 01010010 0.779

29 100101 0.775

30 10101 0.688

31 0110 0.617

32 01101 0.553

33 010100101 0.546

34 01001001 0.526

№ Ж * " 0,1 %

1 01 10.053

2 010 7.990

3 01010 5.811

4 10 4.900

5 01001 4.486

6 010101 3.727

7 0101 3.585

8 010010 3.363

9 0100101 3.081

10 0100 3.015

11 0101010 2.947

12 010100 1.794

№ Ж * " 0,1 %

13 01010101 1.702

14 01011 1.559

15 010011 1.294

16 0100100 1.148

17 1001 1.101

18 01001011 1.061

19 1010 0.976

20 0101001 0.961

21 0101011 0.954

22 01001010 0.949

23 100 0.946

24 10010 0.910

4. Обнаружено, что 89 структур осуществляют 90%-е покрытие таджикских текстов. Эти данные представлены в продолжении таблицы. Кроме того, 170 структур встретились 429 843 раз и составили 95%-е покрытие текстов.

35 010101010 0.505

36 010110 0.498

37 0101101 0.491

38 0100110 0.468

39 01010011 0.449

40 010101011 0.445

41 0101100 0.420

42 1001010 0.416

43 101 0.403

44 10010101 0.385

45 010100100 0.337

46 010010011 0.335

47 0101010010 0.332

48 101010 0.324

49 101011 0.317

50 011 0.309

51 10100 0.299

52 0100101011 0.271

55 010010100 0.269

54 010111 0.254

55 011010 0.252

56 0100100101 0.245

57 0101010101 0.243

58 010010010 0.232

59 1010101 0.230

60 01001100 0.212

61 10011 0.210

62 01010110 0.205

63 0101010100 0.196

64 0110101 0.193

65 0100011 0.193

66 010101001 0.189

67 110 0.182

68 01010010101 0.174

69 0101001010 0.167

70 10101101 0.162

71 0100110 0.159

72 0101001011 0.157

73 01001101 0.156

74 1001011 0.154

75 100100 0.152

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

76 010101101 0.148

77 010001 0.143

78 101001 0.141

79 0101000 0.141

80 010101100 0.139

81 1001001 0.139

82 011011 0.138

83 0110010 0.134

84 0100101001 0.123

85 0100101010 0.123

86 01001010101 0.122

87 0101001100 0.114

88 100101011 0.099

89 01010100101 0.099

5. Каждая из 170 структур разделялась на слоги “вручную” (в согласии с разделением на слоги тех слов, которые подпадали под те или иные структуры). Выявлено всего лишь шесть различных структур слогов - 1, 10, 01, 010, 100 и 0100.

6. Частота встречаемости упомянутых структур среди 985 768 слогов, полученных при разбиении на слоги 429 843 слов, принадлежавших 170 различным слоговым структурам таджикских слов, указана в табл. 2.

Таблица 2

Слоги в символьной записи Частота встречаемости, в % Частота встречаемости, абс. величина

1 7.958 78 452

10 5.802 57 199

01 55.463 546 732

010 25.964 255 945

100 0.943 9 292

0100 3.870 38 148

Из представленных статистических данных видно, что двухбуквенные слоги типа да, ба, ро, на, ни,та, ме, ва ки (в символьной записи - 01) и т.п. являются наиболее часто встречающимися, а трехбуквенные слоги типа абр, ашк, акл, исм, умр, афт, асп (в символьной записи - 100) и т.п. - особо редкими.

7. Отметим также, что 2 двухбуквенных слога 10 и 01 совместно с трехбуквенным слогом 010 составляют подавляющую часть слогов таджикского языка. Кроме того, 2,3 - средняя размерность слогов в таджикском слове.

Институт математики АН Республики Таджикистан, Поступило 15.10.2006 г.

Худжандский филиал

Технологического университета Таджикистана.

ЛИТЕРАТУРА

1. Советский энциклопедический словарь. М.: Советская энциклопедия, 1980, 1600 с.

2. С.И.Ожегов. Словарь русского языка. М.: Русский язык, 1984, 816 с.

З.Ч,.Усмонов, Х.А.Худойбердиев ДАР БОРАИ СОХТИ ХИ^ОГИИ КАЛИМА^ОИ ТОЧ,ИКЙ

Дар мак;ола мафхуми сохти калимах,ои точикй ва хичох,ои точикй оварда шуда-анд. Дар асоси коркарди омории интихобе, ки аз матнх,ои гуногуни бо забони точикй навишта шуда иборатанд, 2978 намуди гуногуни сохти хичогии калимах,ои точикй ва 6 намуди сохти хичои калимах,ои точикй дарёфт карда шуданд.

Z.D.Usmanov, Kh.A.Khudoiberdiev ON A SYLLABLE STRUCTURE OF TAJIK WORDS

In the article concepts of tajik word structure and tajik syllable structure are introduced. On the basis of statistical processing to a representative sampling, made up by various tajik texts, 2978 different syllable structures of tajik words and 6 different structures of tajik syllables are brought to light.

i Надоели баннеры? Вы всегда можете отключить рекламу.