Научная статья на тему 'Статистические закономерности таджикского языка, связанные с используемым в нем расширенным кириллическим алфавитом'

Статистические закономерности таджикского языка, связанные с используемым в нем расширенным кириллическим алфавитом Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
119
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
таджикский язык / кириллица / специфические буквы / СТАТИСТИКА / Словоформа / ЧАСТОТА ВСТРЕЧАЕМОСТИ / сyrillic / Tajik language / specific letters / Statistic / wordforms / frequency of occurrence

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Эвазов Х. А.

Статья посвящена изучению статистических закономерностей таджикского языка, обусловленных использованием в нем кириллического алфавита, расширенного специфическими символами.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The article is devoted to studies the statistical regularities of the Tajik language, arising from the usage of extended by the specific letters Cyrillic alphabet on it.

Текст научной работы на тему «Статистические закономерности таджикского языка, связанные с используемым в нем расширенным кириллическим алфавитом»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ______________________________________2010, том 53, №12____________________________________

ИНФОРМАТИКА

УДК 811.222.8 + 81.322

Х.А.Эвазов

СТАТИСТИЧЕСКИЕ ЗАКОНОМЕРНОСТИ ТАДЖИКСКОГО ЯЗЫКА, СВЯЗАННЫЕ С ИСПОЛЬЗУЕМЫМ В НЕМ РАСШИРЕННЫМ КИРИЛЛИЧЕСКИМ АЛФАВИТОМ

Технологический университет Таджикистана

(Представлено академиком АН Республики Таджикистан З.Д.Усмановым 22.11.2010 г.)

Статья посвящена изучению статистических закономерностей таджикского языка, обусловленных использованием в нем кириллического алфавита, расширенного специфическими символами.

Ключевые слова: таджикский язык - кириллица - специфические буквы - статистика - словоформа - частота встречаемости.

В современном таджикском языке используется 29 букв русской графики, расширенной шестью специфическими символами-буквами г, й, к, У, X, Ч- В настоящей статье приведены результаты изучения статистических закономерностей применения этих букв в таджикском литературном языке путем компьютерной обработки информации, представленной художественными произведениями С.Айни, Дж.Икроми, У.Кух,зод и др. (всего 4300 стр.), статьями из журнала «Садои Шарк» (100 стр.), газет «Чархи гардун» и «Зан ва мард» (600 стр.) на таджикском языке. В дальнейшем для сокращения записи упомянутые специфические буквы обозначаются символом Т] а 29 других — символом Яи.

1. Агрегированные сведения об использованной информации представлены следующими данными:

Общее число обработанных станиц - 5000;

1.1 - в них всего словоформ (с повторами) - 1 835 943;

1.2 - всего букв в этих словоформах - 9 419 634;

1.3 - среди букв п. 1.2 - Яи-букв - 8 831 453;

1.4 - в процентах к общему количеству букв - 93.76%;

1.5 - среди букв п. 1.2 - Т]-букв - 588 181;

1.6 - в процентах к общему количеству букв - 6.24%;

1.6 - число словоформ без Т]-букв — 1 325 591;

1.7 - в процентах к общему количеству словоформ - 72.20%;

1.8 - число словоформ с Т]-буквами - 510 352;

1.9 - в процентах к общему количества словоформ - 27.80%.

Адрес для корреспонденции: Эвазов Хисрав Азизович. 734061, Республика Таджикистан, г. Душанбе, ул.Н.Карабаева, 63/3, Технологический университет Таджикистана. E-mail: khisrav.evazov@bk.ru

1.10 - последующие сведения характеризуют использованную информацию сквозь призму частотного словаря словоформ:

1.11 - всего различных словоформ (без повторов) - 106 684;

1.12 - всего букв в них - 865 974;

1.13 - среди букв п. 1.12 - Яц-букв - 806 514;

1.14 - в % к общему количеству букв в частотном словаре - 93.13%;

1.15 - среди букв п. 1.12 - Т]-букв - 59 460;

1.16 - в % к общему количества букв в частотном словаре - 6,87%;

1.17 - число словоформ без Т]-букв - 59 333;

1.18 - в процентах к общему числу словоформ в частотном словаре - 55.62%;

1.19 - число словоформ с Т] -буквами - 47 351;

1.20 - в процентах к общему числу словоформ в частотном словаре - 44.38%.

2. Статистические закономерности, связанные с Т|-буквами, представлены в табл. 1-4. В табл. 1 приводится первая детализация агрегированных сведений п.1.

Таблица 1

Т] -буквы Встречаемость Т]-букв среди общего числа букв (п. 1.2 ) в к у б ул сли ч ум е 3 б о к 0х Встречаемость Т]-букв в общем количестве букв (в частотном словаре) е & в вол с м о н т о т тас ч в вку ю у в т с е ил § к о4 Среди всех словоформ п. 1.1 Среди всех словоформ п. 1.11 (частототного словаря)

число словоформ, содержащих хотя бы одну Т]-букву % по отношению к числу словоформ п.1.1 ен д о ы б £ тох х и ажщ вук рк о -] ,с Т] ,м р о ф о в о л с ол сли у % по отношению к п.1.11

Г 20 538 0.22 3 175 0.37 20 250 1.10 3 102 2.91

й 72 381 0.77 7 832 0.91 71 957 3.92 7 736 7.25

к 70 623 0.75 7 813 0.90 65 567 3.57 7 072 6.63

У 98 701 1.05 8 881 1.03 98 181 5.35 8 665 8.12

* 253 365 2.69 24 192 2.79 244 675 13.33 22 524 21.11

Ч 72 573 0.77 7 567 0.87 70 835 3.86 7 302 6.85

2 588 181 6.24 59 460 6.87 571 465 31.13 56 401 52.87

Как видно из данной таблицы, детализация сведений касается шести специфических таджикских букв, как в общем объёме словоформ, так и в частотном словаре словоформ. Следует отметить, что частоты встречаемости специфических букв ранее были определены в [1].

Дальнейшая детализация результатов пп. 1.1-1.10 заключена в табл. 2.

Таблица № 2

(дополнение к пп.1.1 -1.10)

Т]-буквы Число словоформ с Т|-буквой среди всех словоформ % к общему количеству словоформ Число словоформ с одной буквой у в т с е ил лок £ е ще б о к % м ув д с ми ри ом •е 2 ок ву об л с о л с и Ч у в т с е ил лок £ е ще б о к % В ерт с ми ри ом ^ оэ ок ву об л с о л с и Ч у в т с е ил лок £ е ще б о к % Число словоформ с четырьмя буквами % к общему количеству

Г 20 250 1.10 19 963 1.09 286 0.02 1 0.000 0 0

й 71 957 3.92 71 708 3.91 248 0.01 1 0 0 0

к 65 567 3.57 60 630 3.30 4 820 0.26 115 0.006 2 0

У 98 181 5.35 97 670 5.32 503 0.03 7 0 1 0

* 244 675 13.33 236 087 12.86 8 496 0.46 88 0.005 4 0

Ч 70 835 3.86 69 101 3.77 1 731 0.09 2 0 1 0

2 571 465 31.13 555 159 30.25 16 084 0.87 214 0.011 8 0

В этой таблице указывается частота встречаемости каждой из шести букв в общем количестве словоформ. Наблюдаемое превышение числа 571 465 над числом 510 352 (общим количеством словоформ с Т|-буквами, см. п.1.19) объясняется тем, что одна и та же словоформа учитывается в итоге столько раз, сколько различных специфических букв она содержит. По этой же причине наблюдается расхождение их процентных значений (31.13 и 27.80) по отношению к общему количеству всех словоформ.

В табл. 3 аналогичная информация приводится как дополнение к пп. 1.11 - 1.20 и относится к словоформам частотного словаря словоформ.

Таблица 3

Т|-буквы Число словоформ с Т|-буквами среди словоформ частотного словаря % к общему количеству словоформ без повторов Число словоформ с одной буквой % к общему количеству Число словоформ с двумя буквами у в т с е ил § £ е ще б о к % Число словоформ с тремя буквами у в т с е ил § £ е ще б о к % Число словоформ с четырьмя буквами у в т с е ил § £ е ще б о к %

г 3 102 2.91 3 031 2.84 70 0.07 1 0.001 0 0

й 7 736 7.25 7 663 7.18 72 0.07 1 0.001 0 0

к 7 072 6.63 6 361 5.96 682 0.64 28 0.026 1 0.001

У 8 665 8.12 8 457 7.93 201 0.19 6 0.006 1 0.001

* 22 524 21.11 20 907 19.59 1573 1.47 41 0.038 3 0.003

Ч 7 302 6.84 7 041 6.59 258 0.24 2 0.002 1 0.001

2 56 401 52.87 53 027 50.11 2 814 2.68 70 0.074 3 0.006

И опять-таки наблюдаемое расхождение некоторых чисел из данной таблицы и пп. 1.11-1.20 объясняется аналогично предыдущей ситуации.

В заключительной таблице предыдущая информация представляется в ином разрезе.

Таблица 4

По отношению к общему количеству словоформ По отношению к частотному словарю словоформ

Общее число букв 9 437 061 786 797

Число словоформ с: число % число %

одной ^ -буквой 44i 53i 24.G49 36 9i8 34.6G5

двумя ^ -буквами 6G 924 3.3i84 S 98i S.4iS

тремя ^ -буквами б 847 G.3729 i 254 i.i75

четырьмя ^ -буквами i GG7 G.G54S i75 G.i64

пятью ^ -буквами 25 G.GGi4 2G G.Gi9

шестью ^ -буквами i8 G.GGG2 3 G.GG3

X 5iG 352 27.798 47 35i 44,384

Поступило 22.11.2010 г.

ЛИТЕРАТУРА

1. Усманов З.Д., Солиев О.М. Закономерности статистического распределения частот встречаемости букв в таджикском языке. - ДАН РТ, 2003, т. 46, № 3-4, с.59-62.

2. Усманов З.Д., Солиев О.М. Проблема раскладки символов на компьютерной клавиатуре. -Душанбе: Ирфон, 2010, 104 с.

Х.А.Эвазов

ЦОНУНИЯ^ОИ ОМОРИИ ЗАБОНИ ТОЧ,ИКЙ ДАР АЛОЦАМАНДЙ БО ИСТИФОДАИ АЛИФБОИ ВАСЕЪШУДАИ КИРИЛЛЙ

Донишго^и технологии Тоцикистон

Макола ба омузиши к,онуниятх,ои омории забони точикй вобаста бо истифодаи алифбои кирилии бо символх,ои махсус васеъгардида бахшида шудаст.

Калима^ои калиди: забони тоцикй - кириллй -^арф^ои махсус - омор - калима - басомади вохурй.

Kh.A.Evazov

STATISTICAL REGULARITIES OF THE TAJIK RELATED TO THE USAGE OF EXTENDED CYRILLIC ALPHABET ON IT

Technological University of Tajikistan

The article is devoted to studies the statistical regularities of the Tajik language, arising from the usage of extended by the specific letters Cyrillic alphabet on it.

Key words: Tajik language - cyrillic -specific letters - statistic - wordforms - frequency of occurrence.

i Надоели баннеры? Вы всегда можете отключить рекламу.