Научная статья на тему 'О многообразии анаграмм корней таджикского языка'

О многообразии анаграмм корней таджикского языка Текст научной статьи по специальности «Философия, этика, религиоведение»

CC BY
183
46
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТАДЖИКСКИЙ ЯЗЫК / СЛОВОФОРМА / КОРЕНЬ / КОДИРОВАНИЕ / АНАГРАММА / СТАТИСТИКА / TAJIK LANGUAGE / WORD FORM / ROOT / CODING / ANAGRAM / STATISTICS

Аннотация научной статьи по философии, этике, религиоведению, автор научной работы — Усманов З. Д., Довудов Г. М.

Посредством упорядоченного алфавитного кодирования корней, извлечённых из коллекции таджикских текстов объёмом около 55 миллионов словоупотреблений, сформировано множество корневых анаграмм таджикского языка. Получены статистические данные о количестве различных анаграмм с заданным числом элементов. Анонсирован ряд анаграмм наибольшей мощности.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On a set of tajik root anagrams

Thanks to special coding of roots, extracted from Tajik text collections, containing about 55million words, the sets of anagrams to Tajik roots are constructed. Statistical data on the number of different anagrams with a given number of elements are obtained. Some anagrams with the highest number of roots are presented for consideration.

Текст научной работы на тему «О многообразии анаграмм корней таджикского языка»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2014, том 57, №4_

ИНФОРМАТИКА

УДК 811.222.8::81'322

Академик АН Республики Таджикистан З.Д.Усманов, Г.М.Довудов

О МНОГООБРАЗИИ АНАГРАММ КОРНЕЙ ТАДЖИКСКОГО ЯЗЫКА

Институт математики им. А.Джураева АН Республики Таджикистан, Худжандский политехнический институт Таджикского технического университета им. академика М.С.Осими

Посредством упорядоченного алфавитного кодирования корней, извлечённых из коллекции таджикских текстов объёмом около 55 миллионов словоупотреблений, сформировано множество корневых анаграмм таджикского языка. Получены статистические данные о количестве различных анаграмм с заданным числом элементов. Анонсирован ряд анаграмм наибольшей мощности.

Ключевые слова: таджикский язык - словоформа - корень - кодирование - анаграмма - статистика.

В статье [1] предложено упорядоченное алфавитное -кодирование словоформ, приспособленное, в частности, для выявления анаграмм, то есть таких подмножеств на множестве словоформ, которые состоят из одного и того же набора букв. В [2] и [3] такое кодирование было использовано для построения множеств словоформных анаграмм английского, русского и таджикского языков и изучения их статистических свойств.

В настоящей работе излагаются результаты исследований анаграмм корней таджикского языка, полученных из коллекции таджикских текстов размером в 55184508 словоупотреблений. В ней выявлено 240208 различных словоформ, из которых, в свою очередь, извлечено 65 422 корня [4]. Несмотря на то, что указанное число корней нельзя считать исчерпывающим, выводимые из таких данных результаты оказываются достаточно информативными, поскольку опираются на базу корней с высокой частотой встречаемости в таджикских текстах.

1. Для выявления корневых анаграмм, следуя [1], поставим в соответствие каждому корню из исходного списка его а(5 -код, то есть цепочку тех же самых букв, что и в рассматриваем прообразе, но расположенных в алфавитном порядке. Далее полученное множество закодированных корней преобразуем в список кодов с их частотами встречаемости.

Вновь сформированный список разделим на две группы: в первую соберём а(5 -коды с частотами, равными 1, во вторую - с частотами строго больше 1. Очевидно, что каждому коду из первой группы отвечает один и только один корень-прообраз. Что касается кодов второй группы, то каждому из них соответствуют несколько корней-прообразов, число которых равно частоте встречаемости рассматриваемого кода. Соотношения кодов двух групп представлены в табл. 1.

Из этой таблицы напрашиваются следующие выводы:

Адрес для корреспонденции: Усманов Зафар Джураевич, Институт математики АН РТ, 734063, Республика Таджикистан, г. Душанбе, пр. Айни, д. 299/1. E-mail: zafar-usmanov@rambler.ru

• между множествами корней и их аР -кодов не имеет места в целом взаимно однозначное отображение: корней - 65422, кодов - 61057 ;

• взаимно однозначность отображения "корень О- его аР -код" свойственна всего лишь 57441 корням (столбец 3);

Таблица 1

"Плотность" анаграмм на множестве кодов

1 2 3 4 5 6

Число Число Число Число Отношение Отношение

различных различных однозначных многозначных (3)/(2) (4)/(2)

корней аР -кодов аР -кодов аР -кодов в % в %

65422 61057 57441 3616 94,07 5,93

• неоднозначность отображения обуславливается 3616 аР -кодами (столбец 4), каждому из которых соответствует анаграмма, содержащая не меньше одного корня-прообраза;

• выраженные в процентах отношения чисел однозначных (столбец 5) и многозначных (столбец 6) кодов (без учёта частоты их встречаемости) к числу различных кодов показывают подавляющее превосходство "внеанаграммных" корней, то есть не входящих в состав анаграмм.

2. Последнее утверждение удаётся уточнить благодаря дальнейшим статистическим исследованиям, результаты которых представлены в таблицах 2 и 3.

Таблица 2

"Плотность" анаграмм на множестве словоформ

1 2 3 4 5 6

Число различных словоформ Число различных корней Число словоформ с однозначными аР -кодами корней Число словоформ с многозначными аР -кодами корней Отношение (3)/(2) в % Отношение (4)/(2) в %

240208 65422 180944 59264 75.32 24.68

Из табл. 2 видно, что учёт частоты словоформ с фиксированными кодами заметно повышает "вес" многозначных кодов, определяющих мощность анаграмм, до значения 24.68% в сравнении с предыдущей ситуацией - 5.93%.

Различие в понятиях словоформы и словоупотребления естественным образом отражается на плотности анаграмм: на множестве словоупотреблений (38.31%) она выше, чем на множестве словоформ (24.68%), о чём и свидетельствует табл. 3.

Таблица 3

"Плотность" анаграмм на множестве словоупотреблений

1 2 3 4 5 6

Число различных корней Число различных словупотр. Число слово- употр. с однозначными аР -кодами корней Число словоупотр. с многозначными аР -кодами корней Отношение (3)/(2) в % Отношение (4)/(2) в %

65422 55184508 34046811 21137697 61.69 38. 31

Обработка упомянутой ранее коллекции текстов позволила также получить результаты, представленные в табл. 4. В ней в каждой строке приводятся статистические данные, привязанные к мощностям анаграмм (столбец 1):

- во 2-й позиции строки отмечается число различных анаграмм (что то же - различных кодов), которые имеют мощность, указанную в 1-й позиции;

Таблица 4

Соотношения между мощностями анаграмм и числами кодов, словоформ и словоупотреблений

Число элементов анаграмм Число кодов % Число словоформ % Число словоупотр. %

7 3 0.005 374 0.156 101447 0.184

6 2 0.003 92 0.038 4983 0.009

5 23 0.038 1207 0.502 218284 0.396

4 104 0.170 4882 2.032 1493939 2.707

3 463 0.758 14094 5.868 5101010 9.244

2 3021 4.948 38615 16.076 14218034 25.764

1 57441 94.078 180944 75.328 34046811 61.696

Итого 61057 100 240208 100 55184508 100

- в 3-й позиции указанное число выражено в процентах к общему числу различных анаграмм (различных кодов);

- в 4-й позиции приводится число словоформ, корни которых формируют соответствующие анаграммы;

- в 5-й позиции предыдущее число выражено в процентах к общему числу различных словоформ;

- в 6-й позиции показано число словоупотреблений, в составе которых встретились корни (элементы) анаграмм соответствущих мощностей;

- в 7-й позиции предыдущее число выражено в процентах к общему числу словоупотреблений.

Отметим, что 2 - это минимальное и 7 - максимальное числа корней (элементов), составляющих анаграммы. Для удобства изложения результатов так же, как и в [1-2], мы воспользовались понятием "тривиальной " анаграммы: она состоит из одного корня и ей соответствует однозначный код.

3. Итак, в коллекции таджикских текстов размером в 55184508 словоупотреблений выявлено 240208 различных словоформ, из них, в свою очередь, извлечено 65 422 корня, которым поставлено в соответствие 61057 различных а(5 -кодов. Последние были разделены на 2 группы: первая - из 57441 однозначных кодов (тривиальных анаграмм), а вторая - из 3616 нетривиальных кодов (реальных анаграмм). Помимо этого нам удалось определить полный список всех таджикских корней, входящих в состав нетривиальных анаграмм. В связи с их огромным количеством в табл. 5 приводятся данные только об анаграммах мощности 7, 6 и 5.

Таблица 5

Анаграммы с наибольшим числом элементов

№ Код Число элементов анаграмм Число словоформ Число слово-употр. Корни словоформ,

икло 7 72 11978 кило, коил, икол, илко, лико, лоик, окил

биорх 7 22 447 хирбо, хироб, хориб, бихор, бохир, ибхор, рохиб

авдор 7 280 89022 аврод, адвор, вардо, давор, дарво, довар, овард

авлох 6 73 4770 хавло, хавол, халво, ахвол, авхол, алвох

аорсф 6 19 213 асфор, афсор, расфо, сафро, фарсо, фа-сор

аакмр 5 55 10741 камар, аркам, макар, ракам, рамак

аакрт 5 53 3637 карта, катар, катра, такар, тарак

икорт 5 18 450 кирот, китор, котир, ортик, ротик

икнот 5 17 256 конит, котин, никот, ниток, нотик

икост 5 14 965 косит, искот, сикот, сокит, сотик

аазрх 5 51 1317 хазар, хараз, харза, азхар, захра

аморх 5 85 6146 хамро, харом, ахром, архом, махор

аархш 5 33 631 хашар, ашхар, рашха, шарха, шарах

илосх 5 106 25903 хосил, исхол, ислох, силох, сохил

аабкр 5 22 251 акраб, абкар, абрак, бакар, барка

авло 5 40 1083 авло, алов, вало, вола, лаво

азор 5 44 1683 азро, ароз, зора, озар, ораз

аимн 5 71 7732 амин, мина, наим, ниам, нима

аилмос 5 18 18689 амосил, имсола, ломиса, масоил, солима

агнор 5 53 5519 ангор, аргон, гарон, оранг, орган

адмно 5 59 9203 андом, доман, мадон, монда, намод

амос 5 21 767 асмо, маос, моса, само, сома

аарсф 5 121 42107 асфар, афсар, сарфа, сафар, фарас

азмр 5 126 27323 замр, зарм, марз, разм, рамз

зиор 5 61 7384 зоир, изор, ориз, ризо, роиз

иклмо 5 47 18045 икмол, кимол, комил, милок, молик

илмо 5 76 27739 имло, лоим, моил, олим, омил

аикмрш 5 16 713 камриш, камшир, кашмир, римкаш, ширмак

Отметим, что в табл.5, состоящей из 6 столбцов, первый указывает номер анаграммы, второй - её аР -код, который соответствует всем словоформам, входящим в состав анаграммы. В третьем столбце даётся мощность анаграммы, то есть число корней, входящих в её состав. В четвёртом и пятом столбцах показаны абсолютные частоты их встречаемости среди словоформ и словоупотреблений в коллекции текстов. В последнем столбце выписаны корни, вошедшие в состав анаграммы. Исследования по настоящей статье поддержаны Фондом Сороса в 2013 г.

Поступило 08.01.2014 г.

ЛИТЕРАТУРА

1. Усманов З.Д. Об упорядоченном алфавитном кодировании слов естественных языков. - Доклады Академии наук Республики Таджикистан, 2012, т.55, № 7, с. 545 - 548.

2. Усманов З.Д., Довудов Г.М, Холматова С.Д. О множестве анаграмм таджикского языка. - Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук, 2013, № 1(150) , с. 32 -39.

3. Усманов З.Д., Довудов Г.М. О многообразии словоформных анаграмм. - Доклады Академии наук Республики Таджикистан, 2013, т.56, № 3, с. 196- 200.

4. Усманов З.Д., Довудов Г.М. Формирование базы морфов таджикского языка. - Душанбе: Дониш, 2014.

3.Ч,.Усмонов, Г.М.Довудов*

ОИДИ ГУНОГУНШАКЛИИ АНАГРАММАИ РЕША^ОИ ЗАБОНИ

ТОЧ,ИКЙ

Институтиматематика ба номи А.Цураев, Академияи илмх;ои Цум^урии Тоцикистон, *Донишкадаи политехникии Донишго^и техникии Тоцикистон ба номи М.С.Осими дар ш.Хуцанд

Бо усули чобачогузории алифбоии кодиронии решало, ки аз мачмуи матнх,ои точикии иборат аз 55 миллион калимах,о чудо карда шудаанд, мачмуи анаграммаи решах,ои забони точикй тартиб дода шудааст. Оиди шумораи анаграммах,ои гуногун ва шумораи элементх,ои онх,о маълумоти оморй ба даст оварда шудааст. Як катор анаграммах,ои шумораи элементашон зиёдтарин тавсиф карда шудааст.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Калима^ои калиди: забони тоцикй - калима - реша - кодирони - анаграмма - омор.

Z.D.Usmanov, G.M.Dovudov* ON A SET OF TAJIK ROOT ANAGRAMS

A.Juraev Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan, Khujand's Polytechnic Institute of the M.S.Osimi Tajik Technical University Thanks to special coding of roots, extracted from Tajik text collections, containing about 55million words, the sets of anagrams to Tajik roots are constructed. Statistical data on the number of different anagrams with a given number of elements are obtained. Some anagrams with the highest number of roots are presented for consideration.

Key words: Tajik language - word form - root - coding - anagram - statistics.

i Надоели баннеры? Вы всегда можете отключить рекламу.