ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2015, том 58, №8_
ИНФОРМАТИКА
УДК 81'322::811.222.8::519.25
Академик АН Республики Таджикистан З.Д.Усманов, А.А.Косимов
О СООТНОШЕНИИ СЛОВОФОРМ И СЛОВОУПОТРЕБЛЕНИЙ В ПРОИЗВЕДЕНИИ А.ФИРДОУСИ "ШАХНАМЕ"
Институт математики им. А.Джураева АН Республики Таджикистан, Худжандский политехнический институт Таджикского технического университета им. акад. М.С.Осими
Предложены две формулы для описания корреляции чисел словоформ и словоупотреблений в творчестве А. Фирдоуси.
Ключевые слова: Фирдоуси - Шахнаме - словоупотребление - словоформа - зависимость.
Наши первые исследования творчества великого поэта А.Фирдоуси, представленного в произведении "Шахнаме" на таджикско-персидском языке в кириллической графике [1], были предприняты в публикациях [2 - 4]. В [2] на основе обобщения формулы "золотого сечения", предложенного в [3], изучался вопрос о положении точки кульминации в трёх поэмах - о Нузаре, Рустаме и Сухробе и Сиёвуше. В [4] на примере одиннадцати поэм, оцифрованных с помощью пяти натуральных единиц измерения текста, установлена статистическая неразличимость оригинала и его перевода [5] на русский язык.
В настоящей статье мы вновь обращаемся к творчеству А.Фирдоуси, однако, в отличие от предыдущего, рассматриваем не отдельные поэмы, а произведение "Шахнаме" в полном объёме. Наша цель заключается в том, чтобы на таком материале установить статистическую связь между количествами словоформ и словоупотреблений, как во введении, так и в каждой из 63 поэм.
Для удобства представления результатов приведём список названий поэм в том порядке, в котором они встречаются в "Шахнаме", сопроводив их принятыми нами сокращениями (в скобках):
Огози китоб (ОК); Огози достон (ОД); Хушанг (Д); Таумурас (Т); Цамшед (Д); Заууок (З); Фаридун (Ф); Манучеур (М); Нузар (Н); Зави Таумосп (ЗТ); Гаршосп (Г); К,айцубод (КД); Кайковус (К); Кори Кайковус ба шаури Барбаристон ва дигар достонуо (БД); Достони Рустам ва Сууроб (Р&С); Достони Сиёвуш (С); Шикояти Фирдавси аз пирии худ (ШФ); Кайхусрав (КВ); Достони Ко-муси Кашони (КК); Достони Рустам бо Хоцони Чин (Р&Х); Достони Цанги Рустам бо Аквондев (Р&А); Достони Бежан бо Манижа (Б&М); Достони Дувоздау Рух (ДР); Подшоуии Кайхусрав (ПКВ); Подшоуии Лууросп (Л); Подшоуии Гуштосп (ПГ); %афт хони Исфандиёр (ПИ); Достони Раз-ми Исфандиёр бо Рустам (И&Р); Достони Рустам ва Шагод (Р&Ш); Подшоуии Баумани Исфандиёр (БИ); Подшоуии Хумой (ДЙ); Подшоуии Дороб (ПД); Подшоуии Доро писари Дороб (ДД); Подшоуии Искандар (И); Подшоуии Ашкониён (А); Подшоуии Сосониён (ПС); Подшоуии Шопури Ардашер (ША); Подшоуии Урмузди Шопур (УШ); Подшоуии Бауроми Урмузд (БУ); Подшоуии Бауроми
Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, г. Душанбе, пр. Айни, д. 299/1, Институт математики АН РТ. E-mail: zafar-usmanov@rambler.ru.
Барром (Б); Подшоуии Бауроми Бауромиён (ББ); Подшоуии Нарсии Барром (НБ); Подшоуии Урмузди Нарси (УН); Подшоуии Шопури Зулактоф (ШЗ); Подшоуии Ардашери Некукор (АН); Подшоуии Шо-пур ибни Шопур (ТТТТТТ); Подшоуии Бауром писари Шопур (БШ); Подшоуии Яздгирди Базагар (ЯБ); Подшоуии Бауроми Гур (БГ); Подшоуии Яздгирд писари Бауроми Гур (Я); Подшоуии Хурмуз писари Яздгирд (ХЯ); Подшоуии Пируз писари Яздгирд (ПЯ); Подшоуии Балош писари Пируз (БП); Подшоуии Кубоди Пируз (К&П); Подшоуии Кисрои Нушинравон (КН); Подшоуии Хурмузд (ХД); Подшоуии Хусрави Парвиз (ХП); Подшоуии Кубоди Парвиз (КП); Подшоуии Ардашери Шируй (АШ); Подшоуии Фароин Гуроз (ФГ); Подшоуии Пурондухт (П); Подшоуии Озармдухт (О); Подшоуии Фар-рухзод (ПФ); Подшоуии Яздгирд (ПЯД).
1. Для подготовки исходного материала к последующей статистической обработке, введению и каждой из 63 поэм сопоставлены два количественных параметра - число словоупотреблений Ы
и число словоформ Ысф . Значения первого параметра извлекается из меню "Сервис" после загрузки
Таблица 1
Распределения чисел словоформ и словоупотреблений в произведении А. Фирдоуси "Шахнаме"
1 2 3 4 5
№ Код Ыу Ыф Ысф Ыу
1 О 110 90 0.8182
2 ББ 139 115 0.8273
3 АН 181 131 0.7238
4 ХЯ 208 157 0.7548
5 П 253 175 0.6917
6 УН 263 191 0.7262
7 Я 277 210 0.7581
8 НБ 281 207 0.7367
9 ПФ 309 198 0.6408
10 Б 317 225 0.7098
11 БШ 340 230 0.6765
12 ПТШ 352 248 0.7045
13 БУ 430 298 0.6930
14 Х 512 328 0.6406
15 ЗТ 523 330 0.6310
16 Т 537 352 0.6555
1 2 3 4 5
№ Код Ыу Ыфф Ы сф Ы у
17 АШ 629 362 0.5755
18 ФГ 711 408 0.5738
19 ША 944 552 0.5847
20 ОД 945 455 0.4815
21 УШ 978 570 0.5828
22 ПД 1460 722 0.4945
23 ПЯ 1485 728 0.4902
24 БИ 1697 789 0.4649
25 БП 2062 923 0.4476
26 Д 2363 1050 0.4444
27 Р&А 2604 1120 0.4301
28 КД 2667 1180 0.4424
29 ОК 2680 1137 0.4243
30 Г 3006 1243 0.4135
31 ХЙ 3516 1302 0.3703
32 Р&Ш 3753 1450 0.3864
Таблица 1 (продолжение)
1 2 3 4 5
№ Код Nсф Nсф ЫУ
33 К&П 4474 1568 0.3505
34 ДД 4950 1729 0.3493
35 З 5876 1984 0.3376
36 ^П 6610 2210 0.3343
37 Н 6612 1997 0.3020
38 ПС 7043 2238 0.3178
39 ШЗ 7099 2285 0.3219
40 ЯБ 7524 2352 0.3126
41 А 7976 2311 0.2897
42 БД 8434 2456 0.2912
43 ПЯД 9474 2740 0.2892
44 ПИ 9483 2633 0.2777
45 Л 9952 2621 0.2634
46 К 10865 2902 0.2671
47 Ф 12347 3259 0.2640
48 Б&М 14884 3452 0.2319
1 2 3 4 5
№ Код NСф N сф Ы У
49 ШФ 15862 3490 0.2200
50 ПГ 16090 3842 0.2388
51 Р&С 16388 3578 0.2183
52 Р&Х 16722 3379 0.2021
53 КК 17454 3421 0.1960
54 И&Р 18716 3878 0.2072
55 КВ 18782 3751 0.1997
56 ДД 21002 4297 0.2046
57 И 21469 4456 0.2076
58 М 22169 4639 0.2093
59 ДР 27871 4506 0.1617
60 БГ 28726 5355 0.1864
61 С 30541 5000 0.1637
62 ПКВ 35991 5628 0.1564
63 ХП 45443 6697 0.1474
64 КН 49721 6728 0.1353
в компьютер соответствующего фрагмента. Определению значений второго параметра предшествуют построения частотных словарей упомянутых фрагментов. Результаты представлены в табл. 1. В ней в 1-м столбце даётся нумерация фрагментов произведения, упорядоченных по возрастанию числа словоупотреблений. Во 2-м указывается сокращённое название поэмы (её код), в 3-м и 4-м столбцах приводятся числа и ЫСф словоупотреблений и словоформ фрагментов и, наконец, в 5-м - доля словоформ среди словоупотреблений.
Отметим также, что для произведения "Шахнаме" в полном объёме N = 573082 и
Ысф = 24839 . Первое число получается в результате сложения чисел третьего столбца, что касается
второго числа, то оно отличается от итоговой суммы чисел четвёртого столбца (128858), поскольку последнее учитывает одни и те же словоформы, встречающиеся повторно в различных фрагментах. Для произведения в целом имеем : = 0.0433.
2. Полученный результат совместно с результатами пятого столбца табл. 1 подтверждает, в общем-то, очевидный факт, что отношение : проявляет выраженную тенденцию к убыванию по мере роста числа словоупотреблений. Более того, рис.1 подсказывает, что представленная в графическом виде связь между табличными данными может быть описана соотношением
N*, : Ney = an + b (n = 1,..., 64),
в котором коэффициенты, вычисляемые по методу наименьших квадратов, принимают значения a = -0.0108 и b = 0.76896. Разрешенная относительно Nc$ эта формула принимает следующий вид
Nc<p = N^ ( -0.0108 n + 0.76896 ). (1)
На первый взгляд она отражает линейную зависимость числа словоформ от двух независимых переменных - N^ и п. На самом-то деле речь идет о нелинейной связи Nc$ и N^ , поскольку n и
N^ связаны между собой.
Рис. 1. Зависимость Nсф : Nсу от номера п фрагмента 3. Иной способ описания табличных данных подсказывает рис.2.
Рис. 2. Табличная и теоретическая зависимости Nсф от Из этого рисунка, а также с учётом общих соображений, следует, что - областью определения служит полуинтервал [0, да) ;
- при Ж^ = 0 (то есть текста нет) должно быть Жс^ = 0 (то есть нет и словоформ);
- при Ж^ ^ да (то есть по мере увеличения размера текста) функция Жс^ проявляет тенденцию монотонного возрастания;
- при Ж^ = да (то есть текст сколь угодно большого объема) должно быть
Ысф = Ж*сф < да (то есть в бесконечно большом объёме число словоформ конечно). Отмеченным четырём ограничениям удовлетворяет функция
а Ж
Ж =_
сф 1 + ЬЖу
в предположении, что а и Ь — некоторые положительные константы. Вычисляя эти константы методом наименьших квадратов, получим а = 0.5371 и Ь = 0.0000728. Следовательно, формула
0.5371 Ж„
Ж =-СУ--(2)
сф 1 + 0.0000728 Ж^
отражает на примере произведения А.Фирдоуси "Шахнаме" связь чисел словоупотреблений и словоформ в пределах каждой поэмы.
Если делать выбор из формул (1) и (2), то предпочтение естественно следует отдать той, для которой суммарное квадратичное отклонение теоретической кривой от табличных данных имеет наименьшее значение. Не останавливаясь на этом вопросе, укажем, что для числа словоупотреблений Ж^ = 573082 из формулы (1) выводим Жсф (573082) = 38373 , а из (2) — Жсф (573082) = 7202 .
Первое значение существенно превышает Жс^ = 24839 — реального числа словоформ во всем произведении "Шахнаме", а второе значение, напротив, оказывается значительно меньше указанного числа.
Отметим, что формула (1) не приспособлена к вычислению Жс^ для значений
Ж^ > 573082 , тогда как из (2) можно определить Жсф (да) = 7374 . Последний результат показывает, что формула (2), удачно отображающая табличные данные, становится неприемлемой для экстраполяции. Заметно подправить ситуацию удаётся за счёт присоединения к табличным данным ещё одного, 65-го фрагмента, рассматривая в качестве такового всё произведение "Шахнаме" с Ж^ (65) = 573082 и Жсф (65) = 24839. В таком случае формула (2) пересчитывается и принимает вид:
0.3683 Ж„
=
су
сф 1 + 0.0000139 Ж^ '
а из неё следуют Ысф (573082) = 23541 и = 26496 . Первое число достаточно близко к
реальному значению, а вот последнее число можно интерпретировать как гипотетическое число словоформ, которым мог бы воспользоваться А.Фирдоуси, продолжая и далее своё произведение.
Поступило 29.05.2015 г.
ЛИТЕРАТУРА
1. Фирдавсй А. Шох,нома. - Душанбе: Адиб, 2007/2008.
2. Усманов З.Д., Косимов А.А. К вопросу о положении точки кульминации в художественных произведениях. - Мат-лы 17 научно-практ. семинара "Новые информационные технологии в автоматизированных системах". - М., 2014, с. 392-395.
3. Усманов З.Д. Об одном обобщении формулы золотого сечения. - Доклады Академии наук Республики Таджикистан, 2014, т.57, № 1, с. 5-8.
4. Усманов З.Д., Косимов А.А. Цифровой образ "Шахнаме" ("Книги царей") А.Фирдоуси. - Доклады Академии наук Республики Таджикистан , 2014, т.57, № 6, с.471-476.
5. Фирдоуси А. Шахнаме. - М.: Издательство «Академии наук СССР», 1957/1960/1965.
3.Ч,.Усмонов, А.А.Косимов*
ОИДИ ТАНОСУБИ ШАКЛ^ОИ КАЛИМА ВА КАЛИМА^О ДАР КИТОБИ
"ШОХНОМА"-И А.ФИРДАВСЙ
Институтиматематикаи ба номи А.Цураеви Академияи илм^ои Цум^урии Тоцикистон, *Донишкадаи политехникии Донишго^и техникии Тоцикистон ба номи М.С.Осими дар ш. Хуцанд
Ду формула, барои навишти омории хдмбастагии шуморахои шаклхои калима ва калимахо, пешниход шудааст.
Калимауои калидй: Фирдавсй - Шоунома - калимахо - шаклуои калима (парадигмауо) -вобастагй.
Z.D.Usmanov, A.A.Kosimov* ABOUT A CORRELATION OF WORD FORM AND WORD USAGE IN "SHAHNAMEH" OF A.FIRDOUSI
A.Juraev Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan, Khujand's Polytechnic Institute of the M.S.Osimi Tajik Technical University Two formulas for describing statistical regularities between numbers of word forms and word usages are proposed.
Key words: Firdousi - Shahnameh - word usage - word form - dependence.