Научная статья на тему 'О соотношении словоформ и словоупотреблений в творчестве А. С. Пушкина'

О соотношении словоформ и словоупотреблений в творчестве А. С. Пушкина Текст научной статьи по специальности «Философия, этика, религиоведение»

CC BY
119
41
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по философии, этике, религиоведению, автор научной работы — Усманов З.Д., Косимов А.А.

Предложены формулы для описания статистической связи между числами словоформ и словоупотреблений в отдельных произведениях и в творчестве в целом А.С. Пушкина.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О соотношении словоформ и словоупотреблений в творчестве А. С. Пушкина»

О соотношении словоформ и словоупотреблений в творчестве А.С. Пушкина

Усманов З.Д., Институт математики им. А.Джураева АН Республики Таджикистан,

zafar-usmanov@rambler.ru Косимов А.А., Худжандский политехнический институт Таджикского технического университета им. акад. М.С.Осими, abdunabi_kbtut@mail.ru

Аннотация

Предложены формулы для описания статистической связи между числами словоформ и словоупотреблений в отдельных произведениях и в творчестве в целом А.С. Пушкина.

1 Введение

В основу наших исследований положена коллекция электронных текстов

А.С.Пушкина, сформированная из разнообразных информационных ресурсов, доступных в сети Интернет. В коллекцию включены пятьдесят произведений самых различных жанров, список названий которых в сопровождении принятых нами сокращений, заключённых в скобках, приводится далее:

Руслан и Людмила (Р&Л); Кавказский пленник (КП); Гаврилиада (Г); Стихотворения 1814-1822 (СТ); Царь Никита и сорок его дочерей (ЦН); Песнь о вещем Олеге (ПО); Вадим (В); Братья разбойники (БР^; Бахчисарайский фонтан (БФ); Цыганы (Ц); Граф Нулин (ГН); Борис Годунов (БГ); Жених (Ж); Стансы (СН); Арап Петра Великого (АП); Полтава (П); Роман в письмах (РП); Тазит (Т); Станционный смотритель (СС); Каменный гость (КГ); Скупой рыцарь (СР); Моцарт и Сальери (М&С); Пир во время чумы (ПВ); Барышня-крестьянка (БК); Домик в Коломне (ДК); Повести покойного Ивана Петровича Белкина (ПИ); Метель (М); История села Го-рюхина (ИГ); Сказка о попе и о работнике его Балде (СП); Сказка о медведихе (СМ); Сказка о царе Салтане (СЦ); Рославлев (РВ); Евгений Онегин (ЕО); Русалка (РУ); Езерский (Е); Дубровский (Д); Анджело (А); Медный всадник (МВ); Сказка о рыбаке и рыбке (РР); Сказка о мёртвой царевне и семи богатырях (СБ); Осень (О); Сказка о золотом петушке (СЗ); Пиковая дама (ПД); Кирджали (К); История Пугачёва (ИП); Путешествие в Арзрум (ПА); Путешествие из Москвы в Петербург

(ПМ); Египетские ночи (ЕН); Пир Петра Первого (ПП); Капитанская дочка (КД).

Суммарный объём коллекции текстов определяется 297356 словоупотреблениями и 50630 словоформами. По этим показателям используемая коллекция несколько превосходит корпус текстов «Поэзия и драматургия А.С.Пушкина», в котором соответствующие числа равны 200995 и 37721 [Лаборатория общей компьютерной лексикологии и лексикографии, 2010].

2 Представление данных

Для подготовки исходного материала к последующей статистической обработке каждому из 50 произведений поставлены в соответствие два количественных параметра: число словоупотреблений Лсу и число словоформ

Ысф . Значения первого параметра извлекаются из меню "Сервис" после загрузки в компьютер соответствующего произведения. Определению значений второго параметра предшествуют построения частотных словарей упомянутых элементов коллекции. Полученные результаты показаны в Табл. 1. В ней в 1-м столбце даётся нумерация произведений, упорядоченных по возрастанию числа словоупотреблений, в 2-м - сокращённые названия произведений (коды), в 3-м и 4-м столбцах приводятся числа словоупотреблений Лсу и

словоформ Лсф произведений и, наконец, в 5-

м - доля словоформ среди словоупотреблений.

Отметим также, что для всей коллекции = 297356 и Лсф = 50630. Первое число

получается в результате сложения чисел третьего столбца, что касается второго числа, то оно отличается от итоговой суммы чисел четвертого столбца (119833), поскольку последнее учитывает одни и те же словоформы, встречающиеся повторно в различных фрагментах. Для коллекции в целом имеем Лсф : N = 0.1703.

Табл. 1. Распределения чисел словоформ и словоупотреблений по произведениям

1 2 3 4 5 1 2 3 4 5

№ Код Nсу Ncф Кф к № Код N су Кф Кф Nу

1 СН 86 70 0.8140 26 РУ 3067 1397 0.4555

2 ПП 180 132 0.7333 27 РВ 3126 1643 0.5256

3 СМ 347 226 0.6513 28 ЕН 3243 1848 0.5698

4 ПО 534 367 0.6873 29 КП 3265 1855 0.5681

5 О 623 467 0.7496 30 А 3445 1644 0.4772

6 Ж 727 455 0.6259 31 СС 3453 1698 0.4917

7 В 845 596 0.7053 32 РП 3725 1818 0.4881

8 СП 882 528 0.5986 33 КГ 3757 1358 0.3615

9 СЗ 895 543 0.6067 34 СЦ 3957 1310 0.3311

10 ЦН 918 591 0.6438 35 ПИ 4714 2181 0.4627

11 РР 948 388 0.4093 36 М 5396 2597 0.4813

12 Е 1013 684 0.6752 37 БК 5436 2407 0.4428

13 БР 1061 699 0.6588 38 П 6370 3143 0.4934

14 Т 1123 714 0.6358 39 ПД 6939 2933 0.4227

15 ПВ 1176 770 0.6548 40 ИГ 7650 3741 0.4890

16 М&С 1337 730 0.5460 41 ПМ 8503 4186 0.4923

17 ГН 1561 981 0.6284 42 АП 9027 4056 0.4493

18 К 1717 997 0.5807 43 БГ 11133 4370 0.3925

19 ДК 1803 1077 0.5973 44 Р&Л 11842 4991 0.4215

20 МВ 2067 1265 0.6120 45 ПА 12407 5432 0.4378

21 СБ 2153 1069 0.4965 46 Д 20498 6847 0.3340

22 СР 2393 1141 0.4768 47 ЕО 23962 8913 0.3720

23 БФ 2435 1448 0.5947 48 ИП 24203 7750 0.3202

24 Ц 2708 1490 0.5502 49 КД 32671 9202 0.2817

25 Г 2813 1591 0.5656 50 СТ 43222 13494 0.3122

3 Линейная корреляция

Полученный результат совместно с результатами пятого столбца Табл. 1 подтверждает, в общем-то, очевидный факт, что отношение Nсф : Nсу проявляет выраженную тенденцию

к убыванию по мере роста числа Nсу словоупотреблений. Более того, Рис.1 подсказывает, что представленная в графическом виде связь между табличными данными может быть описана соотношением

Рис. 1. Зависимость Nсф : Nсу от номера п фрагмента

Лсф : Лу = ап + Ь (п = 1,..., 50),

в котором коэффициенты, вычисляемые по методу наименьших квадратов, принимают значения а = - 0.0078 и Ь = 0,72437. Разрешенная относительно Лсф эта формула принимает следующий вид

Лсф = Nсу ( - 0.0078 п + 0.72437 ) (1)

На первый взгляд она отражает линейную зависимость числа словоформ от двух независимых переменных — Лсу и п. Однако, на

самом-то деле речь идет о нелинейном соотношении между Л и Лсу , поскольку п и

N связаны между собой.

4 Нелинейная корреляция

Иной способ описания табличных данных подсказывает Рис. 2. Из этого рисунка, а также с учётом общих соображений, следует, что

- областью определения Nсу является полуинтервал [0, ¥);

- при Nсу = 0 (то есть текста нет) должно быть Nсф = 0 (то есть нет и словоформ);

- при N ® ¥ (то есть по мере увеличения размера текста) функция Nсф проявляет

тенденцию монотонного возрастания;

- при N = ¥ (то есть текст сколь угодно

су

большого объема) должно быть Nсф = N1,^ < ¥ (то есть в бесконечно большом объёме число словоформ конечно).

Рис. 2. Табличная и теоретическая зависимости N от N

Отмеченным четырем ограничениям удовлетворяет функция

aN

^ =

сф

1 + ЬN„

су

в предположении, что а и Ь — некоторые положительные константы. Вычисляя эти константы методом наименьших квадратов, получим а = 0.5976 и Ь = 0.0000309. Следовательно, формула

N Сф =■

0.5976 N„

1 + 0.0000309 N с

(2)

отражает на примере рассматриваемой коллекции текстов связь чисел словоупотреблений и словоформ в пределах каждого произведения А.С.Пушкина.

Если делать выбор из формул (1) и (2), то предпочтение естественно следует отдать той, для которой суммарное квадратичное отклонение теоретической кривой от табличных данных имеет наименьшее значение. Не останавливаясь на этом вопросе, укажем, что для числа словоупотребленийNсу = 297356 всей коллекции текстов из формулы (1) находим

NФф (297356= 9644(? а

из (2)

Nсф (297356) = 17449. Первое значение существенно превышает реальное число словоформ Nсф = 50630 рассматриваемой коллекции, а второе значение, напротив, оказывается значительно меньше указанного числа.

Формула (1) не приспособлена к вычислению N для значений Nсу > 297356, тогда

как из (2) можно определить Nсф (¥ = 19350.

Последний результат показывает, что формула (2), удачно отображающая табличные данные, становится неприемлемой для экстраполяции. Заметно подправить ситуацию удаётся за счёт присоединения к табличным данным ещё одного, 51-го "произведения", рассматривая в качестве такового всю коллекцию с Nсу (51) = 297356и Ncф (51) = 50630.

В таком случае формула (2) пересчитывается и принимает следующий вид:

Nф =-

0.5215 N

1 + 0.0000077^

а из неё следуют Nсф (297356) = 47131 и

Nсф (¥) = 67713. Первое число "достаточно

близко" к реальному значению, а вот последнее число можно интерпретировать как гипотетическое суммарное число словоформ в творчестве А.С.Пушкина.

Отметим, что аналогичные исследования выполнены также и для произведения "Шах-наме" А.Фирдоуси [Усманов, Косимов, 2015], в котором Nу = 573082 и Ncф = 24839, то

есть оказалось словоупотреблений больше, а словоформ меньше, чем у А.С Пушкина.

Список литературы

Лаборатория общей компьютерной лексико-логии и лексикографии. КИИСа Корпусная информационно-исследовательская система Электронная энциклопедия языка А. С. Пушкина (1-я очередь): стихи и драмы Пушкина. [М., 2010] URL: http://www.philol.msu.ru/~lex/kiisa.html (дата обращения 16.01.2016).

Усманов З.Д., Косимов А.А. 2015. О соотношении словоформ и словоупотреблений в произведении Фирдоуси "Шахнаме", т.58, № 8. Доклады Академии наук Республики Таджикистан.

i Надоели баннеры? Вы всегда можете отключить рекламу.