Научная статья на тему 'О метризации произведений художественной литературы'

О метризации произведений художественной литературы Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
120
33
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Усманов З.Д., Косимов А.А.

Сконструированы цифровой портрет и метрическое пространство произведений. В предположении уникальности авторского творчества устанавливаются пороговые значения метрики, на основе которых определяются классы “однородных” произведений.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О метризации произведений художественной литературы»

/Л __о о

О метризации произведении художественной литературы

Усманов З.Д., ИМ им. А. Джураева АН РТ zafar-usmanov@rambler.ru Косимов А. А., Политехнический институт ТТУ им. М.Осими abdunabi_kbtut@mail.ru

Аннотация

Сконструированы цифровой портрет и метрическое пространство произведений. В предположении уникальности авторского творчества устанавливаются пороговые значения метрики, на основе которых определяются классы "однородных" произведений.

1 Введение

Пусть {Г} - конечное множество текстов, написанных на естественном языке, символьный алфавит которого содержит а букв и символ "пробел". Будем характеризовать каждый текст Т упорядоченным набором из т символьных N- грамм (N = 1.2,...), обозначаемых^, где т< (а- + 1)лг. Тексту Т поставим в соответствие точку ■ . : в «-мерном декартовом пространстве, координаты которой ^.являются относительными частотами встречаемости Диграммы . к = 1, ...,ш, в тексте Т. Отметим, что 1^ = 1-

Свяжем с текстом Т положительную дискретную функцию

Пусть Г], Т2 - произвольная пара текстов из множества {Г} и

с /"-"л _ т1^ з (й

~ Ьк=1Л А- _

соответствующие им дискретные функции,

= 1,2 и £ = 1,—,т . Назовём расстоянием между текстами Т1 п Тг положительное число р (7^ ,Т2), вычисляемое по формуле

Р <?1 'т2> = тяа^Ог) - Рг(я)|. (2)

Введенное таким образом расстояние между любыми двумя элементами из множества

= 'Г' превращает последнее в метрическое пространство11.

2 Метрика в коллекции произведений

В этом пункте рассматривается метрическое пространство 13 произведений художественной литературы советского периода. Необходимые сведения о составе коллекции мы сопровождаем сокращенным обозначением фамилии автора и названий его трудов:

М.А.Шолохов (Ш) "Тихий дон", т.1 (тд1), 92953 слов; "Тихий дон", т.2 (тд2), 94471 слов; "Тихий дон", т.3 (тд3), 107849 слов; "Тихий дон", т.4 (тд4), 126891 слов; "Поднятая целина" (пц), 204938 слов; "Судьба человека" (сч), 10891 слов.

А.С.Серафимович (С) "Железный поток" (жп), 41247 слов; "Скитания" (с), 39828 слов; "Сопка с крестами" (ск), 4990 слов;

Ф.Д.Крюков (К) "На тихом Дону" (нтд), 30037 слов; "В глубине" (вг), 27357 слов; "К источнику исцелений" (ки), 16625 слов; "Казачка" (к), 12162 слов.

Приведенные данные показывают, что творчество М.А.Шолохова представлено шестью текстами (четыре тома "Тихого Дона" рассматриваются как отдельные произведения) в то время как А.С.Серафимовича и Ф.Д.Крюкова - тремя и четырьмя текстами, соответственно.

Для каждого текста в качестве информативного признака использовалась частотность встречающихся в нём символьных 3-грамм, формируемых из символа пробела и 33 букв русского алфавита. Общее число таковых 3-грамм не превосходит 39304 = (33 + I)3.

На основе распределения частотностей 3-грамм каждому тексту поставлена в соответствие дискретная функция = ^-'^и- определяемая соотношением (1). Расстояния между текстами подсчи-тываются по формуле (2). Результаты вычислений приведены в таблице 1.

11 Используемое расстояние удовлетворяет трём аксиомам метрического пространства.

Таблица 1. Метрическое пространство коллекции текстов

Отметим, что в таблице использованы сокращения, принятые ранее, и, в связи с симметричностью метрики, заполнены ячейки

назовём у- однородными

(3)

только ниже главной диагонали1. 3 Пороговое значение метрики

Метрическое пространство, представленное в таблице 1, содержит информацию о взаимоотношениях между элементами тестируемой коллекции. То или иное свойство, которое нам хотелось бы приписать какой-то паре произведений на основе количественных показателей, зависит существенно и от математической модели описания объектов, и от математических методов исследования проблемы. В нашей ситуации помимо количественного портрета произведения художественной литературы в виде дискретной функции Р{У) на множестве символьных 3-грамм ответственным моментом являются выбор порогового значения для расстояний между парами элементов коллекции и выводы, которые пытаются привязать к получаемому результату. Даже вполне естественные требования, которых мы придерживаемся для определения порогового значения у величины метрики, не могут гарантировать безоговорочную объективность выводимых нами заключений.

Итак, для вычисления у воспользуемся, прежде всего, следующим определением: па-

ру текстов г, (у > 0). если

р(Г1лГ2)< У и у- неоднородными, если

р{Т1,Т2)>у. (4)

Теперь по отношению к коллекции текстов, в которой представлены произведения нескольких авторов, возникает необходимость установления, по возможности, единого значения }■' для всех текстовых пар. С этой целью вводится рабочая гипотеза, которую, однако, не следует воспринимать как единственно верное отражение реальной ситуации: любые два произведения одного автора однородны, а двух разных авторов не однородны2.

С позиции методов классификации образов высказанная гипотеза означает, что 13 интересующих нас текстов должны разделяться на 3 класса (по числу авторов) и каждый класс должен содержать все произведения одного автора. Столь идеальная ситуация не всегда реализуется на практике. Нарушения происходят за счёт случаев "родства" произведений различных авторов. По этой причине мы используем математическая модель, отражающую рабочую гипотезу не абсолютно точно, а лишь "приближенно".

1 Смысл разноцветных ячеек объясняется в п.4.

2 Более определенным было бы высказывание типа: произведения одного автора одинаковы по стилю, а разных авторов не одинаковы. В этом случае, однако, потребовалось описать цифровой портрет авторского стиля.

Предположим, что коллекция текстов разделена на непересекающиеся подколлекции Т^. каждая из которых содержит произведения только одного, к -го автора (к = 1, - ,п). Для фиксированного значения у подсчитаем общее число однородных пар произведений всех авторов и общее число неоднородных пар произведений, принадлежащих различным авторам. Отношение

в котором Н - общее число пар текстов в коллекции Т, характеризует для заданного у эффективность представления рабочей гипотезы посредством математической модели (1) - (4). В случае, когда все пары собственных произведений авторов оказываются однородными, то есть удовлетворяют неравенству (3), и все пары произведений различных авторов оказываются неоднородными, то есть подчиняются неравенству (4), тогда т/ = 1. Математическая модель точно отражает идеальную ситуацию. Другой крайности, именно г} = 0, отвечает полная непригодность математической модели.

В общем случае имеем 0 < I] < 1, и выглядит вполне естественным осуществить подбор такого значения у, при котором достигается максимальное значение коэффициента г}, уточняя тем самым математический образ существа рабочей гипотезы.

Отметим, что представленная математическая модель совместно с описанием алгоритма для нахождения оптимального у предложена в статье [Усманов, 2017]. Именно такое : предлагается использовать в качестве порогового значения метрики для принятия решений в рамках конкретных коллекций.

4 Метрическая близость

литературных произведений

Для изучения данных, содержащихся в таблице 1, подсчитывается пороговое значение у для метрики пространства 13 произведений советской художественной литературы. Вычисления, выполненные с помощью упомянутого ранее алгоритма, привели к следующему результату:

7 £ [1.4266; 1,5486).

Смысл этого соотношения заключается в том, что в роли порогового значения метрики выступают не одно, а два числа: нижняя и верхняя границы полуинтервала возможных значений у. Применять этот факт для выясне-

ния метрической близости пары текстов Тг и необходимо следующим образом:

- если р (7^ ,Т2) < у0 = 1.4266, то тексты 7*1 и Т2 однородны;

- если р(Г1,7*2)> 7°= 1,5486, то тексты 71 и 7*2 не однородны;

- и, наконец, если 1,4266 < у < 1,5486, то ситуация - не определенная.

Воспользуемся этим правилом, прежде всего, для исследования отношений между собственными произведениями трёх авторов. Для А.С.Серафимовича такая информация отображается в таблице 1 в трёх серых клетках, стоящих на пересечении строк и столбцов с индексами ЖП, С и СК. Поскольку числа в этих клетках строго меньше Уо = 1,4266, то следует заключить, что произведения А.С.Серафимовича однородны (схожи, близки, родственны и т.д.) между собой.

Аналогичное положение имеет место с четырьмя текстами Ф.Д.Крюкова (соответствующие данные показаны в шести ячейках серого цвета). Его произведения также оказываются однородными.

Пестрая картина обнаруживается в творчестве М.А.Шолохова. В таблице 1 на пересечении соответствующих строк и столбцов присутствуют ячейки и серого и желтого цветов. Серый, как и в предшествующих случаях, обозначает однородность соответствующей пары собственных произведений. Таких ячеек -5. Жёлтых - больше, их - 10, и они характеризуют неоднородность соответствующих собственных текстов (значения расстояний в них больше 7°).

Таким образом, на основе данных таблицы 1 заключаем, что

- "Тихий Дон"- т. 1 и "Тихий Дон"- т. 3 однородны с другими томами;

"Тихий Дон"- т. 2 и "Тихий Дон"- т. 4 не однородны только между собой;

- все четыре тома "Тихого Дона" не однородны с "Поднятой целиной" и "Судьбой человека";

- "Поднятая целина" и "Судьба человека" не однородны между собой.

В таблице 1 показаны также данные об отношениях произведений разных авторов. Белый цвет закреплен за теми ячейками, в которых расстояния между соответствующими текстами больше 7°, что означает неоднородность рассматриваемых элементов. Такое положение отмечается между текстами Ф.Д.Крюкова и А.С.Серафимовича.

Красным цветом окрашены клетки, в которых расстояния между текстами М. А.Шолохова, с одной стороны, и текстами Ф.Д.Крюкова и А.С.Серафимовича, с другой стороны, оказываются меньше, чем у0 . Такая ситуация указывает на однородность соответственных объектов. В этой связи интересно обратить внимание на то, что тексты Ф.Д.Крюкова, проявляя однородность с текстами "Тихий Дон"- т. 1 и "Тихий Дон"- т. 4, безусловно неоднородны с "Поднятой целиной" и "Судьбой человека", то есть с более поздними трудами М.А.Шолохова.

"Железный поток" А.С.Серафимовича однороден с 4-м томом "Тихого Дона" и "Поднятой целиной" М.А.Шолохова, а "Скитания" - с только с "Поднятой целиной".

Ещё один цвет, светло-коричневый, использован для трех ячеек: соответственные им тексты не удаётся классифицировать вполне определённым образом.

5 Заключение

Метрическая близость литературных произведений, безусловно, отражает какую-то общность сравниваемых объектов, но не более того. Интерпретация её как "схожесть", "родство", "единообразие" или, как это принято в настоящей статье, "однородность" произведений также не вносит ясность в существо вопроса. Отождествление метрической близости с понятием "совпадение стилей", хотя и представляется весьма привлекательным предложением для исследователей, всё же требует серьезного обоснования. Сказанное в равной мере относится и ко всем другим поспешным и даже безответственным выводам, которые хотелось бы приписать двум метрически близким произведениям.

Список литературы

Усманов З.Д. 2017. Алгоритм настройки кластеризатора дискретных случайных величин, т.60, № 9, с. 392-397. Доклады Академии наук Республики Таджикистан.

i Надоели баннеры? Вы всегда можете отключить рекламу.