Научная статья на тему 'ОБОБЩЕННАЯ КОНТЕКСТНО-ЗАВИСИМАЯ ТЕОРЕТИКО-ГРАФОВАЯ МОДЕЛЬ ФОЛЬКЛОРНЫХ И ЛИТЕРАТУРНЫХ ТЕКСТОВ'

ОБОБЩЕННАЯ КОНТЕКСТНО-ЗАВИСИМАЯ ТЕОРЕТИКО-ГРАФОВАЯ МОДЕЛЬ ФОЛЬКЛОРНЫХ И ЛИТЕРАТУРНЫХ ТЕКСТОВ Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
56
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕОРЕТИКО-ГРАФОВАЯ МОДЕЛЬ / АТРИБУЦИЯ ТЕКСТОВ / ЛЕКСИКА / СИНТАКСИС / СЕМАНТИКА / НЕЧЕТКИЙ ГРАФ / ИЕРАРХИЧЕСКИЙ ГРАФ / ТЕМПОРАЛЬНЫЙ ГРАФ / ИНФОРМАЦИОННАЯ СИСТЕМА "ФОЛЬКЛОР"

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Москин Н.Д., Рогов А.А., Воронов Р.В.

Одной из проблем при автоматической обработке текстов является их атрибуция. Под этим термином понимают установление атрибутов текстового произведения (определение авторства, времени создания, места записи и др.). В статье представлена обобщенная контекстно-зависимая теоретико-графовая модель, предназначенная для анализа фольклорных и литературных текстов. Минимальной структурной единицей модели (примитивом) является слово. Множества слов объединяются в вершины, причем одно и то же слово может иметь отношение к разным вершинам. Ребра и графовые подструктуры отражают лексические, синтаксические и семантические связи текста. Характеристиками модели являются ее нечеткость, иерархичность и темпоральность. В качестве примеров приводятся иерархическая теоретико-графовая модель составляющих (на примере литературных произведений А. С. Пушкина), темпоральная теоретико-графовая модель сказочного сюжета (на примере русских волшебных сказок А. М. Афанасьева) и нечеткая теоретико-графовая модель «сильных» связей грамматических классов (на примере анонимных статей из дореволюционных журналов «Время», «Эпоха» и еженедельника «Гражданин», которые редактировал Ф. М. Достоевский). Модель строится таким образом, чтобы в дальнейшем ее можно было исследовать с помощью методов искусственного интеллекта (например, деревьев решений или нейронных сетей). Для этой цели в информационной системе «Фольклор» был разработан формат для хранения подобных данных, а также реализованы процедуры для ввода, редактирования и анализа текстов и их теоретико-графовых моделей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Москин Н.Д., Рогов А.А., Воронов Р.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

GENERALIZED CONTEXT-DEPENDENT GRAPH-THEORETIC MODEL OF FOLKLORE AND LITERARY TEXTS

One of the problems of automatic text processing is their attribution. This term is understood as the establishment of the attributes of a text work (determination of authorship, time of creation, place of recording, etc.). The article presents a generalized context-dependent graph-theoretic model designed for the analysis of folklore and literary texts. The minimal structural unit of the model (primitive) is a word. Sets of words are combined into vertices, and the same word can be related to different vertices. Edges and graph substructures reflect the lexical, syntactic and semantic links of the text. The characteristics of the model are its fuzziness, hierarchy and temporality. As examples, a hierarchical graph-theoretical model of components (on the example of literary works by A. S. Pushkin), a temporal graph-theoretic model of a fairy tale plot (on the example of Russian fairy tales by A. M. Afanasyev) and a fuzzy graph-theoretic model of «strong» connections of grammatical classes (on the example of anonymous articles from the pre-revolutionary magazines «Time», «Epoch» and the weekly «Citizen», edited by F. M. Dostoevsky). The model is built in such a way that it can be further explored using artificial intelligence methods (for example, decision trees or neural networks). For this purpose, a format for storing such data was implemented in the information system «Folklore», as well as procedures for entering, editing and analyzing texts and their graph-theoretic models.

Текст научной работы на тему «ОБОБЩЕННАЯ КОНТЕКСТНО-ЗАВИСИМАЯ ТЕОРЕТИКО-ГРАФОВАЯ МОДЕЛЬ ФОЛЬКЛОРНЫХ И ЛИТЕРАТУРНЫХ ТЕКСТОВ»

DOI: 10.15514/ISPRAS-2022-34(1)-6

Обобщенная контекстно-зависимая теоретико-графовая модель фольклорных и литературных

текстов

Н.Д. Москин, ORCID: 0000-0001-5556-5349 <moskin@petrsu.ru> А.А. Рогов, ORCID: 0000-0002-8815-7920 <rogov@petrsu.ru> Р.В. Воронов, ORCID: 0000-0003-0104-6409 <rvoronov@petrsu.ru> Петрозаводский государственный университет, 185910, Россия, г. Петрозаводск, пр. Ленина, д. 33

Аннотация. Одной из проблем при автоматической обработке текстов является их атрибуция. Под этим термином понимают установление атрибутов текстового произведения (определение авторства, времени создания, места записи и др.). В статье представлена обобщенная контекстно-зависимая теоретико-графовая модель, предназначенная для анализа фольклорных и литературных текстов. Минимальной структурной единицей модели (примитивом) является слово. Множества слов объединяются в вершины, причем одно и то же слово может иметь отношение к разным вершинам. Ребра и графовые подструктуры отражают лексические, синтаксические и семантические связи текста. Характеристиками модели являются ее нечеткость, иерархичность и темпоральность. В качестве примеров приводятся иерархическая теоретико-графовая модель составляющих (на примере литературных произведений А. С. Пушкина), темпоральная теоретико-графовая модель сказочного сюжета (на примере русских волшебных сказок А. М. Афанасьева) и нечеткая теоретико-графовая модель «сильных» связей грамматических классов (на примере анонимных статей из дореволюционных журналов «Время», «Эпоха» и еженедельника «Гражданин», которые редактировал Ф. М. Достоевский). Модель строится таким образом, чтобы в дальнейшем ее можно было исследовать с помощью методов искусственного интеллекта (например, деревьев решений или нейронных сетей). Для этой цели в информационной системе «Фольклор» был разработан формат для хранения подобных данных, а также реализованы процедуры для ввода, редактирования и анализа текстов и их теоретико-графовых моделей.

Ключевые слова: теоретико-графовая модель; атрибуция текстов; лексика; синтаксис; семантика; нечеткий граф; иерархический граф; темпоральный граф; информационная система «Фольклор»

Для цитирования: Москин Н.Д., Рогов А.А., Воронов Р.В. Обобщенная контекстно-зависимая теоретико-графовая модель фольклорных и литературных текстов. Труды ИСП РАН, том 34, вып. 1, 2022 г., стр. 73-86. DOI: 10.15514/ISPRAS-2022-34(1)-6

Generalized context-dependent graph-theoretic model of folklore and

literary texts

N.D. Moskin, ORCID: 0000-0001-5556-5349 <moskin@petrsu.ru> A.A. Rogov, ORCID: 0000-0002-8815-7920 <rogov@petrsu.ru> R.V. Voronov, ORCID: 0000-0003-0104-6409 <rvoronov@petrsu.ru> Petrozavodsk State University, 33, Lenin st., Petrozavodsk, 185910, Russia

Abstract. One of the problems of automatic text processing is their attribution. This term is understood as the establishment of the attributes of a text work (determination of authorship, time of creation, place of recording,

etc.). The article presents a generalized context-dependent graph-theoretic model designed for the analysis of folklore and literary texts. The minimal structural unit of the model (primitive) is a word. Sets of words are combined into vertices, and the same word can be related to different vertices. Edges and graph substructures reflect the lexical, syntactic and semantic links of the text. The characteristics of the model are its fuzziness, hierarchy and temporality. As examples, a hierarchical graph-theoretical model of components (on the example of literary works by A. S. Pushkin), a temporal graph-theoretic model of a fairy tale plot (on the example of Russian fairy tales by A. M. Afanasyev) and a fuzzy graph-theoretic model of «strong» connections of grammatical classes (on the example of anonymous articles from the pre-revolutionary magazines «Time», «Epoch» and the weekly «Citizen», edited by F. M. Dostoevsky). The model is built in such a way that it can be further explored using artificial intelligence methods (for example, decision trees or neural networks). For this purpose, a format for storing such data was implemented in the information system «Folklore», as well as procedures for entering, editing and analyzing texts and their graph-theoretic models.

Keywords: graph-theoretic model; text attribution; lexis; syntax; semantics; fuzzy graph; hierarchical graph; temporal graph; information system «Folklore»

For citation: Moskin N.D., Rogov A.A., Voronov R.V. Generalized context-dependent graph-theoretic model of folklore and literary texts. Trudy ISP RAN/Proc. ISP RAS, vol. 34, issue 1, 2022, pp. 73-86 (in Russian). DOI: 10.15514/ISPRAS-2022-34(1 )-6

1. Введение

Задачи анализа текстов, как одно из направлений искусственного интеллекта [12], все чаще решаются с помощью современных математических методов и компьютерных технологий. В научной литературе обозначены различные подходы и методы решения задач классификации и поиска текстов, атрибуции текстов, машинного перевода, автоматического реферирования, выявления плагиата, анализа тональности текстов, генерации текстов, реконструкции текстов и др. [7] Эти задачи объединяет необходимость поиска нестандартных, скрытых закономерностей, присущих текстам, которые можно обнаружить, например, с помощью методов искусственного интеллекта и машинного обучения. Также отметим, что результаты, полученные при решении одного класса задач обработки текстов можно применить и для другого класса.

В настоящее время активно развивается направление обработки естественного языка (машинный перевод, создание чат-ботов и т.д.), связанное с использованием нейросетевых технологий (Transformer, RNN, CNN) [11, 17]. Эти технологии позволяют выявлять скрытые закономерности языка, однако для их настройки и адекватной работы требуется большой объем данных. Другим недостатком этих технологий является закрытость получаемых языковых закономерностей (моделей) и отсутствие обоснования принимаемых решений. Это допустимо при их технологическом использовании, но часто не подходит для научных исследований по атрибуции текстов.

Основная идея математических подходов к решению задачи атрибуции текстов заключается в подсчете статистических параметров, которые, с одной стороны, идентифицируют стиль автора, а, с другой стороны, им слабо контролируются [15, 16]. Это направление известно под названием стилеметрия (stylometry). Ученые изучают такие характеристики как длина предложения, длина слова, богатство словарного запаса и т.п. Иногда исследования базируются на подсчете и-грамм - последовательностей текстовых элементов (букв, слов, идентификаторов частей речи и т. д.), взятых в порядке их появления в тексте [18]. Однако часто подобные эксперименты не давали убедительных результатов и являлись труднообъяснимыми для филологов.

Отметим, что по причине своей многоплановой и многоуровневой структуры текст является сложным объектом для изучения. С одной стороны, в нем можно выделить разные структурные единицы (например, на лексическом, синтаксическом и семантическом уровнях), а с другой стороны, установить разные виды связей, т.е. в результате одному и тому же тексту могут соответствовать несколько различных моделей. Такие модели можно

представить в виде графов, которые состоят из множества объектов (вершин) и связей между этими объектами (ребер). На наш взгляд, теоретико-графовые модели являются перспективным направлением в области атрибуции текстов. Например, использование технологии GNN (Graph Neural Network или в переводе с английского графовые нейронные сети) позволяет не преобразовывать структуру в числовой вектор, теряя при этом часть важной информации, а сохранить топологические отношения для последующего анализа [19].

Разработка обобщенной модели обусловлена несколькими факторами. Разные теоретико-графовые модели позволяют получить новую информацию об исследуемых текстах. Особенно это важно в случае фольклорных и литературных текстов, когда их число в коллекциях в силу исторических причин невозможно увеличить. При этом получаемые выборки могут быть несбалансированными (например, произведения одного автора сильно преобладают над произведениями другого автора). Интерес представляют и новые характеристики, получаемые в результате синтеза разных моделей, и возможности для дальнейшей разработки более совершенных гибридных структур. Реализованные в программе математические методы и алгоритмы без труда можно перенести с одного класса моделей на другой. В случае же, когда они имеют разное описание, подобный подход выглядит труднореализуемым и сложно интерпретируемым для филологов. Отметим также, что становится проще на одних и тех же данных провести сравнение результатов классификации, полученных с помощью разных методик, и выявить наиболее эффективные. Поэтому значимым являются не только единообразное структурное описание теоретико-графовых моделей для атрибуции текстов, но и разработка общего формата для их хранения и дальнейшего анализа. Данное исследование в целом представляется полезным для систематизации теоретико-графовых моделей текстов и методологии их построения. В данной работе предлагается обобщенная контекстно-зависимая теоретико-графовая модель. Она была апробирована на различных коллекциях фольклорных и литературных текстов [10, 11, 14]:

• теоретико-графовая модель синтаксической структуры, рассмотренная на материале фольклорных песен (Лужские песни, бесёдные песни) и стилизованных под фольклор текстов (Н. А. Клюев, А. К. Толстой, С. А. Есенин и др.);

• иерархическая модель синтаксической структуры предложения (на материале текстов П. А. Вяземского, Э. По, И. А. Бродского, а также переводов С. Андреевского, Д. Мережковского, К. Брюсова, Г. Голохвастова, Н. Голя, В. Топорова и др.);

• нечеткая теоретико-графовая модель на основе деревьев зависимостей (на материале духовных стихов о Голубиной книге из сборника Кирши Данилова и «Собрания народных песен П. В. Киреевского», былин в записи П. Н. Рыбникова);

• теоретико-графовая модель семантической структуры фольклорных песен (на материале песен Заонежья XIX - начала XX века в записи Ф. Студитского, В. Дашкова, В. Лысанова и пр.);

• деревья решений, полученные на основе анализа анонимных статей из дореволюционных журналов «Время» (1861-1863), «Эпоха» (1864-1865) и еженедельника «Гражданин» (1873-1874), которые редактировал Ф. М. Достоевский.

2. Обобщенная контекстно-зависимая теоретико-графовая модель фольклорных и литературных текстов

2.1 Нечеткие, темпоральные и иерархические графы

Как отмечается в [10], важными характеристиками теоретико-графовых моделей текстов при решении задачи атрибуции являются нечеткость, иерархичность и темпоральность.

Одним из проявлений нечеткости на разных уровнях языковой структуры текста являются случаи омонимии. Омонимами (греч. homos - одинаковый, onyma - имя) называются слова, разные по значению, но одинаковые по звучанию и написанию. Различают лексическую омонимию, морфологическую омонимию, лексико-морфологическую омонимию (наиболее частый вид) и синтаксическую омонимию [5].

Понятие нечеткого графа (fuzzy graph) основано на определении функции принадлежности, которая ставит в соответствие вершине или ребру графа значение от 0 до 1. Более строго нечеткий граф второго рода G = (V,E) определяется следующим образом [3]. Пусть имеется некоторое универсальное множество X и задано нечеткое множество V в X имеющее вид

V = {(ßv(v)\v)},v е х, где 0<ßv (v) < 1 - значение функции принадлежности для вершины v (здесь V - носитель множества V Зададим также нечеткое множество ребер

Ё = {(ßE(vi,Vj))},vi,vj е V,

где 0 < ßE(vi,Vj) < 1 - значение функции принадлежности для ребра (vi,vj). Если множество вершин является четким в отличие от множества ребер, то такой граф называется графом первого рода.

Также в ряде работ Л.С. Берштейна (например, в [2]) вводится понятие темпорального графа, т.е. модели, где связи между элементами (вершинами графа) изменяются во времени (в случае моделирования текста под этим термином будем понимать упорядоченность слов в тексте и соответствующих им вершин). Автор отмечает, что понятие темпорального графа (temporal graph) в литературе трактуется в достаточно широком диапазоне - от временных графиков до ориентированных ациклических графов и сетей Петри.

В математических терминах назовем темпоральным графом тройку G = (X, {rt}, Т), где X -множество вершин графа с числом вершин п = 1X1, Т = {1,2, ...,N}-множество натуральных чисел, определяющих (дискретное) время; {/J} - семейство соответствий, или отображений множества вершин X в себя в момент времени t еТ, т.е. (Vt е T)Tt\X ^ X. Причем, для различных моментов времени эти отображения, в общем случае, различные:

(Vx е X)(vt1,t2 еТ1^Ф г2)[гф) ф гф)]. Во многих случаях требуются более сложные графовые формализмы, обладающие иерархической структурой (hierarchical graph). Известны иерархические графовые модели, описание которых приводится, например, в [8]. Граф C называется фрагментом графа G (обозначим С £ G), если С - это подмножество элементов графа G. Обозначим F - иерархию фрагментов G, если G е F и для любых двух фрагментов C¡ и C2 из F либо фрагменты C¡ и C2 не пересекаются, либо один из них является частью (подфрагментом) другого. Фрагмент G - основной (главный) фрагмент иерархии F. Фрагмент С е F - элементарный, если в F нет фрагментов G, являющихся подфрагментами фрагмента C.

Пусть задана некоторая иерархия фрагментов F графа G. Для любых С1, С2 е F фрагмент Сг - прямой подфрагмент C2, если Сг - подфрагмент С2 и не существует такого С3 е F отличного от Ci и C2, что С1 £ С3 £ С2. Иерархический граф Н = (G, Т) состоит из графа G и корневого дерева T, вершины которого соответствуют элементам некоторой иерархии в G, а дуги отражают отношение их непосредственной вложенности. T называется деревом вложенности, а G - основным графом иерархического графа H.

Однако отметим, что подобные иерархические графы не подходят для описания структуры текста. Как показано в п. 2.3, связи могут существовать не только между вершинами, но и между какой-либо вершиной и фрагментом графа.

2.2 Рекурсивное определение обобщенной контекстно-зависимой теоретико-графовой модели

Дадим рекурсивное определение обобщенной контекстно-зависимой теоретико-графовой модели для решения задачи анализа текстов. Это набор С = (V, Н, Е, а, р, ^, у) для текста Т, который определим в три этапа:

1) Сегментация текста Т:

• Пусть текст Тсостоит из упорядоченной последовательности слов Ш = {шк}^^=1, где К > 0 - общее количество слов (индекс к соответствует порядку появления слова шк в тексте);

• Ш с Ш - упорядоченные подмножества слов в тексте (I = 1,2, ...,Ь). Подмножество Ш может состоять как из одного слова, так и из совокупности слов (необязательно следующих подряд). Допускается, что подмножества могут пересекаться;

2) Определение элементов теоретико-графовой модели С:

• V = ^^^ - непустое конечное множество вершин;

• Vj с V,]' = 0,1, ...,т- подмножества вершин теоретико-графовой модели, таких что их объединение совпадает с V = U7jl=1Vj. Допускается, что подмножества могут пересекаться;

• Н = и - множество, объединяющее вершины из V и совокупность

вложенных теоретико-графовых структур С^ = уровня ], где множество Н

уровня ]' = 2,3,... ,т определяется либо как пустое множество, либо как подмножество вложенных теоретико-графовых структур уровней меньших у, т.е. Н с {С¡У^^, а Е) представляет собой подмножество упорядоченных пар из V и Н, т.е. ребер вложенной модели (иерархичность);

• Е с Н х Н (подмножество упорядоченных пар элементов из Н) - множество ребер С, которое состоит из 5 элементов. При этом подмножества ребер Еj £ Е,] = 1,2, ...,т и попарно не пересекаются;

3) Определение атрибутов элементов теоретико-графовой модели С:

• у - отображение, задающее соответствие между объектами теоретико-графовой модели %1 Е Н и Е и подмножествами слов в тексте \NicW. Допускается, что некоторые вершины или подструктуры могут быть «фиктивные» (не связанные со словами в тексте), т. е. у(х^) = 0. Таким образом, у определяет упорядоченность (темпоральность) объектов теоретико-графовой модели.

• А - множество атрибутов (меток) вершин, которые определяются характеристиками текста. Элемент множества А может быть вектором, который определяет несколько атрибутов;

• а: V ^ А - функция, задающая атрибуты (метки) вершинам;

• В - множество атрибутов (меток) ребер, которые определяются характеристиками текста. Элемент множества В может быть вектором, который определяет несколько атрибутов (в том числе, например, отсутствие направленности у ребра);

• Р:Е ^ В - функция, задающая атрибуты (метки) ребрам;

• ¡х:Н и Е ^ [0,1] - функция, задающая нечеткость объектов теоретико-графовой модели. Рассмотрим, как можно представить в терминах обобщенной модели три теоретико-графовые структуры, обладающие соответственно свойствами иерархичности (п. 2.3), темпоральности (п. 2.4) и нечеткости (п. 2.5).

2.3 Иерархическая теоретико-графовая модель составляющих

В литературе известны два вида деревьев, которые описывают синтаксическую структуру текста. Деревья зависимостей обычно используются в описаниях языков со свободным порядком слов (например, русского). Для описания языков с фиксированным порядком слов преимущественно используется второй тип графов - деревья составляющих [5]. При этом в предложении выделяются группы слов, функционирующие как отдельные синтаксические единицы - составляющие. Система составляющих - это множество отрезков предложения, которое обладает тем свойством, что каждые два входящих в него отрезка либо не пересекаются, либо один из них содержится в другом. Речь идет о так называемых синтагмах. Это совокупность нескольких слов, объединённых по принципу семантико-

Рис. 1. Модель составляющих фрагмента «Онегин, добрый мой приятель, родился на брегах Невы» Fig. 1. Model of the components of the fragment «Onegin, my good friend, was born on the banks of the

Neva»

Табл. 1. Соответствие вершин и слов текста Table 1. Correspondence of vertices and words of the text

№ Подмножества слов Вершина или ребро Группы Функция принадлежно сти

1 Щ = {мх} = {"Онегин"} V1 a(vl) = N ß(vX) = 1

2 Щ2 = {м2} = {"добрый"} v2 «(V2) = A M(v2) = 1

3 Щ = {м3 } = {"мой"} v3 a(v3) = C /J(v3) = 1

4 Щ4 = {м4} = {"приятель"} v4 a(v4) = N KV4) = 1

5 Щ = {м5 } = {"родился"} v5 a(v5) = V KV5) = 1

6 Щ = {мб} = {"на"} v6 a(v6) = P M(v6) =1

7 Щ7 = {м7 } = {"брегах"} v7 a(v7) = N M(V7) = 1

8 Щ = {м8} = {"Невы"} v8 a(v8) = N mV) = 1

Рассмотрим модель составляющих (рис. 1) на примере фрагмента из романа в стихах А. С. Пушкина: «Онегин, добрый мой приятель, родился на брегах Невы» [5]. Отметим, что

существует множество текстов, которые приписываются Александру Сергеевичу и до сих пор в этом вопросе нет окончательного ответа [13]. Общее количество слов фрагмента К = 8. В данном случае подмножества (I = 1, ...,Ь = 8) будут соответствовать не только словам , но и вершинам графа (табл. 1). Функция а может задавать, например, часть речи слова (т.е. быть атрибутом вершины). Описание множества А представлено в п. 3.2. Сразу отметим, функция ^ для всех вершин и ребер принимает значение 1 (нечеткие связи отсутствуют), т.е. ц(у{) = ^{е^) = 1.

Данная теоретико-графовая модель содержит семь подструктур С^ = =

1,2, ...,т = 7. Первая подструктура С1 содержит С2 и С5, которые соединяются ребром е1, т.е. У1 = 0, Нг = {С2,С5}, Е1 = {е1 = (С2,С5)}. Аналогично опишем другие подструктуры (ребра из множества Е = { ене являются ориентированными, атрибуты им не заданы, т.е. В = 0, они могут соединять не только вершины, но и подструктуры):

V3 V4

= &1}, Н2 = { Сз}, Е2 = {е2 = (VI, Сз)}; = Н3 = { С4}, Е3 = {ез = (V2, С4)};

= Н4 = 0, Е4 = {е4 = ^3^4)};

= ^5}, Н5={С6}, Е5 = {е5 = 0>5,С6)У; = Ш, Нб = { С7}, Еб = {еб = (V6, С7)}; = { V7, v8}, Н7 = 0, Е7 = {е7 = (V7, v8)}. Поскольку все вершины и ребра находятся «внутри» той или иной подструктуры, множества У0 = Е0 = 0.

К5 К К

2.4 Темпоральная теоретико-графовая модель сказочного сюжета

Вторая теоретико-графовая модель возникает при исследовании сказочных сюжетов (например, из волшебных сказок А. М. Афанасьева [1]). Основоположником подобного структурного направления является В. Я. Пропп и его последователи. В текстах выделяются инварианты - действующие лица сказки [4], которых можно объединить в десять групп:

герой (H);

антигерой (антагонист, вредитель) (A); прорицатель (P); даритель (снабдитель) (Д); помощник (П); антипомощник (V); глупец (G); антидаритель (W); награда (N); препятствие (R).

Тело сказки в самом общем виде есть конечная последовательность встреч действующих лиц, связанных соединительными фразами (например, «долго-ли, коротко-ли шел он и наконец увидел...»). Встречи непосредственно связаны с их поступками: например, «Даритель даст Герою совет о том, как действовать дальше». Возможные встречи действующих лиц сказки представлены в таблице 2 [4].

Табл. 2. Возможные встречи действующих лиц сказки Table 2. Possible meetings of characters in the tale

Действующее лицо С кем может встретиться

Н A P Д П V N G W

A P П V N G W

P П N G

Д П N

П V N W

V N G

N G W

G W

Построим теоретико -графовую модель, где вершинами являются действующие лица сказки, а ребра будут отражать их встречи, пронумерованные в соответствии с их появлением в теле сказки. Если встреч было несколько, то ребра будут кратными.

Табл. 3. Соответствие вершин/ребер и их групп Table 3. Correspondence of vertices and their groups

№ Подмножества слов Вершина или ребро Группы Функция принадлежности

1 W vi a(v1) = "Герой (H)" M(V1) = 1

2 W2 v2 a(v2) = "Награда (N)" M(v2) =1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3 W3 V3 a(v3) = "Даритель (Д)" M(v3) =1

4 W4 v4 a(v4) = "Антигерой (А)" M(V4) = 1

5 W5 v5 a(v5 ) = "Препятствие (R)" M(v5) = 1

6 W6 e1 /3(ei) = "H-Д" М(е\) =1

7 W7 e2 Р(в2) = "H-Д" М(е2) =1

8 Ws e3 /3(ез) = "H-Д' M(e3) =1

9 W9 e4 fl(e4) = "H-R" М(е4) =1

10 Ww e5 /зе)="h-R" М(е5) =1

11 Wn e6 P(e6) = "H-R" M(e6) =1

12 W\2 e7 3(e7) = "H-A" Мет) = 1

13 Wl3 e8 /e) = "H-N" M(e8) =1

Рис. 2. Теоретико-графовая модель сказочного сюжета Fig. 2. Graph-theoretic model of a fairy tale plot

Рассмотрим пример сказочного сюжета, в котором выделяются пять действующих лиц и восемь встреч [6]. Здесь не только каждому /-ому действующему лицу (вершине), но и j—й встрече (ребрам) будут соответствовать в тексте набор слов (словосочетаний) Wl, где I = 1,2,..., L = п + s = 13 (табл. 3). При этом подмножества Wl включают слова, которые могут повторяться и необязательно следовать друг за другом. Например, главный герой v1 связан с набором слов, которые находятся в разных частях сказки (включая местоимения и синонимы). Ребра et, как правило, имеют отношение к цельным фрагментам, описывающим встречу действующих лиц. В данной модели отсутствует иерархия, поэтому т = 0 (рис. 2). Сравнивая между собой подобные графы можно посмотреть, как менялся сказочный сюжет с течением времени, какие были особенности у разных регионов и пр.

2.5 Нечеткая теоретико-графовая модель «сильных связей» грамматических связей

Третий вид теоретико-графовой модели основан на матрице частот парной встречаемости грамматических классов слов текста (биграмм). Подобные модели использовались, например, для атрибуции исторических текстов [9] и анонимных текстов из дореволюционных журналов «Время» (1861-1863), «Эпоха» (1864-1865) и еженедельника «Гражданин» (1873-1874), которые редактировал Ф. М. Достоевский [11]. Для получения такой матрицы необходимо:

• выбрать систему грамматических классов;

• перекодировать последовательность слов анализируемого текста в последовательность соответствующих обозначений грамматических классов;

• вычислить частоты парной встречаемости а^ для каждой пары классов с учетом направления развертывания текста (слева направо).

Рассмотрим построение модели на примере текста Ф. М. Достоевского «Молодое перо. По поводу литературной подписи "Современник" № 1 и 2», опубликованной в журнале «Время» (1863 год. Разд. Современное обозрение. № 2. С. 221-226). Каждому ¿-му синтаксическому классу (п = 8 в примере на рис. 3) определяется вершина (соответствующее подмножество слов ^ выбирается по принципу их принадлежности к этому классу, табл. 4). Табл. 4. Соответствие вершин/ребер и их групп

№ Подмножества слов Вершина или ребро Группы Функция принадлежно сти

1 W1 v1 а(уг) = "Существительное" Mvi) = 1

2 Щ v2 а(у2) = "Прилагательное" U(v2) =1

3 W3 v3 а(Уз) = "Местоимение" M(v3) =1

4 W4 v4 а(у4) = "Глагол" U(v4) =1

5 v5 а(у5 ) = "Частица" UV) = 1

6 W v6 а(у6) = "Предлог" U(v6) =1

7 W7 v7 а(у7) = "Союз" U(v7) =1

8 W8 v8 а(у%) = "Цитата" U(v8) =1

9 - e1 Ре ) = "Существительное-Существительное" U(e1) = 0,02041

10 - e2 Р(е2 ) = "Существительное-Местоимение" u(e2) = 0,02099

11 - e3 Р(е3 ) = "Существительное-Глагол" j(e3) = 0,02141

12 - e4 Р(е4 ) = "Существительное-Предлог" ju(e4) = 0,02041

13 - e5 ((е5 ) = "Существительное-Союз" j(e5) = 0,03032

14 - e6 ((е6) = "Прилагательное-Существительное" j(e6) = 0,05831

15 - e1 ((е-]) = "Местоимение-Существительное" /u(e1) = 0,02914

16 - e8 Р(е%) = "Местоимение-Глагол" u(e8) = 0,02624

17 - ((е9) = "Глагол-Местоимение" u(e9) = 0,02041

18 - e10 ((е10 ) = "Глагол-Союз" j(e10 ) = 0,02332

19 - e11 ((еп) = "Частица-Глагол" j(e11) = 0,02151

20 - e12 ((е12) = "Предлог-Существительное" u(e12) = 0,03324

21 - e13 ((е\ъ) = "Предлог-Местоимение" u(e13 ) = 0,02501

22 - e14 ((еи) = "Союз-Местоимение" ju(e14) = 0,02141

23 - e15 ((е\5) = "Цитата-Цитата" ju(e15 ) = 0,02851

Рис. 3. Нечеткая модель «сильных» связей грамматических классов (текст Ф. М. Достоевского

«Молодое перо», порог 0,02) Fig. 3. Fuzzy model of «strong» connections of grammatical classes (text by F. M. Dostoevsky "Young Pen ",

threshold 0.02)

3. Формат представления теоретико-графовых моделей в информационной системе «Фольклор»

Приведенные примеры показывают, что в терминах обобщенной модели можно задавать структуры, обладающие разными свойствами. В [10] приводятся также другие виды

теоретико-графовых моделей, которые могут, например, обладать всеми тремя свойствами: иерархичность, нечеткость и темпоральность. Однако подобные формализации несомненно более сложны для описания и визуализации.

Возникает потребность в автоматической обработке текстов и их теоретико-графовых моделей, построенных на основе разных принципов. С этой целью в Петрозаводском государственном университете была разработана информационная система «Фольклор» [10]. Изначально она создавалась как проблемно-ориентированная система, предназначенная для сравнительного анализа одной коллекции бесёдных песен Заонежья конца XIX - начала XX века. Однако впоследствии программа была модифицирована таким образом, что позволила проводить исследование других коллекций на основе различных моделей. Для хранения и последующего анализа текстов в информационной системе «Фольклор» был реализован формат SNG. Этот формат представляет собой текстовый файл, который можно легко редактировать. Рассмотрим на примере иерархической модели составляющих, как структурируются данные (табл. 5). Файл делится на пять частей: общие характеристики текста, слова, объекты, связи и матрица инцидентности (технически части разделены между собой одиночной строкой с комментариями, начинающиеся с символов //).

• Общие характеристики текста (1-11 строки). В первой строке указывается название текста, во второй строке - название группы, связанных между собой текстов (например, название теоретико-графовой модели), количество строк в тексте (если значение равно нулю, то граф строится без привязки к тексту), строки текста, количество характеристик текста, затем пары: название характеристики и ее значение.

• Слова текста (13-29 строки). В первой строке указывается количество слов, далее для каждого слова - номер строки, начало выделения, длина (параметр не является избыточным, т. к. в некоторых текстах возможно слияние слов), после дефиса - часть речи (N - существительное, A - прилагательное, C - местоимение, O - числительное, V-глагол, E - причастие, G - деепричастие, D - наречие, S - категория состояния, P -предлог, L - союз, U - частица, I - междометие). Теоретически в случае омонимии (например, слово «мой» может быть как местоимением, так и глаголом, но в данном случае из контекста понятно, что это местоимение) можно указать двойную часть речи (например, -CV). Если часть речи неизвестна или еще не определена, то ставится знак '?'.

• Объекты текста (31-62 строки). В первой строке указывается количество объектов, во второй строке - способ отображения вершин при визуализации, затем для каждого из них - название, уровень вложенности (если это обычная вершина, то указывается 0, если первый уровень, то - 1, если второй, то - 2, и т. д.), значение функции принадлежности, группа, количество слов объекта, номера слов, относящихся к объекту (если вершина фиктивная, то к ней не привязываются слова текста).

• Связи в тексте (64-75 строки). В первой строке указывается количество связей, затем -способ отображения ребер при визуализации, название связи, значение функции принадлежности, группа, количество слов связи, номера слов, относящихся к связи.

• Матрица связей (77-91 строки). Представляет собой матрицу инцидентности, где строки соответствуют объектам текста, а столбцы - связям. Если в столбце напротив вершины i указано -1, а напротив вершины j - 1, то это значит, что дуга идет из i в j.

Табл. 5. Представление иерархической теоретико-графовой модели составляющих фрагмента «Онегин, добрый мой приятель, родился на брегах Невы»

Table 5. Representation of a hierarchical graph-theoretic model of fragment components «Onegin, my good friend, was born on the banks of the Neva»_

№ Строка № Строка

1 Онегин, добрый мой приятель, 45 брегах

родился на брегах Невы 46 0 1 1 1 6

2 иерархическая модель составляющих 47 Невы

/////////////// 48 0 1 1 1 7

3 1 49 мой приятель

4 Онегин, добрый мой приятель, 50 1 1 1 2 2 3

5 родился на брегах Невы 51 добрый мой приятель

/////////////// 52 2 1 1 3 1 2 3

6 2 53 Онегин, добрый мой приятель

7 Автор 54 3 1 1 4 0 1 2 3

8 А.С. Пушкин 55 брегах Невы

9 Источник 56 1 1 1 2 6 7

10 Роман в стихах "Евгений Онегин" 57 на брегах Невы

11 /////////////// 58 2 1 1 3 5 6 7

8 59 родился на брегах Невы

12 0 0 6 60 3 1 1 4 4 5 6 7

13 -Ы 61 Онегин, добрый мой приятель, родился

14 0 8 6 на брегах Невы

15 -А 62 4 1 1 8 0 1 2 3 4 5 6 7

16 0 15 3 63 ///////////////

17 -С 64 7

18 0 19 8 65 group4

19 -Ы 66 ребро 1

20 0 29 7 67 1 0 0 0

21 -V 68 ребро 2

22 0 37 2 69 1 0 0 0

23 -Р 70 ребро 3

24 0 40 6 71 1 0 0 0

25 -Ы 72 ребро 4

26 0 47 4 73 1 0 0 0

27 -Ы 74 ребро 5

28 /////////////// 75 1 0 0 0

29 15 76 ///////////////

30 group2 77 0 -1 0 0 0 0 0

31 Онегин 78 0 0 -1 0 0 0 0

32 0 1 1 1 0 79 0 0 0 -1 0 0 0

33 добрый 80 0 0 0 1 0 0 0

34 0 1 1 1 1 81 0 0 0 0 -1 0 0

35 мой 82 0 0 0 0 0 -1 0

36 0 1 1 1 2 83 0 0 0 0 0 0 -1

37 приятель 84 0 0 0 0 0 0 1

38 0 1 1 1 3 85 0 0 1 0 0 0 0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

39 родился 86 0 1 0 0 0 0 0

40 0 1 1 1 4 87 -1 0 0 0 0 0 0

41 на 88 0 0 0 0 0 1 0

42 0 1 1 1 5 89 0 0 0 0 1 0 0

43 90 1 0 0 0 0 0 0

44 91 0 0 0 0 0 0 0

4. Заключение

В данной статье предложена обобщенная контекстно-зависимая теоретико-графовая модель для атрибуции текстов. Модель обладает свойствами иерархичности, нечеткости и темпоральности. Она была апробирована на материале фольклорных (народные песни, сказки, духовные стихи, былины) и литературных текстов (за авторством Н. А. Клюева, А. К. Толстого, С. А. Есенина, А. С. Пушкина, П. А. Вяземского, Э. По, И. А. Бродского и др.). Примеры моделей представлены в монографиях [10, 11] и на электронном ресурсе СМАЛТ ("Статистические методы анализа литературных текстов"), который расположен по адресу

http://smalt.karelia.ru/. В работе рассмотрен формат хранения теоретико-графовой модели в информационной системе «Фольклор» и системе СМАЛТ.

Описание единого подхода к построению различных теоретико-графовых моделей текстов позволяет находить расстояния между ними, т.е. решать задачи классификации и кластеризации текстов. Это можно использовать, например, при решении задачи атрибуции. В качестве такого расстояния можно использовать меры на основе операций редактирования, на основе максимального общего подграфа, минимального общего надграфа, структурных спектров и т. п. [10].

Список литературы / References

[1] Афанасьев А.М. Народные русские сказки А. Н. Афанасьева: в 3 т. М., Государственное Издательство Художественной литературы (Гослитиздат), 1957 г. / Afanasyev A.M. Folk Russian fairy tales by A. N. Afanasyev: in 3 volumes. Moscow, State Publishing House of Fiction (Goslitizdat), 1957 (in Russian).

[2] Берштейн Л.С., Боженюк А.В. Использование темпоральных графов как моделей сложных систем. Известия ЮФУ. Технические науки, № 4 (105), 2010 г., стр. 198-203 / Bershtein L.S., Bozhenyuk A.V. The use of temporal graphs as models of complex systems. Izvestiya SFedU. Engineering Sciences, vol. 4 (105), 2010, pp. 198-203 (in Russian).

[3] Берштейн Л.С., Боженюк А.В. Нечеткие графы и гиперграфы. М., Научный мир, 2005 г., 256 стр. / Bershtein L.S., Bozhenyuk A.V. Fuzzy graphs and hypergraphs. Moscow, Scientific world, 2005, 256 p. (in Russian).

[4] Гаазе-Рапопорт М.Г. Поиск вариантов в сочинении сказок. Дополнение в книге Зарипов Р.Х. Машинный поиск вариантов при моделировании творческого процесса. М.: Наука, 1983 г., стр. 213-223. / Gaaze-Rapoport M.G. Search for variants in the composition of fairy tales. Supplement in Zaripov R.H. Machine search for variants in modeling the creative process. Moscow, Nauka, 1983, pp. 213-223 (in Russian).

[5] Гладкий А.В. Синтаксические структуры естественного языка. М., ЛКИ, 2007 г., 152 с. / Gladky A.V. Syntactic structures of natural language. Moscow, LKI, 2007, 152 p. (in Russian).

[6] Зубов А.В., Зубова И.И. Основы искусственного интеллекта для лингвистов. М., Университетская книга, Логос, 2007 г., 320 стр. / Zubov A.V., Zubova I.I. Fundamentals of artificial intelligence for linguists. Moscow, University book, Logos, 2007, 320 p. (in Russian).

[7] Ильвовский Д.А., Черняк Е.Л. Системы автоматической обработки текстов. Открытые системы. СУБД, no. 1, 2014 г., стр. 51-53 / Ilvovsky D.A., Chernyak E.L. Systems of automatic processing of texts. Open systems. DBMS, no. 1, 2014, pp. 51-53 (in Russian).

[8] Касьянов В.Н., Евстигнеев В.А. Графы в программировании: обработка, визуализация и применение. СПб., БХВ-Петербург, 2003 г., 1104 стр. / Kasyanov V.N., Evstigneev V.A. Graphs in programming: processing, visualization and application. St. Petersburg, BHV-Petersburg, 2003, 1104 p. (in Russian).

[9] Милов Л.В., Бородкин Л.И. и др. От Нестора до Фонвизина: Новые методы определения авторства. М., Прогресс, 1994 г., 445 стр. / Milov L.V., Borodkin L.I. et al. From Nestor to Fonvizin: New methods for determining authorship. Moscow, Progress, 1994, 445 p. (in Russian)

[10] Москин Н.Д. Теоретико-графовые модели фольклорных текстов и методы их анализа. Петрозаводск, Изд-во ПетрГУ, 2013 г., 148 стр. / Moskin N.D. Graph-theoretic models of folklore texts and methods of their analysis. Petrozavodsk, PetrGU Publishing House, 2013, 148 p. (in Russian)

[11] Рогов А.А., Абрамов Р.В. и др. Проблема атрибуции в журналах «Время», «Эпоха» и еженедельнике «Гражданин». Петрозаводск, Изд-во «Острова», 2021 г., 391 с. / Rogov A.A., Abramov R.V. et al. The problem of attribution in the magazines «Time», «Epoch» and the weekly «Citizen». Petrozavodsk: Publishing house «Islands», 2021, 391 p. (in Russian)

[12] Соколов И.А. Теория и практика применения методов искусственного интеллекта. Вестник Российской академии наук, том 89, вып. 4, 2019, стр. 365-370. / Sokolov I.A. Theory and practice of application of artificial intelligence methods. Bulletin of the Russian Academy of Sciences, vol. 89, issue 4, 2019, pp. 365-370. (in Russian)

[13] Хозяинов С.А. Атрибуция публицистических произведений, приписываемых А. С. Пушкину: тексты 1830-1836 гг. Санкт-Петербург, 2008 г., 24 с. / Hozyainov S.A. Attribution of publicistic works attributed to A. S. Pushkin: texts of 1830-1836. St. Petersburg, 2008, 24 p. (in Russian)

[14] Щеголева Л.В., Лебедев А.А., Москин Н.Д. Методы анализа данных в задаче разграничения фольклорных и авторских текстов. Вопросы языкознания, 2020 г., no. 2, стр. 61-74. / Shchegoleva L.V., Lebedev A.A., Moskin N.D. Methods of data analysis in the problem of distinguishing between folklore and author's texts. Questions of linguistics, 2020, no. 2, pp. 61-74. (in Russian)

[15] Calle-Martin J., Miranda-Garcia A. Stylometry and Authorship Attribution: Introduction to the Special Issue. English Studies, vol. 93, no. 3, 2012, pp. 251-258.

[16] Stamatatos E. A Survey of Modern Authorship Attribution Methods. Journal of the American Society for Information Science and Technology, vol. 60, no. 3, 2009, pp. 538-556.

[17] Vaswani A., Shazeer N. et al. Attention is all you need. In Proc. of the 31st International Conference on Neural Information Processing Systems, 2017, pp. 6000-6010.

[18] Zecevic A. N-gram based text classification according to authorship. In Proc. of the Second Student Research Workshop associated with RANLP 2011, 2011, pp. 145-149.

[19] Zhou J., Cui G. et al. Graph neural networks: A review of methods and applications. AI Open, vol. 1, 2020, pp. 57-81.

Информация об авторах / Information about authors

Николай Дмитриевич МОСКИН - кандидат технических наук, доцент, доцент кафедры теории вероятностей и анализа данных. Сфера научных интересов: цифровые гуманитарные науки, теоретико-графовые модели, интеллектуальный анализ данных, компьютерная лингвистика, мультимедиа-технологии, компьютерная графика.

Nikolai Dmitrievich MOSKIN - Candidate of Technical Sciences, Associate Professor, Associate Professor of the Department of Probability Theory and Data Analysis. Research interests: digital humanities, graph-theoretic models, data mining, computational linguistics, multimedia technologies, computer graphics.

Александр Александрович РОГОВ - доктор технических наук, профессор, заведующий кафедрой теории вероятностей и анализа данных. Сфера научных интересов: математическое моделирование, прикладная статистика, математические методы распознавания образов, математические методы анализа литературных текстов.

Aleksandr Aleksandrovich ROGOV - Doctor of Technical Sciences, Professor, Head of the Department of Probability Theory and Data Analysis. Research interests: mathematical modeling, applied statistics, mathematical methods of pattern recognition, mathematical methods of analysis of literary texts.

Роман Владимирович ВОРОНОВ - доктор технических наук, профессор кафедры прикладной математики и кибернетики. Сфера научных интересов: математическое моделирование, задачи оптимизации, комбинаторные задачи на графах, математические методы и модели систем локального позиционирования мобильных объектов. Roman Vladimirovich VORONOV - Doctor of Technical Sciences, Professor of the Department of Applied Mathematics and Cybernetics. Research interests: mathematical modeling, optimization problems, combinatorial problems on graphs, mathematical methods and models of mobile object local positioning systems.

i Надоели баннеры? Вы всегда можете отключить рекламу.