УДК 004.912+801.6
В. Б. Барахнин, О. Ю. Кожемякина, А. В. Забайкин, В. Д. Хаятова
Институт вычислительных технологий СО РАН пр. Акад. Лаврентьева, 6, Новосибирск, 630090, Россия
Новосибирский государственный университет ул. Пирогова, 2, Новосибирск, 630090, Россия
bar@ict.nsc.ru, olgakozhemyakina@mail.т alexey.zabaykin@gmail.com, vl1701@mail.т
АВТОМАТИЗАЦИЯ КОМПЛЕКСНОГО АНАЛИЗА РУССКОГО ПОЭТИЧЕСКОГО ТЕКСТА: МОДЕЛИ И АЛГОРИТМЫ *
Намечены основные подходы к автоматизации процесса статистического анализа низших структурных уровней (метр, ритм, фонетика, лексика, грамматика) русских поэтических текстов, а также изложены алгоритмы комплексного анализа русских поэтических текстов с целью автоматизации процесса создания метрических справочников и конкордансов.
Ключевые слова: автоматизация комплексного анализа поэтического текста, метрические справочники, конкордансы.
Введение
Подход к исследованию текстовых сообщений предполагает использование многоуровневой модели информации, изложенной, например, в работе германского исследователя В. Гитта [1]. Структура модели представлена на рис. 1.
Анализ этой модели показывает [2], что ее нижний уровень соответствует шенноновскому значению термина «информация», три последующих - семиотической триаде (синтактика -семантика - прагматика), а верхний уровень носит, скорее, философский характер. При этом наличие в некотором сообщении информации высокого уровня влечет за собой наличие информации всех низших высоких уровней, но, разумеется, не наоборот (еще раз напомним: объем информации зависит, в том числе, от характеристик адресата, причем это касается всех уровней информации).
Вполне очевидно, что два нижних уровня сообщения (статистика и синтаксис), непосредственно связанные с кодировкой и языком сообщения, далеко не всегда влияют на верхние уровни. Так, для сообщения научного жанра практически не наблюдается зависимости понимания значения, действия и результата действия сообщения от языка, на котором написано сообщение.
* Работа выполнена при частичной поддержке РФФИ (проект 13-07-00258) и президентской программы «Ведущие научные школы РФ» (грант 5006.2014.9).
Барахнин В. Б., Кожемякина О. Ю., Забайкин А. В., Хаятова В. Д. Автоматизация комплексного анализа русского поэтического текста: модели и алгоритмы // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2015. Т. 13, вып. 3. С. 5-18.
ISSN 1818-7900. Вестник НГУ. Серия: Информационные технологии. 2015. Том 13, выпуск 3 © В. Б. Барахнин, О. Ю. Кожемякина, А. В. Забайкин, В. Д. Хаятова, 2015
<- ИНФОРМАЦИЯ -►
Источник информации Результат Действие Понимание Понимание Принятие
действия значения кода сигнала
Рис. 1. Пятиуровневая модель информации В. Гитта
Однако для некоторых типов сообщения такая зависимость весьма велика. Это относится, например, к сообщениям (текстам) художественного жанра, прежде всего к поэтическим текстам. Достаточно вспомнить известную книгу Ю. М. Лотмана [3], в которой утверждается, что «явление структуры в стихе всегда в конечном счете оказывается явлением смысла».
Уровни структуры стиха, подобно уровням структуры произвольного сообщения, также представляют собой определенную иерархию (см., например, [4]): метр, ритм, фонетика, лексика, грамматика, речевой жанр (композиционно-речевое целое), тематика, литературный жанр. При этом процесс анализа стиха предусматривает первоначальное рассмотрение каждого уровня как самостоятельной смысловой единицы с их последующим взаимосвязыванием.
Нетрудно заметить, что между уровнями структуры произвольного сообщения и стиха наблюдается определенная корреляция: к синтаксическому уровню соответствуют метр, ритм и фонетика (согласно В. Гитту, система символов сообщения относится к именно синтаксическому уровню информации), к семантическому - лексика и грамматика. Что же касается тематики, то применительно к анализу стихов она относится не только (и во многом даже не столько) к семантическому, но и прагматическому уровню, поскольку при анализе лирического стихотворения анализ тематики нередко включает исследование эмоционального воздействия на читателя. Наконец, анализ жанров (речевого и литературного) предполагает исследование сообщений внутри стихотворного текста: ибо, согласно [4], речевой жанр подразумевает не только определенный тип речевого субъекта, но и столь же определенный тип речевого адресата, взаимодействие речевого субъекта и речевого адресата создает специфику того или иного литературного жанра. На данном этапе исследования задачи жанрового анализа не рассматриваются.
Хотя отдельные работы в области исследования влияния низших уровней структуры стиха на высшие появились еще в первой половине XX века (например, в книге К. И. Чуковско-
го [5] среди прочего обсуждается вопрос о влиянии гласных звуков в стихах Блока на их эмоциональные характеристики), но систематическое изучение такого влияния началось, по-видимому, с работ К. Ф. Тарановского, выступившего в 1963 году на Пятом съезде славистов с докладом «О взаимодействии стихотворного ритма и тематики», в котором на основе анализа нескольких десятков русских стихотворных текстов было исследовано взаимодействие ритмических особенностей и жанрового применения пятистопного хорея. Было показано, что во многих стихах, написанных этим размером (начиная с «Выхожу один я на дорогу... М. Ю. Лермонтова), «динамический мотив пути противопоставляется статическому мотиву жизни» (см. [6]). В указанной работе была предложена методика определения семантики того или иного стихотворного размера, заключающаяся в исследовании не его единичного употребления, а традиции его жанрового и тематического использования [4], что предполагает анализ корпусов поэтических текстов.
Систематические исследования в этом направлении были продолжены М. Л. Гаспаровым, который, в частности, показал [7], что «число метров в стиховой культуре обычно бывает сравнительно невелико, число типичных построений содержания - во много раз больше, поэтому один и тот же метр может служить знаком нескольких и даже многих тематических рядов. <...> В таких случаях, когда мы приступаем к стихотворению, то, воспринимая метр, угадываем сразу некоторый набор обычных в нем тематических ожиданий, а воспринимая лексику, устанавливаем, какой вариант из этого набора избран автором. <...> Лексика формирует для нас прежде всего семантику данного конкретного стихотворения, метрика - общий фон семантической традиции, на котором оно воспринимается».
Итак, исследование влияния низших уровней структуры стиха на высшие является весьма актуальной проблемой русской филологии. Одной из основных трудностей при ее решении является необходимость анализа корпусов поэтических текстов большого объема. Задача эта чрезвычайно трудоемкая, поэтому зачастую в поле зрения исследователя попадает лишь сравнительно небольшой круг стихов поэтов-классиков, что, без сомнения, значительно снижает полноту анализируемого материала и, следовательно, достоверность полученных результатов. Таким образом, возникает задача автоматизации анализа различных уровней структуры стиха, что позволит освободить исследователей от рутинной работы и при этом резко расширить круг анализируемых авторов.
Описанная выше корреляция между уровнями структуры произвольного сообщения и стиха показывает, что многие технологии и математические методы, применяемые в информатике, вполне могут быть использованы в процессе автоматизации анализа стихов.
Разумеется, простейшие математические подходы применяются в филологическом анализе русских стихотворений довольно давно. Широко известны частотные словари языка поэтов-классиков. Проводились многочисленные исследования статистики типов русской рифмы (в том числе, и применительно ко временной динамике), обобщенные в [8]. Однако зачастую сбор статистической информации до сих пор ведется практически вручную (исключение составляет лишь контент-анализ). Отдельные исследования, описывающие комплексный подход к автоматизации характеристик русских поэтических текстов (см. например, [9]), затрагивают, как правило, весьма специфические жанры поэзии - например, фольклорные стихи, структурные характеристики которых, например метрика, тематика и т. д., значительно отличаются от соответствующих структур «литературного» стиха. Поэтому работа В. Б. Барахнина и О. Ю. Кожемякиной [10], посвященная выработке к автоматизации комплексного анализа русских поэтических текстов, носила пионерный характер.
В зарубежном литературоведении появление первых публикаций в области автоматизации анализа метроритмических характеристик поэтических текстов относится к середине 1990-х годов: М. Хэйвард провел компьютерное исследование особенностей метрики в стихах различных поэтов [11]. Однако массовый интерес к исследованиям в рассматриваемой области появился лишь в конце 2000-х - начале 2010-х годов. Так, Д. Каплан и Д. Блей проанализировали стили американских поэтов на основе орфографических, синтаксических и фонетических характеристик их стихов [12]. Аналогичное исследование с целью выявить особенности стиля профессиональных поэтов, отличающие его от стиля поэтов-любителей, проделано Дж. Као и Д. Джурафски [13]. В работе А. Курта и М. Кара [14] предложен алго-
ритм распознавания и анализа стихотворений, написанных в особой, характерной для восточной (арабской, персидской, турецкой) поэзии, системе стихосложения аруд. Описанная в работе Р. Дельмонте [15] система SPARSAR предполагает автоматический комплексный анализ поэтических текстов с целью изучения их стиля. Веб-приложение MetricaПzer2 [16], разработанное К. Боббенхаузеном и Б. Хаммерихом, позволяет производить автоматический анализ метрических характеристик немецких стихов.
Сразу отметим, что алгоритмы анализа низших уровней поэтических текстов, предлагаемые в зарубежных работах, сильно зависят от особенностей конкретного языка и плохо применимы для анализа стихов на русском языке. Так, особенностями фонетического анализа текстов на английском языке являются бедная парадигма словоизменения и наличие большого количества сетевых словарей фонетического разбора, на немецком - довольно простые и жесткие правила морфологического изменения слов и фонетических характеристик словоформ, на турецком - практически детерминированные правила образования словоформ и изменения их фонетических характеристик, вытекающие из свойственного тюркским языкам закона сингармонизма. В русском же языке отсутствуют сколько-нибудь общие правила морфологического изменения слов их фонетических характеристик (прежде всего, ударения), что делает автоматизацию фонетического анализа русских текстов весьма нетривиальной задачей.
Целью настоящей работы является изложение основных подходов к автоматизации процесса статистического анализа низших структурных уровней (метр, ритм, фонетика, лексика, грамматика) русских поэтических текстов, а также описание алгоритмов комплексного анализа русских поэтических текстов с целью автоматизации процесса создания метрических справочников и конкордансов.
Подходы к автоматизации создания
метроритмических справочников
и конкордансов
Очевидно, что прежде чем приступить к анализу высших уровней стихотворного текста на высшие, необходимо иметь подробнейшие статистические исследования низших уровней. Сведения о системах стихосложения, размерах, каталектике (ритмических окончаниях стихов), строфике, метрической композиции стихотворений включены в метрические справочники к корпусу стихов того или иного поэта, подробное описание используемых рифм -в словари рифм, а алфавитные перечни всех словоформ с указанием контекстов их употребления - в конкордансы. Кроме того, перечисленные справочники и словари важны и для непосредственного изучения художественной техники поэта.
Однако анализ корпусов поэтических текстов большого объема - задача чрезвычайно трудоемкая, поэтому зачастую в поле зрения исследователя попадает лишь сравнительно небольшой круг произведений поэтов-классиков, что, без сомнения, значительно снижает полноту анализируемого материала и, следовательно, достоверность полученных результатов. Таким образом, возникает необходимость автоматизации анализа различных уровней структуры стиха, а также автоматизированного составления на основе такого анализа метрических справочников к корпусам стихов, словарей рифм и конкордансов. Это позволит освободить исследователей от рутинной работы и при этом резко расширить круг изучаемых авторов.
Первые метрические справочники к стихам русских поэтов: Пушкина и Лермонтова (работа над последним не была окончена), - составлены в 1930-е годы (см. обзор [4]). Естественно, эта работа велась вручную, что требовало весьма больших трудозатрат. В конце 1960-х - начале 1970-х годов, когда компьютерные технологии обработки текстов получили достаточно широкое распространение, исследования в указанной области получили новый импульс к развитию: американскими славистами были созданы словари рифм и конкордансы к стихам Пушкина, Баратынского, Батюшкова, Тютчева (для последнего - только конкорданс), советскими литературоведами - словарь рифм Лермонтова (все библиографические ссылки см. в обзоре [17]).
Разумеется, литературоведы, занимавшиеся составлением метрических словарей и конкордансов, не раскрывали детали использовавшегося ими программного обеспечения. И дело даже не в том, что для филологов этот вопрос - второстепенный. Программное обеспечение, автоматизирующее процесс составления метрических справочников, с точки зрения филолога - «ноу-хау», позволяющее получать уникальные результаты. Однако для специалистов в области компьютерной лингвистики такое программное обеспечение - непосредственный результат их научной деятельности. Так, в отделе Машинного фонда Института русского языка АН СССР был создан пакет программ UNILEX [18], предназначенный для изготовления частотных словарей, словоуказателей и конкордансов. Данный пакет был использован при создании конкорданса к стихотворениям М.Кузмина [19], при этом в статье [20] указаны его довольно существенные недостатки (отметим, что для определения количественных метрических характеристик пакет не предназначен).
Кроме конкорданса к стихотворениям М. Кузмина, за последние 25 лет были созданы Словарь языка Грибоедова [21], основную часть которого составляет алфавитно-частотный конкорданс, а также конкорданс к текстам Ломоносова [22], фактически ограничивающийся только поэтическими текстами, притом включающий лишь слова, начинающиеся на буквы А-О. Эти работы используют современные компьютерные технологии: тексты представлены на специальном языке грамматической разметки, которая основывается на «Грамматическом словаре русского языка» А. А. Зализняка, при этом предварительная грамматическая разметка корпуса выполняется при помощи программы, разработанной в компании «Яндекс», после чего проводится ручная корректировка разметки, включающая выбор вариантов разбора, снятие омонимии, разбор нераспознанных слов, исправление ошибок. В итоге размеченный корпус текстов представляет собой базу данных, с использование которой возможно исследование различных лексических, грамматических и т.п. характеристик текстов.
Отметим важную особенностей конкордансов к текстам Грибоедова и Ломоносова: в них словарные единицы сгруппированы в гнезда лексем с указанием грамматической формы каждого словоупотребления, в то время как в конкордансах к стихам Пушкина, Баратынского, Батюшкова словарные единицы суть графемы, т. е. в одно гнездо попадают и совпадающие словоформы одной лексемы, и даже омонимы и омографы, при этом, естественно, объединение словоформ по гнездам лексем не проводилось.
Итак, для конкордансов существует автоматизированная технология их создания, в которой доля ручной работы, связанной, прежде всего, с выбором вариантов разбора и устранением омонимии, довольно велика. Эта технология сравнительно легко воспроизводима, поскольку выделения графем - задача тривиальная, а грамматический разбор слов (с указанием всех возможных вариантов, выбор из которых делается вручную) можно осуществить, например, с помощью стеммера компании «Яндекс» [23].
Однако вопросы автоматизации создания метрических справочников до сих пор исследованы очень слабо. Причины этого достаточно прозрачны: если требуемые для составления конкордансов технологии обработки текстов на уровне графем, имеющие важнейшее значение для задач информационного поиска, давно разработаны и сравнительно просты, то для фонетического анализа текстов, лежащего в основе составления метрических справочников, требуются фонетические словари, включающие, как минимум, акцентуированные (т. е. содержащие ударения) и фонетически разобранные парадигмы всех слов. Так как круг задач, требующих применения таких словарей, весьма ограничен, а алгоритмы фонетического разбора и акцентуации неоднозначны и требуют ручной корректировки результатов, то работы в этой области ведутся не слишком активно (во всяком случае, нам неизвестны словари, удовлетворяющие сформулированным требованиям). Даже наиболее полный из известных нам сетевых фонетических словарей открытого доступа - «Словарь полного фонетического разбора» [24] - содержит только начальные формы слов, поэтому необходима генерация фонетической записи словоформ. Автоматизация этого процесса не совсем тривиальна, поскольку не существует строгих закономерностей расположения ударения в словоформах в зависимости от места его расположения в начальной форме слова.
Практически единственной работой, в которой была намечена большая программа исследований метрических, ритмических и фонетических (включая рифму) характеристик русских поэтических текстов, является статья [25], опирающаяся на использование системы STAR-
LING [26]. Эта система содержит, в частности, веб-приложение для морфологического анализа [27], созданное на основе Грамматического Словаря А.А.Зализняка. Веб-приложение представляет собой морфологический анализатор, выдающий, в частности, полную акцентуированную парадигму каждого слова, имеющегося в словаре программы (к сожалению, система не позволяет генерировать парадигму произвольно заданного слова, отсутствует в ней и фонетический анализ).
Рассматриваемая программа исследований характеристик стиха была частью проекта «Автоматизированный лингвостиховедческий анализ русских поэтических текстов», которым руководил С.А.Старостин, однако после его смерти в 2005 году работы по названному проекту были свернуты.
Наконец, можно отметить сайт В. Онуфриева «Рифмовед.ру» [28], посвященный стихосложению и русской рифме, который содержит, в том числе, модуль «Экспресс-анализ стихов online», позволяющий посчитать для заданного стиха количество строф, определить их тип, установить размер стихотворения, тип рифмовки и т. п. В. Онуфриев заявляет о себе как о создателе «уникальной системы классификации русских рифм», который «открыл и объяснил новые виды русских созвучий, никем не открытые и не описанные ранее», однако точность анализа на основе его алгоритмов не слишком высока: в известном стихотворении А. Барто
Нет, напрасно мы решили
Прокатить кота в машине:
Кот кататься не привык -
Опрокинул грузовик
рифмовка определяется как ABCC, т. е. «решили - машине» в качестве рифмы не воспринимается, хотя это обычная неточная рифма. Особо подчеркнем: проект существует уже 13 лет, но автор не осуществил ни одной публикации в журналах, индексируемых РИНЦ, что делает практически невозможным анализ качества предложенных им алгоритмов. Теоретические же изыскания автора в области стихосложения были подвергнуты весьма резкой критике в статье [29].
Технология создания метрических справочников и конкордансов
При составлении метрических и строфических справочников целесообразно учитывать следующие двенадцать характеристик.
1. Количество строк, без учета пустых.
2. Метрика стихотворения.
3. Стопность.
4. Рифмовка строфики.
5. Количество мужских окончаний последних слов в стихотворных строках.
6. Количество женских окончаний последних слов в стихотворных строках.
7. Количество дактилических и др. окончаний последних слов в стихотворных строках.
8. Количество нерифмованных мужских окончаний.
9. Количество нерифмованных женских окончаний.
10. Количество нерифмованных дактилических и других окончаний.
11. Количество строк без конечных слов.
12. Тип строфической формы:
- стихотворения, состоящие из одной строфы (восемь строк или меньше);
- правильно повторяющиеся строфы;
- вольные стансы;
- парная рифмовка;
- вольная рифмовка.
Характеристики 1-4 учитываются в соответствии с метрическим справочником [30], характеристики 5-12 - с конкордансом [31] (отметим, что их количественные значения взяты
из [32]). Все перечисленные справочники созданы по стихам А. С. Пушкина, поэтому именно на них мы и тестировали излагаемые ниже алгоритмы.
Видимо, самым простым параметром для автоматического подсчета является количество строк (характеристика 1). Однако, и здесь есть свои подводные камни: так, в стихотворении «Когда за городом, задумчив, я брожу...» 17-я строка по смысловым соображениям печатается в виде двух полустрок (и, естественно, именно такой вид имеет электронная версия стихотворения), но из ритмических соображений во всех справочниках эта строка считается единой, что дает расхождение при автоматическом и при ручном подсчете строк. Выявить такие особенности графического воспроизведения стихов можно при последующем анализе рифм (полустроковая структура нарушит метрику и ритм стиха), но такая ситуация (к счастью, весьма редко встречающаяся) потребует ручного вмешательства эксперта.
Ключевой задачей при анализе поэтических текстов является определение силлабо-тонических метров (характеристики 2 и 3). Для этого необходимо выделить стопу, состоящую из одного ударного слога в сильной позиции и одного или нескольких безударных. В зависимости от позиции ударения в стопе для двухсложных размеров различают ямб (ударение на четную позицию) либо хорей (ударение на нечетную позиции), для трехсложных размеров - дактиль (ударение падает на 1-й слог), амфибрахий (на 2-й слог) и анапест (на 3-й слог).
Для автоматического определения метрической структуры поэтического текста мы воспользовались алгоритмом, описанным в [25]. Порядок работы алгоритма предполагает построение числового вектора по следующему принципу: символом 1 обозначаются безударные слоги, 2 - ударные слоги односложных слов, 3 - ударные слоги, занимающие первую позицию в двусложном слове, 4 - ударные слоги, занимающие вторую позицию в двусложном слове, 5 - ударные слоги слов, которые длиннее двух слогов. Полученный вектор анализируется по следующим правилам.
1. Есть ли на нечетных позициях только символы 1 или 2? Если да, это ямб.
2. Есть ли на четных позициях только символы 1 или 2. Если да, это хорей.
3. Есть ли на позициях номер 2, 5, 8... только символы 1, 2 или 3, на позициях номер 3, 6, 9... только символы 1, 2 или 4? Если да, это дактиль.
4. Есть ли на позициях номер 1, 4, 7. только символы 1, 2 или 4, на позициях номер 3, 6, 9. только символы 1, 2 или 3? Если да, это амфибрахий.
5. Есть ли на позициях номер 1, 4, 7. только символы 1, 2 или 3, на позициях номер 2, 5, 8. только символы 1, 2 или 4? Если да, это анапест.
6. Если 1-5 не выполнены, и отсутствует последовательность 111 , это дольник.
Характеристика 4 определяет тип рифмовки строфики. Для этого уже требуется получение фонетической информации. Фонетическая транскрипция необходима для более точного определения рифмующихся строк, нежели буквенное попарное сравнение (такие рифмы, называемые графически точными, составляют лишь небольшую долю всех рифм). Первый этап фонетической транскрипции - акцентуация - решается нами с помощью инструментария автоматической обработки текстов на естественном языке (Проект АОТ) [33], разработанного при создании системы автоматического перевода ДИАЛИНГ. Его словарь содержит порядка 3,5 млн акцентуированных словоформ, но, разумеется, этот словарь все равно не полон.
Для собственно фонетического анализа нами разработан модуль фонетического разбора слов, который основан на акцентуации слов с помощью последовательном (порядок важен!) применении известных правил фонетики и орфографии [34]. Следует отметить, что фонетическая транскрипция сильно зависит от ударения в слове, поэтому важно знать правильное ударение. К сожалению, это достигается не всегда из-за отмеченной выше естественной неполноты словаря ударений. Однако точность фонетического разбора в этих случаях можно повысить следующим образом. Если анализ других строф стиха (в которых проблем с акцентуацией слов не возникло) позволил нам установить его метроритмические характеристики, то на основе этих характеристик зачастую возможно установить акцентуацию слова, не входящего в словарь ударений, и провести его фонетический разбор.
Вообще говоря, задача создания более или менее полной модели русской рифмы до сих пор остается не до конца исследованной, и в настоящее время нами совместно с филологами
Томского государственного университета ведется ее решение, от которого во многом будет зависеть точность определения и классификации рифм.
Для определения типа рифмовки строфики при разбиении поэтического текста на четверостишья в качестве базовых вариантов проверки выделяются кольцевая, смежная, перекрестная и сквозная рифма. В случае отсутствия названных видов строф алгоритм ищет повторяющуюся структуру длиной до 16 строк. Так, в случае поэзии Пушкина максимальная длина такой структуры - 14 строк с рифмовкой ababccddehhekk (онегинская строфа).
Характеристики 5-7, отмеченные в справочнике, - количество окончаний различных типов рифм (мужской, женской и прочих) для каждого стихотворного текста. Таким образом, не учитываются различия между дактилическими и гипердактилическими окончаниями. Для определения типа рифмы в автоматическом режиме необходимо определять ударную гласную, что осуществляется с помощью упомянутого выше словаря ЛОТ. Известная проблема автоматизации - невозможность выбора правильного омографа при наличии разных типов омографии (падежной, межчастеречной и др.). В случае если в конце строки стоит слово, для которого возможны разные варианты ударений, то мы не учитываем такую строку и помечаем её как некорректно определившуюся. Предполагается, что лингвист может в ручном режиме выбрать нужную форму омографа или, в случае отсутствия слова в словаре, произвести добавление слова в используемый тезаурус.
Характеристики 8-10 (количество нерифмованных окончаний последних слов в строке различных типов) определяются аналогично характеристикам 5-7 с учетом типа рифмовки. Если структура стих установлена, то найти количество нерифмованных окончаний не составляет особого труда. Более сложна ситуация, когда анализируемый поэтический текст относится к разряду свободной строфики. В этом случае привязка рифмующихся окончаний ищется в некотором диапазоне, обычно не превышающем 7.
Рис. 2. Интерфейс программного средства анализа русских поэтических текстов
Количество строк без конечных слов (характеристика 11) определяется посредством определения строк, выделяющихся из общей метрической структуры меньшим количеством слогов.
Наконец, тип строфической формы (характеристика 12) вытекает из рифмовки строфики (характеристика 4).
Изложенные алгоритмы реализованы на языке программирования Python 2.7 в виде программного средства обработки стихотворного текста [35]. Интерфейс программного средства представлен на рис. 2. В процессе обработки стихотворения создается лог-файл, показывающий возникновение всех описанных выше случает неоднозначности, при этом в отдельную таблицу записываются слова, которые не были найдены в словаре ударений или у которых ударение неоднозначно. На основании этой таблицы лингвист может произвести добавление слова в используемый тезаурус или выбрать нужную форму омографа.
Что же касается программы построения конкордансов, то алгоритм, лежащий в ее основе, достаточно тривиален и аналогичен изложенному выше алгоритму из работ [21; 22]. Основная проблема - разделение омонимов (омографов) и отнесение их к нужным гнездам лексем. В настоящее время при решении этой проблемы мы не видим альтернативы работе лингвиста (на практике - достаточно грамотного носителя языка) в ручном режиме с использованием удобного программного интерфейса.
Анализ лексических
и грамматических характеристик стихотворений
Лексический анализ стихотворения предусматривает [4] создание его лексического словаря, который используется, в частности, для выявления доминирующих частей речи, тематических (семантических) полей и поэтической фразеологии (прежде всего, употребляемых метафор).
Очевидно, что задача извлечения отдельных лексем решается в процессе конкордации стихотворения. Однако интерес для исследователя могут представлять не только отдельные лексемы, но и словосочетания, которые учитываются, например, при анализе метафор.
Среди некоммерческих программных продуктов, решающих задачу составления лексического словаря некоторого текста, можно назвать стеммер компании «Яндекс» [23]. С его помощью возможно извлекать как слова, являющиеся заданной частью речи (что автоматически решает задачу выявления доминирующих частей речи), так и словосочетания заданной структуры (например, (прилагательное) + (существительное) или (существительное) + (существительное в родительном падеже)}. Последняя из названных возможностей способна значительно обогатить традиционные словари языка того или иного поэта.
Для выявления тематических полей целесообразно использовать электронный словарь синонимических рядов. Многочисленные словари такого рода, размещенные в сети интернет и используемые специалистами в области информационных технологий, к сожалению, как правило, не апробированы профессиональными лингвистами, что делает невозможным их использование в филологических исследованиях. Поэтому нами был разработан и реализован алгоритм преобразования рядов синонимов двухтомного «Словаря синонимов русского языка», составленного коллективом сотрудников словарного сектора Института русского языка Академии наук СССР под руководством А. П. Евгеньевой [36], в реляционную базу данных, в результате чего создана база данных, включающая более 4 000 синонимических рядов (с общим количеством слов около 10 000).
Что же касается задачи выявления метафор, то для ее решения необходим не только лексический словарь слов и словосочетаний, но и дополнительная, зачастую плохо формализуемая информация (например, о принадлежности лексем к тому или семантическому архетипу и т. п.), и поэтому на данном этапе работы эта задача пока не рассматривается.
Грамматический анализ текста включает определение его возможной принадлежности к именному или к глагольному стилям (соответственно сплошные назывные предложения или перечисление действий), а также временного плана и субъектной структуры стихотворения (что требует исследования употребления категорий времени, залога и лица).
Именной или глагольный стиль определяется путем непосредственного анализа лексического словаря. Для определения употребления категорий времени, залога и лица дополнительно требуется использовать довольно несложные морфологические правила русского языка, позволяющие установить, какая конкретно категория времени, залога или лица употреблена.
Подходы к автоматизации анализа высших уровней поэтических текстов
Непосредственное определение тематики стихотворения - задача, весьма сложная для автоматизированного решения, поскольку требует семантического анализа текстов на уровне, близком к восприятию естественно-языковых текстов человеком. Однако исследование зависимости тематики от низших уровней структуры стиха - одна из наименее исследованных областей филологического анализа. В этой области имеется целый ряд нерешенных проблем, некоторые из них сформулированы в [4]:
«Вопрос о том, связан ли метроритмический уровень текста с его тематикой, до сих пор является дискуссионным...
Методика выявления смысловой окраски ритма до сегодняшнего дня разработана недостаточно.
Вопрос этот [о тематических, образных и эмоциональных ассоциациях, связанных с теми или иными звуками. - авт. ] находится в стадии разработки, и пока мы не можем дать совершенно бесспорных характеристик семантики каждого звука».
Применение методов статистического анализа больших массивов стихотворных текстов вполне может стать эффективным методом разрешения этих и подобных проблем филологического анализа.
Важным направлением исследований представляется использование многофакторного анализа семантических, эмоциональных и т. п. ассоциаций, масштабное применение которого практически невозможно без применения методов автоматизации.
Приведем пример эффективности многофакторного анализа при установлении зависимости тематической окраски произведения от его размера. В [4] для иллюстрации неоднозначности такой зависимости приводится следующий пример: «Если, скажем, рассматривается стихотворение А. С. Пушкина "Бесы", то звучание четырехстопного хорея характеризуется как "зловещее", а то и "заунывное", если же "Мойдодыр" К.Чуковского - тот же размер становится "бодрым", "стремительным", "динамичным", "игривым"». Однако если учесть сделанное в [37] наблюдение о четырехстопном хорее, «одной из семантических окрасок которого в русской поэзии является мотив бессонницы, утраты [курсив наш. - авт.] и смерти», и вспомнить начало «Мойдодыра»
Одеяло убежало, Улетела простыня, И подушка, как лягушка, Ускакала от меня
Боже, Боже, что случилось? Отчего же всё кругом Завертелось, закружилось И помчалось колесом?
носящее, если представить описанную сцену происходящей в действительности, вполне инфернальный характер, а также учесть несомненную близость ряда семантических полей (например, связанных с быстрым беспорядочным движением) обсуждаемых произведений, то уместнее будет говорить, скорее, не о противопоставлении, а о сходстве задаваемых четырехстопным хореем семантических окрасок «Бесов» и «Мойдодыра».
Конечно, приведенный пример имеет «частный» характер. При работе с большими корпусами текстов целесообразно применение методов интеллектуального анализа данных.
Заключение
В настоящей работе намечены основные подходы к автоматизации процесса статистического анализа низших структурных уровней (метр, ритм, фонетика, лексика, грамматика) русских поэтических текстов, а также изложены алгоритмы комплексного анализа русских поэтических текстов с целью автоматизации процесса создания метрических справочников и конкордансов. Результаты такого анализа позволят существенно расширить возможности филологов, исследующих как указанные уровни стихов, так и их семантические и прагматические характеристики, в том числе избавить филологов от рутинной работы, расширить круг анализируемых произведений, уменьшив зависимость качества сравнительного анализа от личной эрудиции исследователя, а также применять различные методы интеллектуального анализа данных.
Список литературы
1. Gitt W. Ordnung und Information in Technik und Natur // Gitt W. (Hrsg.): Am Anfang war die Information. Graefeling: Resch KG, 1982. S. 171-211.
2. Шокин Ю. И., Федотов А. М., Барахнин В. Б. Проблемы поиска информации. Новосибирск: Наука, 2010.
3. Лотман Ю. М. Структура художественного текста. М.: Искусство, 1970.
4. Магомедова Д. М. Филологический анализ лирического стихотворения. М.: Академия, 2004.
5. Чуковский К. Александр Блок как человек и поэт. Пг.: А. Ф. Маркс, 1924.
6. Тарановский К. О взаимоотношении стихотворного ритма и тематики // Тарановский К. О поэзии и поэтике. М.: Языки русской культуры, 2000. С. 372-403.
7. Гаспаров М. Л. Семантический ореол метра: к семантике русского трехстопного ямба // Лингвистика и поэтика. М.: Наука, 1979. С. 282-308.
8. Самойлов Д. Книга о русской рифме. М.: Худож. лит., 1982.
9. Москин Н. Д. Теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация: Дис. ... канд. техн. наук. Петрозаводск, 2006.
10. Барахнин В. Б., Кожемякина О. Ю. Об автоматизации комплексного анализа русского поэтического текста // CEUR Workshop Proceedings. 2012. Vol. 934. P. 167-171.
11. Hayward M. Analysis of a corpus of poetry by a connectionist model of poetic meter // Poetics. 1996. Vol. 24. No. 1. P. 1-11.
12. Kaplan D. M., Blei D. M. A computational approach to style in American poetry // 7th IEEE International Conference on Data Mining (ICDM 2007). 2007. Р. 553-558.
13. Kao J., Jurafsky D. A computational analysis of style, affect, and imagery in contemporary poetry // NAACL Workshop on Computational Linguistics for Literature. 2012. http://web.stanford. edu/ ~jurafsky/kaojurafsky12.pdf
14. Kurt A., Kara M. An algorithm for the detection and analysis of arud meter in Diwan poetry // Turkish journal of electrical engineering & computer sciences. 2012. Vol. 20. No. 6. P. 948-963.
15. Delmonte R. Computing poetry style // C. Battaglino, C. Bosco, E. Cambria, R. Damiano, V. Patti, P. Rosso (eds.). Proceedings of 1st International Workshop ESSEM 2013 / CEUR Workshop Proc. No. 1096. P. 148-155.
16. Bobenhausen K., Hammerich B. Metricalizer2. URL: http://www.metricalizer.de/ downloads/ Projektbeschreibung_EN.pdf
17. Баевский В. С. Справочные труды по поэзии Пушкина и его современников // Временник Пушкинской комиссии. АН СССР. Отделение литературы и языка. Пушкинская комиссия. СПб.: Наука, 1991. Вып. 24. С. 65-79.
18. Аношкина Ж. Г. Лингвистический программно-источниковый пакет UNILEX+. Тек-стоориентированная компонента UNILEX-T // Бюлл. Машинного фонда русского языка. 1992. Вып. 2. С. 3-7.
19. Гик А. В. Конкорданс к стихотворениям М. Кузмина. М.: Языки славянской культуры, 2005-2011. Т. 1-3.
20. Бурлешин А. В. Из песеньки слов не выкинешь... (Рецензия на книгу Конкорданс к стихотворениям М. Кузмина. Т. 1. М., 2005) // Новое литературное обозрение. 2006. № 3. С. 370-384.
21. Поляков А. Е. Словарь языка А. С. Грибоедова. URL: http://feb-web.ru/feb/concord/abc/
22. Поляков А. Е., Пильщиков И. А., Бергельсон М. Б. Конкорданс к текстам Ломоносова. URL: http://feb-web.ru/feb/lomoconc/abc/
23. Стеммер компании «Яндекс». URL: https://tech.yandex.ru/mystem/
24. Словарь полного фонетического разбора. URL: http://slovonline.ru/slovar_el_fonetic/
25. Козьмин А. В. Автоматический анализ стиха в системе Starling // Компьютерная лингвистика и интеллектуальные технологии: Тр. междунар. конф. «Диалог 2006» (Бекасово, 31 мая - 4 июня 2006 г.). М., 2006. С. 265-268.
26. Вавилонская Башня. Проект этимологической базы данных. Русские словари и морфология. URL: http://starling.rinet.ru/indexru.htm
27. Морфологический анализатор. URL: http://starling.rinet.ru/cgi-bin/morphque.cgi? encod-ing=win
28. Сайт Рифмовед.ру. URL: http://rifmoved.ru/
29. Губайловский В. WWW-обозрение Владимира Губайловского // Новый мир. 2002. № 9. С. 213-216.
30. Лапшина Н. В., Романович И. К., Ярхо Б. И. Метрический справочник к стихотворениям А. С. Пушкина. М.; Л.: Academia, 1934.
31. Shaw J. T. Pushkin: A Concordance to the Poetry: Vol. 1 and 2. Columbus, Ohio: Slavica, 1984 / рус. пер. Шоу Дж.Т. Конкорданс к стихам А.С.Пушкина: В 2 т. М.: Языки русской культуры, 2000.
32. Shaw J. T. Pushkin's Rhymes: A Dictionary. Madison: Univ. of Wisconsin Press, 1974.
33. Проект АОТ. URL: http://nlpub.ru/АОТ
34. Правила русской орфографии и пунктуации. Полный академический справочник / Под ред. В. В. Лопатина. М: Эксмо, 2007.
35. Анализ поэтических текстов онлайн/ URL: http://poem.ict.nsc.ru/
36. Словарь синонимов русского языка: В 2 т. Л.: Наука, 1970-1971.
37. Винни Пух и философия обыденного языка. М.: Гнозис, 2010.
Материал поступил в редколлегию 05.08.2015
V. B. Barakhnin, O. Yu. Kozhemyakina, A. V. Zabaykin, V. D. Khayatova
Institute of Computational Technologies SB RAS 6 Acad. Lavrentjev pr., Novosibirsk, 630090, Russia
Novosibirsk State University, 2 Pirogov Str., Novosibirsk, 630090, Russia
bar@ict.nsc.ru, olgakozhemyakina@mail.ru alexey.zabaykin@gmail.com, vl1701@mail. ru
AUTOMATION OF THE COMPLEX ANALYSIS OF RUSSIAN POETIC TEXTS:
MODELS AND ALGORITHMS
In this paper the main approaches to automating the process of statistical analysis of the lower structural levels (meter, rhythm, phonetics, vocabulary, grammar) of Russian poetic texts, and the
algorithm of the complex analysis of Russian poetic texts are outlined in order to automate the process of creating metric reference books and concordances.
Keywords: automation of the complex analysis of the poetic text, metrical guides, concordances.
References
1. Gitt W. Ordnung und Information in Technik und Natur // In: Gitt W. (Hrsg.): Am Anfang war die Information. Graefeling: Resch KG, 1982. P. 171-211.
2. Shokin Y. I., Fedotov A. M., Barakhnin V. B. Problems of information retrieval. Novosibirsk: Nauka, 2010. (in Russian)
3. Lotman Yu. M. The structure of the artistic text. Moscow: Iskusstvo, 1970. (in Russian)
4. Magomedova D. M. Philological analysis of lyric poems. Moscow: Publishing center "Academy", 2004. (in Russian)
5. K. Chukovsky, Alexander Blok as man and poet. Peterburg: A. F. Marx, 1924. (in Russian)
6. Taranovsky K. About the relationship between poetic rhythm and topic// In: Taranovsky K. About poetry and poetics. Moscow: Languages of Russian culture, 2000. - P. 372-403. (in Russian)
7. Gasparov M. L. Semantic aureole of the meter: the semantics of Russian iambic trimeter // In: Linguistics and poetics. Moscow: Nauka, 1979. - P. 282-308. (in Russian)
8. Samoilov D. Book about Russian rhyme. Moscow: Khudozhestvennaya Literatura, 1982. (in Russian)
9. Moshkin N. D. Theoretical-graph models of the structure of folklore texts, algorithms of patterns' search and their software implementation // Dis. ... candidate of Techn. Sciences. - Petrozavodsk, 2006. (in Russian)
10. Barakhnin V. B., Kozhemyakina O.Yu. About the automation of the complex analysis of Russian poetical text // CEUR Workshop Proceedings. 2012. V. 934. P. 167-171. (in Russian)
11. Hayward M. Analysis of a corpus of poetry by a connectionist model of poetic meter // Poetics. 1996. V. 24. N 1. P. 1-11.
12. Kaplan D. M., Blei D. M. A computational approach to style in american poetry // 7th IEEE International Conference on Data Mining (ICDM 2007). 2007. P. 553-558.
13. Kao, J., Jurafsky D. A computational analysis of style, affect, and imagery in contemporary poetry // NAACL Workshop on Computational Linguistics for Literature. 2012. - http://web. stan-ford.edu/~j urafsky/kaoj urafsky12.pdf
14. Kurt A., Kara M. An algorithm for the detection and analysis of arud meter in Diwan poetry // Turkish journal of electrical engineering & computer sciences. 2012. V. 20. N 6. P. 948-963.
15. Delmonte R. Computing poetry style // In: C. Battaglino, C. Bosco, E. Cambria, R. Damiano, V. Patti, P. Rosso(eds.). Proceedings of 1st International Workshop ESSEM 2013/ CEUR Workshop Proc. N 1096. P. 148-155.
16. Bobenhausen K., B. Hammerich Metricalizer2. - http://www.metricalizer.de/ down-loads/Projektbeschreibung_EN.pdf
17. Baevsky V. S. Reference works on poetry of Pushkin and his contempoaries / Vremennik of Pushkin Commission. ACADEMY OF SCIENCES OF THE USSR. The Department of literature and language. Pushkin Commission. St. Petersburg: Nauka, 1991. Issue 24. P. 65-79. (in Russian)
18. Anoshkina Zh. G. Linguistic software and source package UNILEX+. Text-oriented component UNILEX-T / Bulletin of the Machine Fund of Russian language. 1992. Issue 2. P. 3--7. (in Russian)
19. Gik A. V. Concordance to the poems by Mikhail Kuzmin. Vol. 1-3. Moscow: Languages of Slavic culture, 2005-2011. (in Russian)
20. Burleshin A. B. The words from "Pesen'ka" will not be thrown out... (Review to "Concordance to the poems by Mikhail Kuzmin. Vol. 1. Moscow, 2005) / New literary review. 2006. N 3. P. 370-384. (in Russian)
21. Poliakov A. E. Dictionary of the language of A. S. Griboedov. - http://feb-web.ru/feb/ con-cord/abc/ (in Russian)
22. Polyakov, A. Y., Pilschikov I. A, Bergelson M. B. a Concordance to the texts of University. - http://feb-web.ru/feb/lomoconc/abc/ (in Russian)
23. Stemmer of the company "Yandex". - https://tech.yandex.ru/mystem/ (in Russian)
18
В. 5. BapaxHHH, O. KoxeMAKUHa, A. B. 3a6afiKHH, B. fl. XasiTOBa
24. Complete dictionary of phonetic analysis. - http://slovonline.ru/slovar_el_fonetic/ (in Russian)
25. Kozmin A.V. Automatic analysis of verse into the Starling system / Computational linguistics and intellectual technologies: Proceedings of the international conference "Dialogue 2006" (Bekasovo, 31 may - 4 June 2006). Moscow: Publishing center of the RSUH, 2006. P. 265-268. (in Russian)
26. The Tower Of Babel. An etymological database project. Russian dictionaries and morphology. - http://starling.rinet.ru/indexru.htm (in Russian)
27. The morphological analyzer. - http://starling.rinet.ru/cgi-bin/morphque.cgi?encoding=win (in Russian)
28. The Site Rifmoved.ru - http://rifmoved.ru/ (in Russian)
29. Gubaylowskii V. WWW-Outlook of Vladimir Gubaylovskii // New world. 2002. N 9. P. 213-216. (in Russian)
30. Lapshina N. V., Romanovich I. K., Yarkho B. I. Metrical guide to the poems by A. S. Pushkin. Moscow; Leningrad: Academia, 1934. (in Russian)
31. Shaw J. T. Pushkin: A Concordance to the Poetry: Volumes 1 and 2. Columbus, Ohio: Slavica, 1984.
32. Shaw J. T. Pushkin's Rhymes: A Dictionary. Madison: Univ. of Wisconsin Press, 1974.
33. Project AOT. - http://nlpub.ru/AOT (in Russian)
34. Rules of Russian orthography and punctuation. Full academic Handbook / ed. by V. V. Lopatin. Moscow: Eksmo, 2007. (in Russian)
35. The analysis of the poetic texts online - http://poem.ict.nsc.ru/ (in Russian)
36. Dictionary of synonyms of Russian language: in 2 volumes. Leningrad: Nauka. Leningrad department, 1970-1971. (in Russian)
37. Winnie the Pooh and the philosophy of ordinary language. Moscow: Gnosis, 2010. (in Russian)