УДК S11.111
МОДЕЛИРОВАНИЕ ИНДИВИДУАЛЬНОГО СТИЛЯ АМЕРИКАНСКИХ ПОЭТОВ-РОМАНТИКОВ1
© Вадим Сергеевич АНДРЕЕВ
Смоленский государственный университет, г. Смоленск, Российская Федерация, кандидат филологических наук, доцент, зав. кафедрой иностранных языков, e-mail: smol.an@mail.ru
Работа посвящена моделированию индивидуальных стилей американских поэтов-романтиков Г.У. Лонгфелло, В.К. Брайента, Р.У. Эмерсона и Э.А. По с помощью многомерного анализа данных. Проведенный анализ позволил установить степень сходства между классами текстов четырех авторов и выделить лингвистические характеристики, наиболее релевантные для дифференциации авторских стилей.
Ключевые слова: модель; индивидуальный стиль; многомерный анализ; стихотворный текст.
Одним из ведущих направлений активно развивающегося направления лингвистики -стилеметрии - является поиск лингвистических маркеров, отражающих индивидуальные особенности стиля [1]. Как правило, этот поиск осуществляется на базе сопоставительного анализа специфических характеристик, присущих данному авторскому стилю, реализованному в текстах, со стилем других авторов (либо, что реже, текстов того же автора, но другого жанра, иного времени создания, других условий, при которых тексты были написаны и др.) [2-4].
В общем виде проблема моделирования стилей и их соотношений может рассматриваться в рамках теории классификации как задача по определению степени интегрированности объектов внутри классов (выявление общей сущности объектов одного класса), с одной стороны, и степени различия
1 Исследование выполнено при финансовой поддержке РГНФ в рамках научно-исследовательского проекта РГНФ «Построение модели индивидуального стиля (на основе лингвистических характеристик)», проект № 12-04-00111а.
между объектами различных классов (сравнительное описание таксонов) - с другой [57]. В первом случае рассматривается аспект, который может быть обозначен как мерономический, которому противопоставлен внешний собственно таксономический анализ [8].
Проведение классификационного анализа данного вида предполагает, во-первых, наличие естественных (либо априорно заданных) классов [9] и, во-вторых, признания за этими классами политетического характера организации. Политетичность класса предполагает возможность включения объекта в класс по большинству признаков архетипа класса, т. е. необходимость наличия у объекта класса полного набора признаков архетипа класса снимается [10, р. 12-14]. В этом исследовании ставится задача создать дискриминантную модель, отражающую указанные мерономический и таксономический аспекты соотношения текстов различных авторов, т. е. выделяющую признаки, объединяющие их идиостили и характеристики, которые идиостили дифференцируют.
Материалом анализа послужили лирические произведения четырех поэтов -В.К. Брайента, Г.У. Лонгфелло, Р.У. Эмерсона и Э.А. По, заложивших основы американского романтизма. Следует отметить, что стихотворный текст характеризуется повышенной степенью как горизонтальной, так и вертикальной интегрированности [11].
Каждое произведение из привлекаемого корпуса текстов было описано более чем сорока признаками, включающими морфологические, синтаксические и ритмо-метрические параметры, а также характеристики стихотворного синтаксиса. Поскольку произведения имеют разный объем, количественные данные по каждому тексту были нормированы путем деления числа зафиксированных случаев реализации каждого из признаков в стихотворении на количество строк этого стихотворения.
Таким образом, целью нашей работы является выявление соотношений между рядом стихотворных текстов, объединенных в 4 естественных класса по авторству, определение их интегральных и дифференциальных характеристик.
Для решения указанной задачи представляется наиболее целесообразным использование одной из процедур многомерного анализа данных - дискриминантного анализа, который позволяет выявить совместный вклад признаков в разграничение классов и учитывает одновременную вариативность различных признаков [12, р. 250].
На первой стадии дискриминантного анализа была определена степень релевантности признаков для различения привлекаемых классов (групп текстов). Признаками, обладающими относительно большей дифференциальной силой для изучаемых четырех классов текстов, являются следующие: количество слогов в слове, замещающем инициальную (Сл-н) и финальную (Сл-к) сильную позицию в строке; количество существительных, замещающих первую сильную позицию в строке (СУЩ-н); количество глаголов, замещающих первую (ГЛ-н) и последнюю (ГЛ-к) сильную позицию в строке; количество прилагательных, замещающих первую (ПЛГ-н) и последнюю (ПЛГ-к) сильную позицию в строке; количество наречий, замещающих первую (НРЧ-н) и последнюю (НРЧ-к) сильную позицию в строке; количе-
ство местоимений, замещающих первую (МЕСТ-н) и последнюю (МЕСТ-к) сильную позицию в строке; количество подлежащих, замещающих первую (ПДЛ-н) и последнюю (ПДЛ-к) сильную позицию в строке; количество сказуемых в первой сильной позиции в строке (СКЗ-н); количество дополнений, замещающих последнюю сильную позицию в строке (ДОП-к); количество определений, замещающих последнюю сильную позицию в строке (ОПР-к); количество обстоятельств, замещающих первую сильную позицию в строке (ОБСТ-н); количество обращений или вводных конструкций в первой сильной позиции в строке (ОБРЩ-н); количество придаточных в составе сложноподчиненного предложения (П-прид); количество простых предложений в составе сложносочиненного (П-соч); количество строк, маркированных восклицательным, вопросительным знаком или многоточием (С-мк); количество синтаксических переносов (ПЕРЕН); количество строк, разорванных синтаксической паузой (РАЗРЫВ); количество полных (ИНВ-п) и частичных (ИНВ-ч) инверсий; количество точных рифм (РИФМ-т); количество мужских рифм (РИФМ-м); размер, которым написана строка (РАЗМ); количество видов размеров, задействованных в произведении (РАЗМ-кол); изменение слогового состава анакрусы (АНКР-сл); количество отягченных анакрус (АНКР-уд); количество пропусков ударения на первом икте (ИКТ-1); количество пропусков ударения на втором икте (ИКТ-2); количество строф (СТРОФ); количество видов строф (СТРОФ-кол).
Мы будем говорить о том, что эти признаки «вошли в модель». Именно эта модель будет в дальнейшем составлять признаковое пространство для последующего анализа.
Одним из основных вопросов исследования является сходство и различие классов текстов. Исходя из того, как вошедшие в модель признаки дифференцируют сопоставляемые четыре класса, мы установили степень сходства / различия между этими классами. Полученные данные представлены в табл. 1. В ней отражено расстояние между центроидами классов текстов в пространстве признаков, вошедших в модель. Под центроидом класса понимается точка в пространстве с координатами, являющимися средними значениями переменных (признаков) всех
Таблица 1
Квадрат расстояния Махаланобиса между центроидами классов текстов В. Брайента, Г. Лонгфелло, Р. Эмерсона и Э. По
Классы текстов Класс 1 (Брайент) Класс 2 (Лонгфелло) Класс 3 (Эмерсон) Класс 4 (По)
Класс 1 (Брайент) 0,00 9,11 23,39 29,06
Класс 2 (Лонгфелло) 9,11 0,00 16,15 19,61
Класс 3 (Эмерсон) 23,39 16,15 0,00 22,90
Класс 4 (По) 29,06 19,61 22,90 0,00
объектов в данном классе [13]. Для определения расстояния в программе используется мера Махаланобиса «квадрат расстояния Махаланобиса» (Б2).
Как видно из таблицы, наиболее близкими (сходными) являются классы 1 и 2 (произведения Брайента и Лонгфелло), а наиболее далекими, т. е. наиболее различными, классы 1 и 4 (произведения Брайента и По). Класс произведений Лонгфелло занимает «центральное» положение, он относительно близок к любому другому. Напротив, класс, образованный произведениями По, несколько удален от остальных классов.
Наши результаты подтверждают мнение о несходстве творчества По и современных ему поэтов-романтиков. Центроид класса произведений По наиболее удален от центроидов остальных классов.
На следующем этапе исследования была поставлена задача выявить, какие комбинации признаков и как разграничивают четыре класса текстов. В результате проведенного анализа были получены три дискриминантные функции, разделяющие заданные классы объектов в признаковом пространстве.
Дискриминантные функции - это линейные функции вида
/кт = П + 0\ * ХХкт + 02 * Х2кт + ... + 0р * Хркт,
где /кт - значение дискриминантной функции для т-го объекта в группе к, п - постоянная; хкт - значение переменной х, для т-го объекта в группе к; а1, - коэффициент признака.
Каждый признак является переменной этих функций и имеет собственный коэффициент. Чем больше значение коэффициента признака по модулю, тем более релевантным является этот признак для дискриминации. Все три полученные функции являются статистически значимыми, вносят существен-
ный вклад в дифференциацию групп текстов, созданных авторами, и рассматриваются при дальнейшем анализе.
Данные о том, как три дискриминантные функции разграничивают классы, отражены в табл. 2. В ней приводятся средние значения трех дискриминантных функций для каждого класса. Функция дискриминирует те классы, для которых ее значения максимально различны.
Как следует из полученных данных, первая (основная) дискриминантная функция делит классы текстов на две группы. В одну входят произведения Г.У. Лонгфелло и В.К. Брайента, в другую - Э.А. По и Р.У. Эмерсона. Вторая функция дискриминирует классы произведений Э.А. По и Р.У. Эмерсона, третья - произведения Г.У. Лонгфелло и В.К. Брайента.
Это заключение, полученное на основании анализа количественных данных, подтверждает мнение ряда исследователей [14] о взаимной близости творческой манеры В.К. Брайента и Г.У. Лонгфелло. Кроме того, считается, что произведения этих двух авторов в высокой степени сходны с поэзией европейских поэтов-романтиков. Э.А. По и Р.У. Эмерсон, напротив, рассматриваются как намного более самобытные американские поэты.
Полученные нами результаты позволяют уточнить существующие взгляды на характер различий между творчеством Э.А. По и других американских поэтов-романтиков. Так, несмотря на указанную выше обособленность творчества Э.А. По, оказывается, что его произведения относительно ближе в формальном плане текстам Р.У. Эмерсона. Причем это сходство оказалось достаточным, чтобы классы текстов Э.А. По и Р.У. Эмерсона были бы объединены между собой как противопоставленные классам текстов
В.К. Брайента и Г.У. Лонгфелло. Таким образом, антагонизм Р. У. Эмерсона и Э. А. По в понимании направления развития и особенностей американской поэзии не привел к антагонизму в сфере творческих форм.
Представляется интересным выяснить, какие основные различия классов отражаются указанными дискриминантными функциями.
В первой функции максимальный вклад вносят признаки СКЗ-н и НРЧ-к. Затем следует группа признаков СТРОФ-кол, ПДЛ-н, РИФМ -м и АНКР-уд. Остальные признаки вносят относительно меньший вклад.
Во второй функции наиболее значим вклад признаков СУЩ-к, ГЛ-к и ПЛГ-к, а также НРЧ-к, АНКР-уд и МЕСТ-к.
Третья дискриминантная функция характеризуется наибольшим вкладом признаков ГЛ-к, РАЗРЫВ, НРЧ-к, ОБРЩ-н, МЕСТ-к и СКЗ-н.
Используя данные о признаках, внесших наибольший вклад в дискриминантные функции, можно рассмотреть роль различных групп признаков в дифференциацию рассматриваемых классов текстов (табл. 3.).
В первую дискриминантную функцию наибольший вклад вносят признаки, описывающие наиболее явные, непосредственно воспринимаемые особенности стихотворного текста: его ритмо-метрическую, рифменную и строфическую структуру. На втором месте вклад синтаксических характеристик; вклад морфологических признаков минимален. Во второй функции, напротив, морфологические признаки играют ведущую роль. Третья дискриминантная функция определяется преобладанием вкладов морфологического и синтаксического уровней.
Другое возможное деление признаков на группы основывается на части строки, характеризуемой данным признаком. В соответствии с данным подходом все признаки могут быть поделены на три группы: признаки на-
чала строки (СКЗ-н, ПДЛ-н, АНКР-уд, ОБРЩ-н), признаки конца строки (НРЧ-к, РИФМ-м, СУЩ-к, ГЛ-к, ПЛГ-к, МЕСТ-к) и признаки середины строки (РАЗРЫВ).
С точки зрения соотношения признаков, характеризующих различные части строки, ведущую роль играют характеристики начальной и финальной части стиха.
В первой функции значимы признаки как начала, так и конца строки. При этом характеристики инициальной части стиха вносят несколько больший вклад. Во второй дискриминантной функции превалирует роль конца строки, а в третьей роль признаков начала и конца строки примерно равна, но, в отличие от первой функции, относительно большую роль играют характеристики конца строки.
Следует отметить, что морфологические признаки, которые вносят значительный вклад во все три функции, являются признаками конца строки, а большая часть синтаксических признаков характеризует начало строки.
На основании полученных данных можно сделать вывод о том, что, несмотря на индивидуальность творческой манеры каждого автора, в американском романтизме можно выделить два направления, представленные двумя большими кластерами: Брайент-
Лонгфелло и Эмерсон-По. Кластеры различаются, в первую очередь, по ритмо-метри-ческим, рифменным и строфическим характеристикам.
В рамках каждого из указанных двух направлений существуют различия между группами текстов отдельных авторов. Так, тексты Э.А. По и Р.У. Эмерсона в наибольшей степени различаются на морфологическом уровне. Для дифференциации текстов Г.У. Лонгфелло и В.К. Брайента релевантными являются морфологические и синтаксические характеристики.
Таблица 2
Средние значения дискриминантных функций для классов текстов
Классы текстов Дискриминантная функция 1 Дискриминантная функция 2 Дискриминантная функция 3
Класс 1 (Брайент) -2,19 -0,20 1,47
Класс 2 (Лонгфелло) -0,96 0,21 -1,21
Класс 3 (Эмерсон) 2,03 -1,99 0,17
Класс 4 (По) 2,16 2,71 0,54
Таблица 3
Факторная структура дискриминантных функций
Признаки Дискриминантная функция 1 Дискриминантная функция 2 Дискриминантная функция 3
РАЗМ-кол Q,34 -Q,21 Q,Q2
СТРОФ -Q,2Q -Q,Q1 -Q,29
СЛ-к Q,27 Q,Q5 -Q,13
ПЕРЕН -Q,2Q Q,16 -Q,1Q
РИФМ-т -Q,2Q Q,19 Q,Q4
СТРОФ-кол Q,31 Q,QQ Q,Q3
АНКР-уд -Q,Q6 -Q,14 Q,Q4
СКЗ-н -Q,Q2 -Q,22 Q,Q3
ДОП-к Q,17 -Q,26 Q,Q4
НРЧ-н -Q,Q3 Q,Q4 Q,26
П-прид Q,Q4 Q,1Q Q,31
ОБРЩ-н Q,14 Q,Q2 -Q,15
ИКТ-2 Q,Q3 Q,13 Q,12
РИФМ-м -Q,29 Q,Q7 -Q,Q2
АНКР-сл -Q,QS Q,12 -Q,17
РАЗРЫВ Q,Q9 Q,1Q Q,2S
РАЗМ -Q,Q9 -Q,Q2 Q,21
П-соч Q,1Q -Q,2Q -Q,Q1
СУЩ-к Q,Q2 -Q,Q7 -Q,29
ИНВ-п Q,Q2 -Q,1Q Q,25
ИКТ-1 -Q,Q4 Q,Q7 -Q,14
ПДЛ-н -Q,Q4 Q,Q2 Q,ll
ОПР-к -Q,16 Q,Q5 -Q,14
НРЧ-к -Q,12 Q,QS Q,QQ
СЛ-н -Q,Q3 -Q,Q3 -Q,12
ПЛГ-к Q,Q3 -Q,1S Q,Q3
ОБСТ-н -Q,Q2 Q,1S Q,19
С-мк Q,ll Q,Q2 -Q,22
ГЛ-н -Q,Q4 -Q,17 -Q,14
ГЛ-к -Q,QS Q,1Q Q,24
ПЛГ-н -Q,12 Q,Q4 -Q,15
МЕСТ-к Q,17 Q,Q1 Q,12
ИНВ-ч -Q,Q4 -Q,ll Q,17
ПДЛ-к Q,Q1 Q,Q5 Q,Q1
МЕСТ-н Q,1Q Q,Q4 Q,ll
На уровне синтаксиса наиболее значимыми являются характеристики инициальной части стиха, а на уровне морфологии - характеристики финальной части.
1. Juola P. Authorship attribution // Foundations and Trends in Information Retrieval. December 2006. Hanover, MA, USA, 2006. Vol. 1. Is. 3.
2. Андреев В.С. Формальные маркеры изменений стиля Г. Лонгфелло // Известия Российского государственного педагогического университета им. А.И. Герцена. 2008. № 11 (66).
С. 14-20.
3. Мартыненко Г.Я. Основы стилеметрии. Л., 1988.
4. Марусенко М.А. Атрибуция анонимных и псевдонимных литературных произведений
методами теории распознавания образов. Л., 1990.
5. Мейен С.В. Основные аспекты типологии организмов // Журнал общей биологии. 1978. Т. 39. № 4. С. 495-508.
6. Панова Н.С., Шрейдер Ю.А. Принцип двойственности в теории классификации // Научно-техническая информация. Серия 2. 1975. № 10. С. 3-10.
7. Шрейдер Ю.А. О понятии «математическая модель языка». М., 1971.
8. Мейен С.В., Шрейдер Ю.А. Методические аспекты теории классификации // Вопросы философии. 1976. № 12. С. 67-79.
9. Любищев А.А. О некоторых постулатах общей систематики // Записки научных семинаров Ленинградского отделения математики института АН СССР. 1975. Т. 49. С. 159-175.
10. Sokal R.R., Sneath P.H.A. Principles of numerical taxonomy. San Francisco, 1963.
11. Гаспаров М.Л. Современный русский стих: метрика и ритмика. М., 1974.
12. Warner R.M. Applied statistics. Los Angeles; London, 2008.
13. Клеша У.Р. Дискриминантный анализ // Факторный, дискриминантный и кластерный анализ. М., 1989. С. 78-138.
14. Lawton W.C. The New England poets: a study of Emerson, Hawthorne, Longfellow, Whittier, Lowell, Holmes. Freeport. N. Y., 1972.
Поступила в редакцию 20.07.2012 г.
UDC 811.111
MODELING OF INDIVIDUAL STYLES OF AMERICAN ROMANTIC POETS
Vadim Sergeyevich ANDREYEV, Smolensk State University, Smolensk, Russian Federation, Candidate of Philology, Associate Professor, Head of Foreign Languages Department, e-mail: smol.an@mail.ru
The paper deals with modeling of individual styles of American romantic poets H.W. Longfellow, W.C. Bryant, R.W. Emerson and E.A. Poe by means of multivariate analysis. The analysis makes it possible to establish their degree of similarity between text classes by the four authors and single out the linguistic characteristics, which are most relevant for the differentiation of the authors’ styles.
Key words: model; individual style; multivariate analysis; verse text.