УДК 81'4 ББК 81.055.1
Т.А. Литвинова, О.А. Литвинова, П.В. Середин
ЧАСТОТЫ ВСТРЕЧАЕМОСТИ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ЧАСТЕЙ РЕЧИ В ТЕКСТЕ И ПСИХОФИЗИОЛОГИЧЕСКИЕ ХАРАКТЕРИСТИКИ ЕГО АВТОРА:
КОРПУСНОЕ ИССЛЕДОВАНИЕ
Текст как продукт речевой деятельности несет информацию о личности его автора, его индивидуальных особенностях, причем эту информацию можно почерпнуть путем анализа текста на разных уровнях (лексическом, морфологическом, синтаксическом и др.). В работе рассматривается проблема поиска неподконтрольных сознанию пишущего, формально-грамматических параметров текстов, частоты встречаемости которых могут иметь устойчивые корреляции с теми или иными характеристиками личности и быть использованы для моделирования личности автора текста. Как показывает обзор англоязычной научной литературы, одним из таких параметров могут быть не только количественные соотношения в тексте слов разных частей речи, но и частоты встречаемости в нем тех или иных последовательностей частей речи, состоящих из двух слов (например, прилагательное + существительное) (биграмм). В статье впервые на материале русского языка рассматривается возможность использования частот встречаемости в тексте тех или иных биграмм частей речи как диагностического параметра текста. С применением статистических методов выявлены устойчивые корреляции между характеристиками личности авторов текстов и частотами встречаемости биграмм частей речи. Отмечается, что полученные статистически значимые зависимости следует интерпретировать с учетом данных психологии, психолингвистики, нейролингвистики.
Ключевые слова: текст; автор; автороведение; диагностическое автороведение; лингвостатистика; стилеметрия; математическая лингвистика; служебные слова; последовательности частей речи; нейролингвистика
Т.А. Litvinova, О.А Litvinova, P.V. Seredin FREQUENCY OF CONSEQUENT PARTS OF SPEECH INDICATIVE OF THE PSYCHOPHYSIOLOGICAL FEATURES OF THE TEXT'S AUTHOR:
A CORPUS-BASED STUDY
The paper investigates the problem of unconscious formal grammatical parameters of the text which are stably correlated with certain personality traits and can be used in authorship attribution to create a personality profile of the author of the written text. The analysis of the scientific literature suggests that one of these parameters can be speech sequences. The attempt has been made to examine a possible use ofpart of speech tagging as an attribution parameter of the text using the material of a collected corpus of students' essays with metatags with the information about the authors. Stable correlations are obtained between the personality traits andpart of speech tagging, regression models are obtained that prove to be highly accurate. It should be noted that this kind of approach extensively used by contemporary science should be supplemented with psychological, psycholinguistic and cognitive data in order for the theoretical justification to be obtained.
Key words: text; author; author attribution; author profiling; linguistic statistics; stylometry; mathematic linguistic; function words; POS-bigrams; neurolinguistics
В последнее время в связи с бурным разви- текста) активно используется стилеметриче-
тием средств автоматической обработки языка ский подход (stylometry approach): на боль-
(морфологических, синтаксических парсеров шом корпусном материале с использованием
и пр.), программ для статистической обработ- методов статистической обработки данных
ки данных в исследованиях по моделирова- вычисляются корреляции между подлежащи-
нию личности автора письменного текста (т.е. ми количественной оценке параметрами тек-
диагностированию личностных особенностей стов и характеристиками их авторов, строятся
автора на основе анализа продуцируемого им математические модели на основании полу-
Вестник ИГЛУ, 2014
© Литвинова Т.А., Литвинова О.А., Середин П.В. , 2014
ченных корреляций. Конечная цель таких исследований - автоматическая категоризация текстов по искомому параметру (пол автора, возраст и пр.) с помощью программ-анализаторов. Точность таких программ в настоящее время далека от 100 %, однако в некоторых исследованиях, в частности касающихся диагностирования пола автора текста, точность достигает 80 % [А^атоп, 2003; 2009]. Для русского языка, насколько нам известно, таких программ пока не разработано.
В работе [Литвинова, 2013] были представлены результаты проведенного авторским коллективом пилотного эксперимента по выявлению корреляций между формально-грамматическими параметрами текста (соотношениями частей речи, длиной слов, предложений и др.) и свойствами личности его автора (полом; баллами по шкалам психологического теста) на материале специального собранного корпуса текстов студенческих эссе, снабженного метаразметкой в виде информации о его авторах, с применением статистических методов обработки данных*. Нами были получены зависимости, связывающие числовые значения формально-грамматических характеристик текста и личностные особенности его автора. Насколько нам известно, это первый в российской лингвистике опыт построения комплексных прогностических моделей, учитывающих сразу несколько параметров письменного текста и применимых к решению задачи прогнозирования пола и некоторых психологических характеристик автора конкретного письменного текста.
В целом наш подход к моделированию текстов подтвердил свою эффективность. Наша гипотеза о значимости частотностей служебных слов и местоимений для моделирования личности по тексту также подтвердилась: было установлено, что для диагностирования различных параметров личности эффективными оказывается анализ частотностей встречаемости слов этих разрядов.
Нами также были установлены корреляции между личностными характеристиками авторов и синтаксическими параметрами текста. В настоящее время синтаксический уровень текста слабо поддается автоматизации, в связи с чем было взято ограниченное число пара-
* Исследование выполнено при поддержке гранта РФФИ №13-0600016 «.Моделирование личности автора письменного текста».
метров: 1) количество простых предложений; 2) количество сложных предложений; 3) количество простых предложений в составе сложных; 4) количество бессоюзных; сложносочиненных, сложноподчиненных предложений.
Отметим, что мы намеренно не проводили анализ текстов на лексическом уровне, так как нашей целью был поиск формально-грамматических параметров текстов, коррелирующих с теми или иными характеристиками личности. Данное исследование направлено на продолжение поиска параметров текста, не зависящих от его темы и слабо поддающихся сознательному контролю автора и, следовательно, имитации. Как показывает анализ англоязычной научной литературы, к таким параметрам относятся частоты встречаемости последовательностей (биграмм) частей речи. Исследования, выполненные на материале английского языка, показали эффективность анализа встречаемости различных биграмм в тексте для задач диагностирования пола и некоторых психологических особенностей автора текста [Nowson, 2007]. Отметим, что первоначально этот параметр использовался для решения задач атрибуции текста, см., например [Keselj, 2003]. Было высказано предположение, что ^граммы частей речи могут «эффективно кодировать синтаксическую информацию и поэтому могут быть использованы для задач классификации текстов» [А^атоп, 2003].
Последовательности частей речи как параметр текста используются и автороведческих исследованиях на материале русского языка [Седов, 2013], в частности, для выявления в тексте неоднородных фрагментов, которые предположительно могут принадлежать другому автору, т.е. заимствований. В основе идеи разделения текста на фрагменты однородности лежит тезис о существовании подсознательной манеры реализации грамматических связей в речевом потоке. Авторы предлагают алгоритм поиска в тексте фрагментов, имеющих «отличную от основного текста синтагматику, характеризующуюся определенной последовательностью составляющих элементов - слов с частеречной принадлежностью. В основе алгоритма лежит статистика частоты встречаемости последовательностей частей речи» [Там же].
Насколько нам известно, настоящее исследование является первым, в котором частоты встречаемости в тексте тех или иных биграмм частей речи рассматриваются как диагностический параметр в рамках задачи моделирования личности автора письменного текста на русском языке.
Методика эксперимента. Материалом исследования послужили 96 текстов, выбранных произвольно из создаваемого авторским коллективом корпуса текстов студенческих эссе (ЭКСЭ, подробнее о корпусе см.: [Заго-ровская, 2012]). Все тексты являлись образцами естественной письменной речи (сочинение на тему «Что бы я сделал, если бы выиграл 1 млн долларов?»; описание картины и др.). Помимо текстов, корпус содержит информацию об их авторах - пол, результаты психоло-
Далее были вычислены доли каждой из би-грамм в текстах (число биграмм каждого типа делили на общее число слов в тексте), после чего традиционными математическими методами были установлены корреляции между каждым из параметров текста, в роли которых выступали доли в тексте самых частотных биграмм, и характеристикой личности, приведенной к числовому значению (пол, принимали для расчетов: женщина - 0, мужчина - 1; баллы по 5 шкалам теста).
Анализ проводили в несколько этапов. На первом посредством корреляционного анализа с использованием критерия Пирсона нам удалось определить число факторов, связанных в жестко детерминированную систему «параметры текста - параметры автора» и оценить достоверность всех характеристик корреляционной связи, при тесноте связи р=0,05. Далее мы предположили, что форма связи (тип аналитической функции) между числовыми значениями параметров текста и личностной характеристикой его автора будет линейной. На третьем этапе с использованием методов регрессионного анализа программ-
гического тестирования с помощью пятифак-торного личностного опросника МакКрае-Ко-ста в интерпретации А.Б. Хромова (баллы по шкалам теста: 1) экстраверсия - интроверсия; 2) привязанность - обособленность; 3) самоконтроль - импульсивность; 4) эмоциональная неустойчивость - эмоциональная устойчивость; 5) экспрессивность - практичность).
Методами автоматической обработки языка (использовался морфологический анализатор фирмы Xerox) для каждого текста были рассчитаны частоты встречаемости биграмм частей речи (всего в анализируемом нами материале было зафиксировано 227 типов биграмм), затем были выбраны биграммы, встречающиеся не менее чем в 75 % проанализированных текстов (см. ниже).
ного пакета SPSS мы нашли искомые уравнения регрессии и провели анализ полученных параметров уравнений с целью определения ошибки найденных закономерностей на контрольной выборке.
Результаты эксперимента. Было установлено, что единственной биграммой, значимо коррелирующей с полом автора текста, является биграмма prep_noun. Рассчитанный для нее коэффициент корреляции Пирсона имеет значение 0,215. Учитывая, что размер выборки N=96, то число степеней свободы N-2=94. Критический коэффициент корреляции для уровня значимости p=0,05 равен 0,205. Таким образом, можно утверждать, что существует слабая линейная связь между долей биграммы prep_noun в тексте и полом его автора, причем для мужчин характерны более высокие значения данного параметра.
Путем перебора различных видов линейных функций было установлено, что точнее всего данная зависимость описывается 4-па-раметрической логической регрессией вида f = D + (A-D)/(1+10A((x-logC)*B)),
Й Й о Й
¥
Й Й
0 Й
1
-м
<Ц
ТЗ
а
Si а
I
Й Й о Й
с
ч=
>
I
Й Й о Й
Й
<Й
>
<Ц
а
<Ц
а
<Ц
а
1i
а
Й Й
0 Й
1
а
—
<Ц
а а
с
ч=
>
"о
-м
а
—
<Ц
а
1= <Ц
S
0
1
с
ч=
>
с
ч=
>
с
ч=
>
а
<Ц
с
ч=
>
где A = 1,0378, B = 101,8044, logC = 0,0750, D = 0,3728, х - доля prep_noun в тексте.
После проверки модели на контрольной выборке (на новых текстах, не использовавшихся при построении модели) было установлено, что ее точность составляет 65 %, причем модель различает женщин гораздо лучше, чем мужчин (к примеру, 5 из 5 из текстов женщин были определены верно и только 3 из 5 - мужчин).
Для характеристики личности «Самоконтроль - импульсивность» (баллы по тесту) корреляции были выявлены с биграммами adj-noun: (-0,405; 0,00354), noun-prep (-0,414; 0,00282), prep-noun (-0,322; 0,0225).
Была построена регрессионная модель, где у - это прогнозируемое число баллов по шкале «Самоконтроль - импульсивность»:
y = 65,086 - (26,071 * adj-noun) - (123,534 * noun-prep) - (108,884 * prep-noun).
Результаты проверки модели на контрольной выборке показали ее достаточно высокую точность: среднее отклонение составило 4 балла, средняя ошибка - 21 %.
Также были обнаружены корреляции между параметром «Привязанность - обособленность» и частотой встречаемости биграммы noun-prep (-0,506; 0,000178), построена модель:
у = 58,264 - (281,926 * noun-prep).
По результатам ее проверки среднее отклонение от реального результата составило 2,5 балла, средняя ошибка - 12 %.
Также были обнаружены слабые корреляции между баллами по шкале теста «Экстраверсия - интроверсия» и частотностями в текстах биграммы pers-vfin (0,304; 0,0320), баллами по шкале теста «Экспрессивность - практичность» и частотностями биграмм pers-vfin (0,297; 0,0359) и ptcl-vfin (-0,321; 0,0229), однако эти корреляции были недостаточно сильными для построения регрессионных моделей.
Обсуждение результатов. На материале русского языка впервые была подтверждена эффективность биграмм частей речи как диагностирующего параметра в рамках решения задачи моделирования автора письменного текста, однако пока остается непонятным, как именно объясняются те или иные корреляции между частотностями тех или иных языковых средств и характеристиками лично-
сти. На наш взгляд, активно развивающийся в настоящее время в мировой науке подход к моделированию личности по тексту, использующий новейшие статистические методы и средства автоматической обработки языка на большом корпусном материале, должен учитывать достижения современной психологии, когнитивной науки, нейролингвистики, для того чтобы полученные корреляции получали теоретическое объяснение.
Так, современными исследованиями, применяющими метод нейровизуализации работы мозга при выполнении тех или иных задач, установлено, что на таксономический состав слов (т.е. на количественные соотношения слов тех или иных частей речи в тексте) влияет повышенная активность правого или левого полушария. В частности, как показали исследования, при угнетении левого полушария и соответственно активности правого число служебных слов, а также глаголов и местоимений в речи уменьшается, а число существительных и прилагательных увеличивается. Также было установлено, что правое полушарие отвечает за функции референции, соотнесенности языковых значений и языковой действительности, в нем «хранятся» дейк-тические элементы: местоимения (особенно указательные), наречия (там, тут и т.д.), частицы (вон, тут) (см. подробнее [Седов, 2007]).
С другой стороны, к настоящему времени в мировой науке накоплено немало данных, свидетельствующих о том, что многие психологические состояния личности имеют под собой нейробиологическую основу, например, связаны с повышенной активностью правого или левого полушария. Так, известно, что сдвиг баланса межполушарной активации в сторону правого полушария связан с отрицательным эмоциональным фоном (см. подробнее: [Егоров, 2003]).
В связи с этим логично предположить, что для построения более эффективных комплексных моделей диагностирования личностных особенностей автора письменного текста необходимо, уже на этапе нахождения корреляций, выбирать параметры текста, ориентируясь не на одну лишь интуицию исследователя, а в первую очередь на данные современной отечественной и зарубежной нейролингви-стики о том, какие зоны мозга ответственны за продуцирование тех или иных элементов
текста, с одной стороны, и новейшие достижения современной когнитивной науки о ней-робиологических основах тех или иных характеристик личности - с другой.
Проводимые авторским коллективом исследования по моделированию личности автора письменного текста с применением методов математическом статистики на специально созданном корпусе текстов показывают, что существуют статистические значимые устойчивые корреляции между частотностями тех или иных элементов текста (в частности, последовательностей частей речи из двух слов) и характеристиками личности, которые, на наш взгляд, могут найти свое объяснение путем привлечения данных современной ней-ролингвистики и нейропсихологии. В связи с этим представляется, что подход к моделированию личности по тексту, который может быть назван нейрокогнитивным, в сочетании с исследованиями на большом корпусном материале с применением методов обработки языка и матстатистики, позволит получить новые данные о связи языка и мышления, в частности о том, как именно в тексте отражаются те или иные особенности личности его автора.
Библиографический список:
1. Егоров, А.Ю. О нарушении межполушарного взаимодействия при психопатологических состояниях [Текст] / А.Ю. Егоров // Журнал эволюционной биохимии и физиологии. - 2003. - Т. 39, № 1. - С. 41-52.
2. Загоровская, О.В. Электронный корпус студенческих эссе на русском языке и его возможности для современных гуманитарных исследований [Текст] / О.В. Загоровская, Т.А. Литвинова, О.А. Литвинова // Мир науки, культуры и образования. - 2012. - № 3(34). - С. 387-389.
3. Литвинова, Т.А. Лингвистические основы неидентификационной судебно-автороведческой экспертизы / Т.А. Литвинова // Вестник Челябинского государственного университета. Сер.: Филология. Искусствоведение. - 2012а. - Вып. 67. - С. 74-79.
4. Литвинова, Т.А. Проблема диагностирования пола автора письменного текста: фактор жанра [Электронный ресурс] / Т.А. Литвинова, О.В. Загоровская, В.А. Черванева, О.А. Литвинова // Современные исследования социальных проблем. - 2014. - № 1. - Ре-
жим доступа: http://journal-s.org/index.php/sisp/article/ view/120144 (дата обращения: 30.03.2014).
5. Литвинова, Т.А. Установление характеристик (профилирование) автора письменного текста [Текст] / Т.А. Литвинова // Филологические науки. Вопросы теории и практики. - 20126. -№ 2 (13). - C. 90-94.
6. Литвинова, Т.А. Формально-грамматические корреляты личностных особенностей автора письменного текста [Текст] / Т.А. Литвинова // Филологические науки. Вопросы теории и практики. - 2013. - № 12(30), ч. 1. - С. 132-135.
7. Седов, А.В. Анализ неоднородностей в тексте на основе последовательностей частей речи [Электронный ресурс] / А.В. Седов, А.А. Рогов // Современные проблемы науки и образования. Филологические науки. - 2013. - № 1. - Режим доступа: http://www.science-education.ru/107-r8339 (дата обращения 05.06.2014).
8. Седов, К.Ф. Нейропсихолингвистика [Текст] / К.Ф. Седов. - М.: Лабиринт, 2007. - 224 с.
9. Фомина, Н.А. Свойства личности и особенности речевой деятельности [Текст] / Н.А. Фомина. - Рязань: Узорочье, 2002. - 412 с.
10. Argamon, Sh. Automatically profiling the author of an anonymous text [Text] / Sh. Argamon, M. Koppel, James W. Pennebaker, J. Schler // Commun. ACM. - 2009.
- Vol. 52(2). - Р. 119-123.
11. Argamon, Sh. Gender, genre, and writing style in formal written texts [Text] / Sh. Argamon, M. Koppel, J. Fine, Anat R. Shimoni // Text. - 2003. - № 23(3). -P. 321-346.
12. Keselj, Vl. N-gram-based author profiles for authorship attribution [Electronic resource] / Vl. Keselj, F. Peng, N. Cercone, C. Thomas // Proceedings of the Conference Pacific Association for Computational Linguistics PACLING'03, August, 2003. - URL: http:// web.cs.dal.ca/~vlado/papers/pacling03.pdf (дата обращения: 30.03.2014).
13. Koppel, M. Automatically categorizing written texts by author gender [Text] / M. Koppel, Sh. Argamon, Anat R. Shimoni // Literary and Linguistic Computing. - 2002.
- № 17(4). - P. 401-412.
14. Nowson, S. Identifying more bloggers: Towards large scale personality classification of personal weblogs [Electronic resource] / S. Nowson, J. Oberlander // Proceedings of the International Conference on Weblogs and Social. - 2007. - Режим доступа: http://www.icwsm. org/papers/2--Nowson-Oberlander.pdf (дата обращения: 30.03.2014).
15. Zhao, Y. Effective and scalable authorship attribution using function words [Text] / Ying Zhao and Justin Zobel // Information Retrieval Technology Lecture Notes in Computer Science. - 2005. - Vol. 3689. - Р. 174-189.