Научная статья на тему 'Профилирование автора текста как одно из стратегических направлений исследований'

Профилирование автора текста как одно из стратегических направлений исследований Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
423
128
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЯЗЫКОВАЯ ЛИЧНОСТЬ / ПСИХОЛИНГВИСТИКА / КОРПУСНАЯ ЛИНГВИСТИКА / РЕЧЕВАЯ ДЕЯТЕЛЬНОСТЬ / МАТЕМАТИЧЕСКАЯ ЛИНГВИСТИКА / LANGUAGE PERSONALITY / PSYCHOLINGUISTICS / CORPUS LINGUISTICS / SPEAKING ACTIVITY / MATHEMATICAL LINGUISTICS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Литвинова Татьяна Александровна, Лантюхова Наталья Николаевна, Рыжкова Екатерина Сергеевна, Шевченко Ирина Сергеевна

Авторы рассматривают проблему профилирования автора текста как одно из стратегических направлений исследований, описывают этапы решения данной проблемы. Особое внимание уделяется разработке программного комплекса для диагностирования личности автора письменного текста, который может быть использован, в частности, и в качестве дополнительного средства определения психологического профиля поступающего на службу в ряды МЧС России.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Литвинова Татьяна Александровна, Лантюхова Наталья Николаевна, Рыжкова Екатерина Сергеевна, Шевченко Ирина Сергеевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PROFILING THE AUTHOR OF A TEXT AS ONE OF STRATEGIC DIRECTIONS OF RESEARCH

The authors try to solve the problem of profiling the authors of anonymous text as one of strategic research areas and describe the stages of solution of the problem. Special attention is paid to the development of the program complex which may be used, in particular, as an additional tools for psychological profiling of people which are going to join up in the EMERCOM of Russia.

Текст научной работы на тему «Профилирование автора текста как одно из стратегических направлений исследований»

ПОДГОТОВКА СПЕЦИАЛИСТОВ МЧС РОССИИ: ГУМАНИТАРНЫЕ АСПЕКТЫ

УДК 81'33

ПРОФИЛИРОВАНИЕ АВТОРА ТЕКСТА КАК ОДНО ИЗ СТРАТЕГИЧЕСКИХ НАПРАВЛЕНИЙ ИССЛЕДОВАНИЙ Т. А. Литвинова, Н. Н. Лантюхова, Е. С. Рыжкова, И. ^ Шевченко

Авторы рассматривают проблему профилирования автора текста как одно из стратегических направлений исследований, описывают этапы решения данной проблемы. Особое внимание уделяется разработке программного комплекса для диагностирования личности автора письменного текста, который может быть использован, в частности, и в качестве дополнительного средства определения психологического профиля поступающего на службу в ряды МЧС России.

Ключевые слова: языковая личность; психолингвистика; корпусная лингвистика; личность; речевая деятельность; математическая лингвистика.

Исследуемая авторским коллективом проблема профилирования, т. е. диагностирования, характеристик автора текста (возраста, пола, психологического профиля и т. д.), в том числе текста интернет-коммуникации, путем анализа глубинных (неподконтрольных сознанию автора) параметров текста (подробнее см. [5]) соответствует стратегическим направлениям исследований — поиску методов и средств борьбы с дезинформацией в Интернете1.

Литвинова Татьяна Александровна, канд. филол. наук, Воронежский государственный педагогический университет, e-mail: tanjalitvinova@rambler.ru Лантюхова Наталья Николаевна, аспирант, Воронежский институт ГПС МЧС России, e-mail: lnn81@mail.ru

Рыжкова Екатерина Сергеевна, аспирант, Воронежский государственный педагогический университет, e-mail: ryzhkowa.katerina@yandex.ru; Шевченко Ирина Сергеевна, аспирант,

Воронежский государственный педагогический университет, e-mail: lirishechka@mail.ru

© Литвинова Т. А., Лантюхова Н. Н., Рыжкова Е. С., Шевченко И. C., 2Q13

1 Одна из тем научно-исследовательских работ для конкурса Минобороны. URL: http://hitech.newsru.ru/article/ 18ой2012/гаті1суЬетаге (дата обращения — 10.02.2013).

Данная проблема имеет несомненную теоретическую значимость, поскольку ее решение вносит вклад в теорию языковой личности, гендерной лингвистики, судебного автороведения [2], теорию текста как продукта индивидуальной речевой деятельности.

Решение данной проблемы также обладает высокой практической значимостью: методики установления информации об авторе анонимного текста анонимного текста могут быть востребованы в практике правоохранительных органов; могут быть применены для скрытого диагностирования свойств личности в рекрутменте; а также в маркетинговых исследованиях. Программные средства, позволяющие с высокой долей вероятности прогнозировать социобиографическую информацию об авторе текста и его психологический профиль, несомненно, будут востребованы пользователями Интернета и позволят в некоторой степени снизить уровень киберпреступлений (мошенничество; разжигание межнациональной розни и пр.), так как дадут пользователю представление о реальных характеристиках своего анонимного собеседника, в том числе уровне его агрессии.

1. Подготовка и предобработка корпуса текстов. Для решения задачи исследования необходим в первую очередь материал — корпус текстов, размеченный специальным образом и содер-

жащий, помимо собственно текстов, информацию об их авторах (пол, возраст, психологические особенности по результатам тестирования). Корпуса текстов такого рода на русском языке не существует. В связи с этим Центром русского языка при ВГПУ проводятся мероприятия по подготовке данного корпуса. На настоящий момент в проекте приняли участие около 500 студентов воронежских вузов, получено около 1000 текстов общим объемом 0,5 млн словоупотреблений. Сбор текстов авторским коллективом продолжается. Все тексты вносятся в специально разработанную базу данных наряду с информацией об их авторах (проводится паспортизация корпуса) (см. подробнее о создаваемом корпусе текстов в [1]).

При этом тексты необходимо представить так, чтобы каждый класс (пол, та или иная характеристика психологического профиля) был представлен довольно большим числом характерных для него текстов (несколько десятков); тексты должны быть достаточного объема, классы сбалансированы так, чтобы они были представлены примерно одинаковым числом текстов.

Для решения задач исследования необходимо также осуществить морфологическую и синтаксическую разметку корпуса с помощью программ-анализаторов и провести ручную корректировку результатов данной разметки.

2. Выбор лингвистических признаков текста и извлечение значений этих признаков из текста. Выбор параметров текста, которые могут быть эффективны для диагностирования личности автора, осуществляется вручную — это самый трудоемкий и ответственный этап исследования. Общепринятого мнения о наборе неконтролируемых сознанием языковых параметров текста, релевантных для диагностирования личности его автора, применительно к русскому языку (как, впрочем, и применительно к другим языкам), до сих пор не выработано. Авторы в настоящее время разработали обширный список соответствующих параметров текста на основе анализа иноязычной научной литературы, а также на основе собственных предпроект-ных исследований.

В настоящее время ведется математическая обработка данных для установления значимости того или иного параметра текста для диагностирования той или иной характеристики автора текста.

Отметим, что в последние годы в американской лингвистике и психологии все больше исследований доказывают, что анализ использования местоимений, предлогов, союзов и др. позволяет получить достаточно информации об авторе текста. Так, находясь в депрессии или в сложной ситуации, люди используют больше местоимений (особенного первого лица единственного числа), меньше артиклей и больше модальных глаголов в настоящем времени (см. обзор в [4]).

Одно из последних исследований выявило, что служебные слова служат надежным коррелятом

личностных черт, таких как невротичность, экстраверсия, открытость для нового, самоуважение и стремление к социальному доминированию [7].

Для решения заявленной задачи была выполнена трудоемкая процедура грамматической разметки текстов по выделенным параметрам текста и преобразованы показатели соответствующих параметров к векторам чисел (в первую очередь, по показателям частотности слов той или иной категории).

3. Математическая обработка данных. Работы на данном этапе определяются математической постановкой задачи: имеется множество категорий (классов авторов — пол (два подкласса: мужчина/женщина), возраст (2 подкласса: 15—20; 20— 30), 10 психологических черт (подклассы: высокая, средняя, низкая выраженность признака): экстравер-сия/интроверсия; склонность к скрытой агрессии; феминность/маскулинность и пр.); имеется начальная коллекция размеченных документов, неизвестным является целевая функция (взаимозависимость языковых параметров текста и психофизиологических особенностей личности автора). Для нахождения названной функции необходимо разработать специальную программу, которая бы позволила классифицировать письменные тексты на основе значений выбранных языковых параметров по полу, возрасту и определенным психологическим особенностям авторов текстов (см. подробнее в [3]).

4. Психолингвистическая интерпретация результатов исследования. Названный этап выполнения работ по заявленному проекту является центральным для решения поставленной задачи. Полученные результаты будут представлять собой принципиально новый вариант решения фундаментальной задачи моделирования личности по тексту.

5. Разработка программного комплекса для автоматического диагностирования автора текста. Как один из конечных результатов исследования авторский коллектив видит разработку по материалам исследований программного комплекса с рабочим названием «Диагност», доступного пользователям Интернета.

Данный программный продукт не имеет аналогов в России — программное обеспечение, позволяющее диагностировать те или иные свойства личности по глубинным, неподконтрольным сознанию автора (грамматическим — морфологическим и синтаксическим) параметрам текста для русского языка не разрабатывалось. Разработанные для русского языка программные комплексы позволяют с определенной долей вероятности решить классификационные задачи (является ли N автором данного текста) (Лингвоанализатор) либо определить общую тональность текста (ВААЛ), но не позволяют диагностировать свойства личности его автора.

Программный комплекс, аналогичный предлагаемому в части постановки задач, был разработан для английского языка при финансировании Минобороны США (Text Attribution Tool, разработ-

чик — компания Appen Ltd) [6], что говорит о значимости поставленной задачи, однако для каждого языка необходимо использовать свои, специфичные параметры, тем более что русский язык является языком флективного типа, а английский — языком аналитического типа, таким образом, необходимо использовать совершенно отличный набор языковых параметров.

Разработанный в результате реализации проекта программный комплекс является продуктом двойного назначения: с одной стороны, методики установления информации об авторе анонимного или псевдоанонимного текста, в том числе и текста Интернет-коммуникации, будут востребованы в деятельности подразделений Минобороны, МВД, ФСБ; а также могут быть применены для скрытого диагностирования свойств личности в рекрутменте; в маркетинговых исследованиях; при таргетировании Интернет-аудитории поисковиками.

Программные средства, позволяющие с высокой долей вероятности прогнозировать социобио-графическую информацию об авторе текста и его психологический профиль, несомненно, будут востребованы пользователями Интернета и позволят в некоторой степени снизить уровень киберпреступлений (мошенничество; разжигание межнациональной розни и пр.), так как дадут пользователю представление о реальных характеристиках своего анонимного собеседника, в том числе уровне его агрессии; вычислить случаи искажения информации о себе в преступных целях. Проиллюстрировать вышесказанное можно на примере речевого поведения педофила, при котором происходит намеренное искажение возраста интернет-пользователя с целью войти в доверие к жертве. Для этого преступник применяет так называемые поверхностные стратегии — использует жаргон подростков, эмотиконы, компьютерные термины и пр. Преимущество разрабатываемого нами комплекса в том, что анализируется не лексический уровень, который легко подделать, а глубинный, грамматический, неподконтрольный автору — соотношение частей речи в тексте, использование служебных слов и местоимений, особенности пунктуации и пр.

Как видится, программа сможет диагностировать профиль автора путем вычисления значений лингвистических параметров текста, перевода их в векторную форму (модуль предобработки текста) и их обработки методами машинного обучения на основе степени сходства с параметрами текстов, содержащимися в базе программы, информация об авторах которых достоверно известна. Используется корреляционно-регрессионный анализ данных (аналитический модуль программного комплекса).

Программный комплекс также моет помочь сузить круг подозреваемых в написании текста-угрозы, составив профиль его автора: определив возраст, пол и психологический профиль.

Проект может быть востребован для таргетирования аудитории интернет-пользователей, т. е. их

ранжирования по определенным категориям: полу, возрасту, психологическим особенностям. В настоящее время таргетирование аудитории применяет Yandex, Rambler и другие крупнейшие компании, однако данные они берут из открытых источников, но информация, которую дают о себе пользователи, не всегда бывает достоверной, а во многих случаях такой информации нет вовсе, однако большинству компаний требуется знать профиль своих клиентов для того, чтобы давать, к примеру, рекламу для определенной целевой аудитории, в связи с чем крупнейшие поисковые компании стараются разработать эффективные механизмы таргетирования.

Также ПО может помочь проводить более качественный подбор персонала на определенные должности (в частности, сотрудников МЧС России), поскольку, как известно, многие соискатели намеренно искажают результаты традиционных тестов, используемых рекрутерами, для того чтобы произвести положительное впечатление, тогда как задание в виде написания текста на произвольную тему будет для соискателя нетривиальным, к тому же он сосредоточится на содержании текста, тогда как программа анализирует бессознательные (грамматические) его параметры, исказить которые крайне сложно.

Методы и подходы, используемые в проекте, определяются гипотезой исследования: в тексте, независимо от его содержания, жанра, целевой установки и пр., на уровне формальных признаков, неподконтрольных сознанию (на грамматическом уровне), независимо от желания автора отражаются его личностные параметры (пол, возраст, психологические особенности).

Планируется использование как традиционных лингвистических методов (контекстуального анализа, компонентного анализа, структурнограмматического анализа), так и современных методов компьютерной лингвистики, математического анализа (методы машинного обучения), матстати-стики, теории распознавания образов, вычислительного эксперимента и искусственного интеллекта, что позволит впервые в отечественной лингвистике установить системные корреляции между параметрами текста, неподконтрольными сознанию (на уровне морфологии и синтаксиса), и психофизиологическими характеристиками личности. Полученные результаты позволят по-новому посмотреть на проблему взаимосвязи личности и языка.

Предполагается как использование традиционных программных средств, используемых в корпусной лингвистике (грамматических, синтаксических анализаторов), так и разработка по итогам проекта специальной программы-анализатора для автоматического установления характеристик автора письменного текста, которая будет доступна для пользователей Интернета, с использованием методов объектно-ориентированного программирования.

Библиографический список

1. Загоровская, О. В. Электронный корпус студенческих эссе на русском языке и его возможности для современных гуманитарных исследований / О. В. Загоровская, Т. А. Литвинова, О. А. Литвинова // Мир науки, культуры и образования. — 2012. — № 3. — С. 387-389.

2. Литвинова, Т. А. Лингвистические основы неидентификационной судебно-автороведческой экспертизы / Т. А. Литвинова // Вестник Челябинского гос. ун-та. Сер.: Филология. Искусствоведение. — 2012. — № 20 (274). Филология. Искусствоведение. Вып. 67. — С. 74—78.

3. Литвинова, Т. А. Языковые корреляты личностных особенностей автора письменного текста: алгоритм исследования / Т. А. Литвинова // В мире научных открытий. Сер.: Проблемы науки и образования. — 2012. — № 3. — С. 236—254.

4. Литвинова, Т. А. Возможности анализа дейк-тических единиц для установления характеристик автора письменного текста / Т. А. Литвинова // Коммуникативные аспекты современной лингвистики и лингводидакти-ки: сб. ст. по материалам междунар. конф. / ВолГУ; Вол-ГСПУ. — Волгоград, 2012. — С. 232—238.

5. Литвинова, Т. А. Установление характеристик (профилирование) автора письменного текста / Т. А. Литвинова // Филологические науки. Вопросы теории и практики. — 2012. — № 2 (13). — C. 90—94.

6. TAT: An Author Profiling Tool with Application to Arabic Emails / D. Estival [et al.] // Proceedings of the Australasian Language Technology Workshop. — 2007. — Р. 21—30.

7. Automatically Profiling the Author of an Anonymous Text / Argamon Sh. [et al.] // Communications of the ACM. — 2009. — Vol. 52, Issue 2. — Р. 119—123.

References

1. Zagorovskaja. O. V. Ehlektronnyjj korpus student-cheskikh ehsse na russkom jazyke i ego vozmozhnosti dlja sovremennykh gumanitarnykh issledovanijj / O. V. Zagorovskaja, T. A. Litvinova, O. A. Litvinova // Mir nauki, kul'tury i obrazovanija. — 2012. — № 3. — S. 387—389.

2. Litvinova, T. A. Lingvisticheskie osnovy neidentifikacionnojj sudebno-avtorovedcheskojj ehkspertizy / T. A. Litvinova // Vestnik Cheljabinskogo gos. un-ta. Ser.: Filologija. Iskusstvovedenie. — 2012. — № 20 (274). Filologija. Iskusstvovedenie. Vyp. 67. — S. 74—78.

3. Litvinova, T. A. Jazykovye korreljaty lichnostnykh

osobennostejj avtora pis'mennogo teksta: algoritm

issledovanija / T. A. Litvinova // V mire nauchnykh otkrytijj. Ser.: Problemy nauki i obrazovanija. — 2012. — № 3. — S. 236—254.

4. Litvinova, T. A. Vozmozhnosti analiza dejjkticheskikh edinic dlja ustanovlenija kharakteristik avtora pis'mennogo teksta / T. A. Litvinova // Kommunikativnye aspekty sovremennojj lingvistiki i lingvodidaktiki: sb. st. po materialam mezhdunar. konf. / VolGU; VolGSPU. — Volgograd, 2012. — S. 232—238.

5. Litvinova, T. A. Ustanovlenie kharakteristik (profilirovanie) avtora pis'mennogo teksta / T. A. Litvinova // Filologicheskie nauki. Voprosy teorii i praktiki. — 2012. — № 2 (13). — C. 90—94.

6. TAT: An Author Profiling Tool with Application to Arabic Emails / D. Estival [et al.] // Proceedings of the Australasian Language Technology Workshop. — 2007. — P. 21—30.

7. Automatically Profiling the Author of an Anonymous Text / Argamon Sh. [et al.] // Communications of the ACM. — 2009. — Vol. 52, Issue 2. — P. 119—123.

PROFILING THE AUTHOR OF A TEXT AS ONE OF STRATEGIC DIRECTIONS OF RESEARCH2

^ А. Litvinova

PhD in Philology, Voronezh State Pedagogical University, e-mail: tanjalitvinova@rambler.ru N. N. Lantyukhova

PhD student, Voronezh Institute of State Fire Service of EMERCOM of Russia, e-mail: lnn81@mail.ru Ye. S. Ryzhkova

PhD student, Voronezh State Pedagogical University, e-mail: ryzhkowa.katerina@yandex.ru I. S. Shevchenko

PhD student, Voronezh State Pedagogical University, e-mail: lirishechka@mail.ru

The authors try to solve the problem of profiling the authors of anonymous text as one of strategic research areas and describe the stages of solution of the problem. Special attention is paid to the development of the program complex which may be used, in particular, as an additional tools for psychological profiling of people which are going to join up in the EMERCOM of Russia.

Keywords: language personality; psycholinguistics; corpus linguistics; personality; speaking activity; mathematical linguistics.

2 Авторы выражают глубокую признательность Российскому фонду фундаментальных исследований (проект 13-06-00016 «Моделирование личности автора письменного текста»), Российскому гуманитарному научному фонду (проект 13-14-36001 «Речевой портрет воронежских студентов (на материале электронного корпуса текстов "Россия и мир глазами воронежских студентов")» за финансовую поддержку исследований.

i Надоели баннеры? Вы всегда можете отключить рекламу.