О ДВУХ ПОДХОДАХ К ИДЕНТИФИКАЦИОННОМУ МОДЕЛИРОВАНИЮ ТЕКСТА
Г.В. Напреенко
Ключевые слова: идентификация текста, идентификационное моделирование текста, универсальный подход к идентификации текста, специально-ориентированный подход к идентификации текста, идентификационная экспертиза.
Keywords: identification of a text, identification modeling of a text, a universal approach to the identification of a text, specially oriented approach to the identification of a text, identification expertise.
1. Постановка проблемы подходов к идентификационному моделированию текста
Задачи определения авторства текста и идентификации текстов друг другу возникают перед учеными достаточно часто в современной лингвистике, хотя являются давними задачами и в других научных дисциплинах (например, в литературоведении, философии и криминалистике). Объектами лингвистической идентификации могут быть: а) текст безотносительно к личности автора; б) текст как воплощенная языковая личность (персонотекст); в) собственно языковая личность.
Проблемы идентификации персонотекста и ЯЛ (здесь и далее -языковая личность) решаются в рамках лингвоперсонологии. Линг-воперсонология представляет собой научную дисциплину, которая рассматривает систему знаний о закономерностях речевого поведения человека, зафиксированных в его результатах - речевых произведениях разного типа и прежде всего в тексте, понимаемом как персонотекст.
Задачи идентификации персонотекста и ЯЛ важны для построения общей теории лингвоперсонологии и для ее прикладных отраслей - в частности, для идентификационной лингвистической экспертизы, необходимой для случаев, в которых нет возможности опереться на почерк или качественную фонограмму идентифицируемого текста. Отсутствие четких методов проведения идентификационной экспертизы, как отмечают многие исследователи (например, [Галяшина, 2006; Голев, 2002] и др.), ослабляет надежность ее результатов. В настоящее время идентификационная экспертиза на основе содержательных ха-
рактеристик текста чаще всего строится по принципу выделения грамматических или семантико-стилистических особенностей с дальнейшим сравнением этих особенностей и установлением принадлежности текстов одному или разным авторам. Для каждого текста или группы текстов всякий раз формируется свой набор специфических признаков - параметров идентификации. Идентификационное исследование такого рода носит штучный характер и может быть названо этюдным.
Таким образом, научная проблема, на решение которой направлено исследование, заключается в постановке и решении следующих задач: 1) необходимость преодоления субъективности в исследованиях идентификационного характера, в связи с чем - возможность создания универсального алгоритма идентификации текста, который позволил бы от «штучного» принципа и ручной работы перейти к «конвейерному» принципу, то есть более универсальному; 2) определение условий, при которых «субъективный» или «универсальный» метод является более или менее предпочтительным.
2. Оппозиция специального и универсального подходов к идентификационному моделированию текста
В современных исследованиях, предпринятых с целью совершенствования лингвистической идентификационной экспертизы, выделяются задачи, направленные на решение проблемы достоверности методов идентификации: а) необходимость преодоления субъективного характера большинства методов идентификации текстов с целью их объективизации, б) необходимость и возможность создания универсального метода идентификации, в) выявление критериев отбора количественных параметров идентификации и в итоге - создание автоматизированных методов исследования.
Экспертная деятельность как прикладная отрасль лингвистики испытывает потребность в получении объективных результатов исследования, в сведении к минимуму возможности принятия необъективных решений. Один из возможных вариантов достижения этой цели -разработка универсальных схем и образцов экспертизы. В связи с этим наблюдается повышенный интерес к формализованным методам анализа текстовой информации на основе слабо контролируемых человеком характеристик текста, которые, в отличие от традиционных методов установления авторства, претендуют на большую объективность результатов. Как следствие этого, выделим некоторые существующие разработки специальных и универсальных методов идентификационных исследований.
Специальные методы идентификации представляют собой интуитивные исследования по типу портретных очерков (этюдов), в ко-
торых каждая ситуация стимулирует применение методик, вытекающих из специфических возможностей идентифицируемых текстов. Этот принцип лежит в основе лингвистической экспертизы Н.Д. Голева. В результате использования специального метода идентификации анализ и сравнение текстов в нормативном аспекте позволяют «реконструировать образ автора исследуемого текста и отнести языковую личность, стоящую за ним, к определенному ментально-языковому и психо-языковому типу» [Голев, 2010]. На сходной основе строится судебная экспертиза Л.Г. Ким [Ким, 2014]. В исследовании Л.Г. Ким на основе речевого жанра обращения в официальную инстанцию применен метод реконструкции типа ЯЛ по особенностям лексического, пунктуационно-синтаксического, жанрово-стилистического анализа текстов, благодаря чему осуществляется идентификация спорных текстов по принадлежности разным типам ЯЛ: эмоциональному или рациональному. В экспертизе Н.А. Кузьминой [Кузьмина, 2007] также используются сравнительный содержательно-языковой подход к спорным текстам, выявляются идентифицирующие семантические маркеры и т.д.
На заре становления идентификационной лингвистики разрабатывались квантитативные методы установления авторства текста, которые позволяли анализировать, прежде всего, специфические особенности текста. А.А. Марков (1913 год) предложил использовать статистический анализ по достоверно установленным текстам автора, результатом которого является оценка частоты появления отдельных слов. Н.А. Морозов [Морозов, 1915] использовал математический аппарат для анализа частоты употребления служебных слов или распорядительных частиц (по терминологии Н.А. Морозова), так как они не связаны с темой и содержанием текста, а потому характеризуют идио-стиль автора. Современные исследователи продолжают развивать работы предшественников, применяя формализованные методы для анализа специфических особенностей текста. А.В. Морозов в авторовед-ческой экспертизе текста договора [Морозов, 2004] объединяет нормативно-стилистический и статистический метод анализа текстов; А.Н. Баранов в экспертизе художественного текста [Баранов, 2001] использует методику количественного анализа квазисинонимичных лексем; Ю.В. Тамбовцев, анализируя тексты М.М. Бахтина, а также художественную, политическую, историческую и научную прозу других авторов [Тамбовцев, 2011], применяет метод «Хи-квадрат» относительно частоты употребления непроизводных предлогов и др. Полагаем, что вышеупомянутые исследователи в своих работах, удачно сочетая специальный и квантитативный методы исследования, сделали су-
щественный шаг в преодолении субъективности путем попытки формализации идентифицируемых параметров.
Универсальные методы идентификации текста и ЯЛ, во-первых, ориентированы на идентификацию спорных текстов разного стиля и объема, во-вторых, применяют квантитативный анализ текстов, в-третьих, предполагают анализ преимущественного всего текста или его уровней без выявления специфических особенностей отдельных элементов. К работам, посвященным поиску универсальных признаков идентификации текста и ЯЛ, можно отнести следующие: статья [Резанова, Романов, Мещеряков, 2013], в которой применяются математические методы исследования при анализе лексики, грамматики, синтаксиса; статья [Хоменко, 2014], совмещающая анализ ЯЛ и стилометри-ческое исследование текста; статья [Родионова, 2008], в которой применяются статистические методы при анализе синтаксического уровня; а также исследования других авторов: [Захаров, 2007; Романов, 2008, 2009; Лебедев, Сухопаров, 2008; Суркова, 2004; Павлов, Тихомирова, 2011] и т.д.
3. Содержание оппозиции специально-ориентированного и универсального подходов к идентификации текста в данном исследовании
В данной статье мы представляем два подхода к идентификационному моделированию текста, которые составляют обозначенную оппозицию. Моделирование текста в каждом подходе предполагает этап интерсемиотического перевода, то есть интерпретации вербальных знаков текста невербальными знаками, такими как ранг и частота употребления слова. В универсальном подходе идентификатором текста является параметр ранга, в специально-ориентированном - параметр частотности анализируемых элементов.
Оппозиция выглядит следующим образом.
С одной стороны, специально-ориентированный подход - вариант идентификации текста на базе слов, связанных синонимическими отношениями. В данной установке реализуется меньшая степень формализации, в отличие от универсального подхода, в котором слова не обнаруживают синонимической связи. Основной материал трансформируется в специфирующий путем частотностного ранжирования. Различное ранжирование текстов и конкретно синонимов в тексте обладает специфирующим и идентификационным потенциалом.
С другой стороны, универсальный подход - вариант идентификации на базе квантитативного анализа слов с высокой частотностью. Для этого подхода актуален анализ лексического материала без спецификации - любого и всего. Формализация и универсализм реализуются
в представлении слова как знака (без обращения к его значению и смыслу), использовании каждого знака в качестве параметра-идентификатора и исключении различия омонимов, многозначных слов.
С точки зрения анализируемого лексического уровня данные подходы разграничиваются следующим образом:
1) специально-ориентированный - специально-лексический или синонимический - предполагает выявление синонимов для моделирования текста;
2) универсальный - общелексический - предполагает анализ каждого слова в словнике.
Материалом нашего исследования явились четыре фрагмента Интернет-дневников, средний объем которых составляет 20 тысяч словоупотреблений. В рамках идентификационной лингвистики решается задача - идентифицировать тексты друг другу по их принадлежности одному автору.
Идентификационное моделирование теста в универсальном и специально-ориентированном подходах включает несколько этапов анализа текста. Первый этап совпадает в двух подходах и заключается в том, что лексический уровень текстов автоматически переводится в формат словников, содержащих ранг и абсолютную частоту словоупотребления (производится интерсемиотический перевод). Второй этап заключается во введении словников в частотно-сопоставительные таблицы, позволяющие сопоставлять лексико-квантитативные параметры в разных текстах. В специально-ориентированном подходе частотно-сопоставительная таблица содержит синонимический ряд, напротив каждого синонима указана абсолютная частота его употребления в каждом тексте. В универсальном подходе - порядок слов с указанием ранга в анализируемых парах текстов. Третий этап моделирования текста в разных подходах существенно отличается.
4. Третий этап моделирования в рамках специально-ориентированного подхода1
В основе данного подхода лежит представление о выборе ЯЛ преимущественно одного синонима из существующего ряда, указанного в словаре синонимов русского языка2. При составлении синоними-
1 Более подробно специально-ориентированный подход к идентификационному моделированию представлен в нашей статье: [Напреенко, 2011].
2 Одной из многих работ, посвященных специальным методам идентификации, является экспертиза А.Н. Баранова [Баранов, 2001], в которой реализуется квантитативный анализ квазисинонимов служебных частей речи и модальных слов. Наша работа модифицирует метод в двух аспектах. Во-первых, материалом исследования является Интернет-дневник
ческих рядов по текстам мы идем вслед за «широким» подходом А.П. Евгеньевой1 к пониманию синонимии. Кроме того, важным является формализованный подход, при котором исключается различие омонимов, многозначных слов, а также анализ контекстных синонимов.
Частотно-сопоставительные ряды в рамках данного специального исследования содержат синонимические ряды по текстам в рамках таких частей речи, как наречие, союзы и союзные слова, частицы и т. п., и частоту словоупотребления. Подобные слова наиболее полно отражают психо-речевую организацию ЯЛ. Если характеристики двух текстов близки друг другу и противостоят двум другим текстам по этим же показателям, то их можно идентифицировать друг с другом.
Сопоставление слов в рамках частотно-сопоставительной таблицы осуществляется:
а) «по вертикали» - предполагает анализ предпочтения ЯЛ в выборе определенного слова в рамках одного словника;
б) «по горизонтали» - предполагает сопоставление частоты употребления определенного слова разными ЯЛ в каждом словнике.
Таблица 1. Идентификационное моделирование текстов в рамках специально-ориентированного подхода.
А Б В Г
абсол. частота относ. частота абсол. частота относ. частота абсол. частота относ. частота абсол. частота относ. частота
о в 545 0,55% 585 0,62% 570 0,56% 421 0,42%
однако 41 0,04% 8 0,008% 64 0,06% 6 0,006%
как жанр естественной письменной речи (в экспертизе А.Н. Баранова материалом исследования явились художественные произведения). Во-вторых, анализ синонимов в нашем исследовании не предполагает определения значений синонимов и описания причин выбора того или иного слова.
1 Синонимы - «слова, выражающие одно и то же понятие, тождественные или близкие по своему значению, которые отличаются один от другого или оттенком значения, или стилистической окраской (сферой употребления) или одновременно обоими названными» [Евгеньева, 1975].
Таким образом, специально-ориентированный подход реализуется путем выделения в тексте специфических параметров (таких как ряд индивидуальных предпочтений в выборе употребления некоторых синонимов в своей речи) и интерпретации их путем формально -количественного моделирования, благодаря чему осуществляется идентификация текстов.
5. Третий этап моделирования в рамках универсального подхода1
В основе данного подхода лежит представление о том, что текст, построенный в ранговом отношении, отражает распределение ЯЛ слов в тексте. При сопоставлении текстов выявляется, насколько разнообразно ранжирование одного и того же слова в разных словниках. Различное ранжирование становится параметром идентификации текста.
Моделирование текстов предполагает два этапа анализа частотно-сопоставительных таблиц.
В рамках первого этапа предлагаем два способа моделирования, базирующихся на разном определении ранга:
1) Rг - ранг группы (десяти) слов;
2) R - ранг каждого слова.
За основу метода примем идеальное условие, как, например, «материальная точка» (идеальная модель) или «вакуум» (идеальное условие) в физике. Заключается оно в следующем: существует некоторое идеальное распределение, при котором
1) для Rг - у одного автора в разных текстах одно и то же слово преимущественно располагается в пределах одной группы или соседних группах (например, расположение одного слова в Rг=3 и в Rг=4 в разных текстах соответственно);
2) для R - у одного автора ранг слова совпадает в разных текстах, при этом допустимая максимальная разность - 10 рангов.
Несоблюдение перечисленных условий способствует разграничению текстов по написанию их разными ЯЛ, так как словники, принадлежащие разным ЯЛ, имеют разное ранжирование.
Рабочая формула для 1 способа
ДRг= R1г - Я2г, гдеДЯг - разность рангов групп лексем в 1-ом и 2-ом текстах частотно-сопоставительной таблицы,
Если ДЯг = 0, < 2, то есть слова находится в одной группе, или в соседних группах, то тексты написал один автор.
1 Более подробно универсальный подход к идентификационному моделированию представлен в нашей статье: [Напреенко, 2014].
Если ДЯг > 2, то есть слова находятся в разных десятках, то - разные авторы.
Рабочая формула для 2 способа ДО:
ДR= R1 - Я2, где ДЯ - разность рангов лексем 1-го и 2-го текстов,
Если ДЯ = 0; < 10, то есть слова находятся на одном ранге, либо разность ранга лексемы в разных текстах не более 10, то - автор один.
Если ДЯ > 10, разницу между рангами можно считать контрастной и, следовательно, разграничить тексты по написанию их разными авторами.
Пример идентификационного моделирования текста вторым способом (Я):
1) «как» AR= 6-4=2<10 ^ один автор;
2) «даже» AR=43-59=16>10 ^ разные авторы;
3) «у» AR= 8-13=5<10 ^ один автор.
Результатом моделирования является подсчет суммы лексем двух
типов (тип а - лексем, подтверждающих написание текстов одним автором, и тип б - лексем, подтверждающих написание текстов разными авторами); отражение распределения лексем двух типов относительно каждого текста в диаграммах. Затем обозначаются выводы по идентификационному моделированию текста.
Второй этап моделирования заключается в сопоставлении словников с частотным словарем русского языка как с «абсолютным» показателем распределения слов по частотности [Ляшевская, Шаров, 2009]. Наиболее частотные единицы русского языка содержатся в любом тексте в качестве высокочастотных. Выпадение их в словнике конкретного текста из этого статуса или, напротив, появление в списке высокочастотных единиц иных слов позволяет утверждать, что этот текст нетиповой. Если такая индивидуальность в распределении слова повторяется в разных текстах, то это также дает основания для их идентификации.
Так, универсальный подход реализуется путем формально-количественного анализа индивидуальных авторских предпочтений в употреблении высокочастотных слов, которые отражаются в ранжировании словника по тексту, и сопоставления словников с частотным словарем русского языка, позволяющим выявить степень приближенности словников к «абсолютному» (стандартному) показателю.
6. Заключение
Представленная работа позволила, во-первых, выявить оппозицию специальных и универсальных методов идентификации текста и ЯЛ, во-вторых, смоделировать некоторые закономерности лексико-квантитативной структуры текстов. Нам представляется, что наиболее
продуктивным в вопросах установления тождества объектов (текстов) является комплексный подход: на первом этапе - проведение формализованного, автоматизированного анализа, позволяющего диагностировать весь текст и отражать объективные данные ранжирования; на втором - «ручная» верифицирующая работа исследователя, позволяющая увидеть специфические особенности текста, не зримые машиной. Каждый из представленных методов, как видим, обладает рядом преимуществ. Однако именно формальный метод, названный нами универсальным или общелексическим, должен проводиться в качестве первого этапа, так как способен повысить достоверность результатов исследования. Во-первых, он обнаруживает количественную составляющую лексической наполненности текста, во-вторых, отражает бессознательный выбор автором текста определенной лексики, которую он предпочитает употреблять в своей речи, в-третьих, дает возможность проанализировать используемые автором слова, независимо от их принадлежности к той или иной части речи. Данные параметры подчинены требованию объективности результатов исследования идентификационного характера.
Литература
Баранов А.Н. Авторизация текста: пример экспертизы // Введение в прикладную лингвистику. М., 2001.
Голев Н.Д. Лингвистическое сравнительное и автороведческое исследование трех текстов // Юрислингвистика-10. Лингвоконфликтология и юриспруденция. Кемерово, Барнаул, 2010.
Голев Н.Д. От редактора: Актуальные проблемы юрислингвистической экспертизы // Юрислингвистика-3. Барнаул, 2002.
Галяшина Е.И., Приводнова Е.В. Автороведческая экспертиза в российском судопроизводстве // Lex Russica. 2006. N° 4.
Евгеньева А.П. Словарь синонимов. Л., 1975.
Захаров М.П. Автоматизация автороведческих исследований // Судебная экспертиза. 2007. № 4.
Ким Л.Г. Кто автор жалобы? // Юрислингвистика-13. Кемерово, 2014.
Кузьмина Н.А. Дело о шантаже и идентификации личности шантажиста // Юри-слингвистика-8. Кемерово-Барнаул, 2007.
Лебедев И.С., Сухопаро Е.А. Идентификация объектов для систем обработки текста // Вестник компьютерных и информационных технологий. 2008. № 8.
Лингвоперсонология и личностно-ориентированное обучение языку. Кемерово,
2009.
Ляшевская О.Н., Шаров С.А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М., 2009.
Морозов А.В. Автороведческая экспертиза текста договора // Юрислингвистика-5. Барнаул, 2004.
Морозов Н.А. Лингвистические спектры // Известия АН Отд. рус. яз. и словесности. 1915. Кн. 1-4. Т. XX.
Напреенко Г.В. Идентификация текста по его авторской принадлежности на лексическом уровне (формально-количественная модель) // Вестник Томского государственного университета. 2014. N° 379.
Напреенко Г.В. Интернет-дневники и проблема идентификации личности // Юри-слингвистика-11. Барнаул, 2011. № 11.
Павлов Ю.Н., Тихомирова Е.А. Оценка устойчивости во времени частотных словарей авторов в задачах идентификации текстов // Наука и образование. 2011. № 12.
Резанова З.И., Романов А.С., Мещеряков Р.В. О выборе признаков текста, релевантных в автороведческой экспертной деятельности // Вестник Томского гос. ун-та. Сер. Филология. 2013. № 6 (26).
Родионова Е.С. «Лингвистические методы атрибуции и датировки литературных произведений (К проблеме «Мольер - Корнель»)» СПб., 2008.
Романов А.С. Структура программного комплекса для исследования подходов к идентификации авторства текстов // Доклады Томского государственного университета систем управления и радиоэлектроники. 2008. Т. 2. № 1.
Суркова А.С. Разработка структурно-статистических методов и алгоритмов идентификации текста. Нижний Новгород, 2004.
Тамбовцев Ю.А. Кто написал тексты Бахтина, Волошинова и Медведева? // Вестник Омского университета. 2011. № 4.
Хоменко А.Ю. Алгоритм автоматизации идентификации автора письменного речевого произведения для судебного автороведения // Юрислингвистика-13. Кемерово, 2014.