Т.Н. Романченко
МЕТОДЫ АТРИБУЦИИ В АВТОРОВЕДЧЕСКОЙ ЭКСПЕРТИЗЕ
В статье рассматриваются методы атрибуции текста по мере их развития с точки зрения возможностей автоматизации их применения в автороведческой экспертизе. Приводятся соответствующие программные комплексы.
Ключевые слова: письменная речь, идентификация, атрибуция, количественные методы, автороведческая экспертиза, программные комплексы.
T.N. Romanchenko
METHODS OF ATTRIBUTION IN AUTHOR RELATION TEXT EXPERTISE
The article considers the methods of attribution of text on the extent of their development from the point of view of the possibilities of automation of their application in in author relation text expertise and the relevant software complexes.
Keywords: written speech, identification, attribution, quantitative methods, author relation text expertise, software complexes.
Развитие информационного общества вносит серьезные изменения в сферу материальных отношений и средств коммуникации. Распространение различных видов интеллектуальной собственности, стремительное развитие электронных средств коммуникации влечет за собой появление судебных дел по защите авторских и смежных прав, защите чести, достоинства граждан, защите прав на товарный знак и т. д., в ходе которых назначается автороведческая экспертиза. Объектами автороведческих экспертиз становятся не только обычные тексты, но и тексты СМИ, Web-коммуникаций, а также тексты на языках программирования. Разнообразие объектов и возрастающая трудоемкость производства автороведческих экспертиз требуют проведения научных исследований возможностей их автоматизации.
Предметом автороведческой экспертизы является установление фактических данных, подтверждающих или опровергающих соответствие характеристик исследуемых текстов индивидуальным письменно-речевым навыкам конкретного автора, а одна из задач состоит в установлении автора текста или факта составления двух и более текстов одним лицом. В основе автороведческой экспертизы лежит система научных знаний об условиях и закономерностях речевого поведения человека, определяющих индивидуальность письменной речи, ее динамическую устойчивость и вариативность.
Под письменной речью в современной науке понимается комплекс явлений, связанных с письменным обменом информацией посредством языка, или деятельность человека, опосредованная системой графических языковых знаков. Письменная речь характеризует навыки речи и мышления человека, которые являются приобретенными свойствами личности. Возможность установления автора текста основывается на индивидуальности и устойчивости речемысли-тельных навыков. В криминалистике идентификационные признаки письменной
© Романченко Татьяна Николаевна, 2013
Кандидат педагогических наук, доцент кафедры информатики (Саратовская государственная юридическая академия); e-mail: tat.romа[email protected]
речи делятся на общие и частные. В основе классификации лежат количественные и качественные критерии меры владения человеком языковыми навыками. Общие признаки языкового навыка отображают степень развития грамматических, лексико-фразеологических и стилистических навыков, частные признаки — особенности структуры языкового навыка, проявляющиеся в устойчивых нарушениях правильности речи.
Общие признаки письменной речи включают следующие характеристики: 1) уровень владения письменной речью; 2) степень развития грамматических навыков; 3) степень развития стилистических навыков; 4) особенности навыков использования языковых средств (преобладание языковых средств определенного стиля — научного, разговорного, эпистолярного, публицистического, официально-делового; длина предложений, наличие абзацев; преобладающие типы предложений (простые, сложные); преобладающий характер синтаксической связи (союзная, бессоюзная); обособления; фразеологические средства; 5) особенности навыков архитектоники изложения; 6) лексические навыки и объем словарного запаса1.
При решении идентификационных задач автороведческой экспертизы проводится раздельный анализ исследуемого текста и образцов письменной речи проверяемого лица; выявляются совпадающие и различающиеся общие и частные признаки языковых навыков, отобразившиеся в исследуемом тексте и образцах. К образцам письменной речи предъявляются следующие требования: 1) соответствие исследуемому тексту по языку изложения, времени выполнения, стилю письменной речи, адресату и характеру речевого общения с ним, состоянию автора; 2) разнообразие по тематике (с целью идентификации лексических ш и стилистических признаков); 3) наличие документов на тему, близкую по со- н держанию к исследуемому документу. Число образцов определяется, исходя из С
а
объема исследуемого текста. Общепризнанно, что объем сравнительного материа- т
о
ла должен превышать объем исследуемого материала, как минимум, в 10-15 раз, к
о
а минимальный объем исследуемого текста должен быть не менее 500 слов. о'
В процессе исследования текста эксперты сталкиваются со значительными | трудностями выявления и оценки существенных идентификационных призна- |
ков письменной речи. Развитие информационных технологий усложняет реше- н
о
ние задач идентификации. Например, такие признаки печатных текстов, как Ю уровень владения письменной речью, особенности архитектоники изложения, и существенно меняют свои характеристики в связи с подготовкой их в текстовых с
к
редакторах, где существуют средства автоматической проверки правописании и а другие сервисные возможности. Необходимо уточнение характеристик основных Л свойств современной письменной речи с точки зрения криминалистической зна- | чимости и уменьшения доли субъективного фактора при заключении эксперти- • зы. Все более актуальной становится потребность использования программных 29 средств при производстве автороведческой экспертизы.
В.В. Виноградов2 при определении авторства (атрибуции) текста выделяет 3 11 факторов, среди которых 6 объективных, но большинство из них плохо формализуемы. Одним из таких факторов, как указывает ученый, является лингво-стилистический. Именно к определению количественных характеристик этого фактора при атрибуции текста обращаются исследователи.
Идеи по применению количественных методов атрибуции были выдвинуты в XIX в. Уже в то время при анализе текста предпринимались вычисления сред- 229
ней длины слов в произведениях автора; количества повторений одного слова; частоты употреблений определенных слов; распределения в тексте частот слов различной длины; длины предложений и даже была выдвинута идея о частотности цветообозначений. Названные вычисления применялись при анализе и сопоставлении текстов одного жанра различных авторов, при сравнении текстов одного автора в различные периоды его жизни (хронологическое сравнение текстов автора); предпринимались и попытки статистического сравнения текстов разных жанров и далеко удаленных хронологически (сравнивались тексты Платона и Гете). В целом работ по определению количественных характеристик текстов было немного и они не сформировались в систему. Хотя авторы и относили их к стилистическим исследованиям, но объективную характеристику стиля дать не могли.
В XX в. первым к статистическим методам атрибуции текстов обратился Н.А. Морозов3. Именно он определил ряд положений, которые используются при атрибуции. Среди них положения об устойчивости стиля речи и стиля мышления, и о том, что стиль речи определяется на подсознательном уровне употреблением служебных слов (союзов, предлогов, вводных слов, наречий, сокращений, отчасти местоимений).
В период до 70-х гг. XX в. различные авторы, признавая за стилем вероятностные характеристики, пытались решать проблему атрибуции на основе статистических методов: в качестве характеристик стиля ими были предложены соотношения различных частей речи в тексте (глагол-прилагательное); разнообразие словаря используемых слов; распределение длины предложений. а После 70-х гг. XX в. количественные методы получили новое развитие в
? лингвистических исследованиях в связи с появлением компьютеров. Появилась а. возможность проведения объемных и сложных статистических вычислений по лингвистическим данным. Исследование атрибуции с применением матема-I тических методов предпринималось на графематическом, морфологическом,
1 синтаксическом уровнях языка и комбинациях уровней.
| Д.В. Хмелёв4 предложил метод атрибуции, основанный на формальной ма-
| тематической модели последовательности букв текста как реализации цепи | Маркова. Он показал, что частоты употребления пар букв достаточно хорошо
2 характеризуют автора. По его данным, методика работает удовлетворительно ° при объеме образцов и объеме контрольного текста свыше 100 тыс. символов. « Он же высказал идею о возможности аналогичных расчетов применительно к
а. 5
| грамматическим классам, а также с соавторами5 пришел к подтвержденному
е расчетами выводу, что использование грамматической информации в решении
1 задачи атрибуции является достаточно эффективным и в некоторых отноше-
0
° ниях сопоставимым с использованием информации о встречаемости пар букв в ¿5 тексте. Идеи Д.В. Хмелёва получили развитие в работах И.О. Тарнопольской6,
1 которая в качестве количественной характеристики текста вводит т. н. коэф-I фициент диаграммной энтропии (КДЭ), который характеризуется следующими
особенностями: а) имеет разные значения для текстов разных авторов; б) его значения «стабилизируются» для разных авторов при разных объемах текста, что позволяет по значению коэффициента и объему текста при достижении «стабилизации» с довольно высокой точностью определить автора. Объем текста колеблется от 12000 до 17000 знаков; вкрапление чужого текста до 3000 знаков 230 не искажает значение КДЭ.
Методика атрибуции текстов на основе анализа частот парной встречаемости грамматических классов слов и применения элементов теории графов представлена в работе Л.И. Бородкина7, причем грамматические классы не ограничены русским языком. Однако методика оказалась довольно трудоемкой, поскольку на этапе предварительной перекодировки текста в последовательность кодов грамматических классов работа выполнялась вручную. Трудоемким был и заключительный этап — сравнение данных с использованием графов. По данной методике атрибуция текстов проводилась и другими авторами, причем анализ контекста, частот встречаемости парных последовательных частей речи и частотных распределений (слов по длине, предложений по числу слов, слов по частоте, трехбуквенных слов по частоте) выполнялся с помощью специально разработанной программы анализа статистических особенностей текстов "Historical Text Analyzer"8. Разбивка текста и выставление помет о частях речи в программе осуществлялась с использованием возможности просмотра словарей.
Вышеназванные работы исследуют характеристики графемного и (условно) синтаксического уровня языка как признаки стиля, если связи грамматических классов можно отнести к синтаксису. Исследованию синтаксиса текста, с точки зрения формализации его описания, посвящены работы И.П. Севбо9, которая разработала графический метод представления синтаксических структур в виде деревьев зависимостей и для статистического исследования полученных графов предложила семь «диагностических параметров», и Г.Я. Мартыненко10, который ввел понятия «скобочная запись для отображения синтаксической структуры предложения» (далее получившей название «деревья составляющих») и «меры сложности». Авторы внесли весомый вклад в развитие автоматизации исследо- ш вания естественного языка, но введенные ими характеристики не могут исполь- н зоваться при атрибуции текста. Основываясь на данных работах, Н.Д. Москин11 С
а
разработал язык теоретико-графовой разметки текстов и алгоритмы поиска т
о
закономерностей в текстах фольклорного жанра. В результате исследований к
о
обозначенных авторов появилась возможность идентификации близких по син- о' таксической структуре предложений, но «среднюю» структуру предложений | текста как характеристику стиля определить не удалось. в
Обработка синтаксических структур с использованием графов, несомненно, нн
о
являясь перспективным направлением автоматической обработки текста, под- Ю толкнула ученых обратиться к теории распознавания образов. Первым идею и ее применения при атрибуции текста выдвинул М.А. Марусенко12, который, с
к
рассматривая стиль как многомерное явление, определил его как набор свойств а (параметров), характеризующих состав, способы объединения и статистико- ! вероятностные закономерности употребления речевых средств. Среди набора | параметров текста по предложенной им методике выбираются информативные • параметры, по которым можно идентифицировать авторов с высокой точностью. 29 В рамках рассмотрения стиля как многомерного иерархического образования представляет интерес работа А.С. Романова, разработавшего методику атрибуции 3 на основе метода нейронных сетей и опорных векторов и реализовавшего ее в программном комплексе «Авторовед»13.
Рассмотрение методов атрибуции показывает, что идентификация автора текста с применением количественных методов носит вероятностно-статистический характер, представляет собой многомерную характеристику. Высокую точность дают методы идентификации на графематическом уровне (биграмы буквенных 231
пар), сочетании графематики и морфологии (на уровне статистики служебных слов и частотности буквенных триграм) и сочетании графематического и синтаксического уровней (биграммы частей речи, средняя длина предложений) анализа текста. Методы идентификации при рассмотрении морфологического уровня языка дают невысокую точность.
На сегодня количественные методы атрибуции текста включают методы вероятностно-статистического анализа (линейного и многомерного статистического анализа; марковские цепи; энтропийный подход; дисперсионный анализ, кластерный анализ, комбинированные методы) и методы машинного обучения (нейронные сети, метод опорных векторов, генетические алгоритмы). В них используются методы теории вероятностей, статистического анализа, теории графов, теории распознавания образов и теории принятия решений, что говорит о необходимости подготовки лингвистов с высоким уровнем знаний по математике.
В рамках данной статьи мы не смогли уделить должного внимания всем разработкам в области атрибуции текста, поэтому информацию о программных средствах, используемых при атрибуции художественных текстов, приводим в виде таблицы.
Программные средства идентификации авторства*
Название Авторы Необходимый объем текста Точность
Лингвоанализатор Д.В. Хмелев 40000-100000 знаков 0,85-0,98
Атрибутор А.А. Поликарпов от 20000 знаков нет данных
Лингвистический
анализатор А.Львов 10000 слов 0,84-0,98
Стилеанализатор О.Г. Шевелев 30000-40000 знаков 0,85-0,98
Авторовед А.С.Романов 20000-25000 знаков 0,95-0,98
* Таблица сост. по: Хмелев Д.А. Лингвоанализатор. URL: http://www.rusf.ru/books/analysis/ (дата обращения: 26.11.2012); ПоликарповАА. Атрибутор. URL: http://www.textology.ru/web.htm (дата обращения: 26.11.2012); Львов А. Лингвистический анализатор. URL: http://fantlab.ru/article374 (дата обращения: 26.11.2012).
Данные таблицы показывают, что по требованиям к размеру образцов текстов приведенные программы не могут использоваться при производстве автороведче-ских экспертиз. Необходимы дальнейшие исследования филологов, психологов, лингвистов, математиков в направлении комплексных методик на основе малых выборок, применения методов количественного анализа сложных систем на основании теории распознавания образов и принятия решений к задаче атрибуции, особенностей идентификационных признаков текстов Web-коммуникаций и текстов дискурса. Для юридической науки актуальным становится исследование задачи идентификации при производстве автороведческих экспертиз в аспекте распространения новых видов текстов.
1 См., например: Грузкова В.Г. и др. Судебно-почерковедческая экспертиза. Ч. 2. URL: http://www.pravo. vuzlib.org/book_z1985_page_35.html (дата обращения: 26.11.2012).
2 См.: Виноградов В.В. Проблема авторства и теория стилей. М., 1961.
3 См.: Морозов Н.А. Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или иного известного автора. Стилеметрический этюд // Известия отделения русского языка и словесности Императорской Академии наук. 1915. Т. XX, кн. 4.
Е.А. Новикова • Текущий контроль уровня сформированности компетенций в области информатики
4 См.: Хмелёв Д.В. Распознавание автора текста с использованием цепей А.А. Маркова // Вестник МГУ. Сер. 9, Филология. 2000. № 2. С. 115-126.
5 См.: Кукушкина О.В., Поликарпов А.А., Хмелёв Д.В. Определение авторства текста с использованием буквенной и грамматической информации // Проблемы передачи информации. 2001. Т. 37. Вып. 2. С. 96-108.
6 См.: Тарнопольская И.О. Диаграммная энтропия текста и атрибуция анонимных текстов: результаты тестирования методики // Информационный бюллетень ассоциации «История и компьютер». М., 1998. № 23. С. 66-68.
7 См.: Бородкин Л.И. Математические методы и компьютер в задачах атрибуции текстов // От Нестора до Фонвизина. Новые методы определения авторства / под ред. Л.В. Милова. М., 1994.
8 См.: Осиновский Д.Э., Ровный А.С., Новицкий Д.В. Компьютеризованный текстологический анализ исторических документов: возможности программы НТА // Информационный бюллетень Ассоциации «История и компьютер». М., 1998. № 22.
9 См.: Севбо И.П. Графическое представление синтаксических структур и стилистическая диагностика. Киев, 1981.
10 См.: Мартыненко Г.Я. Многомерный синтаксический анализ художественной прозы // Структурная и прикладная лингвистика. Л., 1983. Вып. 2. С. 58-72.
11 См.: Москин Н.Д. Теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация: автореф. дис. ... канд. техн. наук. Петрозаводск, 2006.
12 См.: Марусенко М.А. Атрибуция анонимных и псевдонимных литературных произведений методами распознавания образов. Л., 1990.
13 См.: Романов А.С. Методика и программный комплекс для идентификации неизвестного текста: автореф. дис. .канд. техн. наук. Томск, 2010.
Е.А. Новикова
ТЕКУЩИЙ КОНТРОЛЬ УРОВНЯ СФОРМИРОВАННОСТИ КОМПЕТЕНЦИЙ В ОБЛАСТИ ИНФОРМАТИКИ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
В статье исследуются способы диагностирования уровня сформированности компетенций студентов; анализируется состав компетенции. Рассматриваются методы оценивания уровня сформированности каждого из элементов компетенции при текущем контроле обу-ченности.
Ключевые слова: компетенция, текущий контроль, студент, уровень сформированности. E.A. Novikova
THE CURRENT CONTROL OF A LEVEL OF FORMATION OF THE COMPETENCE OVER COMPUTER SCIENCE AND INFORMATION TECHNOLOGIES
The article is devoted to the study of ways of diagnosing of a level of formation of the competence students. The structure of the competence is analyzed. The author examines methods of check of a level of formation of each element of the competence at the current control of knowledges.
Keywords: competence, current control, student, a level of formation.
Контроль — это обязательный компонент процесса обучения, который, обеспечивая обратную связь между преподавателем и студентом, позволяет корректировать и регулировать образовательный процесс. Проблемы контролирования и оценивания результатов обучения на всех этапах развития педагогической науки имели острый дискуссионный характер и остаются таковыми по сей день. Споры
© Новикова Елена Анатольевна, 2013
Старший преподаватель кафедры информатики (Саратовская государственная юридическая академия); e-mail: [email protected]