Научная статья на тему 'ПЕРВЫЙ КРУГЛЫЙ СТОЛ ПО ПРАКТИКАМ И СТАНДАРТАМ СУДЕБНОГО АВТОРОВЕДЧЕСКОГО АНАЛИЗА (ОБЗОР 1)'

ПЕРВЫЙ КРУГЛЫЙ СТОЛ ПО ПРАКТИКАМ И СТАНДАРТАМ СУДЕБНОГО АВТОРОВЕДЧЕСКОГО АНАЛИЗА (ОБЗОР 1) Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
97
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КРУГЛЫЕ СТОЛЫ / СУДЕБНЫЙ АВТОРОВЕДЧЕСКИЙ АНАЛИЗ / ПРОФИЛИРОВАНИЕ АВТОРА / СТИЛЕМЕТРИЯ / КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА / ЯДЕРНЫЕ ПРИЗНАКИ СТИЛЯ / СУДЕБНАЯ ЛИНГВИСТИКА / СУДЕБНАЯ ЭКСПЕРТИЗА / ROUNDTABLE DISCUSSIONS / FORENSIC AUTHORSHIP ANALYSIS / AUTHOR PROFILING / STYLOMETRY / COMPUTER LINGUISTICS / CORE FEATURES OF A STYLE / FORENSIC LINGUISTICS / FORENSIC EXPERTISE

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Красса Сергей Иванович

Проводится обзор докладов Первого круглого стола по практикам и стандартам судебного автороведческого анализа, организованного Международной ассоциацией судебной лингвистики и Центром цифровых гуманитарных наук Манчестерского университета. Круглый стол проведен 15 мая 2019 года. Представлены доклады Евстафиоса Стамататоса из Эгейского университета «Автоматическая авторская атрибуция и компьютерная судебная экспертиза текста»; профессора Астонского университета Тима Гранта совместно с Никки Маклеод, доктором Нортумбрийского университета, «Значение теории в судебной автороведческой экспертизе»; Кжиштофа Креденса из Астонского университета совместно с Петром Рензиком «Крупномасштабная классификация автора: исследуя черный ящик»; Джека Грива, профессора лингвистики из Бирмингемского университета, «Изменения стиля и автороведческий анализ»; Эрики Голд, преподавателя судебной речи в университете Хаддерсфилд, «Коэффициент вероятности в науке о судебной речи. Текущая ситуация»; Штефана Эверта, профессора университета Эрглангена - Нюрнберга, «Статистическая значимость в литературной атрибуции авторства». В конце каждого доклада приводятся вопросы к выступающему и ответы на них. Отдельно приведены дискуссии после второго доклада, а также заключительная дискуссия. Планируется публикация нескольких обзорных статей по материалам круглого стола.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FIRST ROUNDTABLE ON PRACTICES AND STANDARDS IN FORENSIC AUTHORSHIP ANALYSIS (OVERVIEW 1)

The article provides an overview of the reports of the 1st Roundtable on Practices and Standards in Forensic Authorship Analysis. The roundtable was held by the International Association of Forensic Linguistics and the Centre for Digital Humanities at the University of Manchester on 15 May 2019. The reports of Efstathios Stamatatos from the Aegean University “Automatic authorship attribution and digital text forensics”, Professor Tim Grant from the University of Aston together with Nikki McLeod, Doctor of Northumbria University “The importance of theory in forensic authorship analysis”, Krzysztof Kredens from the University of Aston, together with Piotr Ręzik “Large - scale author classification - looking into the black box”, Jack Grieve, Professor of Linguistics at the University of Birmingham “Register variation and authorship analysis”, Erica Gold, lecturer in forensic science at Huddersfield University “Likelihood ratios in forensic speech science. The current state of play”, Stefan Evert, Professor at the University of Erglangen - Nuremberg “Statistical significance in literary authorship attribution” were presented at the roundtable. At the end of each report, questions to the speaker were asked and answers were given. There were separate discussions - after the second report and the closing discussion. Several overviews on the proceedings of the roundtable are planned for publication.

Текст научной работы на тему «ПЕРВЫЙ КРУГЛЫЙ СТОЛ ПО ПРАКТИКАМ И СТАНДАРТАМ СУДЕБНОГО АВТОРОВЕДЧЕСКОГО АНАЛИЗА (ОБЗОР 1)»

РАЗДЕЛ 5. РЕЦЕНЗИИ. ХРОНИКА

УДК 81'42

ББКШ105.51 ГСНТИ 16.21.27, 16.31.21 Код ВАК 10.02.19, 10.02.21

DOI 10.26170/pl20-06-19

С. И. Красса

Ставрополь, Россия

ORCID ID: 0000-0002-6699-2159 0

0 E-mail: [email protected].

Первый круглый стол по практикам и стандартам судебного автороведческого анализа (обзор 1)

АННОТАЦИЯ. Проводится обзор докладов Первого круглого стола по практикам и стандартам судебного автороведческого анализа, организованного Международной ассоциацией судебной лингвистики и Центром цифровых гуманитарных наук Манчестерского университета. Круглый стол проведен 15 мая 2019 года. Представлены доклады Евстафиоса Стамататоса из Эгейского университета «Автоматическая авторская атрибуция и компьютерная судебная экспертиза текста»; профессора Астонского университета Тима Гранта совместно с Никки Маклеод, доктором Нортумбрийского университета, «Значение теории в судебной автороведческой экспертизе»; Кжиштофа Креденса из Астонского университета совместно с Петром Рензиком «Крупномасштабная классификация автора: исследуя черный ящик»; Джека Грива, профессора лингвистики из Бирмингемского университета, «Изменения стиля и автороведческий анализ»; Эрики Голд, преподавателя судебной речи в университете Хаддерсфилд, «Коэффициент вероятности в науке о судебной речи. Текущая ситуация»; Штефана Эверта, профессора университета Эрглангена — Нюрнберга, «Статистическая значимость в литературной атрибуции авторства». В конце каждого доклада приводятся вопросы к выступающему и ответы на них. Отдельно приведены дискуссии после второго доклада, а также заключительная дискуссия. Планируется публикация нескольких обзорных статей по материалам круглого стола.

КЛЮЧЕВЫЕ СЛОВА: круглые столы; судебный автороведческий анализ; профилирование автора; стиле-метрия; компьютерная лингвистика; ядерные признаки стиля; судебная лингвистика; судебная экспертиза.

ТИП ПУБЛИКАЦИИ: рецензия.

ИНФОРМАЦИЯ ОБ АВТОРЕ: Красса Сергей Иванович, кандидат филологических наук, доцент, Ставрополь, Россия; e-mail: [email protected].

ДЛЯ ЦИТИРОВАНИЯ: Красса, С. И. Первый круглый стол по практикам и стандартам судебного автороведческого анализа (обзор 1) / С. И. Красса // Политическая лингвистика. — 2020. — № 6 (84). — С. 174-187. — DOI 10.26170/pl20-06-19.

ВВЕДЕНИЕ

ведения круглого стола предусматривал выступления докладчиков, ответы на вопросы, затем выступления и вопросы в режиме диалога. В целом круглый стол продлился более семи часов.

15 мая 2019 г. Международная ассоциация судебной лингвистики (International Association of Forensic Linguistics) и Центр цифровых гуманитарных наук (Centre for Digital Humanities) Манчестерского университета провели первый круглый стол по практикам и стандартам судебного автороведческого анализа [Forensic Authorship Analysis Round-table]. Его целью являлось продвижение судебной автороведческой экспертизы в направлении стандартизации применения, улучшения диалога между учеными различных направлений. Одной из наиболее значимых целей мероприятия было создание площадки для обсуждения и развития междисциплинарного сотрудничества, которое могло бы привести к формированию строгих методических и теоретических достижений в данной области. Трансляция круглого стола велась в видеохостинге YouTube [Forensic Linguistics Roundtable Event]. Порядок про-

Первым был заслушан доклад Евстафиоса Стамататоса (Efstathios Stamatatos) из Эгейского университета на тему «Автоматическая авторская атрибуция и компьютерная судебная экспертиза текста», специалиста по информатике (computer scientist). Он осветил проблемы введения в атрибуцию текста, атрибуции текста как доказательства в суде, кампании оценки методики в персональной сети (PAN), верификации авторства. По его мнению, атрибуция авторства предполагает ответы на следующие вопросы: 1) кем написан данный документ? 2) сколько возможных авторов? в связи с этим — список предполагаемых авторов закрытый или открытый? 3) есть ли другие документы, кото-

ОБЗОР ДОКЛАДОВ УЧАСТНИКОВ

© Красса С. И., 2020

рые относятся к каждому из возможных авторов? в связи с этим — сколько? какого объема эти документы, каковы их свойства? 4) какова тема документов? 5) каков жанр документов? От ответов на них зависит, будет ли определение авторства легкой или же достаточно сложной задачей.

Докладчик остановился на областях применения атрибуции текста. Это гуманитарные науки с фокусом на анонимные тексты, важные в научном и культурном планах; социальные сети (определение скрываемого авторства), кибербезопасность (проблемы аутентификации скомпрометированных ак-каунтов и незаконного доступа), судебная экспертиза (получение достоверных доказательств в уголовных делах, судебных спорах об авторском праве) и др.

В последнее время наблюдается бум публикаций (более сотни в год, по данным Scopus; за последнее десятилетие — более тысячи), и это только по проблемам установления авторства. В то же время отмечается значительная разобщенность исследований и ученых: публикуются специалисты по компьютерным наукам, судебной лингвистике, гуманитарным наукам, ученые в области математики и статистики, что ведет к отсутствию научной коммуникации в исследовательском сообществе. Работы по установлению авторства публикуются в журналах и обсуждаются на конференциях по проблемам искусственного интеллекта, информационного поиска, машинному обучению, компьютерной безопасности, криминалистике, распознаванию речи, компьютерной лингвистике и NLP (Natural Language Processing), литературоведению и филологии, что не позволяет специалистам осуществлять научную коммуникацию между собой по проблемам определения авторства. Кроме того, имеется значительная часть обособленных публикаций, которые можно обнаружить в медицинских интернет-ресурсах, по статической механике, теории сетей, проблемам старения и др., и это на самом деле странно, хотя тоже характеризует обсуждаемую предметную область.

В качестве примера докладчик предложил рассмотреть 6 твитов с целью выявления их авторства. Чтобы решить эту задачу, необходим следующий порядок действий:

1. Идентификация авторства: рассматривается список кандидатов в авторы и собираются образцы их текстов.

2. Верификация авторства: выделяется один автор для того, чтобы принять решение — принадлежат ли ему выделенные образцы текста или нет.

3.Кластеризация авторов: твиты группируются в соответствии с их стилистически сходными свойствами, позволяющими отнести их к тому или иному автору.

4. Протоколирование (diarisation) авторов: относится к более протяженным текстам с целью выявления того, сколько авторов работало над данным текстом и какой вклад внес каждый из них.

5. Профилирование автора: выявление профиля автора — мужчина это или женщина, молодой или старый и т. п.

В итоге исследования 3 твита принадлежали американскому психолингвисту Стивену Пинкеру, а 3 других — известному игроку в американский футбол.

Таким образом, очевидно, что некоторые характеристики автора отражаются в том языке, который он использует в твитах и текстах других жанров, которые производит.

Существует 4 вида факторов, влияющих на то, как мы прочитываем текст. Этот тема документа, тональность, если выражается положительное или отрицательное отношение к чему-либо, авторский стиль, а также жанр, который определяет форму и коммуникативные задачи. Это ортогональные факторы: мы можем выявить блок значимых характеристик и остановиться на них, в то время как факторы других блоков не будут оказывать влияния. Так, в случае примеров с твитами можно выделить значимость персонального стиля, сконцентрироваться на нем и не уделять внимания характеристикам тональности, жанра и теме.

Говоря о стилеметрии, докладчик отметил, что количественное измерение стиля более сложная процедура, чем анализ темы и тональности текста. Стиль подвержен влиянию как автора текста, так и его жанра. Числовые показатели в идеале должны быть стабильными: на протяжении всего текста; при изменении темы; при изменении жанра. Кроме того, они должны быть способны фиксировать информацию, неосознанно используемую автором во избежание действий, когда пытаются специально обмануть машину, выдать себя за другого и имитировать стилевые особенного другого автора. Таким образом, это весьма непросто — выявить факторы, которые зависят от автора текста, а не его жанра.

Е. Стамататос отмечает большое количество литературы о методах стилеметрии, среди которых можно выделить следующие виды в зависимости от того, на что направлен исследовательский фокус:

1. Тип информации (морфологический, синтаксический, семантический и др.).

2. Уровень анализа (буквенный, лексический, структурный).

3. Квантификация информации (низкая/высокая измеряемость, разреженная/интенсивная область).

4. Определение стилевых черт (ручное / с помощью компьютера).

5. Применяемость метода (общая / в определенной области).

Методы атрибуции могут быть общими для анализа текста или специально разработанными для авторской атрибуции. Они могут быть независимыми от предметной области или специфичными, например для определенных языков, жанров и т. д. Они могут быть воспроизводимыми, когда любой исследователь может ими воспользоваться, или невоспроизводимыми, когда, например, применяются специальные методы NLP, и только создатель этого метода может его использовать. Они также могут быть основанными на профиле автора или на примере — иными словами, характеризовать стиль автора или стиль документа.

Основной вопрос доклада: может ли быть использована атрибуция автора в качестве доказательства в суде? Может ли АА (атрибуция авторства) сократить число подозреваемых или объединить приемлемые для суда доказательства? АА уже используется в судах Великобритании: CUSUM (CUmulative SUM — кумулятивная сумма), несмотря на то, что этот метод подвергался резкой критике исследовательским сообществом ввиду его ненадежности. Естественно, следует иметь в виду, что не все юридические системы одинаковы: в одних подвергается проверке доверие к эксперту, тогда как в других — доверие к методу.

Еще одна серьезная проблема — объяс-нимость. Большинство методов АА не подлежит объяснимости с лингвистической точки зрения, поскольку мы говорим о квантитативном подходе, о многоаспектной репрезентации текста. И весьма непросто объяснить, как работает метод буквенных Ngram и глубокие нейросети. Объяснимость требует использования лингвистических терминов высокого уровня, подобных тем, которые используют эксперты-гуманитарии. Однако во многих случаях не получается с помощью лингвистических терминов объяснить механизм действия того или иного метода. Например, в случае с твитами приходится использовать такие термины, как изысканный стиль, богатый вокабуляр у Пинкера и разговорный стиль твитов футболиста, частое использование сокращений.

В объяснении авторского профиля используются такие характеристики, как «используют более релятивный язык (более частотное применение местоимений, глаго-

лов), тогда как мужчины используют более информативный (дескриптивный) язык (более частотное использование существительных и определителей, предлогов)».

Докладчик остановился на стандарте Дауберта — правилах относительно допустимости показаний эксперта в судах ряда штатов США, а также федеральных судах США. Стандарт Дауберта приобретает все большую популярность и рассматривает следующие вопросы:

1. Эмпирическая проверка: является ли теория и методика фальсифицируемой, опровергаемой и проверяемой?

2. Подвергалась ли она рецензированию в научном сообществе, есть ли публикации по данной теме?

3. Известен ли потенциальный уровень ошибки (степень погрешности)?

4. Существует ли и поддерживается ли стандарт ее функционирования?

5. В какой степени теория и методика является общепринятой в соответствующем научном сообществе?

Объяснимость не рассматривается, скорее, требуется степень погрешности. Мы должны разработать точный метод, и нас особо не беспокоит необходимость объяснения того, каким образом этот метод работает.

Докладчик сравнил степень погрешности разных методов, применяемых в криминалистике. Так, анализ ДНК показывает очень высокую степень надежности, и ошибки связаны скорее с человеческим фактором, а не с самим методом. Метод отпечатков пальцев показывает очень высокие результаты (около 90 %), однако при наличии шумов его точность падает до 60 %. В распознавании речи много факторов, которые влияют на эффективность данной технологии (продолжительность звучания образцов, их количество, наличие одного или нескольких каналов записи, время, прошедшее с момента взятия образцов голоса). Таким образом, эта технология может быть весьма эффективна в одних случаях и не столь эффективна в других.

Каков же уровень погрешности в атрибуции авторства? Это весьма непростой вопрос. Ряд факторов влияет на эффективность АА, который может быть или очень точным, или демонстрировать весьма низкую эффективность. К ним относятся:

1. Число возможных авторов. При их увеличении точность метода уменьшается.

2. Число образцов текстов. При их увеличении точность метода возрастает.

3. Дистрибуция образцов текстов среди авторов. Например, случаи моно- или политематического сценария, когда исследуются тексты (спорные и образцы) о политике, или

когда спорные тексты относятся к политике, тогда как образцы текстов — к обществу, мировым проблемам и другим. Во втором случае эффективность метода уменьшается.

4. Размер текста, соотносящийся с жанром.

5. «Возраст» стиля.

6. Репрезентативность корпуса образцов текстов. Например, имеются твиты одного авторы, но нет твитов другого автора, тогда как имеются его обзоры или научные статьи.

Таким образом, основная мысль выступления, подчеркнул докладчик, заключается в том, что необходимо понимание метода авторской атрибуции, но также необходимо понимание того, как он функционирует в различных условиях. Мы должны проводить систематические эмпирические проверки этого метода — и это важно в большей степени, чем фокусирование на его лингвистической объяснимости. Этот анализ должен быть продемонстрирован несколькими независимыми исследователями, поскольку создатели метода могут упустить некоторые доказательства, переоценить результативность метода.

До настоящего времени протестировано лишь очень небольшое число методов атрибуции авторства. Одним из таких методов является «снятие маски» (unmasking), который был предложен в 2007 году. Основная идея заключается в том, что рассматривается пара документов с целью определения, являются ли они текстами того же автора. Выделяются классификаторы простой байесовской сети (SBN — Simple Bayesian Network) для измерения различий в документах, затем удаляются наиболее важные характеристики, и процедура вновь повторяется. Если наблюдается уменьшение точности SBN-классификаторов, то это тексты одно и того же автора. Если наблюдается увеличение точности SBN-классификаторов, то это тексты разных авторов.

Создатели метода провели очень хорошую работу, чтобы протестировать его в различных условиях. Например, в данном случае они осуществили проверки в условиях политематического сценария — текстов одного автора по различной тематике и текстов разных авторов по одной теме. Таким образом, этот метод демонстрирует надежность в условиях изменения темы текстов.

Другие исследователи обнаружили, что данный метод прекрасно проявляет себя в случае больших текстов, например романов, однако в случае коротких текстов, таких как газетная статья, этот метод не работает. В случае полижанрового сценария, если жанры различные, например проза и театральная пьеса, метод не работает, тогда как

в условиях моножанрового сценария (оба текста относятся к прозе) он справляется отлично.

Каким образом в криминалистке происходит оценка эффективности того или иного метода? В большинстве случаев организуются кампании его оценки. Так, Национальный институт стандартов и технологий (National Institute of Standards and Technology) в США провел следующие кампании по оценке методов:

1) распознавание речи (1996—2016);

2) отпечатки пальцев (2002—2012);

3) распознавание лица (2005—2006);

4) распознавание по радужной оболочке (2005—2008).

В ходе этих кампаний методы были значительно улучшены.

В атрибуции авторства мы имеем нечто подобное — PAN (Personal Area Network — персональная сеть) Shared Tasks (совместные задачи) [PAN]. Докладчик отметил, что он принимал участие в этом проекте, который стартовал в 2009 г. С 2010 года проект поддерживает также и CLEF — Cross Language Evaluation Forum (Межъязыковой форум оценки). Было организовано несколько кампаний оценки методик:

1) атрибуция авторства (2011—2012);

2) профилирование автора (2013—2016);

3) кластеризация авторов (2016—2017);

4) протоколирование авторов (2016—2018);

5) «затемнение» (obfuscation) автора (2016—2018);

а также исследования оригинальности (обнаружение плагиата) (2009—2015) и доверия к источнику, вандализм в «Википедии» (2010—2011) и другие.

Сильные стороны решения совместных задач заключаются в следующем:

1. Привлечение внимания к задачам, которые недостаточно исследованы.

2. Обеспечение эталонными корпусами, которые стали стандартами в данной области.

3. Сравнение альтернативных методик и подходов на одинаковых массивах данных.

4. Оценка реальной эффективности метода в специфических условиях.

5. Формирование библиотеки методов для их последующего тестирования.

Слабые места PAN:

1. Качество данных иногда вызывает вопросы.

2. Объем данных бывает ограниченным.

3. Качество представления документов иногда низкое (использование наивных методов, выполнение задания на скорую руку, беспорядочные отчетные документы; не всегда принимают участие «топовые» исследователи в данной области).

В целом положительные стороны PAN Shared Tasks превалируют над его слабыми местами.

Далее докладчик предложил вернуться к факторам, влияющим на эффективность атрибуции авторства. Одна из главных идей доклада заключается в том, что следует фокусировать внимание на сценариях верификации метода, поскольку в таком случае получается, что следует рассматривать меньшее число факторов. Количество возможных авторов и дистрибуция образцов текста относятся к тем параметрам, на которых следует концентрировать внимание в минимальной степени: они оказывают незначительное влияние на процесс верификации автора. В трех предыдущих редакциях PAN (2013, 2014, 2015) внимание было сконцентрировано на этой задаче.

Докладчик остановился на различии между идентификацией и верификацией. В случае идентификации мы имеем список возможных авторов (А, В, С) и должны решить, кто из них наиболее вероятный автор спорного текста. Этот список может быть открытым и закрытым, в большинстве случаев он закрытый. В случае верификации мы имеем одного кандидата в авторы и должны установить, являются ли сходства достаточными, для того чтобы решить, принадлежит ли этот текст одному и тому же автору. Все случаи идентификации могут быть сведены в виде примеров верификации с помощью декомпозиции.

Далее автор привел данные, полученные в результате исследований PAN в 2015 г. на примере 3 языков — английского, нидерландского и испанского на материале романа, эссе и других жанров, а также в межжанровом сопоставлении. Лучшие результаты составили 0,79, средние — 0,60. Эти цифры могут рассматриваться в качестве степени погрешности данного метода применительно к задачам такого плана.

Как было отмечено выше, целью исследования было не только измерить точность метода, но и совершенствовать его. Докладчик обратил внимание на результаты, полученные победителем PAN-2014 в сопоставлении с результатами работ группы в том же году и по тем же задачам. Когда работает группа разных исследователей, использующих несколько различных моделей, в большинстве случаев получаются лучшие результаты. То есть одним из выводов, к которому удалось прийти, как отметил докладчик, было то обстоятельство, что эффективность повышается, когда разные технологии объединяются, что увеличивает возможность достижения лучших результатов.

В некоторых случаях они превосходные. Все это свидетельствуют о том, что возможен прогресс методик в отношении получения все более достоверных результатов. В то же время в ряде случаев исследователи фокусировались на снижении частоты ошибок метода на одном материале, что вовсе не означает, что на другом материале этот метод будет так же эффективен. Поэтому необходимо проводить апробацию метода на различных массивах языкового материала.

Были рассмотрены методы верификации в недавних публикациях с весьма улучшенными результатами. Каковы их характеристики?

1. Обучение пользователей репрезентации с использованием нейросетей.

2. Векторы репрезентации в «плотных» документах (комбинация параметров, репрезентирующих не что-то определенное, т. е. сложно утверждать, что именно представляет та или иная характеристика, полученная в процессе исследования).

3.Группы разнородных исследователей (о чем говорилось выше).

4. Методы, основанные на компрессии.

Таким образом, в терминах лингвистической объяснимости это очень плохая новость, поскольку вряд ли представляет основу для какого-то лингвистического объяснения, но это работает, причем действительно эффективно. То есть, с одной стороны, это плохая новость, тогда как с другой — хорошая.

Также необходимо, чтобы все эмпирические проверки были сделаны не одним, а разными независимыми исследователями. Что нужно для этого — и что делается для этого PAN?

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Во-первых, делиться оригинальным кодом для оценки основных методик. PAN уже обеспечивает кодом исследователей (имеется в виду, что вы можете загрузить этот код, который разработан специально для технологий определения авторства) и хранит уже принятые результаты использования методов для дальнейшей оценки. Во-вторых, это исследования повторяемости результатов, воспроизводимости метода.

Есть два важных принципа, которым должен следовать специалист в этой области:

1) полнота — каждая деталь исследования должна быть опубликована и быть доступна;

2) воспроизводимость — любой другой специалист должен быть в состоянии воспроизвести результаты.

В конце выступления приведены выводы по докладу.

По АА уже опубликовано много работ, наблюдается большое разнообразие в пред-

метной области. Результаты не всех исследований обладают свойством воспроизводимости — только небольшая их часть. Мы должны пройти несколько этапов, чтобы использовать эту технологию в качестве методики судебной экспертизы. Нам следует понять, как ведут себя методы в различных условиях их применения.

Множество факторов влияют на уровень ошибок того или иного метода, тогда как верификация автора — очень удобный сценарий, поскольку зависит от гораздо меньшего числа факторов. Методы атрибуции авторства должны систематически тестироваться, и PAN — серьезный шаг в этом направлении: установлены стандарты эталонного корпуса текстов, оценочных метрик и библиотеки методов для решения специфических задач.

Относительно лингвистической объяс-нимости — это зависит от правовой системы, которая требует выполнения тех или иных правил. В то же время стандарт Дау-берта не требует этого, и для специалиста в области компьютерных наук это не является необходимым, поскольку его конечной целью является снижение уровня ошибок — в любой технологии, если говорить в общем.

Докладчик указал на исследовательские области, имеющие отношение к применению в судебной экспертизе. Прежде всего это межжанровый сценарий, когда различаются тематика, жанр или даже языки исследуемых и спорных документов. Для решения этих задач необходимы крупноразмерные регулируемые корпуса. Далее, мы должны сосредоточиться на сценариях с открытым списком. Следующее — аА без контроля со стороны научного руководства. Это относится к кластеризации документов — обнаружении фрагментов, принадлежащих определенному автору, в тексте с множественным авторством. Важным является текст и «соперничающая» стилеметрия, когда кто-то пытается обмануть машину или читателя, и необходимы надежные методы, противостоящие таким злонамеренным воздействиям.

Е. Стамататос закончил выступление анонсом программ PAN на 2019 г. Предполагается профилирование ботов и создание гендерных профилей, создание профилей знаменитостей, межжанровый АА (документирование фанфиков — произведений, созданных фанатами ТВ-сериалов, кинофильма, киногероя и т. д.), классификации в открытых группах; также перед PAN стоит задача определения изменения стиля — оценка количества лиц, создававших документ.

Были заданы следующие вопросы по докладу.

Вопрос. Об имеющемся парадоксе — принципах Дауберта и объяснимости, того, как работает метод, и его уровня точности. В британской правовой системе суды требуют не только уровень точности применяемого метода, но и объяснения того, как он работает.

Ответ. У нас не так много возможностей выяснить, насколько глубоко работают нейро-сети. То, как работает метод, вероятно, в значительной мере отличается от процесса человеческого мышления. Может быть, и нельзя объяснить, как это работает на самом деле, это различные подходы. Но это не обязательно ведет к запрету метода.

Вопрос. Чтобы ввести эту технологию в судах Англии, Уэльса, Северной Ирландии, мы должны найти простые слова для объяснения, как это работает, конечному пользователю этого метода.

Ответ. Проблема заключается в том, что если мы объясним это тем или иным образом, это может быть чрезмерным упрощением. Возможно, объяснение схватит часть информации, на которой строится метод, но не его основную идею. Например, если буквенные Ngram кажутся очень важными, специальные знаки, или буквы, или еще что-то, то это не ключевая информация, используемая методом. Нам кажется, что мы делаем выводы, важные для понимания метода, но на самом деле это не так.

Вопрос. Одной из привлекательных сторон использования компьютерных технологий глубоких нейросетей является возможность получения доказательств в судебном процессе. Вопрос о сравнении метода с его предшественником — «черным ящиком»: насколько предсказуемы могут быть алгоритмы, используемые в АА, с алгоритмами в беспилотном автомобиле? Это значительные в правовом, этическом смыслах проблемы: кто приходит к тому или иному решению — эксперт или машина?

Ответ. Если мы представим уровень погрешности, то это будет принято во внимание судом. Например, эта программа имеет 10 % погрешности, тогда как другая программа — 0,5 %. Мы можем доверять больше второй, чем первой. В целом данные АА представляют лишь часть доказательств. Докладчик согласен с тем, что здесь поднимается ряд этических вопросов. Однако ему неизвестно, у кого есть право принимать решения в отношении этой проблемы.

Вопрос. В какой мере результаты базируются на исходных данных?

Ответ. Это значит, что мы должны тщательно тестировать технологии. Как было отмечено в докладе, лишь небольшое

число методов было протестировано в деталях, но я согласен, что на этические вопросы у нас нет ответов.

Вопрос. Имеет ли место ситуация, когда наилучшие методы не зависят от темы, жанра, стиля и т. п.?

Ответ. Специальные методы Ngram и другие методы могут быть использованы в очень широких областях, но это типичные черты, которые мы извлекаем из документа.

Вторым было выступление профессора Астонского университета (Aston University) Тима Гранта (Tim Grant) «Значение теории в судебной автороведческой экспертизе», подготовленное совместно с Никки Маклеод (Nikki MacLeod), доктором Нортумбрийского университета (Northumbria University). Они тесно сотрудничают, поскольку были коллегами в Астонском университете.

Тим Грант — директор Центра судебной лингвистики (Centre for Forensic Linguistics), профессор судебной лингвистики, работает в данной сфере как специалист не только по судебному автороведению, но и в иных областях; его вклад в науку весьма значителен. В качестве судебного эксперта он принимал участие в расследовании различных дел. Тим Грант являлся президентом Международной ассоциации судебных лингвистов (2015—2017 гг.). Его выступление крайне важно, по мнению ведущего, для обсуждаемой тематики круглого стола, поскольку по теме оно в значительной степени дополняет первый доклад и определенно вызовет заинтересованное обсуждение.

Т. Грант начал свой доклад с краткого обзора случаев, где он выступал в качестве судебного лингвиста — предпосылок исследований, которые ученый проводил с коллегами. И это в большей мере автороведче-ский синтез, нежели автороведческий анализ. Как отметил докладчик, они с коллегами пришли к пониманию, что не существует готовой к применению теории, которую можно было бы выбрать для описания того, как трактуется категория автора в свете работы по определению авторства. Далее ставится вопрос: зачем нам нужна теория авторовед-ческого анализа, если на практике он уже проводится? Что мы делаем в процессе определения авторства? И докладчик дает на него несколько ответов.

Первый ответ — допустимость. С позиции лингвистики, социологии понятие автора рассматривается в рамках теории идентичности. Нам нужна теория идентичности автора, проявляющейся в тексте.

Судебная автороведческая экспертиза проводится с целью: 1) улучшения отправления правосудия; 2) использования лин-

гвистического анализа для определения происхождения текста.

Докладчик отдает предпочтение функциональному определению в сравнении с таким, которое могло бы быть дано с позиций холистической судебной экспертизы, поэтому первая цель является более важной, поскольку лингвист пытается представить суду доказательства. Задача эксперта — содействовать отправлению правосудия, поскольку это судебная экспертиза, которая должна предоставить суду сведения и доказательства.

Т. Грант провел экспресс-опрос аудитории на предмет ее вовлеченности в автороведческий анализ. Были поставлены следующие вопросы.

1. Проводили ли вы реальный авторовед-ческий анализ (литературный, исторический, иной), когда настоящий автор неизвестен? (Подняла руки примерно половина аудитории.)

2. Проводили ли вы автороведческую экспертизу для юридических целей (в гражданских, уголовных делах, включая нарушения авторского права) — помогали расследованию выявить, кто совершил преступление? (Примерно пять человек.)

3. Проводили ли вы автороведческую экспертизу в рамках расследования, в котором подозреваемый еще не идентифицирован, оказывали ли содействие расследованию? (Несколько больше, чем в предыдущей группе.)

4. Вызывали ли вас на допрос в суде по вашему автороведческому исследованию? (Только двое.)

И это на самом деле интересно, заметил выступающий. Если говорить об оттачивании мастерства автороведческой экспертизы, то вся отмеченная выше активность может вести к этой цели и относиться к этой деятельности: направлять информацию в суд, готовить заключение, которое будет использовано правоохранительными органами, и просто оказывать содействие полиции. В каждом из этих видов деятельности проводится автороведческая экспертиза.

В отчете об американской автороведче-ской экспертизе говорится о лингвистических теоретических основах автороведения. Лингвистка — это наука, имеющая теоретическую базу, это теория использования языка. Вы можете сказать о себе «я системный лингвист» или «я генеративист». И это все имеет под собой ту или иную теорию.

Второй ответ — надежность. В авторо-ведческой экспертизе нам необходимо ответить на следующие вопросы: почему разные авторы имеют вариации в стиле или почему я как автор проявляю устойчивые черты в текстах различной тематики и разных жан-

ров? И если вы хотите получить теоретические основания критериев Дауберта, то они будут отражать авторство, а не принадлежность к определенному языку.

Критерии Дауберта могут быть сведены к следующим вопросам.

1. Подвергалась ли предлагаемая теория проверке?

2. Имело ли место рецензирование специалистами, есть ли публикации по данной проблеме?

3. Известен ли уровень ошибок (погрешности)?

4. Принята ли в целом теория научным сообществом?

Докладчик приводит цитату из Кимбо (Kymbo): «Суд должен удостовериться, что эксперт в судебном заседании демонстрирует такой же уровень научной строгости, который характерен для практики любого эксперта в данной области».

В законодательстве Соединенного Королевства в показаниях эксперта, которые могут быть представлены перед присяжными, не должно быть закрытых категорий. Оценка эффективности новой методики должна быть признана. С позиции права в Соединенном Королевстве мы признаем эксперта, а не методы, тогда как офис Судебно-экспертного регулятора (Forensic Science Regulator) признает методы, а не эксперта.

Судебная практика рекомендует следовать решению Верховного суда Канады, которое, в свою очередь, указывает на критерии Дауберта. Это относится к англоамериканской состязательной судебной системе, которая рассматривает критерии Дау-берта в качестве влиятельных, и они выступают такими во всем мире. В системе, носящей инквизиториальный характер, они менее важны.

Итак, зачем нам нужна теория авторо-ведческого анализа? Критериям Дауберта следуют федеральные суды США, и в этой стране много судов иной юрисдикции: суды штатов и другие. Иногда они обращаются к критериям Дауберта, так поступают и суды Соединенного Королевства. Но то, что написано, далеко не всегда находит применение даже на федеральном уровне в США.

Т. Грант приводит следующее высказывание Ченга (Cheng) в статье 2013 г.: «„Дау-берт" на практике фундаментально отличается от „Дауберта" в теории. Фактически суды во время допроса эксперта пристально смотрят на интеллектуальную строгость, и не на что иное».

Ченг артикулирует этот прагматический строгий взгляд как включающий в себя три вопроса:

1. Не предубежден ли эксперт? (Это не относится к критериям Дауберта.)

2. Обеспечивает ли эксперт рациональное объяснение того, как работает методика?

3. Готов ли он признать и адресовать другим критику этой методики?

Что важно и с чем спорит Ченг — методы объяснения должны быть признаны в достаточной мере прозрачными, чтобы суд и присяжные (кто принимает решение) приняли обоснованное решение.

Как вы можете представить суду факты для принятия им обоснованного решения? Если вы проводите анализ данных и осуществляете синтез различных источников, а автороведческий анализ не имеет 99 % надежности, однако у вас имеются другие свидетельства, документы, которые написаны этим человеком. Если вы ведете расследование (под расследованием в данном случае понимается предоставление информации следствию), то ваша задача, как правило, будет заключаться в рассмотрении конфликтующих свидетельств, вы должны показать, как и почему вы приходите к тому или иному заключению.

Третий ответ — понимание данных. Теория автороведческого анализа помогает понять ваши исходные данные. Для достижения этой цели ставятся следующие вопросы.

Данный текст написан одним автором? Это предположение (из которого мы исходим или нет) должно быть проверено до того, как мы начинаем проводить автороведческое исследование. Более или менее, но не исключительно, это вопрос жанра. Если вы анализируете твит, то, скорее всего, отдельный твит написан одним автором. При анализе нескольких твитов такое предположение уже не будет исходным. Если вы анализируете приговор, судебное решение, то это правовой текст, и вы знаете, что в нем имеет место компиляция из различных текстов. И это общепризнанное предположение. Таким образом, некоторые тексты, как и следует ожидать, написаны одним автором. Это вопрос о том, какой должна быть теория авто-роведческого анализа.

Докладчик упомянул о четырех видах автороведческого анализа: предварительный; исполнительный; повторный; официальный. И любой текст в любом из видов может быть выполнен одним или несколькими авторами.

Почему кандидаты в авторы имеют схожие или различные стили? Потому что у них различный бэкграунд. Почему могут быть вариации в стиле у одного автора? Это может зависеть от тональности текста, его жанра, объема (по различным статистическим подходам).

Когда вам нужно решить, как вы собираетесь объяснить полученные результаты, вам нужна теория автороведческого анализа. И это четвертый ответ на поставленный вопрос. Когда вы собираетесь объяснить полученные результаты, то это непременно ведет к пониманию того, что такое авторо-ведческий анализ.

Юридические дела сложны. Поиски фактов неизбежно ведут к оценке предположительного или имеющего место на самом деле конфликта доказательств. Это также влияет на работу по расследованию дела.

В судебной экспертизе есть нечто вроде золотого стандарта. Это использование коэффициента вероятности в исследуемом контексте:

- вероятностные данные, полученные из предшествующих доказательств;

- мой анализ показывает, что...;

- А в х раз более/менее вероятен в качестве автора текста Q (спорного текста).

Таким образом, вы не оставляете в стороне как поиск доказательств, так и уже имеющиеся в деле факты. Вы не игнорируете значение нахождения факта, роль расследования. Это не невозможно, однако довольно сложно найти статистическое и математическое обоснование метода, который предлагал бы 99 % определенности в плане того, как это соотносится с объяснением в рамках вероятности. Если мы посмотрим на различные методы, которые могли бы использовать, начиная от глубоких нейронных сетей и до байесовской сети, то мы найдем меньший уровень погрешности метода — намного лучшее объяснение или намного большая его прозрачность.

Основной вопрос автороведческого анализа заключается в следующем: можете ли вы сказать, что автором текста является А или В? Или, в терминах верификации текстов, в совокупности текстов автор совершает те или иные действия, которые приводят к различиям, и эти различия имеют место в спорном тексте.

Докладчик привел пример дела 2013 г., в котором американский эксперт представил заключение, основанное на интенсивном использовании компьютерных технологий в определении авторства в британском опекунском суде. Судья отметил, что текст экспертизы труден для чтения, он не знает, насколько качественным и надежным является данный вид экспертизы, поскольку это новых вид экспертных исследований. Судья скептически относится к заявлению эксперта о точности метода в 99,99 % для атрибуции авторства, полагая, что это очень сильное заявление. Он также скептически относится

к тому, что данная компьютерная система — вторая после ДНК по ее надежности. Это очень самоуверенное заявление. Судья полагает, что его не убедили сделать заключение о том, что автор документа такое-то лицо, и принять решение по делу.

И вот что сказал судья: «Я не могу допрашивать систему, действующую по принципу „черного ящика". Я не могу подходить к этому как к разумно принимаемому решению. У меня есть выбор. Или я принимаю решение на веру. Или я этого не делаю». И судья не принял доводы эксперта. И я думаю, продолжил докладчик, в нашей правовой системе имеет место нечто очень схожее.

Представляется, что показания эксперта в Опекунском суде не прошли бы тест Ченга «строгий взгляд». И это видится контрастом с процессом Апелляционного суда R против Ходжона. Судебное решение комментирует «квалификации» в рамках показаний Кул-тарда (СоиКагё). Судебное решение оставляет за присяжными разрешение авторства. Фактически это дело, в котором жюри присяжных может содействовать принятию решения, но не подменять собой свидетельство эксперта.

Косвенно решение этого Апелляционного суда предполагает, что объяснимость в рамках заключения эксперта имеет ключевое значение; и, возможно, более важно, чем любое выражение окончательного мнения в отношении того, кто написал спорный текст. В связи с этим докладчик отметил первостепенную для него роль анализа автора, а не определения авторства. Выступающий признался, что, как правило, в своей работе не предлагает проведения атрибуции, а объясняет существующие различия, поскольку это важно в той или степени.

Теория авторства — это теория идентичности, отметил докладчик. Он остановился на лингвистической аккомодации и дизайне аудитории в интеракции. «Кто я?» — задается вопросом Т. Грант. На работе, в па-бе, в чатах я буду проявлять себя различным образом. Имеет место своеобразное «облако меня».

Далее он остановился на социально-интеракциональном взгляде на идентичность. Это позиция сводится к следующим положениям:

1. Идентичности возникают из интеракции.

2. В интеракции каждая позиция участника обусловлена демографически и культурно:

а) явный выбор оценки и специфический язык;

б) импликатуры — базис интеракции и опоры на нее.

3. Идентичности строятся с помощью сравнений и контрастов.

4. Проявление идентичности частично преднамеренно и частично происходит в силу привычки и не полностью осознанно.

Каким образом мы проводим идентификацию посредством интеракции? Мы привлекаем все возможные ресурсы (источники) для формирования идентичности. К ним относятся:

- другие интеракции, включающиеся в практики сообщества;

- жанр интеракции;

- «я» в физическом смысле (мое тело и мой мозг);

- моя социолингвистическая история (история моей семьи, моя образовательная история, мои языки, моя географическая история). Таким образом, у нас много ресурсов для представления интеракции.

Эти ресурсы также имеют ограничения. Что подразумевается под ними? Выделяются два способа наложения ограничений. Один из них — недоступность специфических ресурсов: повреждения мозга, влияющие на производство речи; другой язык и его варианты; утрата владения языком (см. работы Моники Шмид). Приводится цитата Джонстона (Johnstone): «Каждый источник ограничений дискурса является также источником выбора для дискурса».

Вторая группа ограничений — один ресурс ограничивает использование другого: институционально / контекстуально, например проявление сильной идентичности выжившего в воздействии на заявление жертвы; оппозитивные варианты, например h в североирландском английском; переключение кода между стандартными и нестандартными вариантами.

Вопрос об идентичности может быть сформулирован следующим образом: что сохраняется с течением времени? Любой текст представляет собой определенный момент выражения идентичности. Однако сама идея личностной идентичности предполагает устойчивость с течением времени. Выделяются две разновидности источников сохранения идентичности.

1. Мои когнитивные ресурсы, к которым относятся мои психолингвистические способности, а также моя память (например, лексический запас).

2. Мои социолингвистические ресурсы, включая историю семьи, образовательную историю, языки, варианты и диалекты, мою география и мою профессиональную историю.

Докладчик продемонстрировал применение сравнительного автороведческого анализа, которое требует понимания текстов

и контекстов их употребления. Сопоставительный автороведческий анализ не направлен на идентификацию автора или классификацию его типов. Он имеет целью объяснение вариативности, например жанра и интеракции. Он также направлен на описание устойчивости авторства — постоянства его ресурсов. Кроме того, он имеет целью описание различий между авторами, имеющих место в различных ресурсах. Показатели точности атрибуции, не базирующиеся на теории, несостоятельны.

Были заданы следующие вопросы по докладу.

Вопрос. Вопрос об авторстве текста перевода, который представляется более сложным, чем рассматриваемый в докладе. В этой проблеме заложены противоречия, зависящие от того, как вы относитесь к данному вопросу. Но в этой области есть и чисто теоретические проблемы. Если мы приписываем переводчику постоянные характеристики, то каким образом будут рассматриваться вариативные характеристики автора? Обычно это порождает различные точки зрения. Что мы анализируем в этой ситуации? Что пытаемся сделать?

Ответ. Эта модель в тексте перевода будет иметь другой вид, но ее необходимо представить в терминах различных ресурсов — того, что вносит автор оригинального текста и автор текста перевода. И это очевидные различия, поскольку переводчик вносит в текст знание двух языков: языка-источника и языка-цели. И если построить теорию с учетом этих особенностей, мы будем иметь возможность разрешить этот парадокс.

Вопрос. Вы говорили об устойчивости и различии ресурсов в качественном плане. Каково их соотношение в решении вопроса об авторстве?

Ответ. Когда я создавал модель, то имел в виду, по каким параметрам рассматривается сходство текстов, в какой мере они постоянны для автора и в какой мере различаются тексты разных авторов. Если у вас два параметра — устойчивости и различия, то я бы считал, что это хорошие параметры. Когда я с этой квантификацией выхожу в суд присяжных, я не говорю, что они должны доверять моему ответу. Я очень редко провожу атрибуцию авторства в суде.

Вопрос. Очень интересные выступления, в значительной мере дополняющие друг друга. Как мне кажется, вы не проводите систематического разграничения между языковым поведением в устной и письменной речи. Эти области часто вступают в конфликтующие отношения, поскольку речевое

поведение в них осуществляется различным образом. Устная речь более спонтанна, задействует намного больше ресурсов, чем письменная. Как вы определяете происхождение некоторых текстов, их транскриптов (стенограмм)? Я полагаю, нам следует значительно расширить теоретическую модель, которую вы предложили. Может, следует больше внимания уделить различиям, о которых я говорил?

Ответ (Грант). Конечно же, письменная речь весьма отличается в терминах спонтанности, а также с позиций плотности текста. В терминах содержания настоящий текст более плотный. Письменный текст может перечитываться, переписываться. И если мы рассматриваем соотношение между жанрами, например в чатах, когда имеет место фактор нехватки времени и нет возможности для переписывания, или в чатах, когда отправитель речи печатает где-то 30 секунд, — да. Или может быть. Вариативность и спонтанность являются важными различительными параметрами. Я хочу отметить, что это неполнота сознательного контроля над стилем — стиль частично находится под контролем нашего сознания и частично неподконтролен ему. Я не согласен с тем, что мы ищем менее подконтрольные нашему сознанию характеристики. Я думаю, что разработано обоснование одной идентичности другой идентичностью, иерархическая модель идентичностей. Это вопрос сознательного/неосознанного контроля. Важной также является спонтанность, в частности поддельная спонтанность.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ответ (Стамататос). Сейчас проводится исследование в области междоменной авторской атрибуции (текстов разных предметных областей), и это включает в себя тренировочные тексты — интервью, твиты, блоги и т. п. Но я бы не рисковал применять эти технологии в целях судебной экспертизы, поскольку показатели точности весьма и весьма низкие — 50 % и много ниже. Сейчас технологии не могут обеспечивать решение таких сложных проблем. Я думаю, единственный путь в настоящее время — попытаться собирать документы, представляющие один и тот же жанр, т. е. в письменной речи — что-то похожее; затем в устной речи — что-то похожее. И, конечно, некоторые жанры — твиты, чаты более похожи на устную речь, чем на разновидности письменной речи — обзор и т. п.

Вопрос. Благодарю обоих докладчиков за очень интересные выступления. Вы сказали, что технологии в настоящее время могут иметь дело с гораздо более сложными случаями, такими как междоменная атрибу-

ция. Как вы думаете, будем ли мы когда-либо в состоянии сделать это? И этот вопрос связан с другим, который я хотел задать раньше. Можем ли мы когда-нибудь достичь какого-то общепринятого уровня точности анализа для его применения в суде? Чтобы проиллюстрировать, что я имею в виду, можно привести пример тысячи речевых событий и тысячи «текстуальных» событий. Когда мы говорим об уровне, то имеется такое количество переменных, которые так подвижны, что это делает меня весьма скептичным в отношении того, что мы придем к согласию относительно уровня ошибок, применяемого универсально. Все эти исследования подобны методу, применимому к одному случаю, тогда как другие — к другому. Это все весьма изменчиво, и это обстоятельство разрушает всю ситуацию. Вы думаете, что какая-либо компьютерная система будет в состоянии справляться с проблемой? В каком направлении мы движемся?

Ответ (Стамататос). Я думаю, факт заключается в том, что компьютерная система может без труда иметь дело с обсуждаемой проблемой. Некоторые из них могут уже сегодня, другие смогут в будущем. Например, межтематический сценарий — мы можем с этим справиться, с очень высокой эффективностью. В случае межжанрового сценария — если брать определенные жанры — я не так оптимистичен, как в предыдущем случае. Что-то еще не сделано, как говорил профессор, но будет сделано в будущем. Мы видим, как машина обыгрывает чемпиона мира в шахматы.

Вопрос (Грант). Вы считаете, что возможно совмещение использования системы машинного обучения и понятного объяснения того, как это работает?

Ответ (Стамататос). Я не оптимистично смотрю на это. Но думаю, что машинное обучение не будет производить чего-то, что мы можем легко понять. Это другой тип мышления. Наш способ мышления не позволяет нам понимать, как это все работает. Поэтому я не оптимистичен относительно того, что оно станет полностью ясным.

Вопрос. Я считаю, что вы продемонстрировали в своем выступлении очень интересные трактовки, особенно в отношении того, что межтематическое определение авторства легче межжанрового. Скажите, как вы определяете жанр, если не путем того, как это делает эксперт в процессе анализа? Это выглядит как в некотором роде предварительное условие для конкурирующих методов в настоящий момент. Атрибуция должна быть выполнена специалистом в данной области.

Ответ (Стамататос). Вы имеете в виду выбор подходящего обучающего материала? Да. Вы можете представить ситуацию, когда имеется большая коллекция документов, и система может отфильтровать документы с определенными релевантными свойствами, затем работать только с этой группой документов. Технологически это можно сделать.

Ответ (Грант). Я думаю, некоторые, извините, многие автороведческие экспертизы должны установить, решаемая это проблема или нет, учитывая доступные тексты. И в конкретном случае, в определенной ситуации можно сказать: это невозможно. И когда межжанровый анализ становится реальным, и мы должны принять решение как судебные эксперты: достаточно ли близки данные жанры? Или они слишком удалены? И что у них общего? — это важно для принятия решения по экспертизе. Я думаю об анализе предсмертной записки — с чем вы ее можете сравнивать? Какой подходящий жанр для сравнения? Школьные сочинения — это плохой жанр для сравнения? Может, дневники этого человека будут лучше? И как лингвист может сформировать (специалист по компьютерам может в определенной мере) таксономию близких/отдаленных жанров? Лингвист не мыслит в таких категориях. Что мы можем судить и что мы реально делали? И это влияет на судебное решение.

Ответ (Стамататос). Вы можете использовать эту таксономию, но вы должны иметь ее в полностью автоматизированном виде. Вы можете визуализировать документы и видеть, в чем они наиболее близки. Данная визуализация основана на свойствах, которые не могут быть объяснены просто, как, например, при использовании обучения репрезентации. Вы на самом деле не знаете, что этот доступ значит. Вы видите этот документ, окруженный другими документами, принадлежащими в своем большинстве к определенному жанру. Возможно, вы не можете объяснить это сходство с данным жанром, с данным документом, но вы можете видеть, что они весьма похожи в этом пространстве, в этом искусственном текстовом пространстве.

Вопрос. Какова ваша позиция по отношению к тому, что я называю Святым Граалем в лингвистической теории идентификации, а именно предположение о том, что существует ядро, набор признаков, которые всегда присутствуют — безотносительно к жанру, теме, адресату, или это в высокой степени зависит от жанра, тематики? Я полагаю, это философский вопрос, на самом

деле. Мне очень интересно узнать, какова ваша позиция по этой проблеме?

Ответ (Стамататос). Я не верю в ядерные признаки. Признаки могут определяться посредством анализа конкретного случая. На самом деле, мне не нравятся заранее определенные признаки. Для меня это не очень хорошая идея — заранее определять признаки.

Ответ (Грант). Я согласен с этим. Я также согласен с тем, что идентичность есть исполнение (performance). Исполнение — это текст в автороведческом анализе, и со-признаки суть идентичность, ядро — это ресурс того, как человек развивается, и оно представляет его признаки. Это не обязательно проявляется в языке, это ресурс, доступный в индивидууме.

Вопрос. Снова философский вопрос. Я хочу задать вопрос, который теоретически звучит весьма странно для тех, кто занимается судебной лингвистикой, для всех, кто использует иллюзорное понятие значения. Одна из главных целей языка — коммуникация, она подразумевает значение. И значение полностью стирается. Ни одно исследование по автороведению не упоминает значение, значение — это табу. Почему это так? Почему мы не используем значение, прагматическую цель языка в автороведческом анализе?

Ответ (Грант). Это то место, где я должен сказать «да». Когда мы работаем над раскрытием неизвестного авторства, над людьми, скрывающимися в сети, мы получаем структурные признаки уровня текста — орфографию, пунктуацию, выбор слов, синтаксис и т. д. Мы считаем, что это верно, иначе говоря, это то, что относительно легко обнаружить, то, что дает нам подозреваемый или некоторые системы автороведче-ского анализа. Мы занимаемся именно этим, и вы не можете получить прагматическое значение, интеракционное значение и семантику социального поведения. Тогда вы, весьма вероятно, определите автора. Когда мы обучаем полицейских, мы фокусируем на этом внимание. Описание всех языковых особенностей на всех уровнях идентичности, проявляемых в языке, не представляло бы всех структурных черт. Я не говорю, что этого достаточно — это необходимо, но и другие признаки также важны.

Ответ (Стамататос). Я считаю, что значение может гораздо легче подвергаться сознательному контролю со стороны автора в соответствующем стиле. И поэтому это не очень хорошая идея, с моей точки зрения, — основываться на значении. В случаях межтематической атрибуции, если у вас есть

что-то, что работает со значением текста, вы теряете основную связь между текстами. Это полезно во всех случаях, когда вы знаете, что все тексты об одном и том же, по более или менее близкой тематике. Но когда у вас различия в этом аспекте, вам следует избегать данной информации. В своих последних работах по межтематической атрибуции я пытаюсь избегать информации о тематике. Вы не знаете, о чем этот документ, просто видите его структуру.

Вопрос. В продолжение вопроса о введении значения, например, мы можем классифицировать британские газеты по настрою, отношению к чему-либо. Можем легко отличить таблоид по стилю — левый или правый таблоид, это все основано на значении, значение — разновидность отличительного признака. И очень мало литературы по вопросам мнения автора, его позиции, интонации, которые тоже выявляются в тексте. Вы говорили, что обучаете полицейских, полицейские имеют естественное предрасположение против убийств, преступлений и т. д. Вы рассматриваете неподготовленное речевое поведение как разновидность преступного поведения? И это все значение. Как оно выражается? Вы говорите, что оно опускается в исследовании. Как компьютерное исследование отличает правый таблоид от левого?

Вопрос. Я собираюсь спросить, что вы думаете об обфускации (obfuscation). Мы можем поддерживать стиль или допускать утечку? Утечку чего? Этого Святого Грааля, ядра идентичности? Или есть ограничения ресурсов?

Ответ (Грант). Относительно «утечки». Мы можем наблюдать утечку на структурном уровне — орфография, пунктуация, а также на уровне прагматики, когда мы рассматриваем интеракцию в разговоре. Когда мы имеем индивидуума, который очень хорош в отношении автороведческого синтеза, это отличается от обфускации. Вы не увидите много статей по автороведческому синтезу. Обфускация — это то, как скрывать ваш стиль, автороведческий синтез — это построение нового стиля, предположение о том, что именно вы онлайн, а не какая-либо легенда об авторе. То есть имеется целый

комплекс задач в этой области. Вы можете структурно верно решать задачи и не выполнить автороведческого анализа. И если преступник собирается встретиться именно с этой личностью, то он становится весьма и весьма подозрительным, и здесь должна быть та же личность. И другая ситуация, которая встречалась нами ранее. Вы можете сделать ее более сложной. Когда мы имеем предположение об идентичности преступника, и кто-то арестован, а полиция хочет продолжать работать в сети определенный период времени, вы должны заставить убедить его окружение, что это именно та личность.

Ответ (Стамататос). Насколько я знаю, греческая полиция имитирует покупателей порнографии, этих фото. Это не какая-нибудь определенная личность, это класс персон.

Ответ (Грант). Мы предпочитаем построение легенд, а не идентичностей. Если вы не рассматриваете прагматику разговора, человек может решить, что это верно. У нас есть подобные примеры в нашей базе данных. Поэтому я думаю, вы допускаете утечку о том, кто вы, на дискурсивном уровне разговора, а не только на структурном.

Вопрос. И в чем ограничения ресурсов?

Ответ (Грант). И в том и в этом. О чем говорят эти утечки? Если вы пытаетесь провести автороведческий синтез, вы пытаетесь получить новый набор источников идентичности. Что такое утечка? Это неудача пресечения набора ресурсов, которому обычно следуют.

Ответ (Стамататос). Только два комментария. В случае автороведческого синтеза вы симулируете профиль автора?

Ответ (Грант). Нет, в типичном случае определенного индивидуума.

Ответ (Стамататос). Понятно. У вас есть определенная личность, которая служит в качестве образца.

Ответ (Грант). Да, есть две типичные ситуации. Первая. В полицейских кейсах мы определяем жертву, того, кто виктимизиро-ван в онлайновом харрасменте. Берем его и помещаем в офлайн. Полицейский может поместить его онлайн, выявить правонарушителя. То есть если это 14-летний мальчик, то этот тот самый 14-летний мальчик.

S. I. Krassa

Stavropol, Russia

ORCID ID: 0000-0002-6699-2159 0 0 E-mail: [email protected].

First Roundtable on Practices and Standards in Forensic Authorship Analysis (overview 1)

ABSTRACT. The article provides an overview of the reports of the 1st Roundtable on Practices and Standards in Forensic Authorship Analysis. The roundtable was held by the International Association of Forensic Linguistics and the Centre for Digital Humanities at the University of Manchester on 15 May 2019. The reports of Efstathios Stamatatos from the Aegean University "Automatic authorship attribution and digital text forensics", Professor Tim Grant from the University of Aston together with Nikki McLeod, Doctor of Northumbria University "The importance of theory in forensic authorship analysis", Krzysztof Kredens from the University of Aston, together with Piotr Rgzik "Large-scale author classification — looking into the black box", Jack Grieve, Professor of Linguistics at the University of Birmingham "Register variation and authorship analysis", Erica Gold, lecturer in forensic science at Huddersfield University "Likelihood ratios in forensic speech science. The current state of play", Stefan Evert, Professor at the University of Erglangen — Nuremberg "Statistical significance in literary authorship attribution " were presented at the roundtable. At the end of each report, questions to the speaker were asked and answers were given. There were separate discussions — after the second report and the closing discussion. Several overviews on the proceedings of the roundtable are planned for publication.

KEYWORDS: roundtable discussions; forensic authorship analysis; author profiling; stylometry; computer linguistics; core features of a style; forensic linguistics; forensic expertise.

TYPE OF PUCBLICATION: review.

AUTHOR'S INFORMATION: Krassa Sergey Ivanovich, Candidate of Philology, Associate Professor, Stavropol, Russia.

FOR CITATION: Krassa, S. I. First Roundtable on Practices and Standards in Forensic Authorship Analysis (overview 1) / S. I. Krassa // Political Linguistics. — 2020. — No 6 (84). — P. 174—187. — DOI 10.26170/pl20-06-19.

REFERENCES

1. Chaski, C. E. Empirical evaluations of language-based author identification techniques / C. E. Chaski. — Text : unmediated // Forensic Linguistics. — 2001. — Vol. 8. — Iss. 1. — P. 1—65.

2. Forensic Authorship Analysis Roundtable. — URL: https:// www.eventbrite.co.uk/e/forensic-authorship-analysis-roundtable-tickets-59772040783# (date of access: 27.10.2020). — Text : electronic.

3. Forensic Linguistics Roundtable Event / International Association of Forensic Linguists ; Centre for Digital Humanities, University of Manchester // YouTube. — Duration: 7:29:40. — URL: https //www.youtube.com/watch?v=ZUfxdLstIOc (date of access: 27.10.2020). — Image (moving; 2D) : electronic.

4. Grant, T. Identifying reliable, valid markers of authorship: A response to Chaski / T. Grant, K. Baker. — DOI 10.1558/ sil.2001.8.1.66. — Text : unmediated // Forensic Linguistics. — 2001. — Vol. 8. — Iss. 1. — P. 66—79.

5. Grant, T. Quantifying evidence in forensic authorship analysis / T. Grant. — Text : unmediated // International Journal of Speech, Language and the Law. — 2007. — Vol. 14. — Iss. 1. — P. 1—25.

6. Grant, T. Resources and constraints in linguistic identity performance: a theory of authorship / T. Grant, N. Macleod. — Text : unmediated // Language and Law. — 2018. — Vol. 5. — Iss. 1. — P. 80—96.

7. Grant, T. Txt 4n6: Idiolect free authorship analysis? / T. Grant. — Text : unmediated // The Routledge Handbook of Forensic Linguistics / M. Coulthard, A. Johnson (eds.). — Abingdon : Routlege, 2010. — P. 508.—522.

8. Houvardas, J. N-gram feature selection for authorship identification / J. Houvardas, E. Stamatatos. — Text : unmediated //

International conference on artificial intelligence: Methodology, systems, and applications. — Berlin ; Heidelberg : Springer, 2006. — P. 77—86.

9. PAN : site. — URL: https://pan.webis.de (date of access: 27.10.2020). — Text : electronic.

10. Sidorov, G. Syntactic n-grams as machine learning features for natural language processing / G. Sidorov, F. Velasquez, E. Stamatatos, A. Gelbukh, L. Chanona-Hernández. — Text : unmediated // Expert Systems with Applications. — 2014. — Vol. 41. — Iss. 3. — P. 853—860.

11. Stamatatos, E. A survey of modern authorship attribution methods / E. Stamatatos. — Text : unmediated // Journal of the American Society for information Science and Technology. — 2009. — Vol. 60. — Iss. 3. — P. 538—556.

12. Stamatatos, E. Author identification: Using text sampling to handle the class imbalance problem / E. Stamatatos. — Text : unmediated // Information Processing & Management. — 2008. — Vol. 44. — Iss. 2. — P. 790—799.

13. Stamatatos, E. Automatic text categorization in terms of genre and author / E. Stamatatos, N. Fakotakis, G. Kokkinakis. — Text : unmediated // Computational linguistics. — 2000. — Vol. 26. — Iss. 4. — P. 471—495.

14. Stamatatos, E. Text Genre Detection Using Common Word Frequencies / E. Stamatatos, N. Fakotakis, G. Kokkinakis. — Text : electronic // COLING 2000. Vol. 2. The 18th International Conference on Computational Linguistics. — P. 808—814. — URL: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1. 14.7621 &rep=rep 1 &type=pdf.

15. Westerberg, K. Triangulation mobility of auto-theft offenders / K. Westerberg, T. Grant, J. W. Bond. — DOI 10. 1002/jip69. — Text : unmediated // Journal of Investigative Psychology and Offender Profiling. — 2007. — No 4 (2).

i Надоели баннеры? Вы всегда можете отключить рекламу.