Научная статья на тему 'Метрики качества юридических текстов'

Метрики качества юридических текстов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
10
5
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
генеративные системы / искусственный интеллект / обработка естественного языка / юридический текст / ChatGPT / YandexGPT / artificial intelligence / ChatGPT / generative systems / legal text / natural language processing / YandexGPT

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Юрьев Родион Николаевич, Бессмертный Игорь Александрович, Груздева Анастасия Сергеевна

В статье рассматривается возможность использования генеративных систем искусственного интеллекта для создания юридических текстов и поддержки юридической деятельности. Проведено экспериментальное исследование на основе систем ChatGPT и YandexGPT. Представлены новые метрики оценки качества сгенерированных юридических текстов, которые существенно отличаются от традиционных методов оценки текстов. Основное внимание уделяется содержательным аспектам юридических документов и их пригодности для практического применения. Результаты исследования показывают, что современные ИИ-системы способны генерировать тексты, которые могут быть полезны в юридической практике, хотя и требуют доработки.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Quality Metrics of Legal Texts (In Russ.)

The article explores the potential of using generative artificial intelligence systems to create legal texts and support legal activities. An experimental study was conducted using ChatGPT and YandexGPT systems. New quality metrics for evaluating the generated legal texts are introduced, which significantly differ from traditional text assessment methods. The focus is on the substantive aspects of legal documents and their suitability for practical application. The research results indicate that current AI systems can generate texts that may be useful in legal practice, though they require further refinement.

Текст научной работы на тему «Метрики качества юридических текстов»

Экономика. Право. Инновации. 2024. № 2. С. 81-93 Economics. Law. Innovation. 2024. No. 2. P. 81-93

Управление в организационных системах Management in organizational systems

Научная статья УДК 004.9

аог 10.17586/2713-1874-2024-2-81-93

МЕТРИКИ КАЧЕСТВА ЮРИДИЧЕСКИХ ТЕКСТОВ

Родион Николаевич Юрьев1 ^, Игорь Александрович Бессмертный2, Анастасия Сергеевна Груздева3

1,2'3Университет ИТМО, Санкт-Петербург, Россия 1jшyev7@gmail.comн

2Ъе88теПпу@то.ги, https://orcid.org/0000-0001-6711-6399

3prog.anastasia@gmail.com

Язык статьи - русский

Аннотация: В статье рассматривается возможность использования генеративных систем искусственного интеллекта для создания юридических текстов и поддержки юридической деятельности. Проведено экспериментальное исследование на основе систем ChatGPT и YandexGPT. Представлены новые метрики оценки качества сгенерированных юридических текстов, которые существенно отличаются от традиционных методов оценки текстов. Основное внимание уделяется содержательным аспектам юридических документов и их пригодности для практического применения. Результаты исследования показывают, что современные ИИ-системы способны генерировать тексты, которые могут быть полезны в юридической практике, хотя и требуют доработки.

Ключевые слова: генеративные системы, искусственный интеллект, обработка естественного языка, юридический текст, ChatGPT, YandexGPT

Ссылка для цитирования: Юрьев Р. Н., Бессмертный И. А., Груздева А. С. Метрики качества юридических текстов // Экономика. Право. Инновации. 2024. № 2. С. 81-93. http://dx.doi.org/10.17586/2713-1874-2024-2-81-93.

QUALITY METRICS OF LEGAL TEXTS Rodion N. Iurev1^, Igor A. Bessmertny2, Anastasia S. Gruzdeva3

1,2,3ITMO University, Saint Petersburg, Russia 1juryev7@gmail.comH

2bessmertny@itmo.ru, https://orcid.org/0000-0001-6711-6399 3prog. anastasia@gmail. com Article in Russian

Abstract: The article explores the potential of using generative artificial intelligence systems to create legal texts and support legal activities. An experimental study was conducted using ChatGPT and YandexGPT systems. New quality metrics for evaluating the generated legal texts are introduced, which significantly differ from traditional text assessment methods. The focus is on the substantive aspects of legal documents and their suitability for practical application. The research results indicate that current AI systems can generate texts that may be useful in legal practice, though they require further refinement.

Keywords: artificial intelligence, ChatGPT, generative systems, legal text, natural language processing, Yan-dexGPT

For citation: Iurev R. N., Bessmertny I. A., Gruzdeva A. S. Quality Metrics of Legal Texts. Ekonomika. Pravo. Innovacii. 2024. No. 2. pp. 81-93. (In Russ.). http://dx.doi.org/10.17586/2713-1874-2024-2-81-93.

Введение. В работе [1] авторы излагали своё критическое мнение на возможность скорого создания системы искусственного интеллекта (далее - ИИ), позволяющего решать задачи, стоящие перед юристами, в автоматическом режиме. С учётом достигнутых результатов моделей трансформеров, ОРТ, из

которых наиболее известной стала модель под коммерческим наименованием СЬа1ОРТ, разработанная командой ОрепА1, спустя четыре года после опубликования статьи подошло время проверить, может ли в текущих условиях искусственный интеллект заменить юриста в его повседневной работе.

Оценка качества работы генеративных систем в сфере NLP традиционно опирается на критерии, разработанные в прошлом для оценки качества выполнения таких задач, как машинный перевод, генерация связного грамматически верного текста. Для оценки юридических текстов этого недостаточно, необходима оценка документа с точки зрения его содержания. Разработка таких метрик является необходимым шагом в создании автоматизированных информационных систем в юридической сфере деятельности, а в будущем - и системы принятия решений на основе её.

Обзор литературы. Как показал обзор русскоязычной литературы, в настоящее время не представлены комплексные численные методики оценки качества юридических текстов. В основном, метрики разрабатывались для таких целей, как оценка компьютерного перевода [2, 3], извлечение утверждений из неформализованного текста на основе он-тологий и другие.

Цель и задачи исследования. Целью работы стала оптимизация интеллектуальной поддержки юридической деятельности путем разработки новых метрик оценки качества юридических текстов, сгенерированных с использованием существующих систем генеративного искусственного интеллекта в сфере NLP.

Задачами исследования стало создание новых метрик оценки качества текста с точки зрения содержания, а также общая оценка качества созданных документов и их пригодности для практического применения. Необходимость создания данных метрик обусловлена возрастающими потребностями рынка по созданию автоматизированных информационных систем в юридической сфере.

Методология исследования. Для проведения эксперимента принято решение использовать веб-интерфейс ChatGPT по адресу: https://chat.openai.com/ (недоступен для IP-адресов в России) и аналогичный сервис Яндекс (YandexGPT2, https://ya.ru/alisa_dava y_pridumaem).

Веб-интерфейс взаимодействия представляет собой текстовый запрос в поле ввода и текстовый ответ ограниченной длины (в бесплатной версии). На сайте ChatGPT доступен Application Programming Interface (API),

прикладной программный интерфейс, с помощью которого можно встраивать вопросы и ответы в любые программные решения, в том числе для правильного форматирования ответа (например, в формате правильного оформленного искового заявления), однако в рамках исследования он не использовался.

В связи с тем, что системы непрерывно развиваются, генерация документов производилась в максимально сжатые сроки во избежание возникновения зависимости от новых обновлений программ.

Материалы для исследования. В качестве материала для исследования взяты десять наиболее распространённых типов судебных дел согласно данным судебной статистики, опубликованной на сайте Судебного департамента при Верховном Суде РФ за 2022 год. В качестве источника использовались Сводные статистические сведения о деятельности федеральных судов общей юрисдикции и мировых судей за 2022 год, отчёт по форме № 2 «Отчет о работе судов общей юрисдикции по рассмотрению гражданских, административных дел по первой инстанции за 12 месяцев 2022 года» [4].

В разделе 2 представлена информация о движении и результатах рассмотрения гражданских дел. Ключевыми для анализа являются столбцы: «Категория дел» (графа А) и «Поступило дел в отчетном периоде» (графа 2). Дальнейший отбор проводился следующим образом: все дела были отсортированы по количеству дел в графе 2; затем были исключены обобщающие показатели, такие как «Итого гражданских дел (сумма строк 212 и 230)» и тому подобные показатели, которые включают в себя слишком много категорий дел для того, чтобы охватить их одним запросом. Исключением из этого являются иски о взыскании неосновательного обогащения, которые хотя представляют собой общее наименование множества разных требований, но интересны тем, что даже для профессиональных юристов не всегда очевидно понимание сути правоотношений, стоящих за такими исками.

В результате отбора данных, как показано в таблице 1, было охвачено 89,46% всех типов рассматриваемых дел в судах России за 2022 год.

Таблица 1

Выборка дел из судебной статистики за 2022 год

_Источник: составлено авторами на основе [4]_

Номер категории дел Количество дел Наименование категории дел Доля дел в общем количестве

205 11449944 Взыскание сумм по договору займа, кредитному договору 44,00%

116 10429302 Взыскание платы за жилую площадь и коммунальные платежи, тепло и электроэнергию 40,08%

2 449742 Расторжение брака супругов, имеющих детей 1,73%

10 296224 Взыскание алиментов на содержание несовершеннолетних детей 1,14%

171 220458 Защита прав потребителей из договоров в сфере торговли, услуг, выполнения работ 0,85%

152 118369 Возмещение ущерба от ДТП (кроме увечий и смерти кормильца) 0,45%

46 104301 Взыскание невыплаченной заработной платы, других выплат (и компенсации за задержку их выплаты) 0,40%

3 78406 Расторжение брака супругов, имеющих взрослых детей 0,30%

154 71067 Взыскание страхового возмещения по договору ОСАГО 0,27%

206 60701 Взыскание неосновательного обогащения 0,23%

Итого: 23278514 89,46%

Подготовка запросов к системе осуществлена исходя из юридического опыта, что также требует отдельного исследования в дальнейшем, поскольку очевидно, что запросы, сформулированные профессиональным юристом, серьёзным образом отличаются от запросов, сделанных неспециалистом. В будущих экспериментах можно воспользоваться инструментом https://wordstat. yandex.ru/, который позволяет подбирать не только отдельные слова, но и словосочетания, а кроме того, предоставляет информацию о статистике тех или иных запросов. Вопрос о правильном понимании запросов и соотношении между запросом обычного пользователя и ответом информационной системы, претендующей на предоставление юридической информации, имеет исключительную важность, однако не входит в рамки настоящей работы. Список запросов представлен в таблице 2. Каждый из представленных запросов направлялся единожды в систему, после

чего результат сохранялся в текстовом формате.

Экспертная оценка подготовленных процессуальных документов осуществлялась одним из авторов данной статьи Р.Н. Юрьевым, юристом с 20-летним стажем судебной работы в сфере гражданского права. Автор последовательно настаивает на минимизации избыточного юридического текста во всех его проявлениях, в то время как жизнь и практика показывают совершенно противоположную тенденцию к укрупнению юридических текстов, усложнению грамматических оборотов, воспроизведению содержания законодательства в текстах частно-правовых документов. У других экспертов могут быть иные мнения по данному вопросу, и это - неизбежное следствие субъективности автора, что представляет собой некоторое противоречие с задачей создания численных метрик как объективного средства измерения качества текста. Однако авторы исходят из того, что впоследст-

вии эти оценки можно будет скорректиро- оказываются И-образными. Но на этом этапе вать, как это часто бывает в науке. Например, нам нужно установить эти параметры, де-многие биологические корреляции, казав- тализировать их значение можно будет шиеся на первый взгляд линейными, позже.

Таблица 2

Запросы к системе

Источник: составлено авторами

№ Наименование категории дел Запрос

1. Взыскание сумм по договору займа, кредитному договору Составь исковое заявление о взыскании займа в размере 15000 рублей, переданного по расписке от 1 января 2022 года. Срок возврата займа был установлен до 1 января 2023, заём беспроцентный, никакие суммы не возвращались

2. Взыскание платы за жилую площадь и коммунальные платежи, тепло и электроэнергию Составь исковое заявление о взыскании задолженности за коммунальные платежи в размере 15000 рублей в месяц за период с 1 января 2022 года по 1 января 2023 года с учётом пеней. Никакие платежи не производились

3. Расторжение брака супругов, имеющих детей Составь исковое заявление о расторжении брака между супругами, имеющими одного несовершеннолетнего ребёнка

4. Взыскание алиментов на содержание несовершеннолетних детей Составь исковое заявление о взыскании алиментов на содержание одного несовершеннолетнего ребёнка, родившегося 1 января 2022 года

5. Защита прав потребителей из договоров в сфере торговли, услуг, выполнения работ Составь исковое заявление о взыскании материального и морального ущерба, в связи с неисполнением обязательств по ремонту автомобиля, причём ремонт автомобиля составлял 20000 рублей, и ответа на претензию от 1 января 2023 года не последовало

6. Возмещение ущерба от ДТП (кроме увечий и смерти кормильца) Составь исковое заявление о взыскании морального ущерба от ДТП в размере 100000 рублей

7. Взыскание невыплаченной заработной платы, других выплат (и компенсации за задержку их выплаты) Составь исковое заявление о взыскании невыплаченной заработной платы в размере 10000 рублей в месяц за 4 месяца

8. Расторжение брака супругов, имеющих взрослых детей Составь исковое заявление о расторжении брака между супругами, имеющими взрослых детей

9. Взыскание страхового возмещения по договору ОСАГО Составь исковое заявление о взыскании страхового возмещения в размере 120000 рублей по договору ОСАГО

10. Взыскание неосновательного обогащения Составь исковое заявление о взыскании случайно перечисленной суммы в размере 10000 рублей на расчётный счёт ответчика

Ещё один момент, требующий упоминания: авторы сознательно ограничивают виды процессуальных документов только исковыми заявлениями, несмотря на то, что с точки зрения процессуального законодательства это не единственная форма защиты имущественных прав. Например, взыскание коммунальных платежей производится в порядке выдачи судебного приказа (ст. 122 ГПК РФ). Однако в любом случае и такой спор может быть в конечном счёте разрешён в обще исковом порядке (например, после отмены судебного приказа по заявлению должника, ст. 129 ГПК РФ). Таким образом, исковое производство является более универсальной формой защиты, чем приказное.

По итогам оценки для каждого текста составляется таблица с отражением численных результатов для каждой метрики.

Подготовка материалов для исследования. Прежде всего необходимо определиться с исследуемыми единицами текста. Под текстом в целом мы будем понимать всю выдачу системы в ответ на наш запрос, что бы она ни включала в себя. В частности, на один из запросов о генерации искового заявления система СЬа10РТ выдала документ с заголовком «ИНФОРМАЦИОННОЕ ПИСЬМО», хотя дальнейший текст представлял собой исковое заявление. Чтобы не прощать подобное поведение, заголовок следует считать за отдельное предложение.

Разного рода заголовки, например, обращения в «шапке» заявления грамматически не должны считаться предложениями, однако мы считаем их таковыми, так как сложно продемонстрировать информационную избыточность подобных текстов:

«Уважаемый/Уважаемая [Имя ответчика],

ИСКОВОЕ ЗАЯВЛЕНИЕ»

Метрики. Существует несколько метрик качества текста, которые могут оценивать различные аспекты, такие как структура, лексика, семантика, интонация.

Современные системы искусственного интеллекта в сфере генерации текста обучались с учётом этих метрик. Некоторые метрики, используемые для оценки текстов, в данном исследовании не имеют смысла, хотя сами по себе полезны. Например, сентимент-анализ позволяет выявить интонацию текста,

но нам не встречалось ни разу в примерах ни агрессии, ни какого-то отклонения от официального стиля, разве что едва уловимой, скорее характерной для англоязычных правовых документов, интимизации обращений (подобно употреблению слов «уважаемый» по отношению к ответчику, что, очевидно, совершенно не принято в русскоязычной документации).

Общепризнанная структура иска представляет собой сочетание двух необходимых и достаточных элементов: основание и предмет иска. Формулировка основания и предмета иска составляет ключевой элемент идентификации требования, поэтому не допускается одновременное изменение и основания, и предмета иска. В более строгих правопоряд-ках после предъявления иска невозможно изменить ни то, ни другое.

Предмет иска находится в непосредственной связи с его основанием. Если основание иска не может повлечь за собой удовлетворение требований в том виде, в каком они сформулированы, в иске должно быть отказано.

Например, следует считать ошибочным предъявление иска об истребовании квартиры со ссылкой на то, что между сторонами заключён договор займа. Поскольку сами по себе правоотношения займа не влекут возникновение права собственности на имущество должника, в удовлетворении такого иска должно быть отказано. Существуют и более тонкие правовые ситуации, когда даже профессионалы затрудняются определить, насколько предмет иска связан с его основаниями, например, это длительное время касалось вопроса о защите добросовестного приобретателя в рамках ст. 302 Гражданского кодекса РФ.

Конечно, в настоящее время российское процессуальное законодательство ушло далеко от строгого формализма ранней эпохи римского права, однако об этом этапе развития правовой мысли стоит помнить, в особенности в связи с дальнейшей цифровизацией всех судебных процедур. В Древнем Риме периода XII Таблиц неправильное употребление хотя бы одного слова в формуле иска влекло автоматический проигрыш дела (последствия такого проигрыша в то время могли выходить далеко за пределы простого

возмещения судебных расходов и могли влечь за собой даже продажу в рабство проигравшей стороны). По мере внедрения форм для заполнения на судебных сайтах наше процессуальное законодательство может вер

нуться к этой исходной и, казалось бы, давно забытой эпохе развития судебного процесса. В качестве примера приведем предупреждение, которое выдаётся в системе КАД Арбитр при выборе типа заявления (Рисунок 1).

Внимание!

Вы выбрали вид обращения «Заявление о выдаче судебного приказа (статья 2.29.3. АПК РФ)».

После данной операции вы не сможете поменять вид обращения. Продолжить?

Да |

Рисунок 1 - Предупреждение системы «Мой арбитр» при подаче заявления

Источник: https://my.arbitr.ru

Таким образом, правильная и точная формулировка основания и предмета иска является ключевым элементом в построении метрики оценки качества работы юридической NLP-системы.

Критерии оценки качества правильно выявленных юридически значимых онтологий при генерации юридического текста могут быть определены следующим образом: в основание каждого иска должны быть положены те юридические факты, с которыми закон связывает удовлетворение требований. Например, по иску о взыскании долга по долговой расписке истец должен указать, что он заключил договор займа и передал деньги (последнее является ключевым по российскому законодательству, так как договор займа между физическими лицами является реальным договором и без передачи денег не будет считаться заключённым, п. 1 ст. 807 Гражданского кодекса РФ). Важно упомянуть и о том, что долг не был возвращён либо был возвращён не полностью.

Таким образом, для оценки правильности изложения основания иска по договору займа между физическими лицами необходима ссылка на три юридических факта. Если все три упомянуты в подготовленном документе, даже если помимо них упомянуты и другие, юридически незначимые обстоятельства (чем часто грешат непрофессиональные истцы), исковое заявление может быть удовлетворено.

Метрика правильности изложения основания иска может быть сформулирована как отношение количества правильно упомянутых и значимых юридических фактов к количеству юридических фактов, необходимых для удовлетворения исковых требований согласно предмету иска.

Метрика правильности формулировки предмета иска отражает отношение между количеством предложенных пунктов исковых требований и количеством необходимых пунктов исковых требований.

Такая оценка исключает необходимость метрики правильности связи между основанием и предметом иска, которую эксперт давал бы относительно того, являются ли юридические факты, изложенные в основании иска, основанием для его удовлетворения. Если изложенных фактов недостаточно, и метрика оценки качества формулировки основания иска оказывается менее 1, то иск сформулирован неверно.

Применительно к данной метрике необходимо сделать одну оговорку. Следует различать процессуальные требования и собственно предмет иска. С точки зрения «пользователя» между ними нет разницы, поскольку и те и другие часто включаются в т.н. «просительную часть» искового заявления, иными словами, идут после слов «прошу» или «просим». К предмету иска относятся те материально-правовые требования, на которых настаивает истец. Они могут быть только

трёх видов: о взыскании, о признании и об изменении [5, С. 540]. Однако этим требованиям часто сопутствуют требования процессуального характера, например, о взыскании судебных расходов, об истребовании доказательств, принятии обеспечительных мер. Необходимости включать их в состав просительной части иска нет, более того, их можно заявлять в процессе и даже после его окончания, но и включение ошибкой не будет. Если бы предмет иска не носил ключевой характер в идентификации искового заявления, можно было бы подсчитывать все требования, но нам важно вычленить те моменты, которые могут препятствовать дальнейшему рассмотрению дела, поэтому несмотря на то, что в целом ходатайство о взыскании судебных расходов не совсем бесполезное требование в гражданском процессе, для целей данной метрики мы будем игнорировать его при анализе текста.

Возможна ещё одна ситуация, при которой исковые требования и основания иска сформулированы правильно, но при этом не соотносятся с запросом пользователя. В рамках настоящего исследования подобные ситуации не разбирались, так как они предполагают более сложные исковые требования чем те, которые взяты в качестве примеров в данном случае, однако в будущих исследованиях целесообразно будет вводить метрику правильности определения предмета и основания иска на основании запроса пользователя.

Юридические тексты отличаются использованием особых побуждающих выражений, которые должны упрощать понимание заявления для читателя и преследуют цель убеждения в необходимости совершения требуемых действий. Поэтому помимо собственно юридического содержания проекта документа необходимо оценивать качество текста с точки зрения правильности его построения, его убедительности хотя бы с позиции формальных характеристик.

Полнота необходимых реквизитов искового заявления. Процессуальным законодательством установлены обязательные требования к исковому заявлению. Для гражданского процесса они приведены в п. 2 ст. 131 ГПК РФ, а для арбитражного — в п. 2 ст. 125 АПК РФ. В нашей работе сущностные

требования оцениваются отдельными метриками (например, ссылки на законодательство), однако мы выделим в отдельные категории формальные требования для всех документов.

1) Обязательные, влекущие за собой отказ в принятии искового заявления при их отсутствии (метрика полноты строго обязательных реквизитов):

а) наименование суда, в который подаётся заявление:

«Суд первой инстанции обоснованно отказал истцу в принятии искового заявления, поскольку истцом *** Ю.В. не соблюдены требования п. 1 ч. 2 ст. 131 ГПК РФ, ошибочно указан судебный участок № 101 района Замоскворечье г. Москвы. Истцу следовало указать в исковом заявлении Замоскворецкий районный суд г. Москвы» [6];

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

б) наименование или фамилия, имя, отчество (при наличии) истца;

в) наименование или фамилия, имя, отчество (при наличии) ответчика (напрямую в судебной практике такие дела почти не встречаются, тем не менее, в отсутствие таких данных либо при установлении факта ликвидации юридического лица к моменту подачи иска невозможно идентифицировать стороны процесса [7]);

г) подпись истца (п/п 4 п. 1 ст. 135 ГПК РФ, п/п 6 п. 1 ст. 129 АПК РФ).

2) Важные, влекущие за собой оставление без движения искового заявления при их отсутствии (метрика полноты обязательных реквизитов):

а) сведения об истце: физическое лицо (дата и место рождения, место жительства, место работы, идентификатор (например, ИНН), номер телефона и адрес электронной почты); юридическое лицо (адрес, ИНН, номер телефона, адрес электронной почты [8]);

б) сведения об ответчике: физическое лицо (дата и место рождения, место жительства, место работы, идентификатор (например, ИНН), номер телефона и адрес электронной почты); юридическое лицо (адрес, ИНН, номер телефона, адрес электронной почты);

в) цена иска;

г) перечень прилагаемых документов, включающий квитанции об отправке копии заявления ответчику заказным письмом с уведомлением о вручении.

Подводя итог данной характеристике, сформулируем метрику полноты строго обязательных реквизитов искового заявления как отношение количества имеющихся строго обязательных реквизитов к количеству строго обязательных реквизитов и метрику полноты обязательных реквизитов искового заявления как отношение количества имеющихся обязательных реквизитов к количеству обязательных реквизитов. В данном случае и строго обязательных, и обязательных реквизитов всегда будет четыре.

Первым критерием должна быть метрика правильности предложений, которая будет вычисляться как отношение количества неправильно построенных фраз к общему количеству предложений в тексте. Под правильностью здесь будет пониматься не грамматическая правильность предложения, которая в настоящее время практически не вызывает нареканий, а правильность с точки зрения содержания. Например, фраза «Истец является займодавцем по договору купли-продажи» является грамматически правильной, но неверной по существу.

Отдельно следует ввести метрику правильности использования терминов в виде отношения количества неправильно использованных терминов к общему количеству использованных терминов в тексте (включая в понятие «термин» как отдельные слова, так и устойчивые словосочетания). Данный показатель необходим, поскольку правильность предложения не всегда означает, что термин в предложении использован верно, так как неверно использованное слово или словосочетание может быть правильно понятным в контексте всего предложения, однако сама по себе проблема неточности его употребления от этого не снимается. Например, предложение «Займодавец перечислил наличными сумму займа Заёмщику» будет правильным по своей сути, однако более правильной в данном контексте будет фраза «Займодавец передал наличными сумму займа Заёмщику».

Важным элементом любого юридического документа является ссылка на нормативные акты. Сама по себе ссылка на законодательство не всегда является обязательной: например, ст. 131 Гражданского процессуального кодекса РФ не предусматривает в числе

обязательных реквизитов искового заявления ссылку на закон, в отличие от аналогичной статьи Арбитражного процессуального кодекса РФ (см. подпункт 4 п. 2 ст. 125 АПК РФ: «требования истца к ответчику со ссылкой на законы и иные нормативные правовые акты...»). Тем не менее, ясно, что исковое заявление без ссылок на законодательство будет выглядеть как минимум непрофессионально.

Метрика правильности ссылки на законодательство будет рассчитываться как отношение количества правильно приведённых ссылок к количеству ссылок, которые эксперт считает необходимым для данных требований. Здесь необходимо отметить, что общепринятой, но неправильной практикой является чрезмерное цитирование нормативных актов, которое варьируется от простой избыточной отсылки к нормативному акту до полной цитаты из закона. Например, при подаче искового заявления многие юристы любят вставлять ссылку на ту же статью 125 АПК РФ, что на самом деле не несёт никакой смысловой нагрузки.

Метрика избыточности юридического текста представляет собой большую дискуссионную проблему, находящуюся на стыке правовой политики, экономики и юриспруденции и смежной как с задачей обеспечения понятности нормативного акта, так и с задачей регулирования общественных отношений. Безусловно, механистическое применение метрики информационной избыточности как части информационного сообщения, не выполняющего функциональной нагрузки и которая может быть опущена без потери смысла [9], допустимо далеко не во всех случаях, на что справедливо обращают внимание многие исследователи [10]. Тем не менее, поскольку мы имеем дело с процессуальными документами, а не с нормативным актами, и нуждаемся в объективной численной характеристике текста, без этой метрики не обойтись. Возможно также определение избыточности юридического текста через понятие «оптимальной избыточности», которая включает в себя наличие в тексте такого количества информации, которое необходимо и достаточно для принятия верного решения [11]. Мы будем рассматривать в качестве такой метрики соотношение количества предложений, не

несущих смысловой нагрузки, с общим количеством предложений в тексте.

Особой метрикой является общая метрика близости готового документа к качественному исковому заявлению. Она представляет собой шкалу качественной оценки документа экспертом с предложением выбрать категориальные ответы из набора: «идеально соответствует», «неидеален, но может быть использован», «исковое заявление будет оставлено без движения», «документ будет возвращён заявителю». Эта метрика необходима, так как несмотря на все перечисленные метрики, ошибки в документе могут быть настолько существенными, что он в целом не годится для подачи в суд, и конечное слово в данном случае должно быть за экспертом. Некоторые документы, представленные нейронными сетями, являются откровенно смешными с юридической точки зрения, формализовать эту характеристику на этом этапе крайне сложно, поэтому придётся

оставить место волюнтаризму эксперта. Метрика даёт информацию о расстоянии между предложенным документом и идеальным исковым заявлением, поэтому за 0 в ней принимается полное совпадение с идеалом, а за 1 -полное несовпадение.

Подобное категориальное деление не позволяет в полной мере отразить правильное восприятие экспертом соотношения между терминами, поэтому оно обязательно должно сопровождаться вычислениями порядкового соотношения между понятиями. Не входя в подробности этой методики, отметим, что нами использована система визуального вычисления порядкового отношения между терминами [12]. Поскольку в данном случае выборка состояла из одного эксперта, это вычисление можно было провести один раз, но, безусловно, дальнейшая работа будет предполагать большую выборку экспертов. Предлагаемые метрики приведены в таблице 3.

Таблица 3

Метрики качества юридических текстов

Наименование метрики Формула Диапазон значений Описание

Правильность изложения основания иска Fi / F (0, 1] Fi - количество правильных и значимых юридических фактов F - количество юридических фактов, которые должны быть приведены по данному типу искового заявления

Правильность формулировки предмета иска Б; / Б (0, 1] Di - количество правильных и значимых требований D - количество требований, которые должны быть включены в исковое заявление

Полнота строго обязательных реквизитов заявления т / ЯО (0, 1] ROi - количество строго обязательных реквизитов в заявлении RO - количество строго обязательных реквизитов заявления

Полнота обязательных реквизитов заявления Я; / Я (0, 1] Ri - количество обязательных реквизитов в заявлении R - количество обязательных реквизитов заявления

Правильность предложений Б; / Б (0, 1] Si - количество неправильно изложенных предложений S - общее количество предложений

Правильность использования терминов Т / Т (0, 1] Т - количество неправильно использованных терминов Т - общее количество терминов

Продолжение таблицы 3

Наименование метрики Формула Диапазон значений Описание

Правильность ссылки на законодательство ^ / L (0, 1] Li - количество правильно использованных ссылок на законодательство L - общее количество необходимых ссылок на законодательство

Избыточность юридического текста ^ / G (0, 1] Gi - количество бессмысленных предложений G - общее количество предложений

Близость готового документа к качественному исковому заявлению С е (0,1] (0, 1] 0 - совпадение с идеальным заявлением 1 - полное несовпадение с идеальным заявлением

Все результаты ответов сохранены в текстовом формате. Поскольку результаты, предоставляемые YandexGPT 2, разбиваются на части, в текстовых форматах они объединены с исключением технических сообщений системы (таких как «продолжить генерацию»), а также пустых строк. Для удобства подсчёта каждое предложение начинается с новой строки. В тех случаях, когда части предложения выделены в отдельные абзацы,

такое разделение текста сохранено. Например, слова «Требования Истца:» не составляют предложение с грамматической точки зрения, однако в данном случае выделены в отдельный абзац, поэтому считаются за предложение.

Результаты исследования. В ходе исследования были проведены расчёты по каждой категории дел. Результаты представлены в таблице 4.

Таблица 4

Результаты оценки качества сгенерированных текстов

Номер категории дел / метрика 1 2 3 4 5 6 7 8 9 10

Правильность изложения основания иска 4 1 3 1 2 2 0 2 1 3

F 4 3 3 2 3 3 2 2 4 3

Результат 1,00 0,33 1,00 0,50 0,67 0,67 0,00 1,00 0,25 1,00

Правильность формулировки предмета иска 1 2 1 0 2 1 0 1 1 1

D 1 2 1 1 2 1 2 1 1 1

Результат 1 1 1 0 1 1 0 1 1 1

Полнота строго обязательных реквизитов Я01 3 4 1 2 2,00 1 1 1 1 1

RO 4 4 4 4 4 4 4 4 4 4

Результат 0,75 1,00 0,25 0,50 0,50 0,25 0,25 0,25 0,25 0,25

Полнота обязательных реквизитов Ш 0 0 0 0 0 0 0 0 0 0

R 4 4 3 4 4 4 4 3 4 4

Результат 0 0 0 0 0 0 0 0 0 0

Правильность предложений 81 5 8 8 10 11 6 10 5 6 10

S 31 25 25 25 28 22 24 22 25 24

Результат 0,16 0,32 0,32 0,40 0,39 0,27 0,42 0,23 0,24 0,42

Продолжение _ таблицы 4

Номер категории дел / метрика 1 2 3 4 5 6 7 8 9 10

Правильность использования терминов 8 25 10 9 12 11 15 12 10 16

Т 84 108 79 72 85 84 88 66 78 101

Результат 0,10 0,23 0,13 0,13 0,14 0,13 0,17 0,18 0,13 0,16

Правильность ссылки на законодательство Li 0 0 0 0 0 0 0 0 0 0

Ь 1 1 1 1 3 2 1 1 1 1

Результат 0 0 0 0 0 0 0 0 0 0

Избыточность юридического текста О, 12 9 12 11 11 8 9 8 9 8

О 31 25 25 25 28 22 24 22 25 24

Результат 0,39 0,36 0,48 0,44 0,39 0,36 0,38 0,36 0,36 0,33

Близость готового

документа к качественному 1 1 1 1 1 1 1 1 1 1

исковому заявлению

Итог: пригодность к использованию нет нет нет нет нет нет нет нет нет нет

Хотя грамотность русского языка не оценивалась, можно отметить, что неграмотное употребление некоторых слов в околоюридических текстах проникло и в генерируемые тексты. Так, СЬаЮРТ не знает русского слова «заём», используя вместо него отсутствующее в русском литературном языке слово «займ» [13]. Конечно, такая орфографическая ошибка никак не влияет на качество документа, лишь снижая общее эстетическое восприятие текста. Иногда система выдаёт достаточно странные ошибки, например: «они более не могут продолжать совместную жизну» или путает род: «Постоянное и неисправимое разлад». Такие ошибки могут быть допущены и человеком, и в судах на них особого внимания не обращают, если только речь не идёт о существенных ошибках в просительной части.

Подготовленные документы каждый раз сильно отличаются друг от друга. Хотя в российском законодательстве и даже судебной практике нет установленных шаблонов исковых заявлений, существует общепринятая форма этих документов, упрощающая их обработку. В целом все системы следуют общепринятой последовательности изложения текста заявления (сперва указываются стороны, цена иска, обстоятельства дела, просительная часть, подпись, приложения).

Достаточно интересным оказалось то, что ни в одном из заявлений не возникло т.н. «галлюцинаций», когда в тексте появлялись бы совершенно неотносящиеся к делу предложения. Эта проблема часто встречается в задачах генерации изображений [14].

YandexGPT 2 не с первого раза выдаёт исковое заявление. Не известно, от чего зависит такое поведение, но прежде чем получить ответ в виде заявления, приходится несколько раз повторять запрос. В большинстве случаев система выдаёт ответ: «Простите, но я не могу составить для вас исковое заявление по этому запросу. Я не обладаю достаточными знаниями и опытом в области юриспруденции, поэтому могу допустить ошибки или неточности в документе. Рекомендую вам обратиться к юристу для получения квалифицированной помощи в этом вопросе».

После успешного ответа на первый запрос (о взыскании долга по заёмной расписке) YandexGPT 2 перестала выдавать ответы, поэтому исследование в этой части пришлось прекратить. Это тем более вызывает сожаление, поскольку именно документ, подготовленный с помощью этой системы, оказался наиболее близким к желаемому результату по сравнению с документами, выданными СЬа1;ОРТ.

В случае решения вопроса об автоматизации создания документов необходимо учитывать эту особенность поведения системы, так как получение ответа на запрос не гарантировано.

Также значительная часть документов, выдаваемых ChatGPT, была снабжена предложением обратиться к юристу или адвокату за консультацией.

Обсуждение. Несмотря на то, что целью работы является введение численных характеристик качества юридических документов, проведённое исследование не лишено волюнтаризма эксперта. Для его исключения следовало бы увеличить количество экспертов, получив от них письменные пояснения по каждому выставленному баллу в отношении документации.

В работе сознательно не обсуждается вопрос о тонкой подстройке запросов к системам искусственного интеллекта. Действительно, запрос к системе можно улучшать до бесконечности, но тогда возникает вопрос, что вместо специалиста-юриста пользователю потребуется специалист по запросам к

Список источников

1. Юрьев Р. О применении искусственного интеллекта при обработке юридических текстов и принятии решений на основе компьютерных систем // Хозяйство и право. 2019. № 1 (504). С. 116-128.

2. Переходько И. В., Мячин Д. А. Оценка качества компьютерного перевода // Вестник Оренбургского государственного университета. 2017. № 2 (202). С. 92-96.

3. Митренина О. В., Мухамбеткалиева А. Г. Как и какой перевод (не) оценивают компьютеры // Journal of Applied Linguistics and Lexicography. 2021. Т. 3. № 2. С. 77-84.

DOI 10.33910/2687-0215-2021-3-2-77-84.

4. Данные судебной статистики // Судебный департамент при Верховном Суде РФ. Официальный вебсайт [Электронный ресурс]. - Режим доступа: http: //www .cdep.ru/index.php ?id=79&item= 7645

5. Васьковский Е. В. Курс гражданского процесса: Субъекты и объекты процесса, процессуальные отношения и действия. - М.: Статут, 2016.

- 624 с.

6. Апелляционное определение Московского городского суда от 04.07.2014 по делу N 33-26903 // СПС «КонсультантПлюс» [Электронный ресурс]

- Режим доступа: https://www.consultant.ru/

ChatGPT, то есть никакой замены человека на искусственный интеллект не произойдёт.

Использование платной версии ChatGPT в рамках данной работы не предусматривалось в связи с отсутствием финансирования, а на запрос о предоставлении академической лицензии для доступа к коммерческой версии компания OpenAI не ответила. Судя по имеющимся публикациям в прессе, отличия в плане качества документов между платной и бесплатной версией не являются существенными.

Заключение. Ни один из подготовленных документов не был бы принят судом к производству, все они содержали неустранимые в рамках подготовки к судебному заседанию недостатки и подлежали возврату. Тем не менее, предлагаемые метрики позволяют ввести градацию документов и определить наиболее близкие к идеальному исковому заявлению варианты. В дальнейшем метрики могут быть использованы в разработке автоматизированных систем интеллектуальной поддержки юридической деятельности.

References

1. Yuriev R. On the Use of Artificial Intelligence in Processing Legal Texts and Making Decisions Based on Computer Systems. Hozyajstvo i pravo. 2019. No. 1 (504). pp. 116-128. (In Russ.).

2. Perekhodko I. V., Myachin D. A. Assessing the Quality of Computer Translation. Vestnik Oren-burgskogo gosudarstvennogo universiteta. 2017. No. 2 (202). pp. 92-96. (In Russ.).

3. Mitrenina O. V., Mukhambetkalieva A. G. How and What Translation is (not) Evaluated by Computers. Journal of Applied Linguistics and Lexicography. 2021. Vol. 3. No. 2. С. 77-84. (In Russ.).

DOI 10.33910/2687-0215-2021-3-2-77-84.

4. Judicial Statistics Data. Judicial Department of the Supreme Court of the Russian Federation. Official website. Available at: http://www.cdep.ru/in-dex.php?id=79&item=7645 (In Russ.).

5. Vaskovsky E.V. Course of Civil Procedure: Subjects and Objects of the Process, Procedural Relations and Actions. Moscow. Statute. 2016. 624 p. (In Russ).

6. Appeal Ruling of the Moscow City Court dated July 4, 2014 in Case No. 33-26903. SPS «Consult-antPlus». Available at: https://www.consultant.ru/ (In Russ.).

7. Апелляционное определение Московского городского суда от 20.08.2019 по делу N 3335670/2019 // СПС «КонсультантПлюс» [Электронный ресурс] - Режим доступа: https://www.consultant.ru/

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

8. Апелляционное определение Верховного суда Республики Мордовия от 22.06.2023 N 331059/2023 // СПС «КонсультантПлюс» [Электронный ресурс] - Режим доступа: https://www. consultant.ru/

9. Кудрявцев Ю. В. Нормы права как социальная информация - М.: Юридическая литература, 1981 - 144 с.

10. Белоусов С. А. Дисбаланс российского законодательства и информационная избыточность нормативно-правового текста: соотношение и взаимосвязь // Правовая культура. 2015. № 4 (23). С.48-57.

11. Лупандина О. А. Оптимальная информационная избыточность в текстах нормативно-правовых актов // Известия ЮФУ. Технические науки. 2009. № 3 (92). С. 155-160.

12. García-Lapresta J.L., González del Pozo R., Pérez-Román D. Metrizable Ordinal Proximity Measures and Their Aggregation // Information Sciences. 2018. T. 448-449. C. 149-163. (In Eng.). DOI: 10.1016/j.ins.2018.03.034.

13. Грамота.ру [Электронный ресурс] - Режим доступа: http://gramota.ru/slovari/dic/?lop=x&bts= x&zar=x&ag=x&ab=x&sin=x&lv=x&az=x&pe=x& word=заём

14. Zhang Y., Tsang I. W., Luo Y., Hu C., Lu X., Yu X. Recursive Copy and Paste GAN: Face Hallucination From Shaded Thumbnails // IEEE Transactions on Pattern Analysis and Machine Intelligence. Т. 44. № 8. С. 4321-4338. (In Eng.).

DOI: 10.1109/TPAMI.2021.3061312.

7. Appeal Ruling of the Moscow City Court dated August 20, 2019 in Case No. 33-35670/2019. SPS «Con-sultantPlus». Available at: https://www.consult-ant.ru/ (In Russ.).

8. Appeal Ruling of the Supreme Court of the Republic of Mordovia dated June 22, 2023 N 33-1059/2023. SPS «ConsultantPlus». Available at: https://www. consultant.ru/ (In Russ.).

9. Kudryavtsev Yu. V. Rules of Law as Social Information. Moscow. YUridicheskaya literatura. 1981. 144 p. (In Russ.).

10. Belousov S. A. Imbalance of Russian Legislation and Information Redundancy of the Regulatory Text: Correlation and Interrelation. Pravovaya kul'tura. 2015. No. 4 (23). pp. 48-57. (In Russ.).

11. Lupandina O. A. Optimal Information Redundancy in the Texts of Regulatory Legal Acts. Izvestiya YUFU. Tekhnicheskie nauki. 2009. No. 3 (92). pp. 155-160. (In Russ.).

12. García-Lapresta J.L., González del Pozo R., Pérez-Román D. Metrizable Ordinal Proximity Measures and Their Aggregation. Information Sciences. 2018. Vol. 448-449. pp. 149-163.

DOI: 10.1016/j.ins.2018.03.034.

13. Gramota.ru. Available at: http://gramota.ru/ slovari/dic/?lop=x&bts=x&zar=x&ag=x&ab=x& sin=x&lv=x&az=x&pe=x&word=3aëM (In Russ.).

14. Zhang Y., Tsang I. W., Luo Y., Hu C., Lu X., Yu X. Recursive Copy and Paste GAN: Face Hallucination From Shaded Thumbnails. IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 44. No. 8. pp. 4321-4338.

DOI: 10.1109/TPAMI.2021.3061312.

Статья поступила в редакцию 27.05.2024; одобрена после рецензирования 21.06.2024; принята к публикации 26.06.2024. The article was submitted 27.05.2024; approved after reviewing 21.06.2024; accepted for publication 26.06.2024.

i Надоели баннеры? Вы всегда можете отключить рекламу.