Научная статья на тему 'АВТОМАТИЗАЦИЯ ЮРИДИЧЕСКОЙ ЭКСПЕРТИЗЫ ТЕКСТОВ ДОГОВОРОВ'

АВТОМАТИЗАЦИЯ ЮРИДИЧЕСКОЙ ЭКСПЕРТИЗЫ ТЕКСТОВ ДОГОВОРОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
172
43
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА / АОТ / LEGAL TECH / ЮРИДИЧЕСКАЯ ЭКСПЕРТИЗА / СООТВЕТСТВИЕ ТЕКСТА / РЕФЕРИРОВАНИЕ / AUTOMATED TEXT PROCESSING / LEGAL EXPERTISE / TEXT COMPLIANCE / TEXT SUMMARIZATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ненаусников К. В.

Выполнено построение модели юридического документа типа „договор“, на основании которого разработана система автоматизации юридической экспертизы. Проанализированы существующие способы автоматической обработки текстов юридических документов, определена их специфика. Для выполнения задачи используется ассоциативно-онтологический подход и применяются методы суммаризации текста. Для упрощения юридической экспертизы текст договора представляется в виде нестрогой последовательности текстовых блоков, каждый из которых отражает независимую от других блоков смысловую нагрузку. Рассматривается задача выделения типовых разделов из текста, описанных посредством набора обязательных и вариативных блоков в порядке их размещения в договоре. Разработана система выделения текстовых блоков, основанная на методах суммаризации и ассоциативно-онтологическом представлении предложений, и предложен алгоритм соотнесения предложений или их частей к одному из типовых блоков. Полученную модель планируется использовать для обработки договоров типа „согласие на обработку персональных данных“.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AUTOMATION OF LEGAL EXPERTISE OF AGREEMENT TEXTS

A model of a legal document of the “contract” type is built and used as the basis of a system developed for legal expertise automation. The existing methods of automatic processing of texts of legal documents are analyzed, their specificity is determined. To accomplish the task, an associative-ontological approach is used, and methods of text summarization are applied. To simplify the legal examination, the text of the agreement is presented in the form of a non-strict sequence of text blocks, each of which reflects a semantic load independent of other blocks. The problem of highlighting typical sections from the text, described by means of a set of mandatory and variable blocks in the order of their placement in the contract, is considered. A system for the text blocks selection is been developed based on the methods of summarization and associative-ontological representation of sentences. An algorithm for correlating sentences or their parts to one of standard blocks is proposed. The resulting model is planned to be used for processing agreements of the "consent to the processing of personal data" type.

Текст научной работы на тему «АВТОМАТИЗАЦИЯ ЮРИДИЧЕСКОЙ ЭКСПЕРТИЗЫ ТЕКСТОВ ДОГОВОРОВ»

УДК 004.89

DOI: 10.17586/0021-3454-2020-63-11-1034-1039

АВТОМАТИЗАЦИЯ ЮРИДИЧЕСКОЙ ЭКСПЕРТИЗЫ ТЕКСТОВ ДОГОВОРОВ

К. В. Ненаусников

Санкт-Петербургский федеральный исследовательский центр Российской академии наук,

199178, Санкт-Петербург, Россия E-mail: konstantin2113@mail. ru

Выполнено построение модели юридического документа типа „договор", на основании которого разработана система автоматизации юридической экспертизы. Проанализированы существующие способы автоматической обработки текстов юридических документов, определена их специфика. Для выполнения задачи используется ассоциативно-онтологический подход и применяются методы сумма-ризации текста. Для упрощения юридической экспертизы текст договора представляется в виде нестрогой последовательности текстовых блоков, каждый из которых отражает независимую от других блоков смысловую нагрузку. Рассматривается задача выделения типовых разделов из текста, описанных посредством набора обязательных и вариативных блоков в порядке их размещения в договоре. Разработана система выделения текстовых блоков, основанная на методах сумма-ризации и ассоциативно-онтологическом представлении предложений, и предложен алгоритм соотнесения предложений или их частей к одному из типовых блоков. Полученную модель планируется использовать для обработки договоров типа „согласие на обработку персональных данных".

Ключевые слова: автоматическая обработка текста, АОТ, legal tech, юридическая экспертиза, соответствие текста, реферирование

Введение. Работа с договорами — составление, согласование и соблюдение обязательств на протяжении всего срока договора — важный и дорогостоящий процесс, требующий участия одного или нескольких экспертов. Это мониторинг текущего законодательства, вычитка договоров на предмет неправильной структуры и отсутствия неоднозначности, а также отслеживание сроков договоров. Для уменьшения времени выполнения полного цикла обработки договора и снижения сопутствующих затрат могут быть применены методы искусственного интеллекта. Так, применение методов автоматизации возможно на этапах поиска договора, его юридической экспертизы и сопровождения [1].

В настоящей статье рассматриваются вопросы автоматизации юридической экспертизы, целью которой является выявление уязвимых мест и вероятных нарушений. Таковыми могут быть нарушения требований действующего законодательства, например: отсутствие необходимых разделов и формулировок, неправильная структура документа, наличие неоднозначности и др.

В данной области на зарубежном рынке представлены продукты „Thomson Reuters Westlaw" (https://legal.thomsonreuters.com/en), „Kira Systems" (https://kirasystems.com/how-it-works/quick-study/), „KM Standards" (http://knbgmstandards.com/services.html), выполняющие анализ договоров на согласно заданным правилам. Аналогом этих продуктов в России можно считать проект „Система юрист" компании „Preferentum" (https://dogovor.1jur.ru/).

В приведенных выше проектах предлагаемые решения направлены на определение типа текста договора, его основных структурных элементов и ключевых для договора объектов (именованных сущностей [2]), также выполняется привязка к близким имеющимся в базе шаблонам. Результат предоставляется пользователю в виде разметки, где определены границы разделов, указаны гиперссылки на связанные разделы и документы, а также предложен список рекомендаций.

Имеющиеся зарубежные проекты ориентированы исключительно на специфику английского текста и неприменимы как к юридическим документам на русском языке, так и, в более широком понимании, к документам, используемым в юридической практике в Российской Федерации.

Существующие решения, созданные для обработки текстов на русском языке, являются проприетарными и в предлагаемых разработчиками демоверсиях не дают возможности загрузки своих документов, что в совокупности не позволяет оценить качество используемых в них моделей и алгоритмов.

Специфика юридических документов. В целом тексты договоров, в отличие от структур общеупотребительной речи, характеризуются меньшим количеством омонимов и замещений терминов местоимениями, что на раннем этапе разработки системы анализа текста снимает необходимость решения задач семантической разметки слов и разрешения местоименной анафоры, а также позволяет использовать терминологические словари.

Другой особенностью юридических документов является сложная синтаксическая структура предложений и практически полное отсутствие размеченных корпусов [3, 4], также, в отличие от других узкоспециализированных областей (медицинской, экономической и т.п.), в области юриспруденции отсутствует общая онтология [5, 6]. Перечисленные свойства не позволяют напрямую применить методы обучения с учителем [7] и классические онтологические подходы [8].

Рассмотрим решение задачи валидации текстового юридического документа, относящегося к договорам.

Определим формально валидацию как процедуру идентификации фрагментов текста, отнесения их к одному из типов, допустимых для данного документа, проверки наличия требуемых фрагментов (текстовых блоков) согласно признакам обязательного наличия, а также порядка следования блоков.

С целью упрощения представим структуру документа типа „договор" в виде последовательности текстовых блоков. Каждый блок может представлять собой обязательный или вариативный раздел договора, законченное высказывание, несущее независимую от других блоков смысловую нагрузку. Каждый блок может состоять из одного или нескольких предложений, а также быть частью сложного предложения. Разделение естественно-языкового текста на блоки и их дальнейший анализ позволит автоматизировать процесс юридической экспертизы путем выявления обязательных и вариативных разделов документа, их границ и порядка следования, что обусловлено формальными требованиями к структуре документа и в совокупности позволяет упростить для эксперта задачу быстрой проверки документа на корректность.

Часть блоков имеет однозначное расположение в тексте, например, наименование договора (блок 1), как правило, стоит в начале текста, а дата и подпись (блок п) в конце. Другие блоки в разных вариантах договора могут в пределах определенного отрывка располагаться в случайном порядке, так, на рис. 1 отрывок 2 содержит блоки 2, 3 и 4, а отрывок 3 — блоки 5 и 6. Порядок блоков внутри отрывка может быть произвольным, что не влияет на корректность текста договора.

Блок 1

Отрывок 1

Блок 2

Блок 3

Блок 4

Отрывок 2

Блок 5

Блок 6

Отрывок 3

Блок п

Отрывок т

Рис. 1

Для учета требований к последовательности блоков вводится проверка на последовательность условных номеров блоков Ы, заданных в общем шаблоне документа. Шаблон договора включает в себя список разделов, где каждый раздел содержит свой номер, имя, тип (обязательный или вариативный) и примеры использования, заданные в виде графа связности (рис. 2).

Корректным считается текст, в котором для каждого блока с номером Ыв выполняется

условие < , где — номер любого блока, находящегося перед блока с номером Ыв.

Если положение блока в тексте неважно, то такой блок не имеет собственного значения N и в проверке не участвует.

Блок А Блок В

Блок С

Блок П

Рис. 2

Зависимость блоков определяется их положением в тексте. Блок, который зависит от впередистоящего, в тексте может располагаться только после него. Для примера, на рис. 2 корректный порядок блоков в тексте может быть представлен тремя комбинациями: (А, В, С, П), (С, А, В, П) и (А, С, В, П).

Система поддержки юридической экспертизы. Юридическая экспертиза выполняется с учетом существующего законодательства, „полезных юридических практик" и коллекции верно построенных документов — на основании этого набора составляются формальные требования к документу. Также на этом основании выполняются разделение текста договора на блоки и анализ их принадлежности к обязательному списку разделов. В дальнейшем согласно найденным несоответствиям генерируются рекомендации к исправлению. Функциональная модель системы поддержки юридической экспертизы представлена на рис. 3. Формальные требования к документу

Шаблон

г

Получение шаблона документа

Примеры содержания разделов Ассоциативно-онтологическое представление разделов

Текст договора

Л па Ошибки

Разбиение

ннааббллооккии

Блоки

Генерация рекомендаций

Рекомендации

т

V

Рис. 3

В случае отсутствия разметки и онтологии для формирования шаблона можно использовать методы на основе ассоциативно-онтологического подхода [9].

Для определения границ блоков может быть использован метод реферирования. Основным структурным элементом при выполнении реферирования считаются предложения [10]. Положение блока определяется в два этапа. На первом этапе оценивается близость каждого предложения к каждому из блоков шаблона, затем предложения с наиболее высокой оценкой близости вычеркиваются. Процесс повторяется для оставшегося текста. Таким образом, несколько предложений могут содержать элементы одного блока, но несколько блоков не могут относится к одному предложению.

На втором этапе, если остались незадействованные блоки, начинается проверка возможности того, что предложение содержит два блока. Для этого предложение разбивается на две равные части, при этом середина предложения определяется по количеству содержащихся в нем слов без учета знаков препинания. Затем определяется максимум суммы двух вероятностей принадлежности частей предложения к блокам путем последовательных сдвигов границы раздела предложения на одно слово. В случае если максимум суммы двух вероятностей пре-

вышает вероятность принадлежности исходного предложения к первоначальному блоку, то предложение представляется в виде двух определенных фрагментов (рис. 4).

Рис. 4

На основании выделенных из текста рассматриваемого документа и имеющегося шаблона блоков выполняется анализ. Определяется список ошибок, содержащихся в тексте.

Заключение. Представлен обзор существующих решений для анализа юридических документов и выполнено построение модели текста типа „договор" с целью автоматизации процесса юридической экспертизы.

На основе разработанной модели построена система поддержки юридической экспертизы, позволяющая выполнить разделение текста на блоки, соответствующие пунктам экспертного шаблона. Рассмотрены отдельные части общей задачи валидации юридического документа, включая задачу определения границ блоков текста и проверки их последовательности

Построенную модель договора и систему поддержки юридической экспертизы в дальнейшем планируется применить для анализа качества договоров типа „Согласие на обработку персональных данных".

Работа выполнена в рамках реализации Государственного задания на 2020 г., № 00732019-0005.

список литературы

1. Grossman M., Cormack G. Technology-assisted review in E-discovery can be more effective and more efficient than exhaustive manual review // Richmond Journal of Law and Technology. 2011. Vol. 17, N 3.

2. Lample G., Ballesteros M., Subramanian S., Kawakami K., Dyer C. Neural architectures for named entity recognition // Proc. of the Conf. of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT 2016). 2016. P. 260—270. DOI: 10.18653/v1/N16-1030.

3. Cardellino C., Alemany L. A., Teruel M., Villata S., Marro S. Convolutional ladder networks for legal NERC and the impact of unsupervised data in better generalizations // Proc. of the 32nd Intern. Florida Artificial Intelligence Research Society Conf. (FLAIRS-32). 2016. P. 155—160.

4. Zhang J., El-Gohary N. M. Semantic NLP-based information extraction from construction regulatory documents for automated compliance checking // J. of Computing in Civil Engineering. 2013. Vol. 30, N 2. DOI: 10.1061/(ASCE)CP.1943-5487.0000346.

5. Ajani G., Boella G., Caro D. L., Robaldo L., Humphreys L., Praduroux S., Rossi P., Violato A. The european legal taxonomy syllabus: a multi-lingual, multi-level ontology framework to untangle the web of european legal terminology // App. Ontology. 2016. Vol. 11. P. 325—375. DOI: 10.3233/A0-170174.

6. Soysal E., Cicekli I., Baykal N. Design and evaluation of an ontology based information extraction system for radiological reports // Computers in Biology and Medicine. 2010. Vol. 40, N 11. P. 900—911. DOI: 10.1016/j.compbiomed.2010.10.002.

7. Blums I., Weigand H. Towards a reference ontology of complex economic exchanges for accounting information systems // IEEE 20th Intern. Enterprise Distributed Object Computing Conf. (EDOC) 2016. P. 1—10. DOI: 10.1109/EDOC.2016.7579388.

8. Devlin J., Chang M.W., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding // Proc. of the Conf. of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT 2019). 2019. Vol. 1. P. 4171—4186.

9. Kuleshov S., Zaytseva A., Aksenov A. Natural language search and associative-ontology matching algorithms based on graph representation of texts // Advances in Intelligent Systems and Computing. 2019. Vol. 1046. DOI: 10.1007/978-3-030-30329-7_26.

10. Allahyari M., Pouriyeh S., Assefi M. et al. Text summarization techniques: a brief survey // Intern. Journal of Advanced Computer Science and Applications. 2017. Vol. 8, N 10. DOI: 10.14569/ijacsa.2017.081052.

Сведения об авторе

Константин Вячеславович Ненаусников — СПбФИЦ РАН, СПИИРАН, лаборатория автоматизации научных исследований; мл. научный сотрудник; E-mail: konstantin2113@mail.ru

Поступила в редакцию 02.10.2020 г.

Ссылка для цитирования: Ненаусников К. В. Автоматизация юридической экспертизы текстов договоров // Изв. вузов. Приборостроение. 2020. Т. 63, № 11. С. 1034—1039.

AUTOMATION OF LEGAL EXPERTISE OF AGREEMENT TEXTS K. V. Nenausnikov

St. Petersburg Federal Research Center of the RAS, 199178, St. Petersburg, Russia E-mail: konstantin2113@mail.ru

A model of a legal document of the "contract" type is built and used as the basis of a system developed for legal expertise automation. The existing methods of automatic processing of texts of legal documents are analyzed, their specificity is determined. To accomplish the task, an associative-ontological approach is used, and methods of text summarization are applied. To simplify the legal examination, the text of the agreement is presented in the form of a non-strict sequence of text blocks, each of which reflects a semantic load independent of other blocks. The problem of highlighting typical sections from the text, described by means of a set of mandatory and variable blocks in the order of their placement in the contract, is considered. A system for the text blocks selection is been developed based on the methods of summarization and associative-ontological representation of sentences. An algorithm for correlating sentences or their parts to one of standard blocks is proposed. The resulting model is planned to be used for processing agreements of the "consent to the processing of personal data" type.

Keywords: automated text processing, legal tech, legal expertise, text compliance, text summarization

REFERENCES

1. Grossman M., Cormack G. Richmond Journal of Law and Technology, 2011, no. 3(17).

2. Lample G., Ballesteros M., Subramanian S., Kawakami K., Dyer C. Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics, Human Language Technologies (NAACL HLT-2016), 2016, pp. 260-270, DOI: 10.18653/v1/N16-1030.

3. Cardellino C., Alemany L.A., Teruel M., Villata S., Marro S. Proceedings of the 32nd International Florida Artificial Intelligence Research Society Conference (FLAIRS-32), 2016, pp. 155-160.

4. Zhang J., El-Gohary N.M. Journal of Computing in Civil Engineering, 2013, no. 2(30), DOI: 10.1061/(ASCE)CP.1943-5487.0000346.

5. Ajani G., Boella G., Caro D.L., Robaldo L., Humphreys L., Praduroux S., Rossi P., Violato A. Applied ontology, 2016, vol. 11, pp. 325-375, DOI: 10.3233/A0-170174.

6. Soysal E., Cicekli I., Baykal N. Computers in Biology and Medicine, 2010, no. 11(40), pp. 900-911, DOI: 10.1016/j.compbiomed.2010.10.002.

7. Blums I., Weigand H. IEEE 20th International Enterprise Distributed Object Computing Conference (EDOC), 2016, pp. 1-10, DOI: 10.1109/EDOC.2016.7579388.

8. Devlin J. Chang M.W., Lee K., Toutanova K. Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT 2019), 2019, vol. 1, pp. 4171-4186.

9. Kuleshov S., Zaytseva A., Aksenov A. Intelligent Systems Applications in Software Engineering. CoM-eSySo 2019, Advances in Intelligent Systems and Computing, Springer, Cham, 2019, vol. 1046, DOI 10.1007/978-3-030-30329-7_26.

10. Allahyari M., Pouriyeh S., Assefi M., Safaei S., Trippe E. D., Gutierrez J. B., Kochut K. International Journal of Advanced Computer Science and Applications, 2017, no. 10(8), DOI: 10.14569/ijacsa.2017.081052.

Data on author

Konstantin V. Nenausnikov — St. Petersburg Federal Research Center of the RAS, St.

Petersburg Institute for Informatics and Automation of the RAS, Laboratory of Research Automation; Junior Researcher; E-mail: konstantin2113@mail.ru

For citation: Nenausnikov K. V. Automation of legal expertise of agreement texts. Journal of Instrument Engineering. 2020. Vol. 63, N 11. P. 1034—1039 (in Russian).

DOI: 10.17586/0021-3454-2020-63-11-1034-1039

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.