К ВОПРОСУ ИСПОЛЬЗОВАНИЯ ВОЗМОЖНОСТЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА В НАУЧНОЙ ДЕЯТЕЛЬНОСТИ ФСИН РОССИИ

Царькова Евгения Геннадьевна

DOI: 10.24412/2224-9133-2023-6-155-157 NIION: 2021-0079-6/23-342 MOSURED: 77/27-025-2023-06-342

ЦАРЬКОВА Евгения Геннадьевна,

кандидат физико-математических наук, ведущий научный сотрудник НИЦ-1 ФКУ НИИ ФСИН России, e-mail: university69@mail.ru

К ВОПРОСУ ИСПОЛЬЗОВАНИЯ ВОЗМОЖНОСТЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА В НАУЧНОЙ ДЕЯТЕЛЬНОСТИ ФСИН РОССИИ

Аннотация. В работе рассматривается актуальная задача обработки больших объемов юридических текстов с использованием современных информационных технологий. Одной из ключевых проблем при решении рассматриваемой задачи является необходимость категоризации текстовых данных с заданной точностью. Выработка методов решения задач данного класса служит совершенствованию инструментария для проведения научных исследований в интересах уголовно-исполнительной системы Российской Федерации.

Ключевые слова: право, юридическая деятельность, классификация юридических текстов, искусственная нейронная сеть, научно-исследовательская деятельность, уголовно-исполнительная система Российской Федерации.

TSARKOVA Evgeniya Gennadievna,

сandidate of Physical and Mathematical Sciences, Leading researcher of SIC-1 of the Research Institute of the Federal Penitentiary Service of Russia

ON THE ISSUE OF USING THE CAPABILITIES OF ARTIFICIAL INTELLIGENCE IN THE SCIENTIFIC ACTIVITIES OF THE FEDERAL PENITENTIARY SERVICE OF RUSSIA

Annotation. The paper considers the actual task of processing large volumes of legal texts using modern information technologies. One of the key problems in solving the problem under consideration is the need to categorize text data with a given accuracy. The development of methods for solving problems of this class serves to improve the tools for conducting scientific research in the interests of Penal System of the Russian Federation.

Key words: law, legal activity, classification of legal texts, artificial neural network, research activity, Penal System of the Russian Federation.

В настоящее время экспоненциальный рост объема электронных текстовых данных в юридической отрасли приводит к увеличению ресурсов, требующихся для их анализа. Просмотр документов - наиболее обширная часть процесса обработки электронных данных. Сотрудники, участвующие в обработке больших объемов юридических текстов, часто перегружены электронными данными, занимающими гигабайты памяти ЭВМ. При проведении научных исследований в интересах ФСИН России возникает необходимость обработки объемных текстовых данных для их анализа в целях получения новых закономерностей, выявления связей, построения прогнозов, формирования эффек-

тивных стратегий управления и др. [1, С. 67] Одной из таких сфер практического применения алгоритмов классификации юридических текстов является задача категоризации текстов исковых заявлений, решаемая в целях анализа предпосылок возникновения неблагоприятных последствий, связанных с подачей исков. Обработка большого объема текстов исковых заявлений, насчитывающих десятки тысяч записей, является для человека трудноразрешимой задачей, в то время как средства автоматизации обеспечивают возможность обработки массивов текстовых данных и формирования необходимых сводных отчетов за секунды машинного времени. Сегодня технологии искусственного интеллекта (ИИ), в

частности машинное обучение, все чаще используются юридическими организациями [2, С. 82]. Технологии искусственного интеллекта могут быть успешно применены для автоматической классификации документов по заданным категориям [3, С. 135]. Вместе с тем, в последние годы отмечается определенный разрыв между достижениями исследователей в области машинного обучения и автоматизацией специальных рабочих процессов в юридической сфере. Существует объективная потребность в создании языковых моделей, обученных на корпусах русскоязычных юридических текстов, а также разработка методов машинного обучения для интеллектуального анализа данных. В работе рассматриваются методы машинного обучения для классификации текстов применительно к анализу юридических документов, а также приводятся перспективы применения технологий искусственного интеллекта для формирования инструментария юриста.

Существует ряд способов разделения текста на категории, каждый из которых имеет свои преимущества и недостатки. Один из основных методов - задание жестких условий поиска по ключевым словам и фразам. Такой подход позволяет определить соответствие текста определенной категории. Метод основывается на использовании регулярных выражений для выделения из текста ключевых слов, которые помогают точно отнести текст к необходимой категории. Вместе с тем, данный метод имеет ряд недостатков. Во-первых, перед началом работы необходимо заранее определить список категорий и жесткие правила для их соотнесения с текстами. Кроме того, при значительном количестве категорий требуется проработка их сочетаемости, учет различных вариантов написания для максимальной точности классификации. При этом точность классификации уменьшается с ростом числа категорий и численностью обрабатываемых текстов. Жесткие условия классификации целесообразно применять при анализе небольших объемов данных; их использование в крупных системах обработки текстовой информации малоэффективно. Для повышения точности классификации требуется применение более сложных алгоритмов, которые способны работать на больших объемах данных. К числу эффективных методов распределения текстов по категориям относятся алгоритмы машинного обучения, позволяющие автоматически извлекать информацию из текста, определять категории и обучать модель на основе этой информации [4]. Для применения данного подхода необходимо наличие обучающей выборки с достаточным объемом данных.

Наиболее действенный и перспективный метод разделения текста на категории - использование нейронных сетей. Применение данного метода требует сбора достаточного объема данных для тренировки модели, распределенных равномерно по категориям. При этом качество и достоверность результата решения напрямую зависит от свойств обучающей выборки, поэтому необходима тщательная работа по ее предварительной подготовке.

Отметим, что для достижения высокой точности при категоризации текстовых фрагментов на основе методов искусственного интеллекта необходимо иметь достаточный объем данных и сбалансированные выборки по категориям. Использование более 10000 записей для каждой категории позволяет достичь достаточного качества классификации. Одним из основных ограничений использования предложенного метода является необходимость наличия у аналитика необходимых компетенций в области информационных технологий и машинного обучения. Формирование указанных компетенций и создание системы анализа юридических текстов «с нуля» требует существенных временных затрат. Эффективным средством, обеспечивающим возможность применения методов машинного обучения при анализе массивов юридических текстов является создание модуля анализа текстовых данных в составе ведомственной системы интеллектуального анализа данных. Создание и внедрение в деятельность научных и образовательных организаций УИС указанной системы, содержащей реализацию основных методов интеллектуального анализа данных, является перспективным и практически значимым решением, позволяющим сократить время и улучшить точность обработки юридических текстов при проведении научных исследований, в том числе, работниками, не обладающими навыками программирования. Отметим, что методы категоризации текстовых данных с использованием искусственного интеллекта имеют высокий потенциал для различных областей применения. Рассмотренные методы машинного обучения находят широкие перспективы применения при решении задач классификации юридических текстов и кластеризации документов, а также в других направлениях научной деятельности научных и образовательных организаций ФСИН России.

Список литературы:

[1] Садыкова Р.А. Опыт зарубежных стран по применению технологий искусственного интеллекта в пенитенциарной системе // Административное право и процесс. 2022. № 12. С. 67-69.

[2] Митин А.Н. О процессах внедрения в юриспруденцию новых информационных техно-

логий // Российское право: образование, практика, наука. 2019. № 3(111). С. 82-86.

[3] Царькова Е.Г. К вопросу привлечения к административной ответственности за правонарушения в сфере оборота информации // Право и управление. 2023.№ 3. С. 134-137.

[4] Чернявская В.Е. Интерпретация научного текста. М.: Изд-во ЛКИ, 2007. 128 с.

Spisok 1йегаШгу:

[1] Sadykova R.A. Opyt zarubezhnyh stran ро primeneniyu tekhnologij iskusstvennogo ^еПеМа V

penitenciarnoj sisteme // Administrativnoe pravo i process. 2022. № 12. S. 67-69.

[2] Mitin A.N. O processah vnedreniya v yuris-prudenciyu novyh informacionnyh tekhnologij // Rossijskoe pravo: obrazovanie, praktika, nauka. 2019. № 3(111). S. 82-86.

[3] Tsarkova E.G. K voprosu privlecheniya k administrativnoj otvetstvennosti za pravonarush-eniya v sfere oborota informacii // Pravo i upravlenie. 2023. № 3. S. 134-137.

[4] Chernyavskaya V.E. Interpretaciya nauch-nogo teksta. M.: Izd-vo LKI, 2007. 128 s.

C^D

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Царькова Евгения Геннадьевна

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Царькова Евгения Геннадьевна

Текст научной работы на тему «К ВОПРОСУ ИСПОЛЬЗОВАНИЯ ВОЗМОЖНОСТЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА В НАУЧНОЙ ДЕЯТЕЛЬНОСТИ ФСИН РОССИИ»