Научная статья на тему 'АВТОМАТИЗАЦИЯ АНАЛИЗА КРИМИНОГЕННОЙ ОБСТАНОВКИ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА'

АВТОМАТИЗАЦИЯ АНАЛИЗА КРИМИНОГЕННОЙ ОБСТАНОВКИ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
222
63
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЦИФРОВАЯ ТРАНСФОРМАЦИЯ / МОДЕЛЬ МАШИННОГО ОБУЧЕНИЯ / ПРОТОТИП / МОДЕЛЬ КЛАССИФИКАЦИИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бутов Владислав Вячеславович

В работе описывается технология разработки прототипа автоматизированной системы сбора, анализа и визуализации данных о криминогенной обстановке с использованием технологий искусственного интеллекта.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AUTOMATION OF CRIME SITUATION ANALYSIS USING ARTIFICIAL INTELLIGENCE TECHNOLOGIES

The paper describes the technology of developing a prototype of an automated system for collecting, analyzing and visualizing data on a criminal situation using artificial intelligence technologies.

Текст научной работы на тему «АВТОМАТИЗАЦИЯ АНАЛИЗА КРИМИНОГЕННОЙ ОБСТАНОВКИ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА»

КОМПЬЮТЕРНЫЕ НАУКИ И ИНФОРМАТИКА

Научная статья УДК 004.89

https://doi.org/10.24412/2687-0185-2021-4-84-88 NIION: 2007-0083-4/21-072 MOSURED: 77/27-005-2021-04-271

Автоматизация анализа криминогенной обстановки с использованием технологий искусственного интеллекта

Владислав Вячеславович Бутов

Воронежский институт МВД России, Воронеж, Россия, [email protected]

Аннотация. В работе описывается технология разработки прототипа автоматизированной системы сбора, анализа и визуализации данных о криминогенной обстановке с использованием технологий искусственного интеллекта.

Ключевые слова: цифровая трансформация, модель машинного обучения, прототип, модель классификации

Для цитирования: Бутов В. В. Автоматизация анализа криминогенной обстановки с использованием технологий искусственного Интеллекта // Криминологический журнал. 2021. № 4. С. 84—88. Ы*р5://скл. огё/10.24412/2687-0185-2021-4-84-88.

Original article

Automation of crime situation analysis using artificial intelligence technologies

Vladislav V. Butov

Voronezh Institute of the Internal Affairs Ministry of Russia, Voronezh, Russia, [email protected]

Abstract. The paper describes the technology of developing a prototype of an automated system for collecting, analyzing and visualizing data on a criminal situation using artificial intelligence technologies. Keywords: digital transformation, machine learning model, prototype, classification model For citation: Butov V. V. Automation of crime situation analysis using artificial intelligence technologies // Criminological journal. 2021. (4):84-88. (InRuss.). https://doi.org/10.24412/2687-0185-2021-4-84-88.

Введение

Для эффективного решения оперативно-служебных задач органов внутренних дел, поставленных Ведомственной программой цифровой трансформации МВД России [1], необходима организация сбора данных из различных источников информации в цифровом виде, а также их предварительная обработка и анализ, в том числе с использованием технологий искусственного интеллекта. Организация этого процесса необходима на всех этапах функционирования органов внутренних дел.

В связи с этим существует необходимость использования новейших технологий цифрового анализа при реализации функций по разработке, внедрению и экс-

плуатации технический решений с использованием технологий искусственного интеллекта для повышения эффективности оперативно-служебной деятельности подразделений системы МВД России [4].

В статье описывается разработка прототипа автоматизированной информационной системы сбора, анализа, накопления, обработки и систематизации на основе технологий искусственного интеллекта информации о происшествиях, циркулирующей в органах внутренних дел.

1. Постановка задачи

Схема функционирования системы машинного обучения [3] при разработке указанного прототипа представлен на рисунке 1.

© Бутов В. В., 2021

COMPUTER SCIENCE AND INFORMATICS

Dataset

/. Предобработка Разделение Обучение Сохранение

I * данных на выборки модели модели

Рис. 1. Общая типовая схема системы машинного обучения

Достижение поставленной цели разработки и обучения модели машинного обучения для использования ее прогнозов в автоматизированной информационной системе в соответствии с данной схемой предполагает решение задач:

• формирования набора данных (сЫвве!:) о происшествиях для обучения модели;

• применения средств предобработки текстовых данных;

• разбиения обработанных данных на обучающую и тестовую выборки;

• обучения моделей на полученных в обучающей выборке текстовых данных по определенным категориям;

• проведения экспериментов для выбора эффективной модели;

• сохранения обученной модели для использования в качестве модуля разрабатываемой системы.

Архитектура прототипа автоматизированной информационной системы может быть реализована в виде клиент-серверного взаимодействия.

Общая схема работы прототипа разрабатываемой автоматизированной системы выглядит следующим образом (рисунок 2), предполагая:

• реализацию ввода данных в систему в виде текстовых и голосовых сообщений о преступлениях, правонарушениях и происшествиях;

• применение технологий извлечения именованных сущностей из текстовых сообщений (дат, ФИО и адресов) для дальнейшей обработки;

• визуализацию географических меток мест происшествий по извлеченному адресу на интерактивной карте региона;

• разработку модуля построения тепловых карт, иллюстрирующих распределение плотностей происшествий в регионе по выбранной категории в различные периоды времени.

Вывод данных на экран в виде текста

Вывод места происшествия на карту

7

1 ___

Ввод данных в систему Обработка и Запись и хранение в БД Вывод данных в виде

классификация тепловой карты

Рис. 2. Общая схема работы прототипа веб-приложения

2. Описание проектных решений

Для формирования требований к датасету необходимо понимать задачу, которую должна решать модель машинного обучения, что необходимо предсказать и какой вид имеет целевой признак. При постановке задачи машинного обучения следует мыслить категориями классификации, кластеризации, регрессии или ранжирования [6].

При решении задачи анализа и визуализации данных о криминогенной обстановке использованы ста-

тистические методы классификации как вид машинного обучения с учителем.

Для обучения модели классификации сформирован набор данных (с^аве!:), содержащий сгенерированные сообщения о происшествиях по девяти наиболее часто встречающимся категориям в городе Воронеж:

• грабеж;

• мошенничество;

• незаконный оборот наркотических средств;

• кража;

КОМПЬЮТЕРНЫЕ НАУКИ И ИНФОРМАТИКА

• изготовление, хранение, перевозка или сбыт поддельных денег или ценных бумаг;

• умышленное причинение тяжкого вреда здоровью;

• разбой;

• умышленное причинение вреда здоровью средней тяжести;

• убийство.

Разработка прототипа системы осуществлялась с использованием языка программирования Python, имеющего развитую библиотеку и поддержку инструментов для машинного обучения и облачных вычислений [5].

Загрузка в среду разработки и преобразование набора данных к виду, подходящему для обработки и анализа, осуществлялись с помощью пакетов numpy и pandas.

Для предобработки текстовых данных использовались методы библиотек NLTK (Natural Language Toolkit), pymystem3 и string. Процесс предобработки заключался в удалении из исходных текстовых сообщений знаков пунктуации, числовых данных, стоп-слов (междометий, предлогов, союзов, частиц и т. п.), токенизации и приведении слов к их канонической форме с помощью лемматизации.

Для оценки эффективности модели осуществлялось разбиение размеченных и обработанных данных на две части, одна из которых является обучающим набором (training set) и используется для построения модели машинного обучения, и тестовым набором (test set), который использован для оценки качества модели [2]. Полученные после предобработки наборы текстовых сообщений разделены на обучающую и тестовую выборки в соотношении 7:3 с помощью соответствующей функции библиотеки Scikit-learn.

На основании проведенных экспериментов для обучения классификатора выбрана модель логистической регрессии из библиотеки Scikit-learn. Логистическая регрессия или логит-модель — это статистическая модель, используемая для прогнозирования вероятности принадлежности объекта к некоторому классу путем его сравнения с логистической кривой.

Метрика точности классификации обученной модели (accuracy score) на тестовой выборке составила 90 %. Корректность работы обученной модели на тестовой выборке проверена с помощью матрицы ошибок (confusion matrix), которая используется для оценки точности моделей в задачах классификации.

3. Описание стека технологий

Прототип автоматизированной информационной системы развернут в виде клиент-серверного приложения с использованием веб-фреймворка Streamlit.

Интерфейс системы состоит из двух модулей: модуля ввода и обработки сообщения, модуля анализа накопленной информации.

Пользователю предоставляется возможность ввода текстового сообщения с помощью клавиатуры или голосового ввода, отображения интерактивной карты местности, отображения тепловой карты криминогенной обстановки в регионе, полученной на основе обработанных сообщений о происшествиях.

Возможность голосового ввода сообщения реализована в системе с помощью технологии Web Speech API, позволяя оперативно подать на вход системы данные для их дальнейшей обработки и классификации. Данный модуль распознает речь на русском языке, подавая сообщение на вход классификатора.

Для извлечения из текстовых сообщений дат, фамилии имени отчества и адресов использовались технологии извлечения именованных сущностей (NER — «named entity recognition»), реализованные в библиотеке Natasha.

Извлеченный адрес преобразуется в географические координаты (долготу и широту) с использованием технологии прямого геокодирования, переносясь на карту в качестве геометки. При разработке прототипа указанная технология реализована с помощью обращений к API «Яндекс геокодера». Для отображения интерактивной карты региона использовался входящий в библиотеку Streamlit модуль карт Mapbox.

Обработанные сообщения и извлеченная из них информация добавляется в базу данных для хранения и последующего анализа. Модуль анализа обработанных сообщений позволяет строить тепловые карты плотности (рисунок 3) географических меток для каждого вида происшествий в отдельности за выбранные периоды времени, используя инструменты HeatmapLayer библиотеки pydeck.

Рис. 3. Тепловая карта распределения происшествий в Воронеже в 2020 году

COMPUTER SCIENCE AND INFORMATICS

Тепловая карта, отображая криминогенную обстановку в регионе, позволяет детально ее анализировать и обосновывать эффективные управленческие решения [8].

Выводы

Для решения поставленных проектных задач реализованы алгоритмы искусственного интеллекта по классификации текстовой информации, автоматическому распознаванию речи и извлечению именованных сущностей.

Практическая значимость разработанного прототипа системы для органов внутренних дает возможности визуализации криминогенной обстановки в регионе в динамике [7], позволяя:

• оптимизировать расстановку сил и средств органов внутренних дел, маршрутов патрулирования патрульно-постовых служб полиции;

• осуществлять поиск взаимосвязей между различными категориями правонарушений по их географическим признакам;

• оптимизировать расстановку камер видеофиксации системы «Безопасный город».

Библиографический список

1. Распоряжение МВД России от 29.12.2020 № 1/15065 (ред. от 08.09.2021) «Об утверждении Ведомственной программы цифровой трансформации МВД России на 2021-2023 годы». // КонсультантПлюс. URL:http://www. consultant.ru/document/cons_doc_LAW_398852 / (дата обращения: 01.12.2021).

2. Andreas, Müller. Introduction to Machine Learning with Python: A Guide for Data Scientists / Müller Andreas, Guido Sarah.: O'Reilly Media, Inc., 2017, — 480 p.

3. Prateek, Joshi. Artificial Intelligence with Python: A Comprehensive Guide to Building Intelligent Apps for Python Beginners and Developers / Joshi Prateek : Packt Publishing, 2017. — 446 p.

4. Бецков, А. В. О разработке проекта концепции использования технологий искусственного интеллекта в системе МВД России / А. В. Бецков, Н. В. Лукашов. / Стратегическое развитие системы МВД России: состояние, тенденции, перспективы: Материалы Международной научно-практической конференции. М.: Академия управления МВД России, 2020. — С. 26-31.

5. Бутов, В. В. Анализ востребованности языка программирования Python на современном

этапе IT-разработки с помощью инструментов Stack Overflow / В. В. Бутов. // Охрана, безопасность, связь. 2021. № 6-2. — С. 186-189.

6. Бутов, В. В. Об одном подходе к формированию набора данных для обучения алгоритмов искусственного интеллекта выявления серийных преступлений / В. В. Бутов, С. А. Мишин // Общественная безопасность, за-конностьиправопорядоквШтысячелетии.2021. № 7-3. — С. 17-22.

7. Меньших, В. В. Использование современных информационных технологий для обучения действиям в кризисных ситуациях / В. В. Меньших, О. В. Пьянков, А. Ф. Саморо-ковский // Вестник Воронежского института МВД России. 2011. № 3. — С. 154-161.

8. Пьянков, О. В. Оптимизация процессов принятия решений в ситуационных центрах органов внутренних дел / О. В. Пьянков, М. С. Романов // Вестник Воронежского института МВД России. 2014. № 1. — С. 120-129.

Bibliographic list

1. Order of the Ministry of Internal Affairs of Russia dated December 29, 2020 N 1/15065 (as amended on 09/08/2021) «On approval of the Departmental Program for Digital Transformation of the Ministry of Internal Affairs of Russia for 2021-2023». URL: http://www.consultant.ru/ document/cons_doc_LAW_398852/ (date of access: 01.12.2021).

2. Andreas, Müller. Introduction to Machine Learning with Python: A Guide for Data Scientists / Müller Andreas, Guido Sarah : O'Reilly Media, Inc., 2017. —480 p.

3. Prateek, Joshi Artificial Intelligence with Python: A Comprehensive Guide to Building Intelligent Apps for Python Beginners and Developers / Joshi Prateek: Packt Publishing, 2017. — 446 p.

4. Betskov, A. V. On the development of a draft concept for the use of artificial intelligence technologies in the system of the Ministry of Internal Affairs of Russia / A. V. Betskov, N. V. Lukashov // «Strategicheskoe razvitie sistemy MVD Rossii: sostoyanie, tendencii, perspektivy»: materialy Mezhdunarodnoj nauchno-prakticheskoj konferencii. M.: Academy of Management of the Ministry of Internal Affairs of the Russian Federation, 2020. — Pp. 26-31.

5. Butov, V. V. Analysis of the relevance of the

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

КОМПЬЮТЕРНЫЕ НАУКИ И ИНФОРМАТИКА

Python programming language at the present stage of IT development using Stack Overflow tools / V. V. Butov // Ohrana, bezopasnost', svyaz'. 2021.No. 6-2. —Pp. 186-189.

6. Butov, V. V. On one approach to the formation of a data set for training artificial intelligence algorithms for detecting serial crimes / V. V. Butov, S. A. Mishin // Obshchestvennaya bezopasnost', zakonnost' i pravoporyadok v III tysyacheletii. 2021. No. 7-3. —Pp. 17-22.

7. Menshikh, V. V. The use of modern information technologies for teaching actions in crisis situations / V. V. Menshikh, O. V. Pyankov, A. F. Samorokovsky // Vestnik Voronezhskogo institutaMVD Rossii. 2011. No. 3. —Pp. 154-161.

8. Pyankov, O. V. Optimization of decision-making processes in situational centers of internal affairs agencies / O. V. Pyankov, M. S. Romanov // Vestnik Voronezhskogo instituta MVD Rossii. 2014. No. 1. —Pp. 120-129.

Информация об авторе

В. В. Бутов — старший преподаватель кафедры автоматизированных информационных систем органов внутренних дел Воронежского института МВД России, кандидат технических наук.

Information about the author V. V. Butov — senior lecturer of the automated information systems of internal affairs authorities department Voronezh Institute of the Internal Affairs Ministry of Russia, candidate of technical sciences.

Статья поступила в редакцию 01.12.2021; одобрена после рецензирования 13.12.2021; принята к публикации 27.12.2021.

The article was submitted 01.12.2021; approved after reviewing 13.12.2021; accepted for publication 27.12.2021.

Правовая статистика. 5-е изд., перераб. и доп. Учебник. Гриф МО РФ. Гриф МУМЦ "Профессиональный учебник". Гриф НИИ образования и науки.

Освещены основные разделы правовой статистики, в том числе методы прогнозирования, математического моделирования и изучения взаимосвязей. Описаны основные статистические методы в пакетах прикладных программ и их применение в аналитической деятельности. Рассмотрены перспективы использования статистического анализа и прогнозирования в практической работе правоохранительных органов.

Для студентов и преподавателей юридических вузов.

Правовая статистика

Классический учебник Пятое издание

i Надоели баннеры? Вы всегда можете отключить рекламу.