DOI 10.24412/2227-7315-2021-3-195-202 УДК 343.9
И.Б. Воробьева
ПРИМЕНЕНИЕ БОЛЬШИХ ДАННЫХ (BIG DATA) ПРИ ПРОГНОЗИРОВАНИИ И РАССЛЕДОВАНИИ ПРЕСТУПЛЕНИЙ
Введение: одним из технологических трендов, активно внедряемых в процесс прогнозирования и расследования преступлений, являются большие данные, предназначенные для накопления и обработки огромных массивов информации. Цель: выявление возможностей и формирование принципов применения больших данных в криминалистике и практической деятельности правоохранительных органов. Методологическая основа: диалектический метод, методы анализа, синтеза, моделирования и др. Результаты: установлено, что сведения полученные с помощью больших данных могут способствовать эффективному планированию расследования, выдвижению версий, принятию оптимальных тактических решений и т.д. Обращается внимание на риски, возникающие при внедрении больших данных в практику правоохранительных органов. Определяются принципы применения больших данных: надежность функционирования систем хранения и обработки данных, законность их создания и применения, достоверность получаемых данных и их значимость для процесса расследования и прогнозирования преступлений. Выводы: внедрение больших данных в практику правоохранительных органов способствует оперативному получению ранее недоступной, но криминалистически значимой информации; это изменит традиционный процесс расследования и прогнозирования преступлений и повысит эффективность работы всей системы правоохранительных органов.
Ключевые слова: большие данные, информационные технологии, криминалистика, цифровая криминалистика, расследование преступлений.
I.B. Vorobyova
THE USE OF BIG DATA IN PREDICTING AND INVESTIGATING CRIMES
Background: one of the technological trends actively implemented in the process of predicting and investigating crimes is Big Data, designed to accumulate and process huge amounts of information. Objective: identification of opportunities and forming the principles of Big Data application in criminology and practical activities of law enforcement agencies. Methodology: dialectical method, analysis, synthesis, modeling methods, etc. Results: it is established that the information obtained with the help of big data can contribute to the effective planning of the investigation, the promotion of versions, the adoption of optimal tactical decisions, etc. Attention is drawn to the risks that arise when implementing big data in the practice of law enforcement agencies. The principles of Big Data application are determined: the reliability of data storage and
© Воробьева Ирина Борисовна, 2021
Кандидат юридических наук, доцент кафедры криминалистики (Саратовская государственная юридическая академия); е-mail: [email protected] © Vorobyova Irina Borisovna, 2021
Candidate of law, Associate Professor, the Department of Criminalistics (Saratov State Law Academy) 195
processing systems, the legality of their creation and use, the reliability of the data obtained and their significance for the process of investigating and predicting crimes. Conclusions: introduction of Big Data into the practice of law enforcement agencies contributes to the rapid acquisition of previously inaccessible, but criminally significant information; this will change the traditional process of investigating and predicting crimes and increase the efficiency of the entire law enforcement system.
Key-words: big data, information technologies, criminalistics, digital criminalistics, crime investigation.
Современные цифровые технологии затронули каждого человека, стали неотъемлемой частью жизни и оказывают влияние абсолютно на все сферы человеческой деятельности. Одним из видов социальной деятельности, отличающимся исключительной сложностью, является процесс раскрытия, расследования и предупреждения преступлений, связанный с получением и обработкой очень большого количества разнообразной информации. В последние годы объемы информации увеличились настолько, что обрабатывать их с помощью традиционных программ или аппаратных средств стало весьма затруднительно или невозможно. Социальные сети, мобильные приложения, информация о геолокации, интернет-ресурсы, сигналы от датчиков «интернета вещей», информация о транзакциях, сведения о клиентах — все это генерирует огромные объемы неструктурированной информации, которая может быть использована в криминалистических целях. Поэтому в качестве важнейшего технологического тренда, способного в перспективе кардинально изменить процесс поиска, анализа и использования криминалистически значимой информации в расследовании преступлений, можно рассматривать технологию «больших данных»1.
Большие данные — это «обозначение структурированных и неструктурированных данных огромных объемов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами»2. Если в мире под «Big Data» подразумевают только объект исследования, то в России это название применяют для обозначения постоянно обновляемых громадных массивов различных данных, а также технологий, используемых для их обработки. «Технология больших данных (BigData) — совокупность технологий обработки информации для получения информации, характеристик или вызовов, которые отличают большие данные от простых данных, по общему соглашению, три: volume — объем, velocity — скорость сбора, variety — разнообразие данных»3. Таким образом, для «больших данных»
§ 1 В 2008 году впервые термин «Big Data» появился в статье Клиффорда Линча (редактора
" журнала Nature), рассказывающего о том, что рост вычислительных мощностей привел к
1 всплеску интереса к большим данным.
S 2 Распоряжение Правительства РФ от 17 декабря 2019 г. № 3074-р «Концепция создания
цифровой аналитической платформы» (вместе с «Концепцией создания цифровой аналитической платформы предоставления статистических данных») // Сайт Правительства России. URL: http://static.government.ru/media/files/4YejV8mvcCSeGWTg2kXprmthtNbWyfrU.pdf (дата обращения: 10.03.2021).
3 Распоряжение Минпросвещения России от 18 мая 2020 г. № Р-44 «Об утверждении методических рекомендаций для внедрения в основные общеобразовательные программы современных цифровых технологий» // Законы, кодексы и нормативно-правовые акты Российской федерации. URL: https://legalacts.ru/doc/rasporjazhenie-minprosveshchenrja-rossii-ot-18052020-n-r-44-ob-196 utverzhdenii/ (дата обращения: 02.03.2021).
характерны следующие признаки: гигантский объем, разнообразие информации, высокая скорость создания и обработки.
Анализ больших данных находит применение в любой сфере: от управления городским хозяйством, безопасности на производстве и научных экспериментов до регулирования транспортных потоков, повышения уровня лояльности клиентов и улучшения качества продукции. Так, сети магазинов, финансовые организации, платежные системы постоянно анализируют информацию, получаемую с помощью больших данных, чтобы узнать предпочтения своих покупателей, оценить вероятность возврата кредита, определить потенциальных мошенников. Аналогичные технологии вполне могут использоваться как в криминалистике, так и в практической деятельности правоохранительных органов.
Большие данные разделяются на две категории: структурированные и неструктурированные. Структурированные данные (упорядоченные определенным образом и имеющие четкую структуру) хранятся в виде таблиц, с которыми чаще всего работают с помощью приложения Excel. Например, электронная таблица, содержащая текст и цифры, распределенные по столбцам и строкам. Они эффективны, удобны для анализа и обработки, т.к. элементы данных легко найти. Их проще интерпретировать, т.е. использовать для решения различных задач. Но нужно учитывать, что некоторые данные, не вписывающиеся в жесткую структуру таблицы, могут быть потеряны. При большом объеме информации используются реляционные базы данных (набор данных с предопределенными связями с ними). Такие структурированные данные организованы в виде таблиц, в которых имеется только часть данных, содержащих предопределенные связи с другими таблицами, совместный анализ которых позволяет получать информацию из нескольких таблиц одновременно. Названные базы данных обрабатываются, как правило, специальным языком SQL. Примером структурированных данных являются многочисленные базы данных МВД (АДИС «Папиллон», АБИС «Арсенал» и др.), ФМС, ГИБДД, портала Госуслуг и др. Неструктурированные данные разнородны (документы, письма, изображения, видео и многое др.), поступают из разных источников (содержания страниц пользователей социальных сетей, электронной почты, поисковых запросов, текстовых потоков и др.) и на разные компьютеры. С такими данными сложнее работать, поскольку для извлечения информации из них необходимо подбирать подходящие инструменты, методы хранения и обработки. В настоящее время в этих целях наиболее востребована технология MapReduce, способная разделить огромные массивы данных на части, параллельно обработать каждую часть на отдельном узле и в финале объединить полученные результаты.
Источниками «больших данных» являются: социальные сети; поисковые запросы пользователей Интернета; корпоративные хранилища данных; финансовые системы; мобильные приложения; устройства аудио- и видеорегистрации; позволяющие получить данные о месте нахождения абонентов сетей мобильной сотовой связи; метеорологическая статистика и пр. Но больше всего информации создается при помощи «Интернета вещей». Это компьютерные сети, объединяющие физические устройства в единую сеть (умные часы, автомобили, умные колонки, холодильники и др.), которые с помощью специальных программ, приложений или технических устройств (сенсоров, датчиков) собирают, обрабатывают и передают информацию другим объектам. Подобные массивы
информации представляют особый интерес, поскольку сохраняют цифровые следы преступлений.
Для работы с «большими данными» применяется совокупность различных методов [1, с. 46-51]. В первую очередь, это методы математики, статистики, а также методы интеллектуального анализа, именуемые «Data Mining»; методы распознавания образов, имитационного моделирования и др. Именно они дают возможность извлекать информацию из большого набора данных, определять наличие или отсутствие связей между событиями, определять причины и следствия, проверять версии и т.п.
Очевидно, что количество преступлений, где их предметом или инструментами являются плоды современных технологий, будет расти. На конференции по искусственному интеллекту В.В. Путин отметил, что рост преступности в высокотехнологичных сферах за последний год составил 75,1%1. Криминальные деяния с применением виртуального пространства чаще всего встречаются при совершении терроризма, преступлений корыстной направленности. Криминальная активность неизбежно отражается и сохраняется в информационных системах, предназначенных для хранения, поиска и обработки информации, и наличие новых технологий очень перспективно для прогнозирования и расследования преступлений. Криминалистическое прогнозирование, основанное на информации, полученной с помощью больших данных, может способствовать выявлению тенденций в развитии криминалистической науки, закономерностей механизма совершения преступления, перспектив процесса и результатов расследования. Если раньше возможности прогнозирования сдерживал низкий уровень технической оснащенности, то в настоящее время достигнут паритет между техническими возможностями и объемом имеющейся информации, позволяющий решать прогностические задач. Уже многие страны тестируют системы, позволяющие прогнозировать следующие виды деяний: совершение отдельных видов преступлений; действия граждан, которые могут совершить преступление (например, с применением огнестрельного или холодного оружия); вероятность повторного правонарушения ранее судимыми лицами, а также тех, кто может стать жертвами преступлений и т.д. Например, PredPol2 на основе алгоритма машинного обучения составляет прогноз преступления: что (вид), где (место) и когда произойдет (дата/время). Большие данные уже применяются при изучении личности преступников (например, основанные на использовании биологических, психологических и социальных параметрах известных преступников). Таким образом, информация, получаемая с помощью больших данных, позволяет изучать закономерности механизма совершенных преступлений и создавать на их основе новые или совершенствовать существующие методики расследования преступлений, криминалистические характеристики, с помощью которых можно организовать поиск недостающей информации и установление лиц, причастных к совершению преступления.
Еще недавно некоторые разработки в области информационных технологий воспринимались как нечто отдаленное и даже полуфантастическое, а сейчас уже
1 См.: Конференция по искусственному интеллекту. Сайт Президента России. URL: http:// www.kremlin.ru/events/president/news/64545 (дата обращения: 17.02.2020).
2 См.: Преступление и предсказание. Новые горизонты для больших данных. URL: https:// zen.yandex.ru/media/id/5c88926728941b00b4b27d1a/kto-i-zachem-uchit-ii-myslit-kak-prestupnik-
198 5c89df38d7bf8500b3ecfb86 (дата обращения: 09.02.2021).
появилась возможность создания цифровых профилей граждан и юридических лиц. Так, на базе Единой системы идентификации и аутентификации «создана платформа идентификации, включая биометрическую идентификацию, облачную квалифицированную электронную подпись, цифровые профили гражданина и юридического лица»1.
В настоящее время МВД РФ планирует применять нейросети в целях расследования серийных преступлений. Введена в эксплуатацию подсистема «Дистанционное мошенничество», обеспечивающая мероприятия по раскрытию 1Т-преступлений, с помощью которой можно доказывать причастность лиц к серийным деяниям2; ведутся разработки искусственной нейронной сети, направленной на исследование подписей с целью выявления признаков их подлога [2, с. 106]. Разработано программное обеспечение, которое позволит по биоматериалу (следам крови) с мест происшествий определять анатомические признаки преступников (форму лица и головы, цвет волос и глаз)3.
С помощью больших данных можно выявлять цифровые следы преступлений. Вот лишь их некоторый перечень:
адрес 1Р-адреса компьютера в сети и других устройств, которые находятся в данный момент в локальной сети;
МАС-адрес сетевого оборудования (компьютера, роутера, сетевой карты и т.п.);
адрес электронной почты, ГО в социальных сетях (идентификатор пользователя);
идентификационный номер банковской карты и транзакции, произведенные с ней;
номер телефона;
информация о соединениях абонента;
данные геолокации (базовой станции, мобильного телефона или любого де-вайса, подключенного к Интернету) и т.п.
Для обнаружения, фиксации и изъятия данных следов требуются принципиально новые методы, средства и технологии.
Анализ цифровых следов, оставляемых абсолютно всеми гражданами, пользующимися интернетом, может помочь выявить не только привычную последовательность действий конкретного человека в определенной ситуации, но и определить особенности его характера. Полученную информацию можно использовать при создании криминалистических портретов, подготовке и проведении следственных действий, персонализации тактических приемов и их комбинаций, а также при прогнозировании поведенческих реакций процессуальных участников, что будет способствовать предотвращению возникновения конфликтных ситуаций и повышению эффективности расследования.
Основное направление использования больших данных при расследовании преступлений — это поиск и анализ сведений, которые содержат криминалисти-
1 См. п. 1.3.4. Приказа Минкомсвязи России от 30 января 2019 г. № 22 «Об утверждении S плана деятельности Министерства цифрового развития, связи и массовых коммуникаций Российской Федерации на период 2019-2024 годов». Сайт Министерства цифрового развития, связи и массовых коммуникаций Российской Федерации. URL: https: // digital.gov.ru/ru/ documents/6502/ (дата обращения: 10.03.2021).
2 См.: В МВД сообщили о внедрении программы для изобличения серийных кибермошенни-ков. URL: https://tass.ru/obschestvo/10825525 (дата обращения: 02.03.2021).
3 См.: МВД внедрит нейросети для поиска серийных убийц и создания «фотороботов». URL: https: // www.rbc.ru/technology_and_media/16/11/2020/5fae6ad49a79470ca94aff66 (дата обращения: 02.03.2021). 199
чески значимую информацию — как ориентирующую, так и доказательственную, влияющую на процесс расследования и моделирование криминалистической характеристики. Например, с кем созванивалось и где находилось лицо в тот период, когда совершалось преступление? Какое транспортное средство покидало парковку в определенный временной промежуток? Так, платфорома «Автодата», предназначена для сбора данных из информационных систем различного назначения, содержащих информацию об эксплуатации транспортных средств, о транспортных средствах и их владельцах, о дорожной инфраструктуре и иной информации автотранспортной сферы, в т.ч. связанной с логистикой людей и вещей1. Извлеченная из больших данных информация может содействовать выявлению существенных обстоятельств дела (установлению личности граждан, пропавших без вести; неизвестных больных и неизвестных трупов; определению местонахождения лиц, скрывающихся от следствия, суда, или тех, кто уклоняется от исполнения наказания и т.д.), а в результате — его раскрытию и расследованию.
Сведения, полученные с помощью больших данных, могут способствовать непосредственно процессу организации раскрытия и расследования преступлений: более эффективному планированию, выдвижению наиболее обоснованных версий и следствий из них, определению следственной ситуации и выработке конкретного алгоритма действий следователя; принятию наиболее оптимальных тактических решений и т.д. Известно, что основой криминалистических алгоритмов расследования преступлений являются следственные ситуации. Поэтому, в данном случае. речь может идти о создании цифровой модели управления следственной ситуацией, под которой понимается пространственно-временная информационная модель действий следователя на определенном этапе расследования по конкретному уголовному делу, формируемая с помощью цифровых технологий на основе больших данных.
Как уже отмечалось, большие данные обладают тремя основными признаками: огромным объемом, вариативностью и возможностью быстрой их обработки. Кроме того, существует и четвертая характеристика информации, получаемой с помощью технологии больших данных, — это ее достоверность, отражающая ее полноту и объективность. Именно она является определяющей при решении вопроса о возможности использования технологии больших данных как в процессе расследования преступлений, так и при формировании криминалистических рекомендаций.
Надо учитывать, что интересующие правоохранительные органы данные могут быть получены из разных источников, в том числе тех, которые могут вызывать сомнение в достоверности предоставляемой информации. Надежность информационных систем может быть нарушена в результате ошибки в программном обеспечении, отказа аппаратуры, целенаправленных действий заинтересованных лиц. «В информационных системах необходимо предусматривать наличие подсистем, проводящих первичный смысловой анализ и в определенной степени контролирующих работу оператора. Наличие подобных подсистем позволяет защитить информацию не только от случайных, но и от
1 См.: ГОСТ Р 59237-2020 Платформа «Автодата». Термины и определения. URL: https://docs. cntd.ru/document/1200177414 (дата обращения: 15.06.2021).
преднамеренных ошибок» [3, с. 119]. Получение недостоверной информации, на основе которой будут приниматься процессуальные решения, может привести к серьезным последствиям.
Повышенное внимание государства к новым технологиям и масштабы их внедрения в различные сферы деятельности свидетельствуют как о понимании их большого потенциала, что подтверждает строительство Федерального центра обработки данных МВД России1, так и о возникновении связанных с этим рисков. Поскольку большая доля обрабатываемой информации является приватной, возникает вопрос безопасности и защиты персональных данных и конфиденциальной информации. Поэтому не случайно на конференции2, посвященной искусственному интеллекту, шла речь о необходимости создания надзорных и инспектирующих органов в сфере его применения. Применяемые информационные технологии должны быть подконтрольны человеку, особенно в том случае, если с их помощью формируется доказательственная база и принимаются решения, вызывающие юридические последствия. Поэтому для получения (с помощью технологии больших данных) объективной криминалистически значимой информации необходимо не только создание и совершенствование программных информационно-аналитических систем, но и обеспечение их защиты от многочисленных угроз путем разработки норм и правил, регламентирующих процесс создания и обработки информации.
На пути трансформации процесса расследования преступлений необходимо задуматься над тем, насколько большие данные позволят сохранить государственное участие в уголовном судопроизводстве, поскольку многие алгоритмы, программы и искусственный интеллект уже претендуют на такую автономность, которую не могут позволить общество и государство. Эту опасность видят, например, руководители Сбербанка, в связи с чем одними из первых разработали принципы применения технологий искусственного интеллекта3.
Представляется, что принципами применения технологии больших данных в рамках расследования и прогнозирования преступлений являются: надежность функционирования систем хранения и обработки больших данных; законность их создания и применения, обеспечивающая защиту персональных данных граждан и интересов юридических лиц; достоверность получаемых данных; значимость (ценность) получаемой информации для процесса прогнозирования и расследования преступлений.
При традиционном сборе криминалистически значимой информации определенное, обычно небольшое количество данных сначала собирается, систематизируется, и затем постепенно проводится их анализ. Однако такая информация является разрозненной и, как правило, требует значительных временных затрат на анализ и формирование предварительных выводов в виде версий. Использование же возможностей больших данных позволяет: оперативно обрабатывать весь
1 См.: Постановление Правительства Российской Федерации от 27 февраля 2021 г. № 284 «Об осуществлении бюджетных инвестиций в проектирование и строительство Федерального центра обработки данных МВД России». Официальный интернет-портал правовой информации. URL: http://publication.pravo.gov.ru/Document/View/0001202103030018 (дата обращения: 03.03.2021).
2 См.: Конференция по искусственному интеллекту. URL: http://www.kremlin.ru/events/ president/news/64545 (дата обращения: 17.02.2020).
3 См.: Принципы этики искусственного интеллекта — СберБанк. Сайт СберБанка. URL: https://www.sberbank.com/ru/sustainability/principles-of-artificial-intelligence-ethics (дата обращения: 02.03.2021). 201
массив регулярно обновляемых данных; осуществлять поиск корреляционных связей различных показателей по всем данным до получения искомой информации; проводить анализ и обработку интересующих данных в реальном режиме времени, по мере ее поступления. В результате применения больших данных уже на первоначальном этапе расследования можно получать предварительную информационную модель преступления, адекватную имеющейся информации о нем и основанную на типичных корреляционных и причинно-следственных связях. Необходимо отметить, что метод моделирования может использоваться только при накоплении необходимого объема информации. Такие модели характеризуются линейностью и носят в большей степени вспомогательный, а не эвристический характер.
Таким образом, использование больших данных:
во-первых, может оказать помощь по прогнозированию преступлений;
во-вторых, способствовать оперативному расследованию уже совершенных преступлений;
в-третьих, повысить эффективность работы всей системы правоохранительных органов уже на новом информационном уровне.
Большие данные открывают новые возможности для реализации целого ряда задач, которые ставятся перед правоохранительными органами, и важно правильно распорядиться этими колоссальными ресурсами.
Библиографический список
1. Бессонов А.А. Использование методов работы с «большими данными» в криминалистике и расследовании преступлений // Вестник криминалистики. 2020. № 2(74). С. 46-51.
2. Бахтеев Д.В. Большие данные и искусственный интеллект в следственной и экспертной деятельности // Актуальные проблемы криминалистики и судебной экспертизы: материалы Международной научно практической конференции. Иркутск: Восточно-Сибирский институт МВД РФ, 2019. С. 104-107.
3. Вострецова Е.В. Основы информационной безопасности: учебное пособие для студентов вузов. Екатеринбург: Изд-во Уральского ун-та, 2019. 204 с.
References
1. Bessonov А.А. Using the Methods of Working with Big Data in Criminalistics and Crime Investigation // Bulletin of Crimnalistics. 2020. № 2(74). P. 46-51.
2. Bakhteyev D.V. Big Data and Artificial Intelligence in Investigative and Expert Activities // Topical Problems of Criminalistics and Legal Expertise: proceedings of an international scientific and practical conference. Irkutsk: RF MIA East Siberian institute, 2019. P. 104-107.
3. Vostretsova E.V. Fundamentals of Information Security: training manual for higher education students. Ekaterinburg: Ural University Publ., 2019. 204 p.