Научная статья на тему 'Применение современных технологий больших данных в правовой сфере'

Применение современных технологий больших данных в правовой сфере Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
905
107
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЦИФРОВАЯ ТРАНСФОРМАЦИЯ / ПРАВОВАЯ ИНФОРМАЦИЯ / ИНФОРМАЦИОННО-ТЕЛЕКОММУНИКАЦИОННЫЕ ТЕХНОЛОГИИ / НАУКА О ДАННЫХ / КАТЕГОРИИ ДАННЫХ / ЭКОСИСТЕМА БОЛЬШИХ ДАННЫХ / ПРОЦЕСС DATA SCIENCE / ОБЛАСТИ ПРИМЕНЕНИЯ DATA SCIENCE / DIGITAL TRANSFORMATION / LEGAL INFORMATION / INFORMATION AND TELECOMMUNICATION TECHNOLOGIES / BIG DATA / DATA SCIENCE / DATA CATEGORIES / BIG DATA ECOSYSTEM / DATA SCIENCE PROCESS / APPLICATIONS OF DATA SCIENCE AND BIG DATA

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Федосеев Сергей Витальевич

Цель: обоснование методических подходов к решению задач эффективной обработки больших объемов данных в правовой сфере. Метод: логическое моделирование правовых отношений и информационных связей в правовой сфере и системный анализ взаимосвязи предметной области правовой сферы и основных объектов и методов технологии больших данных. Результаты: обоснована необходимость цифровой трансформации и перехода на новые информационные технологии в правовой сфере, создания и развития инфраструктуры обработки больших данных; выполнен анализ предметной области Data science и больших данных, категорий данных в Data science; рассмотрена экосистема больших данных и data science; исследованы этапы процесса Data science; определены области применения Data science и больших данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Федосеев Сергей Витальевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE USE OF BIG DATA MODERN TECHNOLOGIES IN LEGAL SPHERE

Purpose: substantiation of methodological approaches to solving problems of effective processing of large amounts of data in the legal sphere. Method: logical modeling of legal relations and information relations in the legal sphere. System analysis of the relationship between the subject area of the legal sphere and the main objects and methods of big data technology. Results: the necessity of digital transformation and transition to new information technologies in the legal sphere, creation and development of big data processing infrastructure; the analysis of the data science and big data domain, data categories in Data science; the big data ecosystem and data science; the stages of the Data science process; the application areas of Data science and big data.

Текст научной работы на тему «Применение современных технологий больших данных в правовой сфере»

ПРИМЕНЕНИЕ СОВРЕМЕННЫХ ТЕХНОЛОГИЙ БОЛЬШИХ ДАННЫХ В ПРАВОВОЙ СФЕРЕ

Федосеев С. В. *

Ключевые слова: цифровая трансформация, правовая информация, информационно-телекоммуникационные технологии, наука о данных, категории данных, экосистема больших данных, процесс Data science, области применения Data science.

Аннотация.

Цель: обоснование методических подходов к решению задач эффективной обработки больших объемов данных в правовой сфере.

Метод: логическое моделирование правовых отношений и информационных связей в правовой сфере и системный анализ взаимосвязи предметной области правовой сферы и основных объектов и методов технологии больших данных.

Результаты: обоснована необходимость цифровой трансформации и перехода на новые информационные технологии в правовой сфере, создания и развития инфраструктуры обработки больших данных; выполнен анализ предметной области Data science и больших данных, категорий данных в Data science; рассмотрена экосистема больших данных и data science; исследованы этапы процесса Data science; определены области применения Data science и больших данных.

Р01: 10.21681/1994-1404-2018-4-50-58

В правовой сфере общественно-производственной деятельности важное значение имеет использование статистической информации, которая является результатом логической обработки очень больших динамически изменяющихся массивов разнообразных статистических данных и позволяет принимать обоснованные управленческие решения (правовые предписания), а также выявлять и анализировать тенденции развития систем правового регулирования и позитивного права [4, 6, 10, 16]. В связи с этим осуществляется, в частности, целенаправленная системная модернизация и совершенствование электронной обработки правовой и судебной статистики в крупномасштабных системах информационно-аналитической поддержки правовой сферы (типа ГАС РФ «Правосудие») [14].

Особое значение использование статистической информации имеет в сфере правотворчества, так как оно способствует обеспечению своевременности разработки и принятия соответствующих нормативных правовых актов, а также их совершенствованию. Общий объём и сложность обрабатываемой правовой и судебной информации стремительно растут, поэтому

становится очевидной невозможность обеспечения требуемых качества и скорости обработки данных с использованием традиционных информационных технологий.

Необходимость «цифровой трансформации» [12] деятельности государственных органов и перехода на новые (нетрадиционные, новаторские) информационные технологии обусловлена положениями ряда нормативных правовых актов и документов (Концепция Федеральной целевой программы «Развитие судебной системы Российской Федерации на 2013 - 2020 годы»; Концепция цифровой трансформации органов и организаций прокуратуры Российской Федерации до 2025 года; программа «Цифровая экономика Российской Федерации до 2024 года»; Стратегия развития информационного общества в Российской Федерации до 2024 года; Стратегия научно-технологического развития Российской Федерации; Прогноз научно-технологического развития Российской Федерации на период до 2030 года и др.). В нормативных правовых актах и документах значительное внимание уделяется применению новых информационно-телекоммуникационных технологий в различных областях деятельности, и, в частности, созданию и развитию инфраструктуры обработки больших данных. Большие данные (big data) являются

* Федосеев Сергей Витальевич, кандидат технических наук, доцент, доцент кафедры информационного права, информатики и математики Российского государственного университета правосудия, г. Москва, Россия. E-mail: fedsergvit@mail.ru

также одним из важнейших компонентов глобальной стратегии «Индустрия 4.0»1.

Технологии больших данных применяются в правовой сфере еще недостаточно широко, поэтому представляется целесообразным выявить прагматические характеристики технологий и компонентов экосистемы больших данных, а также определить предназначение соответствующих различных групп инструментальных средств [10] с целью широкого эффективного их внедрения.

1. Предметная область Data science и больших данных

Под обобщающим термином «большие данные» (big data) принято понимать любые наборы данных, достаточно большие и сложные для того, чтобы их можно было обработать традиционными средствами переработки данных (например, реляционными системами управления базами данных - РСУБД). Более конкретно можно определить, что термин «большие данные» применяется для обозначения структурированных и неструктурированных данных очень больших объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами [10].

Справедливо признается, что широко распространённые РСУБД являются универсальным инструментом. Однако в случае обработки больших данных РСУБД в большинстве случаев уже не удовлетворяют новым требованиям.

Характеристики больших данных обычно обозначают «четырьмя V» [5]:

• объем (Volume) - величина физического объёма данных в наборе;

• многообразие (Variety) - возможность одновременной обработки различных типов структурированных и частично структурированных данных;

• скорость (Velocity) - скорость генерирования (прироста) данных, скорость обработки и получения новых результатов;

• достоверность (Veracity) - характеристика, определяющая насколько точны данные.

Эти четыре свойства отличают большие данные от данных, встречающихся в традиционных средствах управления данными. Соответственно, привносимые ими изменения проявляются почти во всех аспектах: сборе данных, хранении и обслуживании данных, поиске, обмене, передаче и визуализации. Кроме того, большие данные требуют применения специализированных средств извлечения информации.

В настоящее время принято различать data science и большие данные, при том, что обе эти дисциплины развиваются на базе статистики и традиционных подходов в управлении данными [15].

Data science (наука о данных) - раздел информатики [13], изучающий проблемы анализа, обработки и представления данных в цифровой форме. Data science объединяет методы по обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы [9 - 11], методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных [2].

Следует заметить, что наряду с методами статистической обработки данных [1, 9 - 11], в data science широко используются методы, заимствованные из Computer science (организация вычислений и построение алгоритмов), а также методы машинного обучения [3, 18].

Категории данных в Data science. В Data science и области больших данных используется различные типы данных, для каждого из которых требуются свои инструменты и методы. Основные категории данных: структурированные; неструктурированные; на естественном языке; машинные; графовые; аудио, видео и графика; потоковые.

Структурированные данные зависят от модели данных и хранятся в фиксированных полях внутри записи. Соответственно, структурированные данные удобно хранить в таблицах, в базах данных или файлах Excel.

Язык структурированных запросов SQL (Structured Query Language) является основным средством управления и обращения с запросами к данным, хранящимся в базах данных. Иногда встречаются структурированные данные, которые достаточно трудно сохранить в традиционной реляционной базе данных (один из примеров - иерархические данные).

Неструктурированные данные трудно поставить в соответствие какой-либо конкретной модели данных, потому что их содержимое зависит от контекста и поэтому имеет переменный характер.

Данные на естественном языке составляют особую разновидность неструктурированных данных. Обработка таких данных достаточно сложна, потому что она требует знания, как лингвистики, так и специальных методов data science. Достижения в области обработки данных на естественном языке связаны с успехами в распознавании сущностей, в распознавании тематических областей, в анализе текстов. Однако, модели, адаптированные для одной предметной области, не могут быть эффективно применены в других областях. Задача распознавания смысла произвольного фрагмента текста по-прежнему является трудноразрешимой, даже при использовании самых современных методов.

К машинным данным относится информация, автоматически генерируемая компьютером, процессом, приложением или устройством без вмешательства человека. Машинные данные становятся одним из основных источников информации. Это связано, прежде

1 Ожидаемая четвёртая промышленная революция - массовое

внедрение киберфизических систем в производство.

всего, с развитием промышленного Интернета (Интернета вещей2).

Анализ машинных данных вследствие очень больших объемов и скоростей в значительной степени зависит от инструментов, обладающих высокой масштабируемостью.

Примеры машинных данных: журналы вебсерверов, записи детализации звонков, журналы сетевых событий и телеметрии. Машинные данные хорошо укладываются в структуру классической базы данных.

Термин графовые данные связан с понятием графа из математической теории графов, при этом под графом понимается математическая структура для моделирования попарных отношений между объектами. В графовых или сетевых данных особое внимание уделяется связям или смежности объектов. Графовые структуры данных используют узлы, ребра и свойства для представления и хранения графических данных. Графовые данные естественным образом подходят для представления социальных сетей, а их структура позволяет вычислять такие специфические метрики, как влияние участников и кратчайший путь между двумя людьми. Одной из типовых задач для графовых данных является анализ нескольких перекрывающихся графов, построенных на одних и тех же узлах.

Для хранения графовых данных используются графовые базы данных, а для построения запросов к ним специализированные языки запросов. Решение задач с графовыми данными имеет специфические проблемы, связанных с их высокой вычислительной сложностью.

Аудио, видео и графика - категория данных, предъявляющая высокие требования к системам хранения данных по объему размещаемой информации и к эффективности применяемых алгоритмов обработки данных.

Потоковые данные формально не являются отдельной категорией данных и могут быть отнесены к любой из перечисленных выше категорий. Однако их отличительная черта состоит в том, что эти данные поступают в систему при возникновении некоторых событий или несут в себе информацию о некотором процессе в реальном масштабе времени.

Экосистема больших данных и data science может быть разделена на отдельные компоненты по технологиям с похожими целями и функциональностью.

2. Экосистема больших данных и data science

B настоящее время существует много различных технологий и инструментальных средств, используемых для обработки больших данных [2, 7, 10, 15]. Именно эти технологии и инструментальные средства, находящиеся в состоянии постоянного совершенствования

2 Программа «Цифровая экономика Российской Федерации», утв. Распоряжением Правительства РФ от 28 июля 2017 г. № 1632-р - ШЬ http://static.government.ru/media/files/9gFM4 FHj4PsB79I5v7yLVuPgu4bvR7M0.pdf, http://government.ru/docs/28653/ (Дата обращения 19.11.2018 г.)

и обновления, и составляют экосистему3 больших данных и data science (рис. 1.).

Проведем анализ компонентов экосистемы больших данных и различных технологий, рассмотрим различные группы инструментальных средств и определим их предназначение.

Распределенные файловые системы. Распределенная файловая система похожа на обычную файловую систему, но в отличие от последней она функционирует на нескольких серверах сразу. Используя эти системы, можно выполнять почти все те же действия, что и в обычных файловых системах.

В основе любой файловой системы лежат такие действия, как запись, хранение, чтение и удаление данных, a также реализация средств безопасности файлов. Распределенные файловые системы имеют такую же функциональность и обладают при этом рядом важных преимуществ:

• они способны хранить файлы, размер которых превышает размер диска отдельного компьютера;

• файлы автоматически реплицирутся на нескольких серверах для создания избыточности или выполнения параллельных операций, при этом все сложности технической реализации этих действий незаметны для пользователя;

• распределенная файловая система легко масштабируется: пользователь не ограничен объемом памяти или дискового пространства одного сервера.

Важной характеристикой файловой системы является возможность ее масштабирования. Ранее масштабирование осуществлялось переводом всех систем на сервер с большим объёмом памяти и дискового пространства и более быстрым процессором (вертикальное масштабирование). В настоящее время в распределенных системах появляется возможность дополнительного использования соседнего по уровню сервера с унифицированными характеристиками (горизонтальное масштабирование). Благодаря такой возможности потенциал масштабирования становится практически безграничным.

Наиболее популярной распределенной файловой системой является Hadoop File System (HDFS). Она представляет собой реализацию Google File System с открытым кодом. Эта система чаше всего применяется на практике. Существуют также и другие распределенные файловые системы: Red Hat Cluster File System, Ceph File System, Tachyon File System и др.

Технологии распределенного программирования. После того, как данные сохранены в распределенной файловой системе, следует процесс их использования. Важнейшим аспектом работы с распределенной файловой системой является то, что более рациональным является не перемещение данных к программе, а наоборот - перемещение программы к данным.

3 Там же.

Рис. 1. Экосистема больших данных и data science

Дополнительными технологическими сложностями, присущими распределенному программированию, являются: перезапуск сбойных заданий, синхронизация субпроцессов, учет консистентности данных. В большинстве случаев эти сложности успешно преодолеваются с помощью существующих инструментальных средств, которые значительно упрощают работу с распределенными данными.

Инфраструктура интеграции данных. После создания распределенной файловой системы возникает необходимость добавления данных или перемещения данных из одного источника в другой. В подобных случаях используются такие инфраструктуры интеграции данных, как Apache Sqoop и Apache Flume.

Инфраструктуры машинного обучения. Инфраструктуры машинного обучения находят свое применение при анализе данных и извлечении из них скрытой информации. На этой стадии используются методы не только из области машинного обучения, но также из статистики и прикладной математики.

В современных условиях необходимо анализировать огромные объемы данных. Для решения этих задач применяются специализированные библиотеки и процедуры. Так, например, для высокоуровневого языка программирования Python [3] наиболее популярной библиотекой машинного обучения является Scikit-learn. Используются также и другие библиотеки: Pylearn2 и TensorFlow - библиотека Python для машинного обучения, предоставленная компанией Google.

Базы данных. Для хранения огромных объемов данных требуется программное обеспечение, специализирующееся на управлении этими данными и формировании запросов к ним. Традиционно в этой области использовались реляционные базы данных - такие, как Oracle SQL, MySQL. Sybase IQ и др. [19]. Во многих случаях эти базы данных продолжают оставаться предпочтительным решением. Однако у традиционных баз данных существуют недостатки, которые затрудняют их применение в системах обработки больших данных и усложняют их масштабирование: их память и вычислительный ресурс не масштабируются за пределы одного узла; в традиционных базах данных отсутствуют средства обработки потоковых, графовых и неструктурированных категорий данных.

Попытки ликвидировать эти недостатки привели к появлению новых типов баз данных, объединенных в категорию баз данных NoSQL. Следует заметить, что «No» в названии этой категории означает «не только». Базы данных NoSQL обладают большей функциональностью, лишены недостатков традиционных баз данных и обеспечивают возможность почти неограниченного масштабирования данных.

Существующие разновидности баз данных можно разделить на следующие типы: • столбцовые базы данных (column database) - данные организуются в столбцы, что позволяет алгоритмам существенно повышать скорость обра-

ботки запросов; табличные структуры продолжают играть важную роль в обработке данных;

• хранилища документов (document store) - хранилища документов, не использующие таблицы, но хранящие полную информацию о документе; их особенностью является чрезвычайно гибкая схема данных;

• хранилища «ключ-данные» (key-value store) - данные не хранятся в таблицах; каждому отдельному значению ставится в соответствие ключ, а не «координаты» этого значения в таблице; такое решение обеспечивает хорошее масштабирование, но затрудняет разработку базы данных;

SQL в Hadoop - пакетные запросы в Hadoop пишутся на SQL-подобном языке, во внутренней реализации которого используется инфраструктура отображения-свертки (Map-reduce);

обновленный SQL (New SQL) - этот тип сочетает масштабируемость баз данных NoSQL с преимуществами реляционных баз данных; используется интерфейс SQL и реляционная модель данных.

Графовые базы данных (graph database). Табличный формат представления данных является оптимальным не для всех задач. Некоторые задачи могут быть более естественно представлены с помощью графовых моделей, а используемые ими данные - размещены в графовых базах данных.

Инструменты планирования. Инструменты планирования упрощают автоматизацию повторяющихся операций и запуск заданий по событиям (например, при появлении нового файла в папке). Эти инструментальные средства имеют аналоги в традиционных программах, но разрабатываются специально для больших данных. Например, такие инструменты могут запускать задачу Map-reduce при появлении нового набора данных в каталоге.

Инструменты сравнительного анализа. Этот класс инструментов разработан для оптимизации установки больших данных за счет предоставления стандартизированных профилей. Профили строятся на основании представительного множества операций с большими данными. С использованием этих инструментов решаются задачи сравнительного анализа и оптимизации инфраструктуры больших данных.

Инструменты развертывания системы. Подготовка инфраструктуры больших данных - достаточно сложная задача. Инструменты развертывания системы применяются при развертывании новых приложений в кластерах больших данных. Они в значительной степени автоматизируют установку и настройку компонентов больших данных.

Инструменты программирования служб. Инструменты программирования служб обеспечивают доступ к приложениям и моделям больших данных, как к сервису. Примером такого рода являются REST-службы (Representational State Transfer). Эти службы используются, например, для передачи данных веб-сайтам.

Средства обеспечения безопасности. В процессе обработки больших данных необходимо обеспечить точное управление доступом к используемым данным, причем целесообразно сделать это на уровне, общем для всех приложений, а не на уровне каждого отдельного приложения. Средства безопасности больших данных позволяют создатьцентрализованную и высокоточную систему управьаниы достуаом к сьеным.

3. Процесс Data science

Навбрлеечамто рля описани я сцецесса dataseiance исхользуется структурный подход ^iBL который при реализации проекта позволяет получить требуемый результат при минимальных издержках. Кроме того, он позволяетрационально организовать коллективную раНотр над пцыекром а оЫеспечивеет наличие точьы определенного плана исследований и сроков его выполнения.

Тдтечн ый руоцыжс ц-маккna смето-нт из шеытдпе-сеедсьдтал ьно ттапо в (рис. 2.)-

Этап 1. Процесс начинается с определения цели исследования. Основным результатом первого этапа являетснпсыектеое задание, кззорое щолжну включать следующее [17]: четко сформулированную цель исследований; предназначение проекта; предвари-тзльнаеапьтанир меьоли киср^за^^;плаеируом1^^^ к исдыльзтьанин аес-рсз!; мыосыеваниа пыднтиаескыз реализуемости проекта; предполаг емые р зультаты проекта.

ытнт 3biполняется сбор данных. Исходные данные могуюараньтлся юе ыногсд фодмдтах: ой" простыд тюкызовзшфайров до тыбли- аазданных. Прежде всего, следует оценить актуальность и качество данных,

которые могут определяться местом их хранения. Данные могут храниться в базах данных, витринах данных (data marts), складах данных (data warehouses) и озерах данных (data lakes).

Базы данных предназначены, прежде всего, для хранения данных, тогда как склады данных - для чтения и анализнатид дснных. уттриныi длсных пред:тавляют собынвнриадт скзадн аан ных-мрирнтированный на оаслуживаниеконкретного полтзовгтеля. Ьсли в складах и витринах данные хранится в уже обработанном виде, то в озерах данных они содержатся в исходном, ыоо буабоыанн ое ыврм азе.

Этап 3. Подготовь дантюх. Дырые, тылученные на предыдущем этапе, требуют специальной обработки, предназначенной для обнаружения и устранения разлиюных дцфдттoв е асзыьжаыс оз^д^а для объ-еытнения данных из [^г^зных исзочников и их преобра-

ования.

Это очень важный этап, так как на проверку и очист-двыных зыз^еиванзывынвремени ваоента (в некозюыыд ылззаях - до 80%).Егоудзультаты шнoдпocыeдyжщeо п-ьменение моделей и сокращают время на исправление аномальных результатов. На данном этапе данные из низкоуровневой формы преобразуются в данные, которые могут напетую исдодьзкоатьпя с притюняз-ыр мутылях. Этот этап включает три шага:

• очистка данных - удаление некорректных значений аз встечнока даннеы о устуынениы -асхожде-днй межруссзучн инал^и -

• интеграция данных - объединенииинформации из нескольких источников;

• преобразование данных - преобразование дан-н ыа с пндтодящ ию 0дЗ|Цaт ддницзольыования в моделях.

Процесс data science

Этап 11 Определенще цела щфФледовонщя

Этап 2. Сбыр донных

Этап 3. Подготовжо донных

Этап 4. Анолщы донных Этап 5. Моделщровонще донных

Этап 6. Отображение и автоматизация

Рис. 2. Структура процесса data science

Очистка данных представляет собой часть (подпроцесс) общего процесса data science, направленную на устранение следующих типов ошибок в данных.

Ошибки ввода данных, которые обусловлены человеческим фактором и сбоями средств вычислительной техники или оборудования. В частности, это ошибки, возникающие при передаче данных и в фазах извлечения, преобразования и загрузки (ETL - Extract-Transform-Load). Если количество классов в анализируемых переменных невелико, то обнаружение таких ошибок может осуществляться посредством группировки данных с подсчетом значений.

Избыточные пробелы (Whitespaces) - такая ошибка обычно трудно обнаруживается и приводит, например, к несовпадению ключей при работе с таблицами реляционной базы данных.

Невозможные значения - ошибка в данных, устраняемая проверкой разумности (sanity checks), в ходе которой значения проверяются на соответствие физическим или теоретическим критериям возможности и невозможности.

Выброс (outlier) - заметно отклоняющийся результат наблюдений, который обусловлен иной логикой или иным порождающим процессом, в сравнении с другими результатами. Основной способ поиска выбросов основан на использовании статистических методов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Отсутствующие значения. Если переменная может быть описана устойчивым законом распределения, то можно восстановить отсутствующие значения на основании этого закона распределения.

Разные единицы измерения. Это ошибки, проявляющиеся при слиянии наборов данных, когда необходимо обращать внимание на соответствие единиц измерения. Проблема решается простым преобразованием.

Разные уровни агрегирования. Ошибки такого рода обнаруживаются достаточно легко и устраняются согласованием наборов данных.

Интеграция данных. Данные поступают из нескольких разных источников и могут быть представлены в разных формах, размерах, типах и структурах: от баз данных и файлов Excel до текстовых документов.

Существуют различные способы интеграции данных. В случае обработки данных в табличных структурах применяется две основные операции, комбинирующие информацию из разных источников данных.

Первая операция - соединение (joining): расширение наблюдений из одной таблицы информацией из другой таблицы.

Вторая операция - дополнение: наблюдения из одной таблицы просто добавляются в другую таблицу.

Преобразование данных. После очистки и интеграции данных следующей задачей является преобразование данных в форму, удобную для их моделирования. Для решения этой задачи следующие подходы: сокращение количества переменных и использование вспомогательных переменных.

Излишнее количество переменных осложняет работу с моделями данных и резко увеличивает время

обработки, особенно в тех случаях, когда алгоритмы моделей связаны с полным или направленным перебором. Существуют специальные методы сокращения количества переменных с минимальной потерей информации. Одним из таких приемов является декомпозиция исходной задачи на несколько подзадач, каждая из которых имеет существенно сокращенный набор переменных.

Переход к вспомогательным переменным применяется в моделировании данных и часто используется в экономических расчетах. Вспомогательные переменные принимают только одно из двух значений (true - 1 или false - 0) и используются для обозначения присутствия (или отсутствия) однозначного эффекта, объясняющего наблюдение.

Этап 4. Выполняется анализ данных. Выявляются закономерности и отклонения, исследуются взаимозависимости между переменными. При этом используются методы компьютерного анализа данных, методы статистической обработки данных, корреляционно-регрессионный анализ и анализ временных рядов [1, 11]. Этот этап часто обозначается EDA (Exploratory Data Analysis - исследовательский анализ данных).

Этап 5. Выполняется построение модели (моделирование данных) с целью построения прогнозов исследуемых процессов, проведения классификации рассматриваемых объектов, оптимизации структуры систем или процедуры управления ими. Этот этап отличается от предыдущего большей целенаправленностью, нацеленностью на конкретный результат.

В ходе моделирования используются методы и модели из области статистики, машинного обучения, решения оптимизационных задач, постановки статистического эксперимента и др. Построение модели является итеративным процессом, в ходе которого выбирается наиболее приемлемая модель. Процесс построения большинства моделей включает следующие основные шаги: выбор метода моделирования; выполнение модели; диагностика и сравнение моделей.

Этап 6. Демонстрируются полученные результаты и проводится автоматизация процесса анализа, что дает возможность использовать, при необходимости, разработанные модели в другом рабочем процессе.

Следует заметить, что описанный процесс data science не обязательно имеет линейный характер, и последовательное продвижение от начального этапа к конечному встречается редко. Такой подход годится не для всех типов проектов и не является единственно возможным. На практике часто приходится возвращаться назад, к предыдущим этапам, для внесения определенных изменений и пересмотра отдельных вопросов, повторять различные этапы. Этим определяется итеративный характер процесса data science.

Представленный процесс data science в наибольшей степени подходит для сложных проектов data science с большим количеством ресурсов. Альтернативой последовательному процессу с итерациями является гибкая (agile) модель проекта. Гибкие методологии также

могут быть использованы для реализации проектов data science. Однако на практике в большинстве случаев предпочтение отдается более формальному структурному подходу.

4. Области применения Data science и больших данных

В качестве отдельных прикладных задач, актуальных для правовой сферы, можно выделить следующие: поиск ценной информации при выполнении аналитических разработок; многоаспектный анализ преступности в современных условиях [9]; выявление случаев финансового мошенничества и других видов преступ-

ной деятельности; сбор информации об потенциально опасных абонентах сети Интернет телематической сети ГАС РФ «Правосудие»; личностная аналитика (people analytics), изучение неформальных связей; глубокий анализ текстовых документов; противодействие «цифровой преступности» [16] и др. в соответствии с Концепцией формирования и развития единого информационного пространства России и соответствующих государственных информационных ресурсов4.

Таким образом, количество направлений потенциального применения Data science и больших данных в правовой сфере и, в частности, в едином информационном пространстве судебной системы [12], достаточно велико.

Рецензент: Марков Алексей Сергеевич, доктор технических наук, доцент, профессор МГТУ им. Баумана, главный редактор журнала «Вопросы кибербезопасности», г. Москва, Россия. E-mail: a.markov@npo-echelon.ru

Литература

1. Агеев Ю. Д., Кавин Ю. А., Павловский И. С., Федосеев С. В. Анализ данных. Казань : Бук, 2018. 308 с.

2. Брюс Э., Брюс П. Практическая статистика для специалистов Data Science. СПб. : Изд-во «БХВ-Петербург», 2018. 304 с.

3. Вандер Плас Дж. Python для сложных задач. Наука о данных и машинное обучение. СПб. : Изд-во «Питер», 2018. 576 с.

4. Ващекин А. Н., Ващекина И. В. Информационное право: прикладные задачи и математические методы // Информационное право. 2017. № 3. С. 17-21.

5. Дэви С., Арно М., Мухамед А. Основы data science и Big Data/Python и наука о данных. СПб. : Питер, 2017. 336 с.

6. Ларина Е. С., Овчинский В. С. Искусственный интеллект. Большие данные. Преступность. М. : Изд. дом «Книжный мир», 2018. 416 с.

7. Лесковец Ю., Раджараман А., Ульман Дж. Д. Анализ больших наборов данных. М. : Изд-во «ДМК Пресс»,

2016. 498 с.

8. Ловцов Д. А. Информационная теория эргасистем: Тезаурус. М. : Наука, 2005. 248 c.

9. Ловцов Д. А., Богданова М. В., Паршинцева Л. С. Правовая статистика преступности в современных условиях // Правовая информатика. 2017. № 4. С. 40-48.

10. Ловцов Д. А., Богданова М. В., Паршинцева Л. С. Пакеты прикладных программ для многоаспектного анализа судебной статистической информации // Правовая информатика. 2017. № 1. С. 28-36.

11. Ловцов Д. А., Богданова М. В., Паршинцева Л. С. Основы статистики / Под ред. Д. А. Ловцова. М. : РГУП,

2017. 160 с.

12. Ловцов Д. А., Ниесов В. А. Системная модернизация «цифрового» судопроизводства в России // Государство и право в новой информационной реальности: Сб. науч. тр. / Отв. ред. Е. В. Алферова, Д. А. Ловцов. М. : ИНИОН РАН, 2018. C. 22-29.

13. Ловцов Д. А., Федичев А. В. Место и роль правовой информатики в системе информационно-правовых знаний // Правовая информатика. 2017. № 1. С. 5-12.

14. Ловцов Д. А., Черных А. М. Модернизация системы судебной статистики на основе новой геоинформационной технологии // Правовая информатика. 2016. № 1. С. 7-14.

15. Марц Н., Уоррен Дж. Большие данные. Принципы и практика построения масштабируемых систем обработки данных в реальном времени. М. : Изд. дом «Вильямс», 2018. 368 с.

16. 16. Русскевич Е. А. Уголовное право и «цифровая преступность»: проблемы и решения. М. : ИНФРА-М, 2018. 227 с.

17. Федосеев С. В., Беркетов Г.А., Микрюков А.А. Подходы к проектированию программного комплекса как к интеллектуальной системе // Труды XII Меж-дунар. науч.-прак. конф. «Инновации на основе информационных коммуникационных технологий» (1-10 октября 2015 г.) / ВШЭ. Сочи: МИЭМ, 2015. С. 248-250.

18. Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных. М. : Изд-во «ДМК Пресс», 2015. 400 с.

19. Чаллавала Ш., Лакхатария Д., Мехта Ч., Патель К. MySQL 8 для больших данных. М. : Изд-во «ДМК Пресс», 2018. 226 с.

4 Эта концепция разработана во исполнение Указа Президента РФ от 1 июля 1994 г. № 1390 «О совершенствовании информационно-телекоммуникационного обеспечения органов государственной власти и порядке их взаимодействия при реализации государственной политики в сфере информатизации»).

THE USE OF BIG DATA MODERN TECHNOLOGIES IN LEGAL SPHERE

Sergey Fedoseev, Ph.D., associate Professor of the Chair of Information Law, Informatics and Mathematics of the Russian State University of Justice, Moscow, Russia. E-mail: fedsergvit@mail.ru

Keywords: digital transformation, legal information, information and telecommunication technologies, big data, data science, data categories, big data ecosystem, data science process, applications of Data science and big data.

Abstract.

Purpose: substantiation of methodological approaches to solving problems of effective processing of large amounts of data in the legal sphere.

Method:logical modeling of legal relations and information relations in the legal sphere. System analysis of the relationship between the subject area of the legal sphere and the main objects and methods of big data technology.

Results: the necessity of digital transformation and transition to new information technologies in the legal sphere, creation and development of big data processing infrastructure; the analysis of the data science and big data domain, data categories in Data science; the big data ecosystem and data science; the stages of the Data science process; the application areas of Data science and big data.

References

1. Ageev lu. D., Kavin lu. A., Pavlovskii I. S., Fedoseev S. V. Analiz dannykh, Kazan' : Buk, 2018, 308 pp.

2. Brius E., Brius P. Prakticheskaia statistika dlia spetsialistov Data Science, SPb. : Izd-vo "BKhV-Peterburg'; 2018, 304 pp.

3. Vander Plas Dzh. Python dlia slozhnykh zadach. Nauka o dannykh i mashinnoe obuchenie, SPb. : Izd-vo "Piter'; 2018, 576 pp.

4. Vashchekin A. N., Vashchekina I. V. Informatsionnoe pravo: prikladnye zadachi i matematicheskie metody, Informatsionnoe pravo, 2017, No. 3, pp. 17-21.

5. Devi S., Arno M., Mukhamed A. Osnovy data science i Big Data/Python i nauka o dannykh, SPb. : Piter, 2017, 336 pp.

6. Larina E. S., Ovchinskii V. S. Iskusstvennyi intellekt. Bol'shie dannye. Prestupnost', M. : Izd. dom "Knizhnyi mir" 2018, 416 pp.

7. Leskovets Iu., Radzharaman A., Ul'man Dzh. D. Analiz bol'shikh naborov dannykh, M. : Izd-vo "DMK Press", 2016, 498 pp.

8. Lovtsov D. A. Informatsionnaia teoriia ergasistem: Tezaurus, M. : Nauka, 2005, 248 c.

9. Lovtsov D. A., Bogdanova M. V., Parshintseva L. S. Pravovaia statistika prestupnosti v sovremennykh usloviiakh, Pravovaia informatika, 2017, No. 4, pp. 40-48.

10. Lovtsov D. A., Bogdanova M. V., Parshintseva L. S. Pakety prikladnykh programm dlia mnogoaspektnogo analiza sudebnoi statisticheskoi informatsii, Pravovaia informatika, 2017, No. 1, pp. 28-36.

11. Lovtsov D. A., Bogdanova M. V., Parshintseva L. S. Osnovy statistiki, pod red. D. A. Lovtsova, M. : RGUP, 2017, 160 pp.

12. Lovtsov D. A., Niesov V. A. Sistemnaia modernizatsiia "tsifrovogo" sudoproizvodstva v Rossii, Gosudarstvo i pravo v novoi informatsionnoi real'nosti: sb. nauch. tr., otv. red. E. V. Alferova, D. A. Lovtsov, M. : INION RAN, 2018, pp. 22-29.

13. Lovtsov D. A., Fedichev A. V. Mesto i rol' pravovoi informatiki v sisteme informatsionno-pravovykh znanii, Pravovaia informatika, 2017, No. 1, pp. 5-12.

14. Lovtsov D. A., Chernykh A. M. Modernizatsiia sistemy sudebnoi statistiki na osnove novoi geoinformatsionnoi tekhnologii, Pravovaia informatika, 2016, No. 1, pp. 7-14.

15. Marts N., Uorren Dzh. Bol'shie dannye. Printsipy i praktika postroeniia masshtabiruemykh sistem obrabotki dannykh v real'nom vremeni, M. : Izd. dom "Vil'iams", 2018, 368 pp.

16. Russkevich E. A. Ugolovnoe pravo i "tsifrovaia prestupnost'": problemy i resheniia, M. : INFRA-M, 2018, 227 pp.

17. Fedoseev S. V., Berketov G.A., Mikriukov A.A. Podkhody k proektirovaniiu programmnogo kompleksa kak k intellektual'noi sisteme, Trudy XII Mezhdunar. nauch.-prak. konf. "Innovatsii na osnove informatsionnykh kommunikatsionnykh tekhnologii" (1-10 oktiabria 2015 g.), VShE, Sochi : MIEM, 2015, pp. 248-250.

18. Flakh P. Mashinnoe obuchenie. Nauka i iskusstvo postroeniia algoritmov, kotorye izvlekaiut znaniia iz dannykh, M. : Izd-vo "DMK Press", 2015, 400 pp.

19. Challavala Sh., Lakkhatariia D., Mekhta Ch., Patel' K. MySQL 8 dlia bol'shikh dannykh, M. : Izd-vo "DMK Press", 2018, 226 pp.

i Надоели баннеры? Вы всегда можете отключить рекламу.