Научная статья на тему 'Методы защиты метаданных в формате XML'

Методы защиты метаданных в формате XML Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
404
83
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТАДАННЫЕ / METADATA / ОНТОЛОГИЧЕСКАЯ МОДЕЛЬ / ONTOLOGY MODEL / СИСТЕМА ЗАЩИТЫ ДАННЫХ / DATA PROTECTION SYSTEM / XML / ОБФУСКАЦИЯ / OBFUSCATION / СТЕГАНОГРАФИЯ / STEGANOGRAPHY / БОЛЬШИЕ ДАННЫЕ / BIG DATA

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Воробьев В. И., Монахова Т. В.

В статье рассматривается защита метаданных, представленных в формате XML и родственных языков. При этом данные о предметной области упорядочиваются с применением онтологических методов. Предложена трёхкомпонентная онтологическая модель системы защиты данных на основе онтологических представлений данных о предметной области в части защищаемых данных и потенциальных угроз. Разработан шаблон классификации данных, который позволяет детализировать соответствующие классы, вносить конкретные элементы данных и отсекать неиспользуемые классы или их подклассы. На основе онтологических представлений защищаемых данных и актуальных угроз в соответствии с политикой безопасности строится онтологическая модель средств защиты, реализуемых в разрабатываемой системе. Обсуждены языки описания метаданных. Для защиты XML-документа предлагается использовать методы обфускации и текстовой стеганографии. Предложен алгоритм модифицированного метода обфускации со случайной выборкой части кода. Построена блок-схема алгоритма, пригодного для проектирования средств защиты метаданных. Пояснен отказ от использования в данном случае документа XML в роли стегоконтейнера. Разработаны рекомендации по способу и последовательности применения онтологических методов защиты метаданных. Приводится описание особенностей применения методов обфускации и текстовой стеганографии.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PROTECTION OF METADATA IN XML FORMAT

The article discusses the protection of metadata presented in XML and related languages. At the same time data on the subject area are ordered using ontological methods. A three-component ontological model of the data protection system is proposed on the basis of ontological representations of domain data in terms of protected data and potential threats. A data classification template has been developed that allows you to detail the corresponding classes, enter specific data elements, and cut off unused classes or their subclasses. Based on ontological representations of protected data and actual threats, in accordance with the security policy, an ontological model of the protection tools implemented in the developed system is built. The languages for describing metadata are discussed. It is suggested to use the methods of obfuscation and text steganography to protect the XML document. An algorithm of the modified obfuscation method with random sampling of a part of the code is proposed. A block diagram of an algorithm suitable for the design of metadata protection facilities is constructed. Explanation of the decision to not use the XML document as a stegocontainer is made. Recommendations on the method and sequence of application of ontological metadata protection methods were developed. A description is also given of the specifics of the use of methods of obfuscation and text steganography.

Текст научной работы на тему «Методы защиты метаданных в формате XML»

УДК 004.7.056.53

МЕТОДЫ ЗАЩИТЫ МЕТАДАННЫХ В ФОРМАТЕ XML

1 2 В.И. Воробьев , Т.В. Монахова

1 Санкт-Петербургский институт информатики и автоматизации Российской академии наук, Санкт-Петербург, Россия

[email protected]

2 Центральный научно-исследовательский институт Минобороны РФ, Королев, Россия [email protected]

Аннотация

В статье рассматривается защита метаданных, представленных в формате XML и родственных языков. При этом данные о предметной области упорядочиваются с применением онтологических методов. Предложена трёхкомпонентная онтологическая модель системы защиты данных на основе онтологических представлений данных о предметной области в части защищаемых данных и потенциальных угроз. Разработан шаблон классификации данных, который позволяет детализировать соответствующие классы, вносить конкретные элементы данных и отсекать неиспользуемые классы или их подклассы. На основе онтологических представлений защищаемых данных и актуальных угроз в соответствии с политикой безопасности строится онтологическая модель средств защиты, реализуемых в разрабатываемой системе. Обсуждены языки описания метаданных. Для защиты XML-документа предлагается использовать методы обфускации и текстовой стеганографии. Предложен алгоритм модифицированного метода обфускации со случайной выборкой части кода. Построена блок-схема алгоритма, пригодного для проектирования средств защиты метаданных. Пояснен отказ от использования в данном случае документа XML в роли стегоконтейнера. Разработаны рекомендации по способу и последовательности применения онтологических методов защиты метаданных. Приводится описание особенностей применения методов обфускации и текстовой стеганографии.

Ключевые слова: метаданные, онтологическая модель, система защиты данных, XML, обфуска-ция, стеганография, большие данные.

Цитирование: Воробьев, В.И. Методы защиты метаданных в формате XML / В.И. Воробьев, Т.В. Монахова // Онтология проектирования. - 2018. - Т. 8, №2 (28). - С.253-264. - DOI: 10.18287/2223-9537-2018-8-2-253-264.

Введение

Работа в любой из предметных областей (ПрО) в сфере науки, техники или коммерции связана с обработкой разнообразных данных. При этом значительное количество обрабатываемых данных составляют данные, требующие защиты. Это не только персональные данные, но и данные, являющиеся предметом интеллектуальной собственности, в том числе таких её направлений, как государственная и коммерческая. Риски, возникающие в связи с применением метаданных, можно условно разделить на две группы: внедрение кода и раскрытие ценной информации. Большинство таких данных имеют разные форматы, типы и относятся к разным ПрО. Данные также могут дублироваться в силу различных причин, к ним могут применяться различные процедуры обработки. Соответственно, обработка получаемого набора данных должна начинаться с систематизации и упорядочения с учётом форматов, происхождения и способов обработки. При этом выявляются обобщённые данные об отдельных подмножествах данных о ПрО, другими словами, метаданные. Защита метаданных является важным направлением исследований.

1 Онтологический подход к определению метаданных

В настоящее время в подавляющем большинстве ПрО используют методы больших данных. Количество таких ПрО и объёмы данных неуклонно возрастают, что делает обработку больших данных актуальным и приоритетным направлением исследований. Это привело к появлению таких технологий, как Data Mining, Big data, RDF, XML, Semantic Web [1]. При этом характерной особенностью работы с данными является работа со слабо структурированными данными, что привело к появлению технологий класса Semantic Web, RDF и XML [2]. К большим данным применяют определённый набор методов и техник анализа, среди которых: методы класса Data Mining, распознавание образов, прогнозная аналитика, визуализация аналитических данных и др. Примером технологий и инструментов работы с большими данными является Hadoop [3]. Успешность проекта связана с тем, что он разработан на языке Java в рамках вычислительной парадигмы MapReduce, согласно которой приложение разделяется на большое количество одинаковых элементарных заданий, выполнимых на узлах кластера и затем сводимых в конечный результат. Приведённые сведения о проекте Hadoop объясняют его ценность для обработки больших данных - кластерная обработка позволяет существенно сократить временные затраты на обработку больших объёмов данных, что особенно важно при условии высокой скорости изменения больших данных. Защита Big Data существенно отличается от защиты, рассчитанной на обработку только обычных данных (отличающихся набором признаков - volume, velocity, variety).

Безопасность больших данных имеет два направления: управление безопасностью больших данных; разработка и применение средств защиты больших данных. Разработка системы защиты больших данных должна производиться с использованием ряда методов и техник анализа, применимых к большим данным. Одним из таких методов является онтологический анализ и описание данных с выделением метаданных [4]. Преимущества онтологического подхода состоят в гибкости онтологии, т.е. возможности быстрого изменения, в том числе добавления новых элементов данных без кардинальной переработки уже созданной онтологии. Кроме того, онтологический анализ данных позволяет разделить их на некоторые классы, что, в свою очередь, даёт возможность разработки процедур обработки данных, принадлежащих к одному классу [5].

Модель ПрО можно представить в следующем виде [6]: Mn = {FXUJ, R) , где

F = {fa | a = 1, A} - множество функций системы;

T = {ti | j = 1, J} - множество задач обработки информации;

U = {uk | k = 1, K} - множество пользователей;

I = 1вх и 1вых - множество данных ПрО;

1ввх = {С I х ° Хвх} - множество данных, необходимых для обеспечения информационных потребностей системы;

рых = {^вых | x ° хвых } - множество данных, являющихся результатом взаимодействия пользователей и функций системы;

R = {rl | l = 1, L} - множество отношений между компонентами F , T, U, I.

На основе указанной модели осуществляем переход к описанию семантики онтологии:

O = (F, V, S, Н) , где

F - множество функций, выполняемых системой;

V - множество определений указанных функций;

S - множество отношений между функциями;

Н - множество правил использования функций системы, что позволяет разделить её на составляющие элементы.

Онтологией называют явное описание множества объектов и связей между ними, т.е. структурированный словарь. Иными словами, онтология определяет множество сущностей, описывающих и представляющих ПрО, и логические выражения соотношений терминов друг с другом. Такое описание выглядит как четвёрка вида

0=(Е, D, Я, Р), где

Е - множество сущностей (термины, классы, объекты, отношения и функции);

D - множество определений сущностей;

Я - множество отношений между сущностями;

Р - множество правил использования сущностей.

Онтологический анализ представляет собой разделение данных на классы с последующим выделением подклассов и экземпляров данных классов, а также отношений между ними.

Существуют следующие типы онтологий: генеалогия, партономия, атрибутивная структура, таксономия и функциональности. Генеалогией называют онтологию, описывающую отношения типа «отец-сын», партономия рассматривает отношения «имеет-часть», таксономия - «род-вид». Что описывается при помощи онтологий других двух типов, очевидно [7].

Обычно онтологии используют язык, имеющий чёткие различия между классами, свойствами и отношениями. Некоторые инструментальные средства поддерживают автоматизированное использование онтологий, обеспечивая расширенные возможности в отношении интеллектуальных приложений. Кроме того, онтологии позволяют осуществлять описание и структуризацию метаданных [7, 8].

2 Онтологическая модель системы защиты данных

В данной статье при построении системы защиты данных использовалась онтологическая модель, состоящая из трёх компонент: онтологические представления защищаемых данных, актуальные угрозы, средства защиты. Такая модель позволяет разрабатывать системы защиты как больших, так и традиционных данных [9].

В первую очередь строится онтологическая модель защищаемых данных. Защищаемые данные можно условно разделить по предметной направленности, по виду данных и по процессу обработки, в котором они участвуют. В указанных классах выделяются подклассы и, возможно, сущности. Полученные подклассы также можно разделить на подклассы и т.д.

К примеру, при разделении данных по предметной направленности выделяют следующие классы: государственная тайна, коммерческая тайна, банковская тайна, профессиональная тайна, служебная тайна, персональные данные и интеллектуальная собственность.

Аналогичным образом составляется онтологическое представление угроз, актуальных для данной ПрО. При этом угрозы делят по преднамеренности, выделяя в них преднамеренные и непреднамеренные, по воздействию (нарушение физической целостности, несанкционированная модификация, несанкционированное получение и несанкционированное размножение), по дестабилизирующим факторам, по субъекту непосредственной реализации.

Каждая ПрО характеризуется своим набором защищаемых данных и индивидуальным набором актуальных угроз, и предсказать заранее модель, подходящую для конкретной ПрО, невозможно. Так же индивидуален для каждой ПрО и набор экземпляров защищаемых данных. Поэтому в статье предлагается некий шаблон, который для каждой ПрО позволяет детализировать соответствующие классы, вносить конкретные элементы данных и отсекать неиспользуемые в данной ПрО классы или их подклассы.

На основе онтологических представлений защищаемых данных и актуальных угроз в соответствии с политикой безопасности конкретной ПрО строится онтологическая модель средств защиты, реализуемых в разрабатываемой системе. В случае использования в ПрО технологий Big Data, выбираемые средства защиты несколько отличаются от традиционных, к примеру, они должны обладать функциями самообучения.

Таким образом, строится трёхкомпонентная онтологическая модель разрабатываемой системы защиты, на базе которой строится программный код системы защиты данных. Непосредственный переход от онтологической модели к написанию программного кода возможен в силу возможности задания в онтологической модели типов данных и отношений между этими данными, что позволяет описывать в коде конкретные функции и процедуры. Кроме того, онтологическая модель данных является объектно-ориентированной, что позволяет создать на её основе объектно-ориентированный код.

3 Специфика описания метаданных и языки их описания

При анализе данных о ПрО, и больших данных в том числе, выделяются метаданные, в соответствии с которыми данные группируются и делятся на классы. В случае повреждения метаданных (например, преднамеренное искажение форматов данных), собранные данные о ПрО вновь превращаются в хаотичный набор, который непригоден для обработки без повторного выделения метаданных. Поэтому защита метаданных является основным элементом процесса защиты данных. Наиболее часто метаданные представляются в форме онтологии. В свою очередь, метаданные также могут быть разделены на отдельные группы. Для описания метаданных обычно применяют структурированные языки: XML, OWL, RDF, RDFS и другие [1].

При использовании языка XML система описывается в виде тегов и их атрибутов. Такая организация позволяет создать модель системы любой степени сложности при одном ограничении: корневой элемент описываемой структуры должен быть только один.

Наиболее часто для описания онтологий применяется язык OWL (Ontology Web Language). Онтология, применяемая в OWL, может включать описания классов, свойств и методов. При этом формальная семантика OWL определяет способы получения её логических последствий - фактов, не присутствующих явным образом в онтологии, но вызванных семантикой. Эта возможность может базироваться на одном документе или множестве распределённых документов, объединённых с использованием определённых механизмов языка OWL.

Поскольку данные, для защиты которых разрабатывается система, имеют определённую значимость для ПрО, защите метаданных (включая используемые для построения трёхком-понентной модели) также требуется уделить внимание.

Рассмотренные языки описания метаданных являются родственными по отношению друг к другу, поскольку представляют собой язык XML и его модификации. Следовательно, методы защиты, применимые для языка XML, работают и в отношении остальных языков описания метаданных [10-12].

4 Применение методов обфускации для защиты метаданных

Наиболее часто для документов XML применяются методы обфускации («запутывания») кода. На рисунке 1 представлена иерархическая схема классификации метаданных на примере разных типов ресурсов, на рисунке 2 - XML-представление примера классификации метаданных для разных типов ресурсов.

Рисунок 1 - Иерархическая схема классификации метаданных на примере разных типов ресурсов

Для «запутывания» XML- кода (рисунок 2) часто используется следующий метод: выбирается случайный фрагмент XML- кода, после чего в исходном тексте выбирается способ запутывания с сохранением исходной логической последовательности, после чего выбранный кусок кода заменяется полученным [13]. При этом следует выбирать новый способ представления таким образом, чтобы он не мог выражать почти ничего, кроме исходной логики. Приведём простейший пример такой операции. На рисунке 3 приведена схема выделенного фрагмента XML- кода из рисунка 1. Далее изменим структуру фрагмента XML- кода по схеме, представленной на рисунке 4, и сам XML- код на рисунке 5.

<?xml version="1.0" encoding=nWindows-1251n ?> <Метаданные>

<Классификация вариант 1> <По содержанию/>

<По отношению к ресурсу в целом/> <По возможности логического вывода/> </Классификация вариант 1> <Классификация вариант 2> <Внутренние метаданные/> <Административные метаданные/> <Описательные метаданные/> </Классификация вариант 2> <Формат>

<По охвату и подробности типов описываемых ресурсов/> <По ширине и подробности области описания ресурсов/> </Формат>

<По предметным областям> <Для описания архивов и электронных ресурсов/> <Для описания персон и организаций/> <Для описания библиографических ресурсов/> <Для описания музейных и исторических ценностей/> <Для описания издательской продукции/> <Для кристаллографической информации/> <Для работы с изображениями со спутников/> <Для описания новостей/> </По предметным областям> </Метаданные>

Рисунок 2 - XML-пpeдcтaвлeниe примера классификации метаданных для разных типов ресурсов

Внутренние метаданные

Классификация вариант 2

Административные метаданные

Описательные метаданные

Рисунок 3 - Структура выделенного фрагмента XML-кода

Классификация вариантХ

Рисунок 4 - Структура изменённого фрагмента кода, где «вариант X», «Другие», «Прочие» и «Никакие»

добавлены для запутывания XML- кода

СКлассификация вариант Х> <Внутренние метаданные/> СДругие> САдминистративные метаданные/> <Прочие> СОписательные метаданные> <Ранее неизвестные/> </Описательные метаданные>

<Никакие/> </Прочие> </Другие> </Классификация вариант Х> <Х va1ue="2">

<ХХХ/> </Х>

Рисунок 5 - Изменённый фрагмент кода

Как видно из рисунков 2 и 5, в исходном XML-документе выбрана часть, описывающая разделение метаданных на внутренние, административные и описательные, и изменён этот участок кода, как показано на рисунке 6.

<?хт1 version="1.0" епсс^±пд=иЭД±^с^5-1251" ?> <Метаданные>

<Классификация вариант 1> <По содержанию/>

<По отношению к ресурсу в целом/> <По возможности логического вывода/> </Классификация вариант 1> <Классификация вариант Х> <Внутренние метаданные/> <Другие> <Административные метаданные/> <Прочие> <Описательные метаданные> <Ранее неизвестные/> </Описательные метаданные> <Никакие/> </Прочие> </Другие>

</Классификация вариант Х> <Х va1ue="2">

<ХХХ/> </Х>

<Формат>

<По охвату и подробности типов описываемых ресурсов/> <По ширине и подробности области описания ресурсов/> </Формат>

<По предметным областям> <Для описания архивов и электронных ресурсов/> <Для описания персон и организаций/> <Для описания библиографических ресурсов/> <Для описания музейных и исторических ценностей/> <Для описания издательской продукции/> <Для кристаллографической информации/> <Для работы с изображениями со спутников/> <Для описания новостей/> </По предметным областям> </Метаданные>

Рисунок 6 - Результат обфускации

Из рисунка 6 видно, что полученный в результате документ стал менее компактным, чем исходный, и менее понятным. Однако, при желании выделить исходный код всё же можно. Представленный метод обфускации можно доработать, присвоив каждой части кода порядковый номер. Далее используется программный генератор случайных чисел, чтобы получить порядковый номер трансформируемого участка. Осуществляется замена выбранного куска кода на изменённый. Из списка возможных значений исключается порядковый номер изме-

нённой части и вновь запускается генератор случайных чисел, изменяется часть кода и так до тех пор, пока все участки кода не будут трансформированы. Блок-схема соответствующего алгоритма приведена на рисунке 7.

Рисунок 7 - Блок-схема изменённого алгоритма обфускации

Может быть выбран и менее распространённый метод обфускации, например, применение своеобразной «матрёшки», т.е. вставки не имеющих значения в контексте ПрО строк через строку кода с начала и конца документа к середине. Полученный текст с включением незначащих слов (например, Desyat_negrityat и т.д. - балласт) приведён на рисунке 8. Как видно из рисунков 2, 6 и 8, использование обфускации действительно затрудняет чтение и, следовательно, понимание кода, но имеет определённые недостатки, среди которых увеличение размера XML-кодa и возможность при желании всё же определить исходный код [14].

5 Стеганография XML-кода

XML-документы часто применяются в связи со стеганографией, а именно - методом изменения порядка следования атрибутов в файлах с разметкой и рядом других алгоритмов. При этом XML-документ используется в качестве стегоконтейнера [15]. К примеру, скрываемая информация может быть встроена в зарезервированные поля, предназначенные для метаданных. Но в данном случае метаданные, записанные в формате XML, являются собственно стего. При этом логично воспользоваться методами текстовой стеганографии, когда контейнер представляет собой текстовый файл. Перед записью стего шифруется, а при чтении расшифровывается.

<?хт1 version="1.0" enсoding="Windows-1251" ?>

<Метаданные>

<Desyat_negrityat/>

<Классификация вариант 1> <0din_poperhnu1sya/> <По содержанию/> <Devyat_negrityat/>

<По отношению к ресурсу в целом/> <0din_ne_smog_prosnutsya/> <По возможности логического вывода/> <Vosem_negrityat/> </Классификация вариант 1> <0din_ne_vozvrati1sya/> <Классификация вариант 2> <Sem_negrityat/> <Внутренние метаданные/> <Zarubi1_odin_sebya/>

Административные метаданные/> <Shest_negrityat/>

<Описательные метаданные/> <0dnogo_uzha1i1_shme1>

</Классификация вариант 2> <Pyat_negrityat/> <Формат> <Zasudi1i_odnogo/>

<По охвату и подробности типов описываемых ресурсов/> <Chetyre_negritenka/> <По ширине и подробности области описания ресурсов> <Posh1i_kupatsya_v_more/> <0din_popa1sya_na_primanku/> <Ih_osta1os_troe/> <Troe_negrityat/> <V_zverinсe_okaza1is/> <0dnogo_shvati1_medved/> <I_vdvoem_osta1is/> <Dvoe_negrityat/> <Leg1i_na_so1nсepeke/> <0din_sgore1/> <I_vot_odin/> <Nesсhastnyi_odinokii/> <Pos1ednii_negritenok/> <Pog1yade1_usta1o/> <0n_poshe1_povesi1sya/> <I_nikogo_ne_sta1o/>

</По ширине и подробности описания ресурсов> <0sta1os_ih_сhetyre/> </Формат> <Sudeistvo_uсhini1i/>

<По предметн^1м областям> <Ih_osta1os_pyat/>

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

<Для описания архивов и электронных ресурсов/> <Posh1i_na_paseku_gu1yat/> <Для описания персон и организаций/> <I_osta1os_shest_ih/>

<Для описания библиографических ресурсов/> <Drova_rubi1i_vmeste/> <Для описания музейных и исторических ценностей/> <0sta1is_vsemerom/>

<Для описания издательской продукции/> <V_Devon_ush1i_potom/>

<Для кристаллографической информации/> <Ih_osta1os_vosem/>

<Для работы с изображениями со спутников/> <Poev_k1eva1i_nosom/>

<Для описания новостей/> <Ih_osta1os_devyat/> </По предметн^1м областям> <0tpravi1is_obedat/> </Метаданные>

Рисунок 8 - Обфускация с использованием «матрёшки»

Часто используются методы изменения порядка следования маркеров конца строки, хвостовых пробелов, знаков одинакового начертания и двоичных нулей. Кроме того, зашифрованное стего может быть встроено в другой XML-фaйл. Хотя именно благодаря тому, что XML-докумeнт легко использовать в качестве контейнера, этот метод применять весьма рискованно [16].

Заключение

Метаданные в виде онтологии записываются на XML и родственных ему языках. Эти данные требуют защиты, для чего предлагается использовать трёхкомпонентную модель при проектировании комплексных средств защиты информационных объектов. Поскольку эта модель также представляет собой онтологию, в статье рассмотрены применяемые методы защиты XML-структурированных данных, а именно обфускация и текстовая стеганография.

Список источников

[1] Tauberer, J. What is RDF and what is it good for? Last revised January 200B. -https://github.com/JoshData/rdfabout/blob/gh-pages/intro-to-rdf.md.

[2] Пoлoвuкoвa, O.H. An^nro XML-подхода для описания метаданных н онтологнй в Semantic Web. 2015. -http://izvestia.asu.ru/media/files/issue/9/articles/ru/119-123.pdf.

[3] Лэм, 4aк. Hadoop в действии. — М.: ДМКПресс, 2012. — 424 с.

[4] Koгaлoвcкuй, M.P. Метаданные в компьютерных системах / М.Р. Когаловский // Программирование. -2013. T. 39, № 4. C. 2В-46. - http://www.ipr-ras.ru/articles/kogalov13-03.pdf.

[5] Бoльшaкoв, O.A. Метаданные н прикладное программирование / O.A. Большаков // Школа программирования Coding Craft - 2011. - https://codingcraft.ru/metadata.php.

[6] Bopoбьëв B.И. Проектирование систем защиты с применением онтологнй / B.^ Bopoбьёв, T.B. Монахова // Tpyды CПИИРAН. - 2004. T.2, №2. - C.212-215.

[У] Гaвpuлoвa, T.A. Oнтoлoгичеcкий подход к управлению знаниями при разработке корпоративных информационных систем / T.A. Гаврнлова // Новости искусственного интеллекта. - 2003. №2. - с.24-30.

[В] Бopгecm, H.M. Om^ora^ современное состояние, краткий обзор / Н.М. Боргест, М.Д. Коровин // Omo-логня проектирования. 2013. №2(8). - C.49-55. - http://www.ontology-of-designing.ru/article/2013_2%2BB%29/7_Borgest.pdf

[9] Информационная безопасность социально-экономических систем: монография / Aпатoва НЗ, Aкини-на Л.Н., Бойченко O.B., Герасимова C.B. н др. Под ред. д.т.н. профессора O.B. Бойченко. - ^мферополь: ИП Зуева T.B., 201У. - 34B с.

[10] Moнaxoвa T.B. Oнтoлoгичеcкая модель описания экспериментальных данных / T.B. Монахова // Tpyды CПИИРAН. - 2013. №1(24). - C.303-312.

[11] Moнaxoвa, T.B. Oнтoлoгичеcкая модель системы защиты данных / T.B. Монахова // Шорник трудов секции «Информационная безопасность» Bcеpoccийcкoй конференции по вопросам баллистического обеспечения. - Королёв: 4 ЦНИИ MO РФ. - 2014.

[12] Moнaxoвa, T.B. Защита XML-структурированных данных / T.B. Монахова // Tpyды CПИИРAН. - 2013. №2(25). - C.1B2-1B9.

[13] Anmap, A. Математическая обфускацня: криптографическая защита программного кода. 2014. -https://xakep.ru/2014/0B/15/crypto-obfuscation/.

[14] Huкoльcкaя, К.Ю. Oбфycкация н методы защиты программных продуктов / К.Ю. Никольская, A^. Хлестаков // Bеcтник УpФO. Безопасность в информационной сфере 2015; 2(16) с.7-10. - http://info-secur.ru/is_16/Nikolskaya.pdf.

[15] Teкт, B. Tекcтoвая стеганография / B. Tекин // Мнр ПК. - 2004. №11 -http://www.osp.ru/pcworld/2004/11/169154.

[16] Бapuльнuк, C.C. Применение алгоритмов стеганографии в современных информационных системах / C.C. Барнльннк, ИЗ. Мнннн, O.B. Мнннн // Материалы III Международной научно-практической конференции «Aктyальные проблемы безопасности информационных технологий. - Красноярск. 2009. -https://window.edu.ru/resource/414/67414/files/AProBIT-2009.pdf.

PROTECTION OF METADATA IN XML FORMAT

V.l. Vorobjev1, T.V. Monakhova2

1Federal State Institution of Science St. Petersburg Institute for Informatics and Automation

of the Russian Academy of Sciences, St. Petersburg, Russia

[email protected]

2 Central Research and Development Institute of the Russian Defense Ministry, Korolev, Russia [email protected]

Abstract

The article discusses the protection of metadata presented in XML and related languages. At the same time data on the subject area are ordered using ontological methods. A three-component ontological model of the data protection system is proposed on the basis of ontological representations of domain data in terms of protected data and potential threats. A data classification template has been developed that allows you to detail the corresponding classes, enter specific data elements, and cut off unused classes or their subclasses. Based on ontological representations of protected data and actual threats, in accordance with the security policy, an ontological model of the protection tools implemented in the developed system is built. The languages for describing metadata are discussed. It is suggested to use the methods of ob-fuscation and text steganography to protect the XML document. An algorithm of the modified obfuscation method with random sampling of a part of the code is proposed. A block diagram of an algorithm suitable for the design of metadata protection facilities is constructed. Explanation of the decision to not use the XML document as a stegocontainer is made. Recommendations on the method and sequence of application of ontological metadata protection methods were developed. A description is also given of the specifics of the use of methods of obfuscation and text steganography.

Keywords: metadata, ontology model, data protection system, XML, obfuscation, steganography, big data.

Citation: Vorobjev VI, Monakhova TV. Protection of metadata in XML format [In Russian]. Ontology of designing. 2018; 8(2): 253-264. DOI: 10.18287/2223-9537-2018-8-2-253-264.

References

[1] Tauberer J. What is RDF and what is it good for? Last revised January 2008. -https://github.com/JoshData/rdfabout/blob/gh-pages/intro-to-rdf.md.

[2] Polovikova ON. Analyze of XML approach for metadata and ontology description in Semantic Web [In Russian]. - 2015. - http://izvestia.asu.ru/media/files/issue/9/articles/ru/119-123.pdf.

[3] Chuck Lam. Hadoop in Action. — Manning Publications Co., Stanford. 2010. — 312 p.

[4] Kogalovskiy MR. [Metadata in computer systems] Metadannyye v komp'yuternykh sistemakh [In Russian]. Pro-grammirovaniye. 2013; 39(4): 28-46.

[5] Bol'shakov O. Metadata and application programming [In Russian]. 2011. - http://codingcraft.ru/metadata.php.

[6] Vorobjev VI, Monakhova TV. Protection systems design with ontologies [In Russian]. Proceedings of SPIIRAS. -2004; 2(2): 212-215.

[7] Gavrilova TA. Ontological approach to knowledge management in the development of corporate information systems [In Russian]. - J. News of Artificial Intelligence. - 2003; 2: 24-30.

[8] Borgest NM, Korovin MD. Ontologies: current state, short review [In Russian]. Ontology of Designing. - 2013; 2(8): 49-55. - http://www.ontology-of-designing.ru/article/2013_2%288%29/7_Borgest.pdf.

[9] Information security of socio-economic systems: monograph [Metamodel' zashchity metadannykh. Informatsion-naya bezopasnost' sotsi-al'no-ekonomicheskikh sistem: monografiya] [In Russian]. Apatova NV, Akinina LN, Boychenko OV, Gerasimova SV and etc. Ed. Doctor of technical sciences. professors O.V. Boychenko. - Simferopol': IP Zuyeva TV, 2017. - 348 p.

[10] Monakhova TV. Ontological model experimental data description [In Russian]. Proceedings of SPIIRAS. - 2013; 1(24): 303-312.

[11] Monakhova TV. Data protection system ontological model [In Russian]. Papers of «Information security» section of All-Russian conference on ballistic support. Koroljev: 4 CNII MO RF. - 2014.

[12] Monakhova TV. XML-structured data protection [In Russian]. Proceedings of SPIIRAS. - 2013; 2(25): 182-189.

[13] Alizar A. Math obfuscation: cryptography program code protection [In Russian]. 2014. -https://xakep.ru/2014/08/15/crypyo-obfuscation/.

[14] Nikolskaya KU, Khlestakov AD. Obfuscation and program products protection methods [In Russian]. UrFO messenger. Protection in informatics sphere 2015; 2(16) - https://info-secur.ru>is_16/Nikols;kaya.pdf

[15] Tekin V. Text steganography [In Russian]. 2004. - https://www.osp.ru/pcworld/2004/11/169154.

[16] Barilnik SS, Minin IV, Minin OV. An application of staganography algorithms in modern information systems [In Russian]. III International scientific and technical conference «Information technologies protection actual problems» papers, Krasnoyarsk. 2009. - https://window.edu.ru/resource/414/67414/files/AProBIT-2009.pdf.

Сведения об авторах

Воробьев Владимир Иванович, 1942 г. рождения. Окончил Ленинградский гидрометеорологический институт в 1965 г., д.т.н. (1994), профессор, Главный научный сотрудник Санкт-Петербургского института информатики и автоматизации Российской академии наук. В списке научных трудов более 115 работ в области математического моделирования и информатики.

Vladimir Ivanovich Vorobjev (b. 1942) graduated from Hydro-meteorological Institute (St-Petersburg) in 1965, PhD (1994), Professor, Chief Researcher Laboratory of Computing & Information Systems and Programming Technologies of Federal State Institution of Science St. Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences. Монахова Татьяна Вячеславовна, 1981 г. рождения. Окончила Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина) в 2004 г., научный сотрудник 4-го Центрального Научно-исследовательского института Минобороны РФ (Королев). В списке научных трудов 7 работ в области моделирования систем защиты данных. Tatjana Vjacteslavovna Monakhova (b. 1981) graduated St.-Petersburg State Electrotechnical University in 2004, Researcher 4th Central Research and Development Institute of the Russian Defense Ministry, Korolev. She is co-author of 7 publications in the field modeling of systems of data protection.

i Надоели баннеры? Вы всегда можете отключить рекламу.