Научная статья на тему 'Экспериментальное исследование метода идентификации массивов бинарных данных'

Экспериментальное исследование метода идентификации массивов бинарных данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
329
26
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИДЕНТИФИКАЦИЯ / МАССИВЫ БИНАРНЫХ ДАННЫХ / ТЕМАТИЧЕСКИЕ ИССЛЕДОВАНИЯ / БОЛЬШИЕ ДАННЫЕ / IDENTIFICATION / BINARY DATA ARRAYS / CERTIFICATION TESTS / BIG DATA

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Лебеденко Евгений Викторович, Рябоконь Владимир Владимирович, Лапко Александр Николаевич, Куцакин Максим Алексеевич

Рассматривается задача идентификации нечетких дубликатов среди массивов бинарных данных в составе исходных текстов программного обеспечения. Предложен подход к снижению вычислительной сложности метода идентификации в условиях больших объемов исходных и эталонных данных на основе схемы независимых перестановок. Приведены результаты экспериментальной проверки предложенного метода идентификации, показавшие возможности его использования в технологическом процессе автоматизированного контроля информационных объектов, а также его эффективность по отношению к существующим методам.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Лебеденко Евгений Викторович, Рябоконь Владимир Владимирович, Лапко Александр Николаевич, Куцакин Максим Алексеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EXPERIMENTAL RESEARCH OF BINARY DATA ARRAYS IDENTIFICATION METHOD

The article deals with the problem of identifying fuzzy duplicates among binary data arrays in the source code of the software. An approach is proposed to reduce the computational complexity of the identification method in conditions of large volumes of initial and reference data on the basis of min-wise independent permutations scheme. The results of expe276 rimental verification of the proposed identification method are presented, showing the possibilities of its use in the technological process of information objects automated control, as well as its effectiveness in relation to existing methods.

Текст научной работы на тему «Экспериментальное исследование метода идентификации массивов бинарных данных»

УДК 004.67

ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ МЕТОДА ИДЕНТИФИКАЦИИ МАССИВОВ БИНАРНЫХ ДАННЫХ

Е.В. Лебеденко, В.В. Рябоконь, А.Н. Лапко, М.А. Куцакин

Рассматривается задача идентификации нечетких дубликатов среди массивов бинарных данных в составе исходных текстов программного обеспечения. Предложен подход к снижению вычислительной сложности метода идентификации в условиях больших объемов исходных и эталонных данных на основе схемы независимых перестановок. Приведены результаты экспериментальной проверки предложенного метода идентификации, показавшие возможности его использования в технологическом процессе автоматизированного контроля информационных объектов, а также его эффективность по отношению к существующим методам.

Ключевые слова: идентификация, массивы бинарных данных, тематические исследования, большие данные.

1. Введение. В современных условиях, обусловленных политико-экономическими тенденциями, направленными на реализацию стратегии импортозамещения в области инфокоммуникационных систем, в том числе и в интересах органов государственной власти и управления, использование программного обеспечения с открытым исходным кодом приобретает особую важность. Наличие открытого исходного кода в ключевых проектах системного и прикладного программного обеспечения обеспечивает возможность его использования в системах, обрабатывающих информацию различного уровня конфиденциальности, путем проведения соответствующих сертификационных испытаний с учётом требований современной нормативной базы в области информационной безопасности [1].

Между тем, одной из тенденций в разработке сложных проектов с открытым исходным кодом является широкое использование в их рамках проприетарных компонентов, например, драйверов устройств, оформленных в виде предварительно откомпилированных модулей - массивов бинарных данных [2]. С точки зрения сертификационных испытаний программного обеспечения идентификация таких информационных объектов, как массивы, содержащие в своём составе бинарные данные, представляет несомненный интерес, поскольку содержимым данных массивов может являться исполняемый код с неизвестной и потенциально вредоносной функциональностью.

2. Прецедентный подход. В общем случае прецедентный подход базируется на методологии принятии решения по аналогии [3]. В [4] проведено обширное исследование использования методологии case- based reasoning (CBR) в различных предметных областях, в том числе в рамках автоматизации поддержки принятия решений в области надежности и безопасности сложных технических систем. Очевидно, что применение

265

методологии, базирующейся на прецедентном подходе в процессе экспертного аудита информационных объектов программного обеспечения, реализуемого в ходе тематических исследований, может позволить сократить отводимые на него трудозатраты за счет повторного использования информационных объектов, аудит которых был проведен ранее.

Необходимость идентификации информационных объектов программного обеспечения связана с тем, что в исходных текстах программного обеспечения могут присутствовать массивы бинарных данных полностью или частично соответствующие массивам, проанализированным ранее экспертным путем. Подобная ситуация является прецедентом и позволяет эксперту-аналитику повторно использовать данные о неизвестном массиве бинарных данных на основе его аналогов в репозитории и не выполнять этап его анализа.

При этом точно совпадающие по содержимому массивы бинарных данных (так называемые «полные дубликаты») могут оперативно идентифицироваться с использованием контрольных сумм. При идентификации «нечетких дубликатов» [5] задача идентификации сводится к сравнению последовательностей бинарных данных, отличающихся по своим размерам и содержанию, и получению меры их подобия.

Очевидно, что выбор метода идентификации или их сочетания зависит от конкретных задач, решаемых системой сбора, обработки и представления информации об объектах.

3. Методы оценивания подобия объектов. Прецедентный подход, реализуемый в рамках систем, поддерживающих деятельность испытательных лабораторий, основан на необходимости оценивания подобия (близости) найденного информационного объекта ранее проанализированным эталонным объектам, которые хранятся в соответствующем репозито-рии. Эта необходимость обусловлена гипотезой о том, что информационные объекты с одинаковой или близкой функциональностью или структурой данных являются подобными, а, значит, с точки зрения проведения их анализа может быть применен подход повторного использования.

При этом следует отметить, что процесс оценивания подобия в общем случае существенно зависит от предметной области, в рамках которой рассматриваются оцениваемые объекты, и при их сложной структуре этот процесс может быть достаточно сложным, в том числе и в вычислительном отношении.

Основной проблемой, связанной с реализацией процесса контроля информационных объектов на основе прецедентов, является снижение эффективности их извлечения по мере роста репозитория объектов. При этом методологический аппарат оценивания подобия массивов бинарных данных должен удовлетворять условию низкой вычислительной сложности, что обусловлено большими объёмами исходных данных и ограничениями на временной ресурс проведения тематических исследований.

266

Наиболее очевидной мерой подобия между двумя объектами является расстояние между выборками представляющих их данных, а одним из путей анализа их подобия является определение наиболее подходящей функции расстояния (метрики) и вычисление матрицы расстояния между парами всех выборок. В [6] представлены основные типы метрик, которые используются в задачах оценивания близости: евклидова метрика, мера сходства Хэмминга, вероятностная мера сходства, мера сходства Роджер-са-Танимото, манхэттенская метрика, расстояние Чебышева, метрики Ма-халонобиса, Журавлева, Брея-Кертиса,Чекановского, Жаккара и др.

Так, например, в предметной области анализа двоичных последовательностей одной из самых распространенных метрик является мера сходства (расстояние) Хэмминга, то есть количество различающихся позиций для их содержимого. Расстояние Хэмминга широко используется в различных задачах распознавания, таких как поиск близких дубликатов, классификация документов, исправление ошибок, обнаружение вирусов и т.д.

Другим известным подходом является использование методов, применяемых для анализа сигналов в системах передачи информации, в области анализа дискретных сообщений [7]. В подобных методах в качестве признакового пространства предлагается использовать, например, взаимную корреляционную функцию с лагом, учитывающим разницу в размерах анализируемых массивов.

В [8] проведено исследование проблем сравнения и классификации дискретных данных, а также предложен подход с использованием предварительного их сжатия на основе спектрального импульсного преобразования и сравнения данных путём оценки евклидова расстояния между полученными в результате сжатия значениями спектра.

В качестве отдельной группы следует выделить методы, базирующиеся на использовании хэш-функций. Их особенностью является поиск компромисса между вычислительной сложностью применяемых хэш-функций и качеством получаемых результатов, поскольку уменьшение вычислительных затрат неизбежно связано со слабостью полученных сигнатур, которая приведёт к большой вероятности ошибки при сравнении [9].

Очевидно, что вычислительная сложность представленных методов определяется произведением сложности вычисления метрики О(п) и сложности построения матрицы расстояния между парами всех выборок О(К), где К - количество сравниваемых эталонных образцов из репозито-рия, п - размер сравниваемых массивов. При существенном увеличении объема репозитория вычисление метрики по принципу «каждый с каждым» делает невозможным использование подобных методов для идентификации массивов бинарных данных из-за ограничений на временной ресурс проведения тематических исследований.

267

4. Метод идентификации с использованием независимых перестановок. В противоположность рассмотренным методам A. Broder предложил метод, основанный на представлении документа в виде последовательности перекрывающихся подстрок определенной длины [10], также известный как метод «шинглов». Метод шинглов базируется на гипотезе о том, что схожие документы имеют существенное количество одинаковых шинглов, то есть множества их шинглов существенно пересекаются.

При большом количестве шинглов подсчет мощности пересечения множеств нецелесообразен. С целью уменьшения вычислительной сложности метода расчет мощности пересечения множеств осуществляется не для полной таблицы шинглов, а некоторой её выборки, получаемой с помощью случайных перестановок строк таблицы (перемешиваний) [11]. Независимые перестановки осуществляются с использованием наборавзаим-но однозначных и независимых хэш-функций hi(S), применяемых к элементам двух множеств. При этом для каждой хэш-функции из набора выбирается только минимальное значение сигнатуры hlmin(S), соответствующее определённомушинглу. При использовании независимых перестановок массив бинарных данных представляется в виде вектора, содержащего конечный набор минимальных значений сигнатур хэш-функций:

A =

где

! min i min i min

hl , h2 hn

(1)

Лппп = тш[Ну ]. (2)

Модификация метода шинглов для идентификации массивов бинарных данных заключается в переходе от сравнения отдельных слов текста к сравнению отдельных блоков массива бинарных данных [12]. Схематично получение меры близости массивов бинарных данных на основе их разделения на шинглы - блоки байтов - представлено на рис. 1.

Для массивов А и В минимальные значения сигнатур хэш-функций совпадают тогда и только тогда, когда элементы, генерирующие эти минимальные значения, находятся в обоих массивах, вероятность их совпадения определяется выражением

ДйГ (Л) = ЛГ (B)) = Ь^Ц = J (Л, Б), (3)

то есть равна коэффициенту сходства Жаккара [13].

При этом многократное применение различных хэш-функций количеством п для перестановок аналогично схеме повторных независимых испытаний Бернулли, в которой количество успешных наступлений события подчиняется биномиальному распределению.

268

Деление массива бинарных данных А на блоки

т

Выбор минимумов сигнатур хэш-функций

If

(А)

hr (А)

h™in(A)

Вычисление сигнатур хэш-функций каждого блока

Щ hn

Вектор сигнатур массива данных В

ЧВ)

h,mm(B)

hnram(B)

Сравнение векторов минимальных сигнатур

R- мера близости массивов А и В

Рис. 1. Получение меры близости массивов бинарных данных

л,

В данном случае близости R представляет собой частоту наступления события совпадения минимальных значений для n хэш-функций, математическое ожидание полученной меры близости МБД описывается выражением

Mr _ J(A,B), (4)

а её среднеквадратическое отклонение - выражением

^ _ IJ(A,B) ■ (1 - J(A,B))

"R Ч-n-• (5)

5. Выбор параметров метода. Метод независимых перестановок, применяемый для получения меры близости массивов бинарных данных, основан на использовании набора независимых хэш-функций и получения минимальных хэш-значений.

При этом получаемая мера близости подчиняется биномиальному распределению в случае, когда служащие для перестановок хэш-функции, помимо независимости, обладают свойством дискретного равномерного распределения результатов по всем возможным значениям. По результатам анализа алгоритмов некриптографических хэш-функций в качестве базовой для метода независимых перестановок выбрана функция, основанная на линейном конгруэнтном методе:

hi (s j) _ (seed[i] ■ hi (s j-\) + s j) mod m, (6)

где Sj - байт данных; seed[i] - коэффициент хэш-функции; m - значение модуля.

Данный выбор обусловлен низкой вычислительной сложностью, а также возможностью получения набора хэш-функций для независимых перестановок с помощью различных значений коэффициента функции 8ввс1[1].

Кроме того, в работе [14] доказана гипотеза о равномерном распределении значений хэш-функции с использованием критерия согласия Пирсона. Результаты, представленные на рис. 2, показывают, что при достаточно большом количестве статистических испытаний хеш-функция вида (6) обладает высокой равномерностью хеширования.

Рис. 2. Пример программы расчета по критерию С

Для программной реализации алгоритма идентификации осуществлен выбор подходящих значений для размера блоков (Жь), на которые будет разбиваться массив бинарных данных, и количество хэш-функций п, используемых для независимых перестановок.

При малых значениях размера блока (Жь < 10) наблюдаются существенные отклонения от аналитически рассчитанных значений, а для минимального размера блока Жь = 1 (байт) математическое ожидание меры близости массивов близко к единице [15]. Это обусловлено высокой вероятностью совпадения коротких блоков байт-массивов бинарных данных и малым перекрытием блоков.

Для задачи идентификации массивов бинарных данных использован размер блока Жь = 16 (байт), дальнейшее увеличение размера блока не оказывает влияния на точность получаемой меры близости, но приведёт к увеличению вычислительной сложности алгоритма.

На выбор количества хэш-функций влияет необходимая точность получаемой меры близости. С ростом количества испытаний, то есть с увеличением количества хэш-функций п, дисперсия меры близости стремится

270

4853234823235353234848232353235353232348232348482353232300

к нулю, а частота появления события в испытаниях - к истинной вероятности наступления события. Таким образом, точность идентификации возрастает пропорционально 4п.

Для удобства расчётов при идентификации массивов бинарных данных с приемлемой точностью достаточно задать п = 100. Дальнейшее увеличение количества хэш-функций оказывает всё меньшее влияние на точность идентификации при существенном увеличении вычислительной сложности метода.

6. Оценивание эффективности метода. Экспериментальное исследование разработанного метода идентификации массивов бинарных данных проводилось с целью проверки возможности его использования в технологическом процессе автоматизированного контроля информационных объектов, а также установления его эффективности по отношению к существующим методам.

Эксперимент проводился в несколько этапов. На первом этапе оценивалась применимость разработанного метода идентификации в технологическом процессе автоматизированного контроля информационных объектов. При этом необходимо оценить точность идентификации массивов бинарных данных в зависимости от размера массивов.

Для построения такой зависимости фиксировались количество хэш-функций п = 100, количество совпадающих байт Бь = 0.5Аь, размер блока Жь = 16, и генерировались случайным образом два тестовых массива размером Аь = Вь = 64...3 072 000 (байт). Мера близости массивов вычислялась для 100 различных вариантов сгенерированных массивов данных каждого размера, результаты измерения представлены на рис.3.

к

0.5 |-1-1-1-1-1-

0.4

0.2

0.1 -у

0-1-1-1-1-1-

0 500 1000 1500 2000 2500 3000

Аь (кБ)

Рис. 3. Результаты измерений меры близости при изменяющемся размере массивов бинарных данных

271

При этом аналитически рассчитанные мера близости и её средне-квадратическое отклонение совпадают со своими статистическими значениями на всём диапазоне измеренных значений.

Предполагается, что при дальнейшем увеличении размера массивов точность идентификации будет снижаться, однако на практике не удалось подтвердить это предположение вследствие ограничений на временной ресурс при проведении эксперимента.

Для проверки применимости разработанного способа идентификации был произведен анализ массивов бинарных данных в исходных текстах различных версий ядер ОС Linux, результаты представлены в табл. 1.

Таблица 1

Анализ количества и размеров массивов бинарных данных в выборке

различных версий ядер ОС Linux

Номер версии Количество МБД Средний размер (байт)

Linux 3.7.1 5809 1465

Linux 3.8.1 5823 1463

Linux 3.9.1 5884 1463

Linux 3.10.1 5971 1461

Linux 3.11.1 6186 1458

Linux 3.12.1 6263 1465

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Linux 3.13.1 6305 1456

Из табл.1 видно, что количество массивов бинарных данных увеличивается с появлением каждой новой версии ядра, однако средний размер найденных массивов бинарных данных не превышает 1500 байт, а максимальный размер массива среди проанализированных составляет 252 641 байт.

Таким образом, разработанный метод идентификации может использоваться в технологическом процессе автоматизированного контроля информационных объектов.

На втором этапе для обеспечения возможности установления эффективности способа разработана процедура побайтного сравнения массивов бинарных данных, осуществляющая поиск максимального количества совпадающих байт при всех возможных вариантах смещений массивов относительно друг друга.

При этом в качестве экспериментальных входных данных для разработанного способа идентификации использовались массивы бинарных данных размером 1500 байт, сгенерированные случайным образом [16].

Для процедуры побайтного сравнения использовались сгенерированные случайным образом массивы бинарных данных размерами 1000 и 2000 байт, поскольку такое сравнение подразумевает итерации, сопровождающиеся побайтным сдвигом массивов относительно друг друга.

Выбор размеров входных данных для процедуры побайтного сравнения обусловлен большим количеством нечётких дубликатов массивов бинарных данных в исходных текстах различных версий ядра ОС Linux, полученных в результате разделения массива на два меньшего размера или обратного слияния. Таким образом, при одинаковом среднем размере массива в 1500 байт процедура побайтного сравнения оперирует массивами с двукратной разницей в размерах, имитируя типовую задачу идентификации массивов бинарных данных в исходных текстах.

Тестовым стендом для проведения эксперимента являлся сервер проведения тематических исследований под управлением аппаратного ги-первизора ESXi с виртуальной машиной ОС Windows 7 64-bit.

Время выполнения отдельно замерялось для трёх операций:

- побайтного сравнения двух массивов со смещениями и поиском максимального количества совпадающих байт;

- вычисления идентификатора в соответствии с разработанным алгоритмом;

- сравнения идентификаторов в соответствии с разработанным алгоритмом.

Результаты эксперимента представлены в табл.2.

Таблица 2

Результаты замеров времени

Операция Количество повторов Время Выполнения (с) Среднее время операции (с)

Побайтное сравнение 10 000 40 0,004

20 000 80

30 000 121

Вычисление идентификатора 10 11 1,13

20 23

30 34

Сравнение идентификаторов 1 000 000 4 0,000004

2 000 000 7

3 000 000 12

По результатам эксперимента построен график зависимости времени идентификации Ти(ч) от количества массивов бинарных данных Им и количества эталонных образцов в базе данных (репозитории) Ив для процедуры побайтного сравнения и разработанного способа идентификации (рис. 4).

Рис. 4. Зависимость времени идентификации от количества массивов бинарных данных и эталонных образцов врепозитории для побайтного

сравнения и разработанного метода

Из графика видно, что время идентификации массивов бинарных данных для разработанного способа практически не зависит от количества эталонных образцов в репозитории, а на процедуру побайтного сравнения оказывают влияние оба параметра.

При количестве эталонных образцов в репозитории Ив> 283 время идентификации для разработанного метода не превысит соответствующего времени побайтного сравнения. Применительно к процессу автоматизированного контроля информационных объектов предполагаемый рабочий объём репозитория составляет 100 000 эталонных образцов, и будет только увеличиваться с проведением очередных тематических исследований. Для фиксированного размера репозитория Ив = 100 000 эталонных образцов построен график зависимости времени идентификации Ти (ч) от количества массивов бинарных данных Им для процедуры побайтного сравнения и разработанного метода идентификации (рис. 5).

Рис. 5. Зависимость времени идентификации от количества массивов бинарных данных для побайтного сравнения и разработанного метода

274

7. Заключение. При проведении тематических исследований исходных текстов ядра ОС, содержащих примерно 6000 массивов бинарных данных, и репозитории, содержащем 100 000 эталонных образцов, время идентификации при использовании процедуры побайтного сравнения составит более 700 часов при допуске в Тдоп = 300 часов на данный вид работ.

В аналогичных условиях время идентификации при использовании разработанного метода составляет менее 3 часов. Таким образом, для усреднённых типовых условий функционирования достигнуто существенное уменьшение вычислительной сложности метода идентификации массивов бинарных данных.

Список литературы

1. Руководящий документ "Защита от несанкционированного доступа к информации. Ч. 1. Программное обеспечение средств защиты информации. Классификация по уровню контроля отсутствия недеклариро-ванных возможностей / Гостехкомиссия России, 1999.

2. Ретроспектива включения двоичных объектов в исходные тексты ядра операционной системы Linux [Электронный ресурс]. URL: http://manulix.wikidot.com/kernel-blobs (дата обращения: 18.03.2017).

3. Варшавский П.Р., Алехин Р.В. Метод поиска решений в интеллектуальных системах поддержки принятия решений на основе прецедентов // Information Models and Analyses. 2013. Vol.2. С. 385 - 392.

4. Berman A.F., Nikolaychuk O.A., Yurin A.Yu. Automated Planning with the Aid of Case-based Reasoning and Group Decision-making Methods // Computer Communication & Collaboration. 2014. Vol. 2. Issue 1. P. 7 - 1 5.

5. Фролов А.С.Разработка алгоритма нечеткого поиска на основе хэширования // Молодой ученый. 2016. №13. С. 357 - 360.

6. Шрейдер Ю.А. Что такое расстояние? // Популярные лекции по математике. М.: Физматгиз, 1963. Вып. 38. 76 с.

7. Султанов Р.О., Еланцев М.О., Кощеев Н.М., Животов В.В. Поиск и классификация структурных элементов методом взаимной корреляции на примере распознавания автомобильного номера // Приволжский научный вестник. 2016. №5 (57). С. 71 - 74.

8. Тверетин А. А. Обработка информации на основе спектрального импульсного преобразования для сравнения и классификации дискретных данных, циркулирующих в промышленном предприятии: автореферат дис. ... канд. техн. наук. Самара, 2010. С. 23.

9. Tridgell A. Efficient Algorithms for Sorting and Synchronization. [Электронный ресурс]. URL: https://www.samba.org/~tridge/phd thesis.pdf (дата обращения: 26.06.2016).

10. Broder A. On the resemblance and containment of documents [Электронный ресурс]. URL: http://gatekeeper.dec.com/ftp/pub/ dec/SRC/ publications/ broder/positano-final-wpnums.pdf (дата обращения: 26.06.2016).

11. Broder A., Charikar M., Frieze A., Mitzenmacher M. Min-Wise Independent Permutations [Электронный ресурс]. URL: http://www.cs. princeton.edu/courses/archive/spring04/ cos598B/bib/BroderCFM-minwise.pdf (датаобращения: 26.06.2016).

12. Рябоконь В.В. Подходы к идентификации массивов бинарных данных // Телекоммуникации. 2016. Вып. 2. С. 26 - 32.

13. Розенберг Г.С. Поль Жаккар и сходство экологических объектов // Самарская Лука: Проблемы региональной и глобальной экологии. 2012. №1. С. 190 - 202.

14. Лебеденко Е.В., Рябоконь В.В. Проверка гипотезы о равномерном распределении значений хэш-функции // Вопросы кибербезопасности. 2016. №2(15). С. 36 - 40.

15. Лебеденко Е.В., Рябоконь В.В., Игнатов Ю.Н. Выбор управляемых параметров алгоритма идентификации массивов бинарных данных // Интернет-журнал «Науковедение». 2016. Т. 8. Вып. №3 [Электронный ресурс]. URL: http://naukovedenie.ru/PDF/108TVN316.pdf (дата обращения: 02.02.2017).

16. Шубин Д.Н., Шинаков Ю.С. Объектно-ориентированный подход к разработке математических моделей семейств псевдослучайных последовательностей // T-Comm: Телекоммуникации и транспорт. 2015. Т. 9. №7. С. 21 - 24.

Лебеденко Евгений Викторович, канд. техн. наук, доц., lebedenko_eugene@mail.ru, Россия, Орел, Академия Федеральной службы охраны Российской Федерации,

Рябоконь Владимир Владимирович, сотрудник, mimicria@,mail.ru, Россия, Орел, Академия Федеральной службы охраны Российской Федерации,

Лапко Александр Николаевич, канд. техн. наук, сотрудник, lan46@mail.ru, Россия, Орел, Академия Федеральной службы охраны Российской Федерации,

Куцакин Максим Алексеевич, сотрудник, max_kooks@,mail. ru, Россия, Орел, Академия Федеральной службы охраны Российской Федерации

EXPERIMENTAL RESEARCH OF BINARY DATA ARRAYS IDENTIFICATION METHOD E. V. Lebedenko, V. V. Ryabokon, A.N. Lapko, M.A. Kutsakin

The article deals with the problem of identifying fuzzy duplicates among binary data arrays in the source code of the software. An approach is proposed to reduce the computational complexity of the identification method in conditions of large volumes of initial and reference data on the basis of min-wise independent permutations scheme. The results of expe-

276

rimental verification of the proposed identification method are presented, showing the possibilities of its use in the technological process of information objects automated control, as well as its effectiveness in relation to existing methods.

Key words: identification, binary data arrays, certification tests, big data.

Lebedenko Evgeniy Viktorovich, candidate of technical sciences, docent, lebeden-ko eugeneamail. ru, Russia, Orel, Academy of the Federal Guard Service of Russian Federation,

Ryabokon Vladimir Vladimirovich, employee, mimicriaamail. ru, Russia, Orel, Academy of the Federal Guard Service of Russian Federation,

Lapko Aleksandr Nikolaevich candidate of technical sciences, employee, lan46amail.ru, Russia, Orel, Academy of Federal Guard Service of the Russian Federation,

Kutsakin Maksim Alekseevich, employee, max kooksamail. ru, Russia, Orel, Academy of the Federal Guard Service of Russian Federation

УДК 519.872

ИТЕРАЦИОННЫЙ МЕТОД РАСЧЕТА СИСТЕМЫ С КОКСОВСКИМ ОБСЛУЖИВАНИЕМ М/С2/п И ЕГО ПРОГРАММНАЯ РЕАЛИЗАЦИЯ

А.В. Уланов, В. А. Лохвицкий, Д.Ю. Старобинец, А.Ф. Шинкаренко

Рассматривается система массового обслуживания с коксовским обслуживанием М1С21п. Представлена технология построения графа марковизированной системы, матриц интенсивностей инфинитезимальных переходов и алгоритм расчета стационарного распределения числа заявок. Рассмотрены особенности хранения матриц и реализации вычислений на языке Фортран. Показана возможность применения распределения Кокса второго порядка с комплексными и парадоксальными параметрами. Результаты расчета верифицированы с помощью имитационного моделирования.

Ключевые слова: численные методы, распределение Кокса, программнаяреали-зация, немарковские системы массового обслуживания.

При моделировании и оценивании эффективности сложных организационно-технических систем военного и двойного назначения широко применяются методы теории массового обслуживания. Тем не менее, большинство этих методов основано на предположении об экспоненциальном распределении времени обслуживания и пуассоновском входящем потоке заявок. В случае, если это не так, применяются методы марковиза-ции.

i Надоели баннеры? Вы всегда можете отключить рекламу.