Научная статья на тему 'Проверка коррелированности работы стеганоаналитических алгоритмов с помощью критерия «Хи-квадрат»'

Проверка коррелированности работы стеганоаналитических алгоритмов с помощью критерия «Хи-квадрат» Текст научной статьи по специальности «Математика»

CC BY
299
59
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
стеганоанализ методы стеганоанализа стеганоконтейнер корреляция опти-мизация стеганоаналитическая система стеганоаналитическая экспертиза критерий хи-квадрат / steganalysis steganalysis methods steganalysis system steganalysis expertise stego-cover correlation optimization chi-square test

Аннотация научной статьи по математике, автор научной работы — Солодуха Роман Александрович, Атласов Игорь Викторович

Описана методика, позволяющая исключить из стеганоаналитического комплекса методы стеганоанализа, опирающиеся на одни и те же закономерности в заполненных стеганоконтейнерах. В качестве математического аппарата используется критерий «хи-квадрат».

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE CORRELATION TESTING OF THE STEGANALYSIS ALGORITHMS BASED ON CHI-SQUARE CRITERIA

The method that allows to exclude steganalysis methods, based on the same patterns in stego-covers from steganalysis computer system is described. The mathematical technique used chi-square test.

Текст научной работы на тему «Проверка коррелированности работы стеганоаналитических алгоритмов с помощью критерия «Хи-квадрат»»

Р.А. Солодуха,

кандидат технических наук, доцент

И.В. Атласов,

доктор физико-математических наук, профессор

ПРОВЕРКА КОРРЕЛИРОВАННОСТИ РАБОТЫ СТЕГАНОАНАЛИТИЧЕСКИХ АЛГОРИТМОВ С ПОМОЩЬЮ

КРИТЕРИЯ «ХИ-КВАДРАТ»

THE CORRELATION TESTING OF THE STEGANALYSIS ALGORITHMS BASED ON CHI-SQUARE CRITERIA

Описана методика, позволяющая исключить из стеганоаналитического комплекса методы стеганоанализа, опирающиеся на одни и те же закономерности в заполненных стеганоконтейнерах. В качестве математического аппарата используется критерий «хи-квадрат».

The method that allows to exclude steganalysis methods, based on the same patterns in stego-covers from steganalysis computer system is described. The mathematical technique used chi-square test.

Развитие средств компьютерной стеганографии в цифровых контейнерах и появление программных продуктов, реализующих стеганографические методы сокрытия информации, не могли не привести к возрастанию интереса к методам и средствам обнаружения скрытой информации в научной, правоохранительной и бизнес-средах [1].

Несмотря на это, проблема обеспечения экспертных подразделений стеганоаналитическим программным комплексом не решена. Учитывая слабость сигнатурных методов [3], основная роль должна принадлежать методам «слепого» стеганоанализа [2] с рассмотрением в качестве частных случаев ситуаций, когда известны характеристики вложения и/или алгоритма. Сформулируем это в качестве принципа стеганоанализа: любая априорная информация о стегановложении влияет лишь на время проведения стеганоанализа, но не на достоверность.

В настоящее время существует значительное (десятки) количество стеганоаналитических методов. Анализ показал [5], что зачастую область работоспособности метода существенно ограничена, результаты противоречивы, отсутствует унифицированный подход к оценке достоверности. Поэтому лежащее на поверхности решение в виде

Введение

простого наращивания банка стеганоналитических алгоритмов приведет к пролиферации экспериментальных данных, затруднит их обработку и процедуру вывода.

Мощность множества комбинаций различных стеганоаналитических алгоритмов

м М!

будет определяться в виде Е----------:--= 2м - М — 1 =, где М — количество алгорит-

к=2 к! (м — к)!

мов, что иллюстрирует значительную размерность задачи.

Учитывая создавшиеся условия, представляется целесообразной разработка математической модели оптимизации состава стеганоаналитического программного комплекса с возможностью адаптации (при появлении новых методов).

Математическая постановка задачи

В работе ставится задача отсеять из всевозможных способов распознавания вложений способы, которые приводят к аналогичным результатам, и упорядочить

остальные способы. В работе будет описана методика, использование которой дает

возможность сравнить каждый новый набор методов распознавания с ранее существующими и обосновать его эффективность. Рассмотрим подробнее предложенную методику. Предположим, что существует £ способов распознавания и п * т файлов с вложениями. Допустим, что все файлы разбиты на равные непересекающиеся множества из т файлов в каждом. Применим к каждому множеству 1 < < п файлов каждый из г способов распознавания. В результате получаем ^ * п экспериментов, в каждом из которых наблюдается некоторый признак {у ] | ^ п, равный количеству обнаруженных

файлов.

Также рассматрим значения {уу-| ^ п как значения независимых случайных величин £ ., относительно которых будем считать, что они распределены нормально, причем при фиксированном г случайные величины £ . распределены одинаково. Рассмотрим величины

_ 1 п _ 1 п

£г = - у ’

— 2 1 _п _ —2 —2 1 _п _ —2

^2 = - ЕС-—£2 ^2 = - Ж —у2 •

п7- пм ;

Очевидно, что при фиксированном 1 < г < s случайные величины £ . независимы и распределены одинаково. Идея предложенной в работе методики состоит в составлении возрастающего по эффективности набора способов распознавания. Для этого предлагается сравнить математические ожидания случайных величин, равных количеству распознанных вложений, для каждого способа распознавания и выбросить те способы распознавания, для которых математические ожидания совпадают. Предполагается воспользоваться элементами математической статистики, в частности видоизмененным методом хи-квадрат и распределением Стьюдента.

Итак, требуется проверить нулевую гипотезу И0: М(£) = М(£.), т.е. установить, значимо или незначимо различаются математические ожидания выборочных средних £ и £, найденные по независимым выборкам. В качестве критерия проверки нулевой гипотезы примем случайную величину [4]:

С ~С1 Iп2(2п—2)_ С-С, Г 1п -1)(С ^2 ^ 2п ЖС, '

Величина Т при справедливости нулевой гипотезы имеет Г -распределение Стьюдента с к = 2п — 2 степенями свободы. Вычислим наблюдаемое значение критерия

гт V — V, /Г Тп = 1-2 - 2^П •

^JwI +

По таблице критических точек распределения Стьюдента, по заданному уровню значимости а и числу степеней свободы к = 2п — 2 найти критическую точку Га, такую что

Р (Т > Га) = а

Если Тп < Га , то отвергнуть нулевую гипотезу нет основания. Если Тп > Га , то

нулевую гипотезу отвергают.

Итак, все способы распознавания вложений можно выстроить в порядке возрастания математических ожиданий с некоторым уровнем достоверности. Без ограничения общности можно считать, что с некоторым уровнем достоверности а выполнены неравенства

м(с,)5М(с2)<...<м(с).

Как сказано в начале работы, нас будут интересовать участки цепочек, для которых справедливы равенства

Теоретическое обоснование редукции множества коррелированных методов

Далее рассмотрим теоремы, лежащие в основе разрабатываемой методики, позволяющей отбросить стеганоаналитические алгоритмы, результаты работы которых, с определенной степенью допущения, можно назвать одинаковыми. Напомним известную теорему о проверке гипотез с помощью критерия «хи-квадрат».

Теорема 1. Пусть заданы г функций р(а,...,а),...,рг(а,...,а) от Г<г переменных а ,•••, а, удовлетворяющих для всех точек некоторого невырожденного интервала А в Г - мерном пространстве значений а . следующим условиям:

(аа() = '

XРг (а1’.’ аг ) =';

7=1

р (а,..., а ) > с2>0 для всех 7;

дРг д 2 Рг

все р имеют непрерывные производные —- и---------------------— ;

да да дак

(л г=г,к=г

др I

—- > имеет ранг Г.

да, I

- ^ г,к=1

Пусть проводится эксперимент М с выборкой п . Пусть возможные результаты случайного эксперимента М разбиты на г непересекающихся групп, и предположим, что вероятность получения эксперимента, принадлежащего к группе, равна

р0 = р0(а°,.,а°), где а = (а°,.,а°) — внутренняя точка интервала А . Пусть

Г

означает число результатов, принадлежащих ий группе, так что Х' = п .

2=1

Тогда уравнение

= 0, * = 1,...,,

г=1 Рг даи

имеет в точности одну систему решений а = (а,..., ав), такую что а сходится к а0 по вероятности при п ^ да . Значение х2, получаемое при подстановке этих значений а. в пределе, имеет распределение х2 с г — 1 — ґ степенями свободы:

2_у\Уг~ПРг{а^--ЛУ\

Эту теорему удалось обобщить следующим образом.

Теорема 2. Пусть заданы г функций р(а,...,а),...,рг(а,...,а) от ґ < г переменных а ,•••, а, удовлетворяющих для всех точек некоторого невырожденного интервала А в ґ - мерном пространстве значений а . следующим условиям:

г

Ер ; (аl,., а)=1;

і=1

р](а,...,а)> с2>0 для всех і ;

Фі д2р}

все р имеют непрерывные производные —- и ■

да да дак

\др, 1 -=Г,/=Г матрица .О = ■< —- > имеет ранг Г.

1да/ ] -,/=1

Пусть проводятся ^ независимых экспериментов М, с щ выборками г = 1,.,£ . Пусть возможные результаты для любого случайного эксперимента М разбиты на г непересекающихся групп, и предположим, что вероятность получения эксперимента, принадлежащего к г -й группе, равна р° = р0(а°,.,а°), где а = {а°,.,а°) — внутренняя точка интервала А. Пусть означает число результатов, принадлежащих г -й группе - -го эксперимента, которое было получено в последовательности п повторе-

Г

ний эксперимента М , так что Т'- = п . Тогда уравнение

г=1

ж Г V др

ТТ—— = 0, к = 1,., Г,

ХХ р- дак

имеет в точности одну систему решений а = (а,...,а), такую что а сходится к а0 по вероятности при п ^ да . Значение х2, получаемое при подстановке этих значений а; в

= уу ['-— пр- (al,., а)]2

г=1 -=1 пр г (al,., а ) ,

в пределе имеет распределение х2 с s(г — 1) — Г степенями свободы.

V

Рассмотрим частный случай теоремы 2.

Теорема 3. Пусть заданы г функций р (а), р (а) от переменной а, удовлетворяющих для всех точек некоторого невырожденного интервала А в одномерном пространстве значений а следующим условиям:

2

2>- (а) =1;

2=1

р (а) > с2 > 0 для всех - ;

дР] д2Р]

все р имеют непрерывные производные —- и ,

- да да

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

\др1 ] -=Г

матрица Б = < —- > имеет ранг 1.

I да \ -=1

Пусть проводятся ^ независимых экспериментов Мг, с п выборками 2 = 1,..., 5 . Пусть возможные результаты для любого случайного эксперимента Мг разбиты на г = 2 непересекающихся групп, и предположим, что вероятность получения эксперимента, принадлежащего к 2 группе, равна р° = р(а0), где а0 — внутренняя точка интервала А . Пусть означает число результатов, принадлежащих 2 -й группе - -го эксперимента, которое было получено в последовательности п повторений эксперимента

Г

М , так что = п .

2=1

Тогда уравнение

а - др- = о

2=1 -=1 р- да

имеет в точности одну систему решений а , такую что а сходится к а0 по вероятности при п ^ да . Значение х2, получаемое при подстановке этих значений а} в

х2=у у [у- - Пр- (а)]2 , г=1 -=1 пр- (а) ’

в пределе имеет распределение х2 с 5 — ^ степенями свободы.

Редукция множества коррелированных методов

Проверим гипотезу о том, что 5 выборок извлечены из одной и той же совокупности, или гипотезу о том, что данные однородны (т.е. стеганоаналитические алгоритмы дают статистически одинаковые результаты на одинаковых контейнерах, алгоритмах и размерах вложения). Это необходимо для того, чтобы отбросить коррелированные способы распознавания.

Введем вероятности рг1 (а) = а и р.2(а) = 1 — а, (2 = 1,...,5). Необходимо проверить, что существует 0 < а0 <1, такое что р°° = р (а0), р\ + р\ = 1, и

~р0., 1= 1,...,£ у= 1,2.

п

Очевидно, что ^ = 1 и Г = 2 и условия теоремы выполнены. Согласно последней теореме, уравнения

ууУ- др- = у Улдр- + у Ъ1_д1^= 0 .■=1 -=1 р3 да ,= р3 да ,= р3 да ’

1 .V! .(П — V’ ! ) = 0,

а г=1 1 — а г=5

"ТТ! .1 — = о

а(1 — а) —1 1

имеют единственное решение, которое равно

1

*0

а =—.-1.

яп

1=1

Обозначим д = 1 — р . Критерий примет вид

2 _ у у [у- — пр- (а0 )] _ 1 у ^ 2 _ 5пр г=1 -=1 пр- (а0) прд ,.=! 21 д и, при справедливости гипотезы об однородности данных, в пределе имеет распределение х2 с 5 — 2 степенями свободы. Итак, требуется проверить нулевую гипотезу #0 — все способы однородны. В качестве критерия проверки нулевой гипотезы примем случайную величину

5 2 [— пр- (а)]2

х2=XX

2=1 -=1 пр- (а)

Величина х 2 при справедливости нулевой гипотезы имеет распределение х 2 с 5 — 2 степенями свободы. Вычислим наблюдаемое значение критерия

*02=-^ Ък — ^

прд 2=1 д

По таблице критических точек распределения хи-квадрат, по заданному уровню значимости а и числу степеней свободы к = 2п — 2 найдем критическую точку ^, такую что

Р(Х2> *а) = а

Если Хо < 2 а , то отвергнуть нулевую гипотезу нет основания. Если Хо > *а , то нулевую гипотезу отвергаем.

Далее предлагается все способы разбить на всевозможные группы, состоящие из двух, трех, и так далее, М стеганоаналитических алгоритмов. Общее количество наборов равно 2м — 1 — М.

Таким образом, предложенная методика позволяет для определенного типа сте-ганоконтейнеров исключить из стеганоаналитического комплекса методы стеганоана-лиза, опирающиеся на одни и те же закономерности в стеганообъектах, и сформировать оптимальный набор методов стеганоанализа, что позволяет сократить время на проведение стеганоаналитической экспертизы, при этом, варьируя уровнем значимости а, можно изменять соотношения времени экспертизы и достоверности результата.

ЛИТЕРАТУРА

1. Стеганография, цифровые водяные знаки и стеганоанализ / А.В. Аграновский [и др.]. — М.: Вузовская книга, 2009. — 220 с.

2. Конахович Г.Ф., Пузыренко А.Ю. Компьютерная стеганография. Теория и практика. — К.: МК-Пресс, 2006. — 288 с.

3. Солодуха Р.А., Машуков Д.В. Опыт сигнатурного анализа стеганографической программы S-TOOL // Вестник Воронежского института МВД России. —2013. — № 2. — С. 253—259.

4. Крамер Г. Математические методы статистики. — М.: Мир, 1975. — 648 с.

5. Швидченко И.В. Методы стеганоанализа для графических файлов // Штучний штелект. —2010. — №4. — С.697—705.

REFERENCES

1. Steganografiya, tsifrovyie vodyanyie znaki i steganoanaliz / A.V. Agranovskiy [i dr.]. — M.: Vuzovskaya kniga, 2009. — 220 s.

2. Konahovich G.F., Puzyirenko A.Yu. Kompyuternaya steganografiya. Teoriya i praktika. — K.: MK-Press, 2006. — 288 s.

3. Soloduha R.A., Mashukov D.V. Opyit signaturnogo analiza steganografiche-skoy programmyi S-TOOL // Vestnik Voronezhskogo instituta MVD Rossii. —2013. — # 2. — S. 253—259.

4. Kramer G. Matematicheskie metodyi statistiki. — M.: Mir, 1975. — 648 s.

5. Shvidchenko I.V. Metodyi steganoanaliza dlya graficheskih faylov // Shtuchniy In-telekt. —2010. — #4. — S.697—705.

СВЕДЕНИЯ ОБ АВТОРАХ

Солодуха Роман Александрович. Доцент кафедры автоматизированных информационных систем ОВД. ^ндидат технических наук, доцент.

Воронежский институт МВД России.

E-mail: aisovd@vimvd.ru

Россия, 394065, г. Воронеж, пр.Патриотов, 53. Тел. (473) 2476-477.

Атласов Игорь Викторович. Профессор кафедры высшей математики. Доктор физико -математических наук, профессор.

Воронежский институт МВД России.

E-mail: mathematic1@rambler.ru

Россия, 394065, г. Воронеж, пр. Патриотов, 53. Тел. (473) 2476-477.

Solodukha Roman Alexandrovich. Assistant professor of the automated information systems of law-enforcement bodies chair. Candidate of sciences (technical), assistant professor.

Voronezh Institute of the Ministry of the Interior of Russia.

Work address: Russia,394065, Voronezh, Prospect Patriotov, 53. Tel. (473) 2476-477.

Atlasov Igor Victorovich. Professor of the high mathematics chair. Doctor of sciences (physics and mathematics), professor.

Voronezh Institute of the Ministry of the Interior of Russia.

Work address: Russia, 394065, Voronezh, Prospect Patriotov, 53. Tel. (473) 2476-477.

Ключевые слова: стеганоанализ; методы стеганоанализа; стеганоконтейнер; корреляция; оптимизация; стеганоаналитическая система; стеганоаналитическая экспертиза; критерий хи-квадрат.

Key words: steganalysis; steganalysis methods; steganalysis system; steganalysis expertise; stego-cover; correlation; optimization; chi-square test.

УДК 519.68

i Надоели баннеры? Вы всегда можете отключить рекламу.