Р.А. Солодуха,
кандидат технических наук, доцент
И.В. Атласов,
доктор физико-математических наук, профессор
ПРОВЕРКА КОРРЕЛИРОВАННОСТИ РАБОТЫ СТЕГАНОАНАЛИТИЧЕСКИХ АЛГОРИТМОВ С ПОМОЩЬЮ
КРИТЕРИЯ «ХИ-КВАДРАТ»
THE CORRELATION TESTING OF THE STEGANALYSIS ALGORITHMS BASED ON CHI-SQUARE CRITERIA
Описана методика, позволяющая исключить из стеганоаналитического комплекса методы стеганоанализа, опирающиеся на одни и те же закономерности в заполненных стеганоконтейнерах. В качестве математического аппарата используется критерий «хи-квадрат».
The method that allows to exclude steganalysis methods, based on the same patterns in stego-covers from steganalysis computer system is described. The mathematical technique used chi-square test.
Развитие средств компьютерной стеганографии в цифровых контейнерах и появление программных продуктов, реализующих стеганографические методы сокрытия информации, не могли не привести к возрастанию интереса к методам и средствам обнаружения скрытой информации в научной, правоохранительной и бизнес-средах [1].
Несмотря на это, проблема обеспечения экспертных подразделений стеганоаналитическим программным комплексом не решена. Учитывая слабость сигнатурных методов [3], основная роль должна принадлежать методам «слепого» стеганоанализа [2] с рассмотрением в качестве частных случаев ситуаций, когда известны характеристики вложения и/или алгоритма. Сформулируем это в качестве принципа стеганоанализа: любая априорная информация о стегановложении влияет лишь на время проведения стеганоанализа, но не на достоверность.
В настоящее время существует значительное (десятки) количество стеганоаналитических методов. Анализ показал [5], что зачастую область работоспособности метода существенно ограничена, результаты противоречивы, отсутствует унифицированный подход к оценке достоверности. Поэтому лежащее на поверхности решение в виде
Введение
простого наращивания банка стеганоналитических алгоритмов приведет к пролиферации экспериментальных данных, затруднит их обработку и процедуру вывода.
Мощность множества комбинаций различных стеганоаналитических алгоритмов
м М!
будет определяться в виде Е----------:--= 2м - М — 1 =, где М — количество алгорит-
к=2 к! (м — к)!
мов, что иллюстрирует значительную размерность задачи.
Учитывая создавшиеся условия, представляется целесообразной разработка математической модели оптимизации состава стеганоаналитического программного комплекса с возможностью адаптации (при появлении новых методов).
Математическая постановка задачи
В работе ставится задача отсеять из всевозможных способов распознавания вложений способы, которые приводят к аналогичным результатам, и упорядочить
остальные способы. В работе будет описана методика, использование которой дает
возможность сравнить каждый новый набор методов распознавания с ранее существующими и обосновать его эффективность. Рассмотрим подробнее предложенную методику. Предположим, что существует £ способов распознавания и п * т файлов с вложениями. Допустим, что все файлы разбиты на равные непересекающиеся множества из т файлов в каждом. Применим к каждому множеству 1 < < п файлов каждый из г способов распознавания. В результате получаем ^ * п экспериментов, в каждом из которых наблюдается некоторый признак {у ] | ^ п, равный количеству обнаруженных
файлов.
Также рассматрим значения {уу-| ^ п как значения независимых случайных величин £ ., относительно которых будем считать, что они распределены нормально, причем при фиксированном г случайные величины £ . распределены одинаково. Рассмотрим величины
_ 1 п _ 1 п
£г = - у ’
— 2 1 _п _ —2 —2 1 _п _ —2
^2 = - ЕС-—£2 ^2 = - Ж —у2 •
п7- пм ;
Очевидно, что при фиксированном 1 < г < s случайные величины £ . независимы и распределены одинаково. Идея предложенной в работе методики состоит в составлении возрастающего по эффективности набора способов распознавания. Для этого предлагается сравнить математические ожидания случайных величин, равных количеству распознанных вложений, для каждого способа распознавания и выбросить те способы распознавания, для которых математические ожидания совпадают. Предполагается воспользоваться элементами математической статистики, в частности видоизмененным методом хи-квадрат и распределением Стьюдента.
Итак, требуется проверить нулевую гипотезу И0: М(£) = М(£.), т.е. установить, значимо или незначимо различаются математические ожидания выборочных средних £ и £, найденные по независимым выборкам. В качестве критерия проверки нулевой гипотезы примем случайную величину [4]:
С ~С1 Iп2(2п—2)_ С-С, Г 1п -1)(С ^2 ^ 2п ЖС, '
Величина Т при справедливости нулевой гипотезы имеет Г -распределение Стьюдента с к = 2п — 2 степенями свободы. Вычислим наблюдаемое значение критерия
гт V — V, /Г Тп = 1-2 - 2^П •
^JwI +
По таблице критических точек распределения Стьюдента, по заданному уровню значимости а и числу степеней свободы к = 2п — 2 найти критическую точку Га, такую что
Р (Т > Га) = а
Если Тп < Га , то отвергнуть нулевую гипотезу нет основания. Если Тп > Га , то
нулевую гипотезу отвергают.
Итак, все способы распознавания вложений можно выстроить в порядке возрастания математических ожиданий с некоторым уровнем достоверности. Без ограничения общности можно считать, что с некоторым уровнем достоверности а выполнены неравенства
м(с,)5М(с2)<...<м(с).
Как сказано в начале работы, нас будут интересовать участки цепочек, для которых справедливы равенства
Теоретическое обоснование редукции множества коррелированных методов
Далее рассмотрим теоремы, лежащие в основе разрабатываемой методики, позволяющей отбросить стеганоаналитические алгоритмы, результаты работы которых, с определенной степенью допущения, можно назвать одинаковыми. Напомним известную теорему о проверке гипотез с помощью критерия «хи-квадрат».
Теорема 1. Пусть заданы г функций р(а,...,а),...,рг(а,...,а) от Г<г переменных а ,•••, а, удовлетворяющих для всех точек некоторого невырожденного интервала А в Г - мерном пространстве значений а . следующим условиям:
(аа() = '
XРг (а1’.’ аг ) =';
7=1
р (а,..., а ) > с2>0 для всех 7;
дРг д 2 Рг
все р имеют непрерывные производные —- и---------------------— ;
да да дак
(л г=г,к=г
др I
—- > имеет ранг Г.
да, I
- ^ г,к=1
Пусть проводится эксперимент М с выборкой п . Пусть возможные результаты случайного эксперимента М разбиты на г непересекающихся групп, и предположим, что вероятность получения эксперимента, принадлежащего к группе, равна
р0 = р0(а°,.,а°), где а = (а°,.,а°) — внутренняя точка интервала А . Пусть
Г
означает число результатов, принадлежащих ий группе, так что Х' = п .
2=1
Тогда уравнение
= 0, * = 1,...,,
г=1 Рг даи
имеет в точности одну систему решений а = (а,..., ав), такую что а сходится к а0 по вероятности при п ^ да . Значение х2, получаемое при подстановке этих значений а. в пределе, имеет распределение х2 с г — 1 — ґ степенями свободы:
2_у\Уг~ПРг{а^--ЛУ\
Эту теорему удалось обобщить следующим образом.
Теорема 2. Пусть заданы г функций р(а,...,а),...,рг(а,...,а) от ґ < г переменных а ,•••, а, удовлетворяющих для всех точек некоторого невырожденного интервала А в ґ - мерном пространстве значений а . следующим условиям:
г
Ер ; (аl,., а)=1;
і=1
р](а,...,а)> с2>0 для всех і ;
Фі д2р}
все р имеют непрерывные производные —- и ■
да да дак
\др, 1 -=Г,/=Г матрица .О = ■< —- > имеет ранг Г.
1да/ ] -,/=1
Пусть проводятся ^ независимых экспериментов М, с щ выборками г = 1,.,£ . Пусть возможные результаты для любого случайного эксперимента М разбиты на г непересекающихся групп, и предположим, что вероятность получения эксперимента, принадлежащего к г -й группе, равна р° = р0(а°,.,а°), где а = {а°,.,а°) — внутренняя точка интервала А. Пусть означает число результатов, принадлежащих г -й группе - -го эксперимента, которое было получено в последовательности п повторе-
Г
ний эксперимента М , так что Т'- = п . Тогда уравнение
г=1
ж Г V др
ТТ—— = 0, к = 1,., Г,
ХХ р- дак
имеет в точности одну систему решений а = (а,...,а), такую что а сходится к а0 по вероятности при п ^ да . Значение х2, получаемое при подстановке этих значений а; в
= уу ['-— пр- (al,., а)]2
г=1 -=1 пр г (al,., а ) ,
в пределе имеет распределение х2 с s(г — 1) — Г степенями свободы.
V
Рассмотрим частный случай теоремы 2.
Теорема 3. Пусть заданы г функций р (а), р (а) от переменной а, удовлетворяющих для всех точек некоторого невырожденного интервала А в одномерном пространстве значений а следующим условиям:
2
2>- (а) =1;
2=1
р (а) > с2 > 0 для всех - ;
дР] д2Р]
все р имеют непрерывные производные —- и ,
- да да
\др1 ] -=Г
матрица Б = < —- > имеет ранг 1.
I да \ -=1
Пусть проводятся ^ независимых экспериментов Мг, с п выборками 2 = 1,..., 5 . Пусть возможные результаты для любого случайного эксперимента Мг разбиты на г = 2 непересекающихся групп, и предположим, что вероятность получения эксперимента, принадлежащего к 2 группе, равна р° = р(а0), где а0 — внутренняя точка интервала А . Пусть означает число результатов, принадлежащих 2 -й группе - -го эксперимента, которое было получено в последовательности п повторений эксперимента
Г
М , так что = п .
2=1
Тогда уравнение
а - др- = о
2=1 -=1 р- да
имеет в точности одну систему решений а , такую что а сходится к а0 по вероятности при п ^ да . Значение х2, получаемое при подстановке этих значений а} в
х2=у у [у- - Пр- (а)]2 , г=1 -=1 пр- (а) ’
в пределе имеет распределение х2 с 5 — ^ степенями свободы.
Редукция множества коррелированных методов
Проверим гипотезу о том, что 5 выборок извлечены из одной и той же совокупности, или гипотезу о том, что данные однородны (т.е. стеганоаналитические алгоритмы дают статистически одинаковые результаты на одинаковых контейнерах, алгоритмах и размерах вложения). Это необходимо для того, чтобы отбросить коррелированные способы распознавания.
Введем вероятности рг1 (а) = а и р.2(а) = 1 — а, (2 = 1,...,5). Необходимо проверить, что существует 0 < а0 <1, такое что р°° = р (а0), р\ + р\ = 1, и
~р0., 1= 1,...,£ у= 1,2.
п
Очевидно, что ^ = 1 и Г = 2 и условия теоремы выполнены. Согласно последней теореме, уравнения
ууУ- др- = у Улдр- + у Ъ1_д1^= 0 .■=1 -=1 р3 да ,= р3 да ,= р3 да ’
1 .V! .(П — V’ ! ) = 0,
а г=1 1 — а г=5
"ТТ! .1 — = о
а(1 — а) —1 1
имеют единственное решение, которое равно
1
*0
а =—.-1.
яп
1=1
Обозначим д = 1 — р . Критерий примет вид
2 _ у у [у- — пр- (а0 )] _ 1 у ^ 2 _ 5пр г=1 -=1 пр- (а0) прд ,.=! 21 д и, при справедливости гипотезы об однородности данных, в пределе имеет распределение х2 с 5 — 2 степенями свободы. Итак, требуется проверить нулевую гипотезу #0 — все способы однородны. В качестве критерия проверки нулевой гипотезы примем случайную величину
5 2 [— пр- (а)]2
х2=XX
2=1 -=1 пр- (а)
Величина х 2 при справедливости нулевой гипотезы имеет распределение х 2 с 5 — 2 степенями свободы. Вычислим наблюдаемое значение критерия
*02=-^ Ък — ^
прд 2=1 д
По таблице критических точек распределения хи-квадрат, по заданному уровню значимости а и числу степеней свободы к = 2п — 2 найдем критическую точку ^, такую что
Р(Х2> *а) = а
Если Хо < 2 а , то отвергнуть нулевую гипотезу нет основания. Если Хо > *а , то нулевую гипотезу отвергаем.
Далее предлагается все способы разбить на всевозможные группы, состоящие из двух, трех, и так далее, М стеганоаналитических алгоритмов. Общее количество наборов равно 2м — 1 — М.
Таким образом, предложенная методика позволяет для определенного типа сте-ганоконтейнеров исключить из стеганоаналитического комплекса методы стеганоана-лиза, опирающиеся на одни и те же закономерности в стеганообъектах, и сформировать оптимальный набор методов стеганоанализа, что позволяет сократить время на проведение стеганоаналитической экспертизы, при этом, варьируя уровнем значимости а, можно изменять соотношения времени экспертизы и достоверности результата.
ЛИТЕРАТУРА
1. Стеганография, цифровые водяные знаки и стеганоанализ / А.В. Аграновский [и др.]. — М.: Вузовская книга, 2009. — 220 с.
2. Конахович Г.Ф., Пузыренко А.Ю. Компьютерная стеганография. Теория и практика. — К.: МК-Пресс, 2006. — 288 с.
3. Солодуха Р.А., Машуков Д.В. Опыт сигнатурного анализа стеганографической программы S-TOOL // Вестник Воронежского института МВД России. —2013. — № 2. — С. 253—259.
4. Крамер Г. Математические методы статистики. — М.: Мир, 1975. — 648 с.
5. Швидченко И.В. Методы стеганоанализа для графических файлов // Штучний штелект. —2010. — №4. — С.697—705.
REFERENCES
1. Steganografiya, tsifrovyie vodyanyie znaki i steganoanaliz / A.V. Agranovskiy [i dr.]. — M.: Vuzovskaya kniga, 2009. — 220 s.
2. Konahovich G.F., Puzyirenko A.Yu. Kompyuternaya steganografiya. Teoriya i praktika. — K.: MK-Press, 2006. — 288 s.
3. Soloduha R.A., Mashukov D.V. Opyit signaturnogo analiza steganografiche-skoy programmyi S-TOOL // Vestnik Voronezhskogo instituta MVD Rossii. —2013. — # 2. — S. 253—259.
4. Kramer G. Matematicheskie metodyi statistiki. — M.: Mir, 1975. — 648 s.
5. Shvidchenko I.V. Metodyi steganoanaliza dlya graficheskih faylov // Shtuchniy In-telekt. —2010. — #4. — S.697—705.
СВЕДЕНИЯ ОБ АВТОРАХ
Солодуха Роман Александрович. Доцент кафедры автоматизированных информационных систем ОВД. ^ндидат технических наук, доцент.
Воронежский институт МВД России.
E-mail: aisovd@vimvd.ru
Россия, 394065, г. Воронеж, пр.Патриотов, 53. Тел. (473) 2476-477.
Атласов Игорь Викторович. Профессор кафедры высшей математики. Доктор физико -математических наук, профессор.
Воронежский институт МВД России.
E-mail: mathematic1@rambler.ru
Россия, 394065, г. Воронеж, пр. Патриотов, 53. Тел. (473) 2476-477.
Solodukha Roman Alexandrovich. Assistant professor of the automated information systems of law-enforcement bodies chair. Candidate of sciences (technical), assistant professor.
Voronezh Institute of the Ministry of the Interior of Russia.
Work address: Russia,394065, Voronezh, Prospect Patriotov, 53. Tel. (473) 2476-477.
Atlasov Igor Victorovich. Professor of the high mathematics chair. Doctor of sciences (physics and mathematics), professor.
Voronezh Institute of the Ministry of the Interior of Russia.
Work address: Russia, 394065, Voronezh, Prospect Patriotov, 53. Tel. (473) 2476-477.
Ключевые слова: стеганоанализ; методы стеганоанализа; стеганоконтейнер; корреляция; оптимизация; стеганоаналитическая система; стеганоаналитическая экспертиза; критерий хи-квадрат.
Key words: steganalysis; steganalysis methods; steganalysis system; steganalysis expertise; stego-cover; correlation; optimization; chi-square test.
УДК 519.68