Научная статья на тему 'Обнаружение стеговложений в множестве однотипных информационных объектов'

Обнаружение стеговложений в множестве однотипных информационных объектов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
236
69
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Балакин А. В., Гуфан А. Ю.

Предложена формулировка задачи стегодетекции для множества информационных объектов с общим источником. показано, что решение такой задачи возможно, в том числе, и при использовании источником стегосистем, устойчивых по отношению к стегодетекции для единичного контейнера. Предлагаются общие схемы использования рассмотренного подхода для обнаружения факта наличия стеговложений в одном или нескольких объектах, поступивших из данного источника.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Обнаружение стеговложений в множестве однотипных информационных объектов»

ОБРЛ

Обнаружение стеговложений в множестве однотипных информационных объектов

ПРЕДЛОЖЕНА ФОРМУЛИРОВКА ЗАДАЧИ СТЕГОДЕТЕКЦИИ ДЛЯ МНОЖЕСТВА ИНФОРМАЦИОННЫХ ОБЪЕКТОВ С ОБЩИМ ИСТОчНИКОМ. ПОКАЗАНО, ЧТО РЕШЕНИЕ ТАКОЙ ЗАДАЧИ ВОЗМОЖНО, В ТОМ ЧИСЛЕ, И ПРИ ИСПОЛЬЗОВАНИИ ИСТОЧНИКОМ стегосистем, устойчивых по отношению к СТЕГОДЕТЕКЦИИ ДЛЯ ЕДИНИЧНОГО КОНТЕЙНЕРА. ПРЕДЛАГАЮТСЯ ОБЩИЕ СХЕМЫ ИСПОЛЬЗОВАНИЯ РАССМОТРЕННОГО ПОДХОДА ДЛЯ ОБНАРУЖЕНИЯ ФАКТА НАЛИЧИЯ СТЕГОВЛОЖЕНИЙ В ОДНОМ ИЛИ НЕСКОЛЬКИХ ОБЪЕКТАХ, ПОСТУПИВШИХ ИЗ ДАННОГО ИСТОЧНИКА.

Балакин А.В.,

к.т.н., заведующий НИЛ,

Гуфан А.Ю.,

к.ф.-м.н., с.н.с.,

ФГНУ "НИИ "Спецвузавтоматика", Ростов-на-Дону

Введение

Под стеганографией понимается наука о скрытой передаче информации. При чем скрывается не столько содержание секретного сообщения, сколько сам факт его наличия. Имеется две взаимосвязанные области науки, занимающиеся противодействием использованию стеганографии. Удобно называть их "стегоанализ" и "стегодетекция". К стегоанализу относятся средства и методы получения доступа к содержательной части секретного сообщения. Стегодетекция занимается вопросами обнаружения факта наличия секретной информации.

Строго говоря, задачей стеганографии является предотвращение детекции, а не анализа скрытого сообщения. В настоящее время существуют достаточно надежные криптографические алгоритмы, делающие извлечение зашифрованных скрытых сообщений из стегоконтейнера в общем случае почти бессмысленным. Однако в случае, если задача определения наличия скрытого сообщения в контейнере решена, решение задачи сокрытия следует признать неудав-шимся.

Современная методология математического исследования стойкости методов сокрытия информации базируется на предположении о том, что аналитику доступен для изучения один стегоконтейнер или, во всяком случае, интерес для него представляет факт наличия или отсутствия скрытой информации в одном контейнере. Практика

же применения стеганографических систем такова, что, во-первых, одним пользователем один метод сокрытия используется многократно, во-вторых, зачастую, для передачи стегоконтейнеров используется один и тот же открытый канал связи (возможно доступный для изучения одному и тому же аналитику на протяжении многих сеансов передачи скрытых данных) и, в-третьих, нежелательным для пользователя стегосистемы является не обнаружение факта наличия скрытой информации в одном из передаваемых им контейнеров, а обнаружение факта наличия скрытой информации в каком-либо из множества передаваемых контейнеров. Ясная практическая значимость этого нюанса диктует необходимость некоторого изменения формулировки задачи конструирования стегосистемы и исследования последствий этого изменения для стегосистем, стойких к стегодетекции отдельных контейнеров.

Формулировка задачи

В определении стеганографии под словом "скрытой" подразумевается "незаметно для постороннего наблюдателя" и, соответственно, предлагаемые методы сокрытия всегда строятся на основе некоторых априорных предположений о методах и средствах, которыми располагает вероятный наблюдатель. Как правило, разработчики стегосистемы не придают строгую форму своей задаче, однако, в общем виде традиционная задача построения стегосистемы может быть сформулирована следующим образом.

Пусть имеются информационные объекты (контейнеры) определенного типа Tl представленные последовательностями бит. И имеется класс сообщений M, подлежащих передаче. Требуется разработать алгоритм F, преобразующий пару С е Т,т е М в битовую последовательность 5 = F(C,m), при чем выполняются следующие условия:

— У{С,т} е Т хМ = Р(С,ш) е Т

— существует алгоритм f такой, что /(5) = т

(1)

— не существует (вероятностного) алгоритма-детектора UF с битовым выходом, относящегося к определенному классу алгоритмов, такого, что Р{и^Б)=1/ Р{и^С)=1}.

Особое значение здесь имеет выделенная подчеркиванием часть: разработчик стегосистемы всегда имеет определенные представления о том, от какого класса наблюдений производится сокрытие. Соответствующим образом строго формулируются задачи стеганоанализа (создание алгоритма )■) и стегодетекции (создание алгоритма UF такого, что Р{^5)=1/ Р{^(С)=1} — вероятно, не принадлежащего классу алгоритмов, предусмотренному разработчиками стегосистемы).

Такая формулировка, однако, редко бывает должным образом применима на практике. Как правило, в третьем условии, во-первых, фигурирует довольно узкий класс алгоритмов (например, в наиболее простых стегосистемах, работающих с изображениями, предусмотрено только скрытие факта наличия дополнительной информации от человека, просматривающего изображение), а во-вторых, требование доказуемого отсутствия алгоритма-детектора заменяется на требование отсутствия высококачественного детектора: условие V и е Ш у С е Т : 5 = F (С, М) е Т ,Р{и(Б) = 1} = Р{и(С) =1} заменяется условием VU е Ш^С е Т : 5 = F(С, М) е Т, |Р{и(Б) =1} - Р{и(С) =1}| <£ (21

с достаточно малым £. Но даже за выполнением этого условия, как правило, не следят с достаточной строгостью, что вполне естественно в силу того, что эффективность алгоритма-детектора практически всегда критически зависит от индивидуальных характе-

ристик контейнера (это сильно снижает практичность формулировок, основанных на понятиях вероятности).

Широко известно высказывание "You can always send a bit" (судя по всему, принадлежащее автору работы [1]). В прикладном отношении оно означает, что при наличии достаточного объема предварительных договоренностей между абонентами и наличии возможности передачи контейнеров достаточных размеров, они всегда могут наладить хотя и неэффективную с точки зрения плотности сокрытия полезной информации в маскирующей, но доказуемо скрытую разовую передачу сообщения (например, сигнального характера). Ясно, что разумные значения величины е в соотношении (2), позволяющие избежать надежной компрометации при разовой передаче короткого сообщения, достаточно велики.

Одним из путей обхода этой проблемы стегодетекции может быть перенесение фокуса внимания с компрометации возможного стегоконтейнера на компрометацию источника многочисленных возможных стего-контейнеров. Дело в том, что ситуация, когда имеется долгое время действующий канал, по которому от некоторого источника передаются информационные объекты, часть из которых используется источником в качестве стегоконтейнеров, выглядит существенно иначе. В таком случае задача построения стегосистемы (и соответствующая задача стегодетекции) должна быть сформулирована на основании иных, чем (1-2), требований:

Для заданного класса информационных объектов T и заданного класса сообщений M требуется построить алгоритм F такой, что

— VC е T, Vm е M : F(C, да) = S е T

— существует алгоритм f такой, что

VC е T, Vm е M,S = F(C, да), f (S) = m

— не существует алгоритма и: T ^ [0,1]

такого, что функции распределения случайных величин U(T и U(F(TxM)) значительно различаются. (3)

Насколько нам известно из анализа открытых источников (см, например, [3]), существующие на данный момент предложения в области построения стегосистем основываются на формулировках задачи, подобных (1-2), а не (3). При этом условие (3), очевидно, является более сильным. Таким образом, можно утверждать, что при рассмотрении в качестве объекта стегодетек-ции не столько отдельных информационных сущностей, возможно являющихся стегокон-

теинерами, сколько источников таких информационных сущностей, формальная стоИкость подавляющего большинства существующих стегосистем снижается.

Возможности использования

Поясним это утверждение на упрощенном примере. Предположим, имеется алгоритм и : Т ^ {0,1} (фактически выдающий только ответы "да" или "нет") такой, что в случае, если 1 содержит стеговложение, Р{и (/) = 1} = 0.9, Р1 = Р{и (/) = 0} = 0.1 (вероятность ошибки первого рода Р, составляет 10%), а в случае, если 1 не содержит стеговложения —

Р2 = р{и (/) = 1} = 0.5, Р{и (/) = 0} = 0.5 (вероятность ошибки второго рода Р2 составляет 50%). Ясно, что алгоритм и крайне плох для практического использования при анализе единственного информационного объекта. Однако, если в распоряжении аналитика имеется выборка из 300 объектов, полученных из одного источника, 30 из которых содержат стеговложение, после применения ко всем этим объектам алгоритма и, будет получена последовательность с ожидаемым количеством единиц 160 и нулей — 140, то есть последовательность, даже по очень простым признакам вполне статистически отличимая от последовательности с ожидаемо равным количеством нулей и единиц, которая была бы получена, если бы в выборке отсутствовали стеговложения. В

целом, при наблюдаемой плотности единиц Рехр, относительное количество стегоконтейнеров в рассматриваемом множестве стре-

р - р,

мится к у—(р при стремлении количест-

ва исследуем ых объектов к бесконечности.

Более строго, при наличии алгоритма детекции с вероятностью ошибки первого рода Р, и вероятностью ошибки второго рода Р2 вероятность получить в результате его применения к выборке из петр "чистых" информационных объектов и п5(ед объектов со стегов-ложением к единиц составляет (см. рис. 1):

(1 - P1)"e

nsteg к - i

^ -к: (і - P)k-i

(4)

Заметим, однако, что это выражение не позволяет в действительности вычислить вероятность события {п5(ед/0} при получении заданного количества единиц без привлечения некоторых дополнительных предположений.

Разумным в данном контексте кажется рассмотреть одну из схем применения критерия согласия Колмогорова-Смирнова к выборкам большого объема. Для последовательности наблюдений X1 ^ можно проверить гипотезу о том, что наблюдаемая величина имеет функцию распределения Р(х), вычислив статистику

к:=4П

max

1< j<n

1 - F (Xj)

n

(5)

и, сравнив полученное значение с табличными, определить, какова вероятность полу-

п

чения такого результата в случае истинности гипотезы. При применении критерия Колмогорова-Смирнова к исследованию генераторов псевдослучайных последовательностей чисел возникает следующая трудность. С одной стороны, для того, чтобы возможные различия реальной и предполагаемой функций распределения последовательности проявились, необходимо выбрать как можно большие значения п. С другой стороны — слишком большие значения п сглаживают локальные расхождения функций распределения. Поэтому приемлемым компромиссом считается использование длинной выборки размера К разбитой на несколько фрагментов размера п, вычисле-

( ТУ'+ } N / п

ние последовательности статистик {К п }=1 для каждого фрагмента и затем — отдельное статистическое исследование уже этой последовательности на предмет ее естественности в качестве множества статистик, вычисленных для последовательностей с функцией распределения F(x).

В случае статистического исследования набора информационных объектов, когда каждый из составляющих выборку элементов представляет собой фактически не единичный результат наблюдений, а самостоятельный объект для применения статистического критерия, разделение выборки на фрагменты можно считать произведенным естественным образом. Так, например, если считать, что в качестве метода стегодетек-ции используется критерий Колмогорова-Смирнова для проверки случайности младших бит значений, из которых состоит объект анализа, то отдельный интерес представляет последовательность вычисленных для каждого объекта, полученного из одного источника, статистик {кп}7=1 , а именно

— вероятность того, что эти статистики подчиняются функции распределения

F (х) = 1 - e -

(6)

Ясно, что для проверки этого факта может быть использован любой подходящий критерий согласия. Вообще, в рамках задачи об обнаружении стеговложений в множестве информационных объектов особый интерес представляют собственные функции распределения результатов вычисления различных статистик при условии истинности некоторых предположений об особенностях исследуемых объектов.

Имеется, однако, существенное препятствие при практическом использовании такого подхода в случае, когда речь не идет о характеристиках, для которых обоснованными являются предположения о достаточно простых статистических свойствах. Пусть найден алгоритм U, нарушающий условие (3) и пусть имеются перехваченные стего-контейнеры { = T' с T . При больших

n есть возможность с достаточной точностью определить функцию распределения случайной величины U(T'). При попытке обнаружения факта использования }П=1 в ка-

честве стегоконтейнеров делается предположение, что существуют {х.= X е T и {m jf=1 такие, что si = F (xi, mi ) (в случае, если стеганографические методы не были использованы, si= x) Ясно, что для успешной стегодетекции с использованием принципа, указанного в (3), следовало бы при вычислении функции распределения U(T) (подлежащей сравнению с функцией распределения U(T)) ограничить класс T так, чтобы он оказался в статистическом смысле как можно ближе к классу X. Таким образом, для эффективного использования нарушения условия (3) требуется кроме алгоритма U определить алгоритм D уничтожения скрытого сообщения вслепую, приводящий к "нормализации" статистических характеристик стегоконтейнера (приближению функции распределения случайной величины U(D(T')) к функции распределения U(X)).

В качестве алгоритма D могут быть применены алгоритмы типа метода линейного усреднения ("linear collusion attack" [2]). В применении к обработке видео этот алгоритм выглядит как применение к последовательности кадров {q ^} линейного оператор d

Z. (m,n) = dIQ1 (m,n), Q2(m,n),.., QN(m,n)] (71

для получения пикселей кадра Zt в котором присутствие стеговложения снижено, с последующим кодированием полученного несжатого видео.

В качестве оператора d используется оператор усреднения (возможно — с весами) последовательности кадров фиксирова-ной длины L с центром в i-м кадре исходной последовательности:

Z. (m, и) =

L+1X Qk (m>n)* w & k);

1 < i < L/2 L/2 < i < N - L/2

------- XQk (m’n)* W2(k - i);

L + 1 k=i-L /2

1 N

------ X Qk (m, n)* w3(i, k - N + L); N - L/2 < i < N

L + 1 k=N-L

(8)

В работе [2] показано, что такое преобразование в случае, если имело место сте-говложение, позволяет получить последовательность кадров, более близкую к последовательности кадров без стеговложения, чем {Q . Подобные алгоритмы усреднения

могут быть применены также при обработке растровых изображений и цифровых аудиозаписей (см, например, [4, 5]).

Заключение

Таким образом, видно, что задача уличения стабильного источника информационных объектов в использовании стегосистемы может быть решена с помощью применения даже достаточно простых методов стегодетек-ции, основанных на стандартных критериях статистического согласия. При чем, успешное решение такой задачи возможно и в случаях, когда каждый отдельный информационный объект, полученный из данного источника, не поддается стегодетекции.

Литература

1. Loepere K. Resolving covert channels within a B2 class secure system, ACM Operating Syst. Rev. — Vol. 19. — №3, July 1985. — рр. 4-28.

2. Budhia U., Kundur D., Zourntos T. Digital video steganalysis exploiting collusion sensitivity, Proceedings of the SPIE. — Vol. 5403. — рр. 210221 (2004) .

3. Ross J. Anderson and Fabien A.P. Petitcolas. Information Hiding An Annotated Bibliography, Computer Laboratory, University of Cambridge. — рр. 1-62.

4. Cvejic N., Seppanen T. Increasing the capacity of LSB-based audio steganography, In IEEE Workshop on Multimedia Signal Processing. — рр. 336-338, 2002.

5. Mintzer F.C, Goertzd G. and Thompson G.R. Display of Images wth Calibrated Color on a System Featuring Limited Color Palettes, 1992 SID International Symposium, Digest of Technical Papers Volume XXIII. — рр. 377-380.

i Надоели баннеры? Вы всегда можете отключить рекламу.