Использование стеганографических методов для защиты текстовой информации
Балакин А.В., Елисеев А.С.,
ФГНУ "НИИ "Спецвузавтоматика", г. Ростов-на-Дону
В январе 2008 г. вступила в силу 4 часть Гражданского Кодекса "Права на результаты интеллектуальной деятельности и средства индивидуализации", которая регулирует не только юридические права на интеллектуальную собственность, но и все действия и последствия, связанные с их использованием. По новому закону в России результатами интеллектуальной деятельности и приравненными к ним средствами индивидуализации юридических лиц, товаров, работ, услуг и предприятий, которым предоставляется правовая охрана (т.е., которые являются интеллектуальной собственностью), становятся: произведения науки, литературы и искусства; программы для электронных вычислительных машин; базы данньх; исполнения; фонограммы; сообщения в эфир или по кабелю радио- или телепередач (вешрние организаций эфирного или кабельного вещания); изобретения; полезные модели; промышленные образцы; селекционные достижения; топологии интегральных микросхем; секреты производства (ноу-хау); фирменные наименования; товарные знаки и знаки обслуживания; наименования мест происхождения товаров; коммерческие обозначения.
Наиболее распространенными нарушениями прав интеллектуальной собственности сегодня являются: пиратство, плагиат, подделка информации, изменение информации, недобросовестная конкуренция (промышленный шпионаж и т. п.).
Бурное развитие информационных технологий, которое наблюдается в последние годы, привело к тому, что сегодня огромное количество информации, составляющей интеллектуальную собственность, хранится и обрабатывается в компьютерных сетях и/или распространяется в цифровой форме. При этом наибольшее внимание уделяется защите прав интеллектуальной собственности мультимедийной информации, распространяемой на цифровых носителях и в сети Интернет, однако упор делается больше на правовое решение проблемы, технические вопросы остаются на втором плане: для того, чтобы скопировать DVD-диск с криптографической защитой от копирования, достаточно загрузить программу из сети Интернет.
Наиболее остро это проблема стоит в области электронного документооборота, где технические вопросы защиты интеллектуальной собственности не могут быть полностью решены только лишь стандартными средствами защиты информации.
Цифровые водяные знаки
Новым направлением в защите прав интеллектуальной собственности при хранении, передаче и распространении информации в компьютерных сетях являются цифровые водяные знаки (ЦВЗ): цифровые метки, которые внедряются в защищаемую информацию при помощи специальных стеганографических преобразований [1].
На сегодняшний день существует большое количество систем внедрения ЦВЗ в мультимедийную информацию, некоторые из них уже используются на практике. Менее проработанным является вопрос защиты текстовой информации при помощи внедрения ЦВЗ. В литературе [1, 2] можно встретить описание синтаксических и семантических методов внедрения информации, однако отсутствует их адаптация для внедрения ЦВЗ.
В лингвистической стеганографии выделяют следующие наибо-
лее популярные направления: использование особенностей символов, кодирование смещением строк, кодирование смещением слов, синтаксические и семантические методы.
В рукописном тексте написание отдельных символов может заметно варьироваться, помимо явных различий в начертании символов, может отличаться высота букв, их ширина, высота средней линии, угол наклона и тд. Все это может эффективно использоваться для передачи скрытых посланий. Основная сложность методов основанных на использовании особенностей символов заключается лишь в формировании правил, как отличить букву открытого текста от аналогичной буквы скрытого сообщения. В простейшем случае, возле отдельных букв могут встречаться "случайные" точки или едва заметные подчеркивания. Так как символы текста в электронном виде идентичны, для целей цифровой стеганографии данный подход малоприменим.
В основу методов кодирования смещением строк положено изменение интервала между строками сообщения. Каждая строка маскирующего текста сдвигается немного вверх или вниз относительно своего исходного положения (базовой линии), соответственно смещением строки вверх можно закодировать, например, единицу, а вниз ноль очередного двоичного символа скрываемого сообщения. Так же может использоваться и сам межстрочный интервал. Метод достаточно часто применяется для целей скрытой маркировки твердых копий электронных документов при печати на сетевых принтерах.
Кодирование с использованием изменения горизонтального интервала между отдельными словами или символами наиболее эффективно при выборе в качестве маскирующего сообщения больших текстов с выравниванием по ширине, так как в данном случае расстояние между словами может меняться в достаточно широких пределах. В ряде случаев применяется кодирование не только длиной пробельных символов, но и их числом. Так, два пробела в интервале между предложениями могут кодировать очередной двоичный символ скрытого сообщения со значением, равным единице, а один — со значением нуля. Аналогично могут быть использованы пробельные символы в конце строки.
К недостаткам представленных методов следует отнести высокую вероятность разрушения скрытого сообщения при повторном наборе текста или использовании более сложных текстовых редакторов, способных осуществлять ряд автоматических операций над текстом. Такие операции, как форматирование, замена символов табуляции пробелами, удаление лишних пробелов в конце строк и т.д., приведут к порче или же полному уничтожению скрытого сообщения. Значительно большей стойкостью к подобным искажениям обладают методы, оперирующие непосредственно самим текстом, отдельными его предложениями и словами.
Синтаксические методы основаны на использовании особенностей пунктуации, аббревиатуры и сокращения. Хотя правила пунктуации достаточно строго оговорены правилами используемого языка, существуют случаи, когда эти правила оказываются неоднозначными или же отклонение от них не ведет к существенному искажению смысла скрывающего текста. К синтаксическим методам относят также методы, основанные на изменении стиля и структуры предложения без заметного искажения исходной смысловой нагрузки.
Семантические методы, пожалуй, наиболее интересное направление в лингвистической стеганографии. Оно отличается высокой эффективностью, обусловленной применением различных методов манипулирования не второстепенными элементами и незна-
Спецвыпуск Т-Сотт, август 2009
183
чительными особенностями текстов, а непосредственно самими предложениями и словами. Ряд методов, относящихся к данному направлению, основан на использовании синонимов. Практически в любом достаточно длинном предложении встречаются слова, которые без потери смысла могут быть заменены синонимами. Если для некоторого слова существует набор более чем из одного синонима, то возможно формирование специальных таблиц замен. В таких таблицах каждому синониму может быть поставлено в соответствие некоторое кодовое слово, состоящее более чем из одного двоичного символа. Однако необходимо отметить, что в ряде случаев использование методов осложнено определенными нюансами и оттенками ключевых слов в предложениях, что несколько ограничивает их применение.
Разрабатываемая авторами система предназначена для защиты прав интеллектуальной собственности на русскоязычную текстовую информацию при ее хранении, передаче и распространении в компьютерных сетях.
В качестве внедряемой метки выбрана битовая последовательность, которая кодирует идентификатор автора текста, идентификаторы прав доступа, идентификатор копии. Длина последовательности может варьироваться в зависимости от длин идентификаторов. Метка вносится на этапе создания текстовой информации и изменяется при ее передаче и распространении с целью управления правами доступа и контроля за различными копиями.
Сокрытие и извлечение меток
В настоящее время для представления текстовых символов в ЭВМ используется большое число различных кодовых таблиц, содержащих помимо символов латинского алфавита, также символы национальных алфавитов и спецсимволы. Но вместе с тем, не смотря на все разнообразие существующих кодировок, согласно стандарту РОБ!Х 130/1ЕС 9945 для обеспечения совместимости различных операционных систем и переносимости исходных текстов прикладных программ введен специальный переносимый набор символов, включающий 103 символа которые согласно стандарту должны присутствовать в любой уже используемой или проектируемой кодировке. Таким образом, любая из современных кодировок для русского языка отвечающая данному стандарту помимо символов кириллицы содержит также и символы латинского алфавита.
Учитывая тот факт, что современные кириллические кодировки, такие как Win-1251, К0!-81^, !Б0 8859-5, а также уже устаревшая 866 — МБ^ОБ, содержат в себе символы, по меньшей мере, двух достаточно близких алфавитов, можно предположить, что какая-то часть глифов (графических образов) символов одного алфавита будет идентична глифам символов другого алфавита. Тогда запись битов метки в текстовую информацию может быть осуществлена за счет замены отдельных символов текста соответствующими им по начертанию символами той же кодировки, но другого алфавита. Так, например, в большинстве кириллических кодировок и соответствующих им используемых шрифтов глифы английских символов 'А', 'В' и 'С' по начертанию идентичны глифам символов русского алфавита 'А', 'В', 'С'. Разница заключается лишь в двоичном представлении, т. е. в коде символа согласно используемой кодовой таблице символов. Для достаточно большой части символов кириллицы, практически вне зависимости от используемой кодировки, можно подобрать идентичные по начертанию символы латинского алфавита из переносимого набора символов, содержащегося во всех популярных кодировках [3].
Рассмотрим случай записи дополнительной информации с использованием в качестве контейнеров достаточно длинных текстовых строк, содержащих слова обоих базовых алфавитов. Например, это может быть русский текст с определениями или именами собственными на английском языке, или же некоторый словарь терминов. При этом если частоты встречаемости слов, состоящих из символов различных алфавитов, близки, то задача однозначного
определения базового алфавита может оказаться нетривиальной. Для этого случая предлагается использовать следующее правило внедрения метки: если текущий символ входит в таблицу замен и текущий бит битовой строки метки представлен единицей, символ заменяется соответствующим символом национальной кодировки (т.е. символом с кодом, большим 127) согласно таблице замен, если текущий бит битовой строки представлен нулем, символ текстовой строки заменяется символом US-ASCII. Применение данного правила позволяет уйти от необходимости определения базового алфавита при извлечении скрытого сообщения. Для извлечения дополнительной информации из текстовой строки достаточно последовательно просмотреть все символы текстовой строки. С каждым очередным символом текстовой строки, входящим в таблицу замен, в выходную битовую строку дописывается "0", если символ принадлежит US-ASCII (первой половине таблицы символов выбранной однобайтовой кодировки), и "1", если символ относится к символам национальной кодировки (второй половине таблицы символов).
Оценка эффективности и информационной емкости
Эффективность методов встраивания дополнительной информации в скрывающие данные (контейнеры) в первую очередь определяется информационной емкостью метода. Информационная емкость — это свойство, характеризующее эффективность использования метода встраивания дополнительной информации на заданном множестве контейнеров, которое оценивается, как среднее отношение объема скрываемой информации к объему используемого для ее сокрытия контейнера. Для оценки информационной емкости предложенного метода было проведено исследование, целью которого являлось изучение распределения частот встречаемости символов русского алфавита для текстовой информации, размещенной в сети Интернет. Полученные в результате тестов частоты встречаемости символов оказались близки к известным среднестатистическим частотам встречаемости символов для русского языка в художественной и технической литературе. Согласно результатам исследования, суммарная вероятность появления символа из таблицы замен составляет 0,47317.
Учипывая, что на каждый символ из таблицы замен, встреченный в текстовой строке, приходится един бит скрываемого сообщения в соотношении количество скрываемой информации к объему контейнера, средняя информационная емкость предложенного метода составляет порядка 5-8%. Отметим, что данный показатель является весьма высоким, даже для методов стеганографии в мультимедиа данных, таких как цифровые изображения и оцифрованные аудиозаписи.
Заключение
Практическая реализация разработанной системы в качестве модуля веб-сервера Apache и модуля СУБД Oracle [4] подтвердила ее работоспособность в реальных условиях: извлечение метки из текста HTML-страницы позволяет установить автора текста, запросившего ее пользователя, и его права доступа.
Литература
1. Аграновский А.В., Балакин А.В., Хади РА Запатентованные методы стеганографии в технологиях цифровых водяных знаков//Информацион-ные технологии. — М.: Машиностроение, 2002. — № 9. — С. 2-7.
2. Brass l J., Low S., Maxemchuk N., OGoman L Document marking and identification using both line and word shifting // Technical report, AT&T Bell Laboratories, 1994, pp. 853-860.
3. Аграновский А.В., Балакин А.В. Стеганография в тексте//Труды конференции "Безопасность информационных технологий". — Пенза, 2001. — Т.2. — С. 15-16.
4. Алиев АТ., Балакин А.В., Селин Р.Н., Хади РА Способ маркировки и способ проверки маркировки строк ответов на запросы пользователей к базе данных с использованием цифровых водяных знаков. Патент РФ № 2338248, заявка № 2007115462/09 (016791).
184
Спецвыпуск T-Comm, август 2009