Некоторые принципы автоматической генерации стеганографических шифров в форме осмысленного текста предопределенной тематики

Личаргин Д.В.; Кучеров М.М.

Программные редктва и информационные технологии

Предварительная обработка изображения для определения пола и возраста человека заключается в нахождении лица и его характерных черт (глаза, нос, рот) [3]. Для генерации признаков используется генетический алгоритм и классификатор на базе метода опорных векторов. С помощью метода опорных векторов можно построить классификатор, минимизирующий верхнюю оценку ожидаемой ошибки классификации.

Применение метода опорных векторов к задаче обнаружения лица заключается в поиске гиперплоскости в признаковом пространстве, отделяющей класс изображений лиц от изображений не лиц.

Классификатор строится на базе адаптивных признаков и метода опорных векторов [2]. Данный алгоритм включает в себя следующие шаги: преобразование цветового пространства, масштабирование, вычисление набора адаптивных признаков, классификацию методом опорных векторов с применением ядерного преобразования.

В качестве входных данных выступает изображение, которое загружается с компьютера через диалоговое окно, после чего на выходе получаются бинарное изображение, гистограммы, необходимые для определения координат характерных черт лица, изображение с выделенной областью глаз, областью носа и рта. На основе анализа основных признаков выделенных черт система делает вывод о половой принадлежности и возрасте человека.

В результате система начинает показывать рекламные материалы в соответствии с полом и возрастом человека, что позволяет повысить эффективность продаж и прибыльность компании, а также проводить рекламные акции для определенной категории людей и избавить посетителей от ненужной им рекламы.

Интерфейс и основные функции программного продукта разрабатываются в среде быстрой разработки приложений RAD Delphi. Такая система распознавания пола и возраста человека акцентирует внимание на клиентах для улучшения качества обслуживания и повышения прибыли компании.

Библиографические ссылки

1. Никонов В. Распознавание возраста по фотографии [Электронный ресурс]. URL: http://log-in.ru/articles/raspoznavanie-vozrasta-po-fotografii/ (дата обращения: 12.09.2013).

2. Потапов А. С. Распознавание образов и машинное восприятие: общий подход на основе принципа минимальной длины описания : монография / СПб. : Политехника, 2007. 205 c.

3. Шмаглит Л. А., Голубев М. Н., Приоров А. Л. Сравнительный анализ алгоритмов выделения лиц на изображениях при наличии нормального шума // Нейрокомпьютеры и их применение : тез. докл. IX Все-рос. науч. конф. М., 2011. С. 37.

References

1. Nikonov V. Raspoznavanie vozrasta po fotografii [Jelektronnyj resurs]. URL: http://log-in.ru/articles/raspoznavanie-vozrasta-po-fotografii/ (data obrashhenija: 12.09.2013).

2. Potapov A. S. Raspoznavanie obrazov i mashinnoe vosprijatie: obshhij podhod na osnove principa minimal'noj dliny opisanija : monografija / SPb.: Politehnika, 2007. 205 c.

3. Shmaglit L. A., Golubev M. N., Priorov A. L. Sravnitel'nyj analiz algoritmov vydelenija lic na izobrazhenijah pri nalichii normal'nogo shuma // Tez. dokl. IX vseros. nauch. konf. «Nejrokomp'jutery i ih primenenie». M., 2011. S. 37.

УДК 81'32

НЕКОТОРЫЕ ПРИНЦИПЫ АВТОМАТИЧЕСКОЙ ГЕНЕРАЦИИ СТЕГАНОГРАФИЧЕСКИХ ШИФРОВ В ФОРМЕ ОСМЫСЛЕННОГО ТЕКСТА ПРЕДОПРЕДЕЛЕННОЙ ТЕМАТИКИ

Д. В. Личаргин, М. М. Кучеров

Сибирский федеральный университет Россия, 660074, Красноярск, ул. Киренского, 28

Рассматриваются некоторые принципы семантической трансформации кодируемого текста в осмысленный текст на основе представления высказываний в виде функций над многомерным метрическим пространством единиц языка. Предлагается принцип выбора подмножества проекций кодируемого текста на текст стеганографического контейнера для сохранения естественной для используемых слов частотности в целях обеспечения криптографической стойкости к использованию метода больших уклонений. Предложенный подход может позволить улучшить криптостойкость кодирования в контейнерах текста на естественном языке.

Ключевые слова: криптография, криптостойкость, компьютерная лингвистика, порождение естественного языка.

Решетневскуе чтения. 2013

SOME PRINCIPLES OF AUTOMATIC GENERATION OF STEGANOGRAPHIC CIPHERS IN THE FORM OF A MEANINGFUL TEXT OF PREDITERMINED CONTENT

D. V. Lichargin, M. M. Kucherov

Siberian Federal University 28, Kirenskiy str., Krasnoyarsk, 660074, Russia

Some principles of semantic transformation of the encoded text into a meaningful text are discussed based on the representation of speech flow as a function of the multi-dimensional metric space of language units. The principle of selecting a subset of the encoded text projections onto a steganographic container text for preserving the natural frequency of the words used to provide cryptographic reliability towards the large deviations method application are proposed. The proposed approach can allow improving the cryptographic strength of the encryption in the containers of natural language texts.

Keywords: cryptography, cryptographic, computational linguistics, natural language generation.

В рамках проблемы компьютерной безопасности и криптографии наиболее важной проблемой является разработка методов шифрования с высоким уровнем криптостойкости. Целью настоящего исследования является разработка общих принципов порождения кодированного текста в форме осмысленного текста постороннего содержания и оценка особенностей такого рода трансформаций. Работа имеет элемент новизны ввиду привлечения к ее решению авторского представления понятий языка в виде точек многомерной классификации и высказываний в виде функций на множестве этих точек [1].

Базовыми направлениями в криптографии и криптоанализе являются следующие:

- симметричные криптосистемы;

- подстановки;

- перестановки;

- гаммирование;

- блочные шифры;

- криптосистемы с открытым ключом;

- функциональные преобразования (обратимые преобразования, необратимые преобразования);

- аналитические преобразования;

- системы электронной подписи;

- управление ключами.

В рамках стеганографических методов активно используется хранение информации в последних битах растровых изображений, многие сотни лет используются методы передачи простых сообщений на основе ассоциативных соответствий слов из разных речевых ситуаций, например, применения оружия и покупки цветов. Для распознавания подобных сообщений активно использовались внесения изменений в форму отправленных сообщений, проверка сообщений на привычность («покупка дорогих ромашек» выглядит неестественно), установление корреляции между потенциальными стеганографическими сообщениями и реальными событиями, вероятно подпадающими под описание.

Криптографически зашифрованный текст без использования стеганографии может внушать подозрение и даже подпадать под юридические запреты на передачу по электронной почте или иным способом. Безусловно, кодированный текст может быть скрыт от внешнего наблюдения посредством преобразования,

например, в шумовую составляющую двумерного образа или аудиофайла, при этом подобная форма передачи данных требует перемещения большого объема информации. В области передачи кодированных данных широко используется принцип иносказания и замены наиболее значимых слов на слова обиходного значения, например, «бабушка», «пирог», «сапоги» вместо «захват», «боеприпасы» или «сообщение». Этот принцип может быть автоматизирован на основе методов формального описания естественного языка и методов генерации осмысленных высказываний на основе языковых шаблонов, использования многомерных векторных пространств слов естественного языка, а также методов управления частотными статистическими характеристиками употребления слов.

Фраза научного текста вида «It is necessary to transfer the money to the client by airplane from Russia» может быть спроецирована на фразу обиходного текста вида «My mother simply sends a fish pie for 3 rubles to you».

It is + necessary / possible / desirable / obligatory + to + transfer / bring / carry / send + money / cash / banknotes / dollars + to the + client / receiver / purchaser / buyer + by + airplane / train / ship / car + from + Russia / UK / Australia / New Zealand.

My + mother / sister / brother / nephew + simply / just + sends / gives / offers / brings + a fish / a cherry / an apply / a perch + pie + for 2 / 3 / 4 / 5 + rubles // 60 / 70 / 80 cents / euro + to you.

Данные шаблоны являются подмножествами векторизованного семантического пространства слов, описанного в работе [1]. Трансформация осуществляется при наличии соответствующего ключа сдвигов слов в колонках на основе системы динамически используемых ключей к группам блоков текста, что должно позволить сделать частотные статистические характеристики словоупотребления максимально естественными. В идеале генерируемый стеганографи-ческий контейнер должен успешно проходить тест Тьюринга, что часто требует привлечения методов добавления семантического шума.

Предложенный подход может обеспечить качественно более трудный процесс декодирования конечного текста для лица с несанкционированным допус-

Проралшные редктва и информационные технологии

ком. А именно, процесс декодирования связан с перебором «дерева» возможных вариантов расшифровки на основе тех или иных преобразований. В результате обнаружения варианта, являющегося осмысленным с точки зрения лексики, грамматики или семантики, делается вывод об успешности декодирования. Предложенный же метод при декодировании дает «дерево» вариантов расшифровки, где все или почти все варианты дешифровки являются осмысленными и имеют приемлемые частотные характеристики.

В случае ограничений на комбинаторику слов из семантически связных классов предлагается метод построения векторизованного «дерева» слов с ограничениями, так, например, при сочетании группы слов «цвета» = {«красный», «желтый», «синий», ...} и группы слов «цветы» = {«розы», «ромашки», «тюльпаны», ...} будет иметь место соотношение 1) «красная» 1.1) «роза» и 1) «красный» 1.3) «тюльпан», но будет отсутствовать потенциальная ветвь «дерева» 1) «красная» 1.2) «ромашка». Таким образом, кодирование необходимо производить блоками, для каждого из которых будет иметь место определенное (непостоянное) количество «листьев» векторизованного «дерева» слов с ограничениями.

Для достижения соответствующих частотных характеристик в словах текста стеганографического контейнера предлагается использовать следующий метод. Для ряда слов языка (например, в алфавитном порядке) существует функция частотного распределения F(wi), необходимо, чтобы значения F(wi) стремились к соответствующим значениям F(ci) в словах текста стеганографического контейнера. Для этого используем динамически изменяющуюся проекцию Р^и ci) кодируемого текста на текст стеганографи-ческого контейнера, каждому интервалу Г = [4,4+1] соответствует ключ из множества всех возможных

ключей S(K(Pt)), каждый ключ однозначно задает проекцию кодируемого текста на стеганографический шифр. Необходимо сузить это множество до подмножества ST4(KT\Pt)), такого, что для интервала времени T, соответствующего множеству блоков шифрования с различными проекциями одного слова на другое, ключ KT уменьшает разрыв между F(w) и F(c) с учетом привычного математического ожидания и дисперсии употребления слов.

В работе выполнен анализ проблемы использование генерируемого текста на естественном языке в качестве стеганографического контейнера программными системами. Предлагается метод шаблонов генерации осмысленной речи. Учитывается корреляция между выбираемыми системой подстановками из семантически связных классов слов. Предлагается использование системы динамически изменяемых ключей для сохранения естественного вероятностного распределения слов в конечном стеганографическом тексте.

Библиографическая ссылка

1. Личаргин Д. В. Методы и средства порождения семантических конструкций естественно-языкового интерфейса программных систем : дис. ... канд. техн. наук : 05.13.17. Защищена 05.07.2004 ; утв. 10.12.2004; № 137428. Красноярск, 2004, 154 с.

References

1. Lichargin D. V. Metody i sredstva porozhdenija semanticheskih konstrukcij estestvenno jazykovogo interfejsa programmnyh sistem (The methods and tools for the génération of semantic structures in the natural language interface of software systems). Krasnoyarsk, 2004, 154 p.

УДК 81'32

АНАЛИЗ ПРОБЛЕМЫ РАЗРАБОТКИ ПРАВИЛЬНЫХ И ОШИБОЧНЫХ ВАРИАНТОВ ОТВЕТОВ ДЛЯ СИСТЕМЫ ГЕНЕРАЦИИ ТЕСТОВЫХ ЗАДАНИЙ

ПО ИНОСТРАННОМУ ЯЗЫКУ

Д. В. Личаргин, А. Ю. Маглинец, Н. С. Амосова, М. В. Рыбков

Сибирский федеральный университет Россия, 660074, Красноярск, ул. Киренского, 28

Предлагается модель программы подбора типичных грамматических, лексических, синтаксических и других ошибок и создания на их основе заданий с правильными и неправильными вариантами ответов для учебных тестов. Предложенная модель программы позволяет разработать тестовые задания по различным разделам языка, автоматически генерировать ответы на эти задания, что может значительно упростить процесс контроля успеваемости у студентов и школьников, изучающих иностранный язык, в частности, английский.

Ключевые слова: статистическая модель естественного языка, генерация естественного языка, шаблоны генерации.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Личаргин Д. В., Кучеров М. М.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Личаргин Д. В., Кучеров М. М.

SOME PRINCIPLES OF AUTOMATIC GENERATION OF STEGANOGRAPHIC CIPHERS IN THE FORM OF A MEANINGFUL TEXT OF PREDITERMINED CONTENT

Текст научной работы на тему «Некоторые принципы автоматической генерации стеганографических шифров в форме осмысленного текста предопределенной тематики»