Ключевые особенности нейросетевого подхода в задаче криптографической защиты информации
Евдокимов И.А., Солодовников В.И.
Центр информационных технологий в проектировании РАН
Аннотация
Рассматривается перспективность и эффективность использования нейронных сетей для криптографической защиты информации. Особое внимание уделено внутреннему представлению информации нейросетью, которое вносит определенную структурированность, что отрицательно сказывается на криптостойкости. Предложен ряд возможных подходов по улучшению криптостойко-сти нейросетевого алгоритма симметричного шифрования.
1 Введение
Увеличивающийся интерес к использованию математического аппарата искусственных нейронных сетей в задачах защиты информации связан со способностью к обучению, восстановлению искаженных сигналов и распознаванию объектов, имеющих характеристики отличные от эталонных. Однако данный подход обладает своими ключевыми особенностями, которые способны критическим образом повлиять на его эффективность в области криптографии. Так, например, в работе [Ido Kanter, Wolfgang Kinzel, Eran Kanter. 2002] предложен протокол для обмена ключами, основанный на взаимосогласованном обучении нейронных сетей. Однако, в статье [Alexander Klimov, Anton Mityaguine, Adi Shamir. 2002] показано, что исходный алгоритм нейросинхронизации может быть сломан, по крайней мере, тремя видами атак: геометрической, вероятностным анализом и генетическими алгоритмами. В книге [Червяков Н.И., Галушкин А.И., Евдокимов А.А., Лаври-ненко А.В., Лавриненко И.Н. 2012] предложен ряд алгоритмов шифрования на базе различных парадигм нейронных сетей, но оценок криптостойкости и сравнения с классическими алгоритмами не приводится. Основной проблемой, влияющей на продвижение и перспективность нейросетевых методов криптографической защиты информации, является плохая изученность вопросов их криптостойкости,
уязвимостей и стойкости к различным алгоритмам криптоанализа.
2 Математическая модель нейросетевого алгоритма симметричного шифрования
Для рассмотрения ключевых особенностей нейросетевого подхода в задаче криптографической защиты информации за основу взят нейросетевой алгоритм симметричного шифрования [Гридин В.Н., Солодовников В.И., Евдокимов И.А. 2015]. Он осуществляет поиск искаженного кода, который может распознать или восстановить используемая сеть с заданными характеристиками. Без потери общности будем рассматривать алгоритм шифрования некоторой текстовой информации, т.е. будем оперировать символами или наборами символов открытого текста (шифрвеличинами) и их зашифрованными соответствиями (шифробо-значениями). Реализация алгоритма шифрования включает следующие основные этапы:
• предварительный этап, на котором осуществляется предобработка данных и формируется обучающее множество с учётом частотности появления символов из исходного алфавита (формирование областей возможных значений (кластеров) в пространстве шифробо-значений);
• построение нейросети - выбор нейросетевой парадигмы, определение структуры нейронной сети и задание значений весовых коэффициентов (обучение);
• основной этап, на котором происходит процесс шифрования, т.е. ставится в соответствие некоторое шифробозначение для подаваемой на вход шифрвеличины.
Предлагаемый алгоритм принадлежит к симметричным шифрам, т.к. ключом шифрования и дешифрования является сама нейросеть, а именно выбранная парадигма и ее параметры [Гридин В.Н., Солодовников В.И., Евдокимов И.А. 2015]. Также данный алгоритм является шифром замены, т.к. в процессе
функционирования осуществляет выбор некоторого кода для каждого символа исходного сообщения.
Следуя методологии, предложенной в [Алферов А.П., Зубов А.Ю., Кузьмин А.С., Чере-мушкин А.В. 2005], осуществлено построение математической модели нейросетевого алгоритма шифрования. Такая система шифрования может быть определена через совокупность £А = (X, К, Y, Е, D) введенных множеств, где X, K, Y - конечные множества возможных открытых текстов, ключей и зашифрованных текстов. Через E обозначено множество [Ек: к е К}, состоящее из правил шифрования Ek:X^Y на ключе кеК. Тогда Dk: Ek (X) ^ X - это правило дешифрования на ключе к е К, и D - множество [Dk:к е К}
Для данных множеств выполняются следующие свойства.
Для любых х е X и к е К выполняются равенства: Dk(Ek(x)) = х; Y = икеКЕк(Х). Первое отвечает требованию однозначности дешифрования. Второе означает, что любой элемент у е Y может быть представлен в виде Ек (х) для подходящих элементов х е X и к е К.
Для описания произвольного шифра замены в модель может быть внесен ряд дополнений. Так открытые и шифрованные тексты X и Y являются словами в алфавитах A и B, где: ХсА*, Y с В*, IAI = п, WI = т. Знак «*» обозначает множество слов конечной длины соответствующего алфавита. Пусть U = [щ, ...,uN} - множество возможных шифрве-личин, V = [vt,...,vM} - множество возможных шифробозначений. Эти множества должны быть такими, чтобы любые тексты х е X, у е Y можно было представить словами из U*, V* соответственно. Требование однозначности дешифрования влечет неравенства N > п, М > т, М > N.
Правило шифрования Ек(х) заключается в выборе на каждом такте шифрования замены для очередной шифрвеличины соответствующего ей шифробозначения. Поскольку М > N, множество V можно представить в виде объединения V = U^Li Vнепересекающихся непустых подмножеств Произвольное семейство, состоящее из г таких разбиений множества V, имеет следующий вид:
V = U¿Li Vl(i), a = l/r, г е N.
Тогда отображение множества шифрвели-чин в множество шифробозначений можно представить как семейство биекций: tya:U ^
[Уд1-1,для которых (ра(щ) = V™, I = 1
Рассмотрим также произвольное отображение Ф:К X N ^ М*, где ^ = [1,2,...,г}, такое, что для любых кеК, 1е Ы, ¥(к, I) =
г(Ю
(i)
а
(к) (к) (к)
. а
1 , а- е Nr, ] = 1,1. Последовательность Ф(к, I) является распределителем, отвечающим данным значениям к е К, I е N. В случае г = 1 шифр замены называют одноалфа-витным или шифром простой замены, в противном случае - многоалфавитным.
Рассматриваемый нейросетевой алгоритм шифрования во многом подобен шифру пропорциональной замены, что обусловлено алгоритмом формирования нейронной сети на предварительном этапе. Для создания обучающего множества используется информация о частотности появления символов (групп символов) из исходного алфавита А = [аг, ...,ап} и может быть определена вероятностная схема Ар'.
Ap =
P(ai) p(a2) ... p(an)
1?=1Р(.ад = 1, 0<Р(Щ) < 1, где щ - исход вероятностной схемы, р(а^) - вероятность этого исхода.
На основе полученной вероятностной схемы осуществляется формирование областей (кластеров) пространства шифрования, в границах которых будет осуществляться выбор шифробозначений (кодов символов).
3 Внутреннее представление информации нейросетью
Построение различных типов нейросетей обладает своими индивидуальными особенностями, но преследует единую цель - научиться распознавать и классифицировать искаженный код из областей, построенных на предварительном этапе. Форма областей напрямую зависит от выбранной нейросетевой парадигмы и особенностей внутреннего представления информации. Так для многослойного персептрона характерно разбиение пространства входных данных посредством гиперплоскостей или поверхностей (Рисунок 1б). Нейросети, использующие радиальные базисные функции в нейронах промежуточного слоя, основаны на разбиении пространства окружностями или в общем случае гиперсферами (Рисунок 1а - групповое представление). Вследствие чего, такие сети, в отличие от мно-
a
a
a
2
n
гослойного персептрона, не умеет экстраполировать свои выводы за область известных данных. При удалении от обучающего множества значение функции отклика быстро спадает до нуля, таким образом, RBF - нейроны действуют в достаточно малой области входного пространства и чем шире пространство (количество входов и расстояние между ними), тем больше требуется нейронов. Однако, центры RBF - нейронов могут совпадать с центрами областей (кластеров) пространства шифрования, т.е. в структуре сети хранится информация об областях допустимых искажений. В свою очередь, на рисунке 1в показаны линии энергетических уровней непрерывной системы соответствующей сети Хопфилда с двумя нейронами.
а.
б.
в.
Рисунок 1. Представление областей шиф-робозначений в двухмерном пространстве шифрования (а - групповое представление, б -плоскостное разбиение, в - линии энергетических уровней)
Отсюда можно сделать вывод, что внутреннее представление информации нейросетью
вносит определенную структурированность в пространстве шифробозначений и явно выделяет отдельные области, а это в свою очередь отрицательно сказывается на криптостойкости алгоритма.
4 Методы криптоанализа
В качестве основных подходов криптоанализа симметричных шифров можно выделить: метод грубой силы, частотный анализ, методы разностного (дифференциального) и линейного криптоанализа. [Панасенко С.П. 2009]
Атака методом грубой силы (ЬгШ;е-£эгсе-айаск), которая предполагает полный перебор всех возможных ключей шифрования, применима для всех типов криптографических алгоритмов. Ее эффективность зависит от размера ключа шифрования. Для нейросетевого алгоритма ключом является сама сеть и ее структурные характеристики. Оценить размер такого ключа можно через подсчет объема требуемой памяти для хранения всех весовых коэффициентов. В итоге, даже при использовании простейшей нейронной сети потребуются тысячи, а то и десятки тысяч бит, нахождение которых с помощью полного перебора недостижим.
Как уже упоминалось ранее, нейросетевой алгоритм шифрования учитывает частотность появления символов на предварительном этапе при построении нейронной сети, что гарантирует равномерное распределение символов входной последовательности в области шифрования, т.е. делает затруднительным применение к алгоритму методов частотного криптоанализа.
Очевидно, что такой нейросетевой подход обладает слабой стойкостью к атакам при наличии у криптоаналитика, как открытых, так и соответствующих им шифрованных текстов. Чем больший объем данных доступен, тем с большей точностью можно выделить необходимые области и построить некоторый функциональный эквивалент исследуемого алгоритма и использованного ключа.
Отдельный интерес представляют атаки на алгоритм при наличии только зашифрованных сообщений и основываясь на знаниях о структуре пространства шифробозначений. Можно выделить геометрический метод восстановления символов исходного текста по зашифрованному, в основе которого лежит учет расстояний между элементами биграмм и трехграм, а также их частотные характеристики [Мирон-кин В.О., Маршалко Г.Б. 2017]. На рисунке 2
представлена связь элементов биграм и трех-грам на плоскости.
п,
Рисунок 2. Учет биграмм и триграмм для выделения областей в пространстве шифробо-значений
Таким образом, может быть осуществлено построение областей в пространстве шиф-робозначений и найдены соответствующие им шифрвеличины при известных частотных характеристиках возникновения биграмм и триграмм используемого алфавита.
5 Улучшение криптостойкости
Можно предложить три различных направления для улучшения криптостойкости алгоритма шифрования.
Первый вариант основан на увеличении размера ключа, который зависит от размерности элементов множества шифробозначений, и от количества кластеров (областей), характеризующих символ или группу символов. Однако, необходимо учитывать тот факт, что с ростом размерности, так же увеличивается и длинна получаемого шифротекста. Увеличение длинны получаемого шифротекста может быть компенсировано с помощью введения дополнительных классов, которые будут включать не единичные символы, а часто встречающиеся в тексте цепочки символов, т.е. за счет расширения алфавита. Однако, это потребует дополнительных вычислительных затрат на предварительном этапе в процессе построения сети и не может считаться удовлетворительным с учетов все возрастающих вычислительных мощностей, которые могут быть задействованы криптоаналитиком.
Второй вариант основан на уменьшении размеров (радиусов) областей в пространстве шифробозначений, что в свою очередь влечет за собой увеличение их числа. Поскольку суммарная площадь этих областей должна быть пропорциональна частоте встречаемости символа исходного алфавита, то произойдет замена одной области с большим радиусом несколькими несмежными областями с меньшими радиусами и чем больше частота появления символа, тем большее число областей будет ему соответствовать. Данное изменение увеличит размер нейросети (ключа шифрования/дешифрования), поскольку с увеличением числа областей в пространстве шифробозначе-ний потребуется и увеличение числа нейронов скрытого слоя. Однако дополнительно, это позволит сгладить распределение расстояний для биграмм и триграмм, т.е. от криптоанали-тика потребуется рассматривать всевозможные комбинации областей и соотносить их с частотными распределениями встречающихся биграмм и триграмм.
И третий способ основан на переходе к многоалфавитному шифру и использованию комитетов нейронных сетей, где каждая ней-росеть будет соответствовать определенному алфавиту, т.е. обеспечивать собственное преобразование фа: и ^ V. Выбор той или иной сети на каждом шаге шифрования/дешифрования может осуществляться как последовательно, так и по определенному правилу.
Рисунок 3. Многоалфавитный шифр с использованием комитетов нейронных сетей
В этом случае области шифробозначений у разных нейросетей будут накладываться друг на друга, что с одной стороны, способно повысить криптостойкость, а с другой существенно усложнить блок шифрования/дешифрования. Также открытым остается вопрос выбора количества сетей/алфавитов, которые способны обеспечить необходимую криптостойкость.
6 Заключение
Рассмотрены особенности функционирования нейросетевого алгоритма симметричного шифрования. Особое внимание уделено внутреннему представлению информации нейросе-тью, которое вносит определенную структурированность в пространстве шифробозначений и отрицательно сказывается на криптостойко-сти алгоритма. В частности показана возможность использования геометрического метода восстановление символов исходного текста по зашифрованному, в основе которого лежит учет расстояний между элементами биграмм и трехграм, а также их частотные характеристики. В заключении предложен ряд способов улучшения криптостойкости нейросетевого алгоритма симметричного шифрования.
Благодарности
Работа выполняется в рамках темы № 00712019-0001 «Развитие теории и методов прикладной математики, нейросетевых технологий и систем управления процессами в задачах CAD-систем, анализа визуальных данных, защиты информации и прогнозирования»
Список литературы
Ido Kanter, Wolfgang Kinzel, Eran Kanter. 2002. Secure exchange of information by synchronization of neural networks, Europhys. Lett. 57, pp. 141-147.
Alexander Klimov, Anton Mityaguine, Adi Shamir. 2002. Analysis of Neural Cryptography — The Weizmann Institute, Rehovot, 76100, Israel, pp. 288-298.
Червяков Н.И., Галушкин А.И., Евдокимов А.А., Лавриненко А.В., Лавриненко И.Н. 2012. Применение искусственных нейронных сетей и системы остаточных классов в криптографии. - М.:Физматлит.
Гридин В.Н., Солодовников В.И., Евдокимов И.А. 2015. Нейросетевой алгоритм симметричного шифрования // Информационные технологии. - М.: Новые технологии. Т. 21. № 4. С. 306-311.
Алферов А.П., Зубов А.Ю., Кузьмин А.С., Чере-мушкин А.В. 2005. Основы криптографии. -М.: Гелиос АРВ.
Панасенко С.П. 2009. Алгоритмы шифрования. Специальный справочник. - СПб.:БХВ-Петер-бург.
Миронкин В.О., Маршалко Г.Б. 2017. Геометрический метод анализа одного нейросете-вого алгоритма симметричного шифрования // Проблемы информационной безопасности. -Компьютерные системы. № 1. С. 43-49.