УДК 004.023
Д. В. Катасёва, А. С. Катасёв, А. П. Кирпичников,
А. Д. Кабиров
ОЦЕНКА СТОЙКОСТИ СИММЕТРИЧНЫХ ШИФРОВ МОНОАЛФАВИТНОЙ ЗАМЕНЫ НА ОСНОВЕ ЧАСТОТНОГО АНАЛИЗА И ГЕНЕТИЧЕСКОГО АЛГОРИТМА
Ключевые слова: симметричные шифры, моноалфавитная замена, частотный анализ текста, генетический алгоритм,
криптоаналитическая атака.
Данная статья посвящена оценке стойкости шифра моноалфавитной замены. Для этого разрабатывается система, в которой к зашифрованному тексту применяется сначала частотный анализ, а затем генетический алгоритм. Описываются различные параметры генетического алгоритма, способные повлиять на эффективность работы системы. Оценивается эффективность реализации разработанной системы в зависимости от различных параметров генетического алгоритма. Делается вывод о стойкости шифра моноалфавитной замены.
Keywords: symmetric ciphers, monoalphabetic replacement cipher, frequency analysis, genetic algorithm, cryptanalytic attack.
This article focuses on the evaluation of monoalphabetic replacement cipher strength. The system is developed, where frequency analysis and the genetic algorithm are consequently applied to the ciphertext. The various parameters of the genetic algorithm are described that can influence system performance. The effectiveness of the implementation of the developed system, depending on the various parameters of the genetic algorithm, is evaluated. Strength of monoalphabetic replacement cipher is concluded.
Данная статья является продолжением исследования эффективности использования генетического алгоритма в качестве средства оценки стойкости шифра моноалфавитной замены, основные результаты которого представлены в [11]. Шифр моноалфавитной замены является классическим симметричным шифром, что делает его удобным объектом для исследований в области криптоанализа [2]. В данной работе рассмотрен вариант шифра, ключом которого является случайно сгенерированная последовательность символов английского алфавита без повторений. Соответственно, длина ключа шифрования равна мощности алфавита, состоящего из английских букв.
На рисунке 1 представлен пример ключа шифрования, состоящего из шести букв английского алфавита.
Рис. 1 - Пример ключа шифрования
Как видно из данного рисунка, для создания зашифрованного текста в исходном сообщении все буквы «а» будут заменены на «с», буквы «Ь» на «5> и так далее для всех букв алфавита. При использовании достаточно длинного ключа шифрования можно добиться высокой стойкости шифртекста.
Для криптоанализа шифров моноалфавитной замены широко применяется метод частотного анализа [3]. При использовании данного метода в анализируемом шифртексте подсчитываются частоты встречаемости отдельных символов. Далее символы шифртекста заменяются на другие символы в соответствие со стандартной таблицей встречаемости букв конкретного алфавита.
В данном исследовании рассматривались тексты на английском языке, для которых наиболее часто встречаемой буквой является «е» (12,7%), наиболее редкой - <«» (0,05%). Таким образом, при использовании частотного анализа, символ, имеющий наибольшее число вхождений в шифртексте, будет заменен на «е», а символ, имеющий наименьшее число вхождений в шифртексте, будет заменен на ««».
Данный метод обладает некоторыми недостатками. Например, распределение частот встречаемости символов в тексте может довольно сильно отличаться от стандартного для небольших по объему текстов или текстов специфического характера (наличие в тексте большого числа цифр, формул или специальных терминов). Однако даже в больших текстах частотный анализ может не дать полной расшифровки, так как многие символы английского алфавита обладают близкими по значению частотами встречаемости. Например, буквы «а», «п», ««» обладают стандартными частотами встречаемости соответственно 6,97%, 6,75% и 6,33%.
Таким образом, даже после удачно проведенного частотного анализа текста, когда многие слова расшифрованы правильно, необходимо использовать дополнительные методы для получения исходного текста сообщения. В этих целях может быть применена атака по словарю, криптоаналитик вручную может исправить неверно дешифрованные слова, а также могут быть применены экспертные [5], нечеткие [7,15], нейросетевые [6,8-10,12-14] и генетические методы оптимизации [1].
Генетический алгоритм является средством оптимизации. Он использует случайный подбор и комбинирование исходных параметров, действуя подобно естественному отбору в природе. Генетический алгоритм может быть использован и самостоятельно как средство криптоанализа шифра моноалфавитной замены. Однако, в данной работе показывается, что в случае относительно больших шиф-
ртекстов генетический алгоритм работает гораздо эффективнее вместе с частотным анализом текста.
Отдельная особь в разработанном генетическом алгоритме представляет собой случайно сгенерированную последовательность символов английского алфавита без повторений (т.е. особь состоит из 26 генов). Эта последовательность применяется в качестве искомого ключа шифрования к шифртесту. Далее результат расшифрования оценивается по следующей формуле [11]:
F = 100 * А / В, где F - приспособленность данной особи; А - количество неизвестных слов в тексте, В - количество всех слов в открытом тексте, причем: 0<А<В ^ 0 < F < 100.
Чем меньше значение F, тем выше приспособленность особи и, соответственно, тем ближе эта особь к искомому ключу шифрования. Неизвестными словами являются слова, которых нет в словаре. В реализации разработанной системы в качестве словаря используется список из 60 000 наиболее употребляемых английских слов.
Применение разработанного метода оценки стойкости шифра моноалфавитной замены с использованием генетического алгоритма и частотного анализа текста требует выполнения следующих основных этапов.
1. К зашифрованному тексту применяется частотный анализ, в результате чего получается последовательность символов английского алфавита.
2. Создается начальная популяция особей. К ним добавляется особь, полученная в результате частотного анализа на предыдущем этапе.
3. Оценивается приспособленность всех особей начальной популяции. Если частотное распределение символов открытого текста было в какой-то мере близко к стандартному, то особь, полученная в результате частотного анализа, с большой вероятностью окажется наиболее приспособленной в популяции.
4. Начинается цикл генетического алгоритма:
- селекция особей в популяции для скрещивания;
- скрещивание особей;
- мутация особей;
- создание новой популяции из результатов скрещивания, мутации и отбора лучших особей предыдущего поколения;
- оценка приспособленности всех особей в новом поколении. Если приспособленность какой-либо особи удовлетворяет условию остановки, то выход из цикла. Если условие остановки не выполняется, цикл продолжается.
5. Расшифровка текста на ключе, представляющем собой особь с наилучшим значением функции приспособленности.
Как видно из приведенного алгоритма, лучшие особи предыдущего поколения попадают в следующее поколение. Это означает, что приспособленность нового поколения, которая представляет собой приспособленность лучшей особи этого поколения, всегда равна или выше, чем приспособленность предыдущего поколения. Именно благодаря этому свойству можно утверждать, что результат работы
системы в целом будет как минимум не хуже результата работы частотного анализа текста. Следует отметить, что результат работы генетического алгоритма зависит от выбора типа оператора селекции особей для скрещивания. В реализации системы имеется возможность проводить исследования с двумя видами селекции - турнирный отбор и метод колеса рулетки.
В первом случае популяция делится на группы из двух особей, которые сравниваются между собой по значению их функции приспособленности. Лучшая особь попадает в промежуточный массив. Далее каждая особь этого массива скрещивается со случайно выбранной особью того же массива. Получившийся потомок может подвергнуться мутации с определенной вероятностью, задаваемой пользователем. Далее потомок попадает в массив особей-детей, который на следующей итерации цикла становится основной популяцией.
В случае выбора пользователем метода колеса рулетки родительские особи выбираются пропорционально значениям их функций приспособленности: каждой хромосоме сопоставлен сектор колеса рулетки, величина которого устанавливается пропорционально значению функции приспособленности данной хромосомы, поэтому чем больше значение функции приспособленности, тем больше сектор на колесе рулетки. Отсюда вытекает, что чем больше сектор на колесе рулетки, тем выше шанс, что будет выбрана именно эта хромосома. Слабая сторона этого метода заключается в том, что особи с очень малым значением функции приспособленности слишком быстро исключаются из популяции, что может привести к преждевременной сходимости генетического алгоритма.
Скрещивание двух особей происходит следующим образом: выбирается случайное число п в пределах размеров особи (от 1 до 26). Далее часть генов потомка от 1 до п берется у первого родителя, а оставшаяся часть от второго. Пример скрещивания двух особей представлен в таблице 1.
Таблица 1 - Пример скрещивания двух особей
0 п п+1 25
X а« ап ап+1 а25
Y §0 §п §п+1 §25
Результат скрещивания
и а0 ап §п+1 §25
В результате скрещивания у потомка может оказаться два одинаковых гена (две одинаковые буквы в последовательности). Поэтому все вновь получаемые особи анализируются программой на предмет наличия подобных избыточных генов. Исправление таких особей происходит путем замены избыточных генов недостающими.
С небольшой вероятностью потомок двух особей может подвергаться мутации (конкретное значение вероятности мутации выбирает пользователь). Му-
тация необходима для достижения генетического разнообразия популяции. Выбираются два случайных числа т и п от 1 до 26. Затем гены-символы под этими номерами меняются местами в особи. Пример мутации представлен в таблице 2.
Таблица 2 - Пример мутации особи
0 n m 25
X ао а„ am а25
Результат мутации
Y ао am а„ а25
Рассмотрим эффективность разработанной системы в зависимости от применяемого оператора селекции [16]. Для этого был взят и зашифрован художественный текст на английском языке, состоящий из 200 слов. Для определения эффективности генетического алгоритма в зависимости от типа селекции используем один и тот же текст. Все параметры генетического алгоритма, кроме типа селекции, оставались неизменными в ходе исследования.
В качестве операторов селекции рассмотрим метод турнирного отбора («Tournament selection») [17] и метод колеса рулетки («Roulette wheel») [4]. На рисунке 2 представлены примеры использования данных методов.
N особей популяции Р(к)
2 особи
1 "наилучшая особь"
11
2 особи
zn
1 "наилучшая особь"
Родительский пул
M(k); N особсй
Рис. 2 - Метод турнирного отбора (вверху) и метод колеса рулетки (внизу)
Для оценки эффективности генетического алгоритма было проведено 5 полных циклов работы программы. Результаты экспериментов представлены в таблице 3.
На рисунке 3 показаны графики функции приспособленности fitness для первого цикла работы генетического алгоритма.
Таблица 3 - Результаты работы генетического алгоритма при использовании различных операторов селекции
№ п/п Число поколений Время работы, с
tournament selection roulette wheel tournament selection roulette wheel
1 93 141 105,59 159,41
2 91 131 101,95 153,38
3 75 147 86,09 168,04
4 83 134 94,22 156,42
5 89 126 100,71 148,93
Средние значения параметров
86 136 97,71 157,24
а) Метод турнирного отбора
б) Метод колеса рулетки
Рис. 3 - Графики функций приспособленности при использовании различных операторов селекции
Таким образом, тип селекции влияет и на число поколений, и на время работы генетического алгоритма. Метод турнирного отбора показал лучший результат и по времени (среднее время работы лучше в 1,61 раз), и по числу поколений хромосом, потребовавшихся для поиска ключа (среднее число поколений меньше в 1,57 раз).
Метод турнирного отбора обладает большей эффективностью за счет того, что в нем вероятность участия в скрещивании хромосом с худшими значениями функции приспособленности выше, что способствует генетическому разнообразию и более быстрому нахождению решения.
В реализации разработанной системы пользователь может применять или не применять частотный анализ текста. Оценим, как изменяется эффективность алгоритма в зависимости от применения частотного анализа. Для этого был взят и зашифрован художественный текст на английском языке, состоящий из 1179 слов. Все параметры, кроме использования или неиспользования частотного ана-
лиза, оставались неизменными в ходе исследования. Такой размер текста обусловлен тем, что чем больше объем, тем ближе распределение частот в тексте к стандартному распределению.
В таблице 4 представлены результаты работы генетического алгоритма с использованием и без использования частотного анализа текста.
Таблица 4 - Результаты работы генетического алгоритма
№ п/п Число поколений Время работы, с
Без частотного анализа С частотным анализом Без частотного анализа С частотным анализом
1 178 161 380,41 318,61
2 189 152 412,16 301,41
3 186 166 407,63 327,73
4 173 149 369,14 294,72
5 181 158 392,97 311,27
Средние значения параметров
181 157 392,46 310,74
На рисунке 4 показаны графики функции приспособленности fitness для первого цикла работы генетического алгоритма.
о го 40 ю во 100
а) Без частотного анализа
б) С частотным анализом
Рис. 4 - Графики функций приспособленности генетического алгоритма
Таким образом, при использовании частотного анализа можно значительно сократить как время работы генетического алгоритма (среднее время работы лучше в 1,26 раз), так и число поколений, необходимых для нахождения ключа шифрования (среднее число поколений меньше в 1,15 раз). Это происходит из-за того, что уже в первом поколении есть хромосома с низким значением функции приспособленности. Время, которое программа тратит на обработку каждого поколения, не меняется, но значительно сокращается число поколений.
Следует отметить, что эффективность частотного анализа зависит от частотного распределения символов открытого текста и соответствия этого распределения стандартному для английского языка. Таким образом, чем больший объем текста будет анализироваться, тем большей будет разница в эффективности работы разработанной системы при использовании частотного анализа и без него.
Результаты экспериментальных исследований показали, что для реализации криптоаналитической атаки лучше использовать турнирный метод селекции особей, а не метод колеса рулетки. Кроме того, использование частотного анализа позволяет значительно сократить время работы генетического алгоритма, что повышает эффективность его работы и криптоаналитической атаки в целом.
Литература
1. Абдулхаков А.Р., Катасёв А.С. Кластерно-генетический метод редукции баз знаний интеллектуальных систем // Фундаментальные исследования. - 2015. - № 5-3. - С. 471-475.
2. Авдошин С.М., Савельева А.А. Криптоанализ: современное состояние и перспективы развития // Информационные технологии. - 2007. - № S3. - С. 1-32.
3. Головань О.В. Частотный анализ как первый шаг в построении интеллектуальной системы исследования текста // Ползуновский альманах. - 2008. - № 2. - С. 153155.
4. Дармахеев В.В. Эффективность применения ряда генетических операторов селекции // Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Информатика. Телекоммуникации. Управление. - 2012. - Т. 4. - № 152. - С. 8488.
5. Катасёв А.С. Математическое обеспечение и программный комплекс формирования нечетко-продукционных баз знаний для экспертных диагностических систем // Фундаментальные исследования. - 2013. - № 10-9. - С. 1922-1927.
6. Катасёв А. С., Катасёва Д.В. Разработка нейросетевой системы классификации электронных почтовых сообщений // Вестник Казанского государственного энергетического университета. - 2015. - № 1 (25). - С. 68-78.
7. Катасёв А.С., Катасёва Д.В. Формирование нечетких правил фильтрации нежелательных электронных сообщений в инфокоммуникационных сетях / Проблемы техники и технологий телекоммуникаций ПТиТТ-2014. Оптические технологии в телекоммуникациях ОТТ-
2014. Материалы Международных научно-технических конференций. Казань. - 2014. - С. 320-322.
8. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Нейросетевая диагностика аномальной сетевой активности // Вестник технологического университета. -
2015. - Т. 18. № 6. - С. 163-167.
9. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Нейросетевая технология классификации электронных почтовых сообщений // Вестник технологического университета. - 2015. - Т. 18. № 5. - С. 180-183.
10. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Нейросетевое прогнозирование инцидентов информационной безопасности предприятия // Вестник технологического университета. - 2015. - Т. 18. № 9. - С. 215-218.
11. Катасёв А. С., Катасёва Д.В., Кирпичников А.П. Оценка стойкости шифрующих преобразований моноалфавитной замены с использованием генетического алгоритма //
Вестник технологического университета. - 2015. - Т. 18. № 7. - С. 255-259.
12. Катасёв А.С., Катасёва Д.В., Кирпичников А.П., Гуме-рова Р.И. Нейросетевая модель распознавания рукописных символов в системах биометрической идентификации и аутентификации // Вестник технологического университета. - 2016. - Т. 19. № 4. - С. 122-126.
13. Катасёв А.С., Катасёва Д.В., Кирпичников А.П., Евсеева А.О. Нейросетевая модель идентификации ботов в социальных сетях // Вестник технологического университета. - 2015. - Т. 18. № 16. - С. 253-256.
14. Катасёв А.С., Катасёва Д.В., Кирпичников А.П., Кос-тюжов С.Г. Нейросетевая модель распознавания пользователей в системах дистанционного обучения // Вестник технологического университета. - 2015. - Т. 18. № 13. - С. 160-163.
© Д. В. Катасёва - аспирант кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: [email protected]; А. С. Катасёв - к-т техн. наук, доц. кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: [email protected]; А. П. Кирпичников - д-р физ.-мат. наук, профессор, зав. кафедрой интеллектуальных систем и управления информационными ресурсами КНИТУ, e-mail: [email protected]; А. Д. Кабиров - магистрант кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: [email protected].
© D. V. Kataseva - Postgraduate Student of Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: [email protected]; A. S. Katasev - PhD, Associate Professor of Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: [email protected]; А. P. Kirpichnikov - Dr. Sci, Prof, Head of Intelligent Systems & Information Systems Control Department, KNRTU, e-mail: [email protected]; A. D. Kabirov - Master Student of Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: [email protected].
15. Катасёв А.С., Катасёва Д.В., Кирпичников А.П., Семенов Я.Е. Спам-фильтрация электронных почтовых сообщений на основе нейросетевой и нейронечеткой моделей // Вестник технологического университета. - 2015. - Т. 18. № 15. - С. 217-220.
16. Нейдорф Р.А., Кобак В.Г., Титов Д.В. Сравнительный анализ эффективности вариантов турнирного отбора генетического алгоритма решения однородных распределительных задач // Вестник Донского государственного технического университета. - 2009. - Т. 9. - № 3 (42). - С. 410-418.
17. Eremeev A.V. A genetic algorithm with tournament selection as a local search method // Journal of Applied and Industrial Mathematics. - 2012. - Т. 6. - № 3. - С. 286-294.