Газин А.И., Безяев А. ВСериков И.В., Вахромеев А.А. ОСОБЕННОСТИ ТЕСТИРОВАНИЯ СРЕДСТВ ВЫСОКОНАДЕЖНОЙ БИОМЕТРИЧЕСКОЙ АУТЕНТИФИКАЦИИ, ИСПОЛЬЗУЮЩИХ ДИНАМИЧЕСКИЕ ОБРАЗЫ
Рассмотрены основные этапы подготовки и проведения тестирования средств высоконадежной биометрической аутентификации, разработанных в соответствии с требованиями базового стандарта ГОСТ Р 52633.0 - 2006
В настоящее время в бурно развивающейся сфере информационно-коммуникационных технологий обозначился целый ряд проблем. Наиболее важными из них - это надежная защита информации в открытом информационном пространстве и высоко достоверная локальная и дистанционная аутентификация пользователей.
На уровне государственных структур данные проблемы вполне разрешимы за счет использования апробированных криптографических механизмов. Использование этих механизмов для каждого члена нашего общества становится затруднительным в плане генерации, хранения, смены и уничтожения ключей.
Одним из путей решения названных выше проблем стало внедрение зарубежных средств идентификации на основе анализа биометрических признаков человека. В данных средствах в основном были использованы статические биометрические образы: папиллярные рисунки отпечатка пальца, данные отображения лица, сетчатки глаза.
Их основными недостатками являются: открытость биометрического образа, его доступность, невозможность изменения биометрического образа по желанию самого пользования.
Динамические биометрические образы (рукописный почерк, голос, клавиатурный почерк) могут быть легко изменены самим пользователем, например сменой слова (фразы) - пароля, но обладают большой нестабильностью их повторения, а отсюда и высокой вероятностью возникновения ошибки второго рода Р2 (пропуска «Чужого»).
Недостатки зарубежных средств идентификации компенсируются наличием обязательного контроля специального персонала, принимающего окончательное решение.
Россией в период с 1998 по 2005 г.г. впервые в мировой практике обоснован и предложен путь использования высокоразмерных искусственных нейронных сетей в средствах высоконадежной биометрической аутентификации. К ним относятся средства биометрической аутентификации, способные принимать аутентификационное решение высокой надежности, имеющие в своем составе: биометрические механизмы
преобразования биометрических данных в вектора биометрических параметров большой размерности, преобразователи биометрия-код ключа (пароля), механизмы криптографической аутентификации [1].
Основные достоинства данных средств:
- использование нечетких (размытых) динамических биометрических образов: написание (произнесение) рукописного (голосового) слова (фразы) - пароля, клавиатурный почерк пользователя;
- высокую стойкость средств аутентификации за счет использования нейросетевых преобразователей биометрия-код;
- простота ввода и смены пароля (парольной фразы);
- возможность реализации автоматической, высоконадежной локальной и дистанционной аутентификации пользователя;
- безопасное хранение и передача по незащищенным каналам связи биометрических шаблонов пользователя;
- низкая стоимость.
Основной недостаток - значительные затраты временных людских и материальных ресурсов при тестировании и сертификации данных средств.
Разрабатывая свою политику в создании средств биометрической аутентификации, Россия не должна повторять ошибки зарубежных разработчиков и производителей данных средств. Анализ открытых источников [2, 3] свидетельствует о том, что отсутствие нормативной базы в данной области знаний при
разработке, создании и тестировании данных средств привело к тому, что в настоящее время затруднен процесс их использования в юридически значимых приложениях.
Первоначально зарубежные средства биометрической идентификации создавались по заказу отдельных лиц и организаций для решения определенных узких задач с небольшим числом идентифицируемых лиц. Вопрос об интеграции или совместимости с другими системами не стоял. Тестирование зачастую проходило в узких рамках отдельных работ, по сокращенным частным методикам, единые подходы к организации его процесса не рассматривались. Зачастую вопрос стандартизации решался после разработки и производства средств.
Из-за больших финансовых затрат на разработку самих систем биометрической аутентификации вопрос тестирования с использованием больших баз реальных биометрических образов не ставился. Потому что затраты на их создание требовали больших вложений, чем разработка самого средства идентификации, что не под силу даже большим компаниям [2]. Поэтому тестирование проводилось на математических моделях или с использованием малых баз. Тестирование с использованием этих баз, по признанию самих исследователей, не имело статистической значимости [2].
Без создания нормативно-правовой базы, решения вопросов создания баз биометрических образов, разработки и проведения процедур тестирования нельзя в полной мере ответить на главный вопрос -реальной стойкости средства биометрической идентификации/аутентификации личности. Не случайно Европейская комиссия объявила о старте проекта BioTesting Europe (http://biometrics.ru). Особое внимание в данном проекте уделяется обеспечению совместимости масштабных государственных систем управления идентификацией - биометрических паспортов, биометрических виз, биометрических идентификационных карт, удостоверяющих личность граждан стран-членов ЕС на территории самих этих государств. Изменение этих вопросов будет идти на пяти уровнях: уровне систем, подсистем, аппаратных средств, процессов идентификации и «человеческих ресурсов» (подготовка и обучение персонала). Собственно технологические аспекты тестирования биометрических систем подразумевают изменение вопросов их совместимости, производительности (точности и скорости идентификации), соответствия стандартам, стойкости по отношению к внешним воздействиям и интерфейсов взаимодействия с пользователями.
Результаты проведенных исследований показали, что существующие зарубежные методики тестирования непригодны для средств высоконадежной биометрии и что их тестирование достаточно сложная многокритериальная задача [4 - 6].
Для определения путей экономии ресурсов при тестировании построена иерархическая структура системы высокоразмерной биометрической аутентификации (рисунок 1).
Рис. 1. Иерархическая структура системы высоконадежной биометрической аутентификации Первый этап включает в себя тестирование преобразователя биометрия-код после каждого обучения искусственной нейронной сети (подсистема тестирования преобразователя биометрия-код) , в соответствии с требованиями ГОСТ Р [1]. Обучение искусственной нейронной сети должно осуществляться автоматически (без вмешательства человека в процесс подбора параметров искусственной нейронной сети), пользователь должен иметь гарантии того, что его длинный пароль (ключ), участвующий в обучении, не будет скомпрометирован.
Для обучения высокоразмерной искусственной нейронной сети были разработаны быстрые алгоритмы обучения [5]. Их особенностью является послойное обучение нейронов искусственной нейронной сети. При этом решается только линейная часть задачи (нахождение только оптимальных весовых коэффициентов сумматоров). Нелинейную модификацию найденного нейросетевого линейного решения предложено осуществлять по заранее построенным таблицам оптимизации параметров нелинейных элементов искусственных нейронов. В этом случае сложность задачи обучения высокоразмерных искусственных нейронных сетей оказывается квадратичной. Вычислительная сложность оказывается не выше кубической при наихудшем по быстродействию алгоритме определения оптимальных весовых коэффициентов через обращение ковариационных матриц. При обучении весовые коэффициенты искусственной нейронной сети подбираются автоматом обучения таким образом, чтобы при появлении на входах искусственной нейронной сети элементов вектора «Свой» на выходах нейросети появлялся длинный пароль (ключ). При появлении на входах нейросети векторов данных, соответствующих образам «Чужой», на выходах нейросети должны появляться случайные состояния - «белый шум». Обучение осуществляется путем поочередного предъявления образов «Свой» и «Чужие» с промежуточным подбором коэффициентов.
Использование существующих алгоритмов, осуществляющих обучение низкоразмерных многослойных искусственных нейронных сетей за десятки часов неприемлемо для высокоразмерных многослойных искусственных нейронных сетей.
Исследования показали, что быстрые алгоритмы позволяют обучать трехслойную искусственную нейронную сеть, преобразующую 416 входных параметров рукописного биометрического слова-пароля из
пяти букв в пароль из 32 случайных знаков (ключ длиной 25 6 бит), за время менее одной минуты. При этом стойкость к атакам подбора рукописного слова-пароля, возрастает с 102 до 1022 [6].
Это связано с тем, что пользователь может неосознанно выбрать «слабое» слово-пароль и получить недостаточную стойкость средства. После каждого обучения высоконадежное средство биометрической защиты должно автоматически осуществлять экспресс контроль своей стойкости и предупреждать пользователя о значении реальной стойкости его биометрического образа. Рекомендуемая длина ключа от числа знаков в слове-пароле приведены в приложении А2 ГОСТ Р [1].
После обучения системы биометрико-нейросетевой аутентификации необходимо оценить качество обучения. Оцениваются вероятность ошибки первого рода Р1 и вероятность ошибки второго рода Р2. Это необходимо потому, что пользователи на практике стараются облегчить себе процедуру биометрической аутентификации, например, необоснованно сократить длину своего рукописного пароля. Пользователи также имеют разную стабильность воспроизведения их биометрического образа. Кроме того, уникальность (информативность) биометрических образов разных людей различна. Стойкость конкретного биометрического образа пользователя является функцией его длины, стабильности, уникальности. Пользователь должен знать реальные оценки стойкости к атакам подбора конкретной реализации биометрической аутентификации после ее обучения, построенной на воспроизведении конкретного тайного биометрического образа. Тестирование осуществляют, используя N1 -тестовых примера векторов образов «Свой» и ^-тестовых примера векторов образов «Чужой». Структурная схема тестирования приведена на рисунке 2 [1].
Рис. 2. Структурная схема тестирования высокоразмерной системы биометрико-нейросетевой аутентификации после обучения
Следующим этапом стало тестирование самого средства биометрической аутентификации. Цель - подтверждение заявленных производителем характеристик стойкости устройств к атакам подбора ключа. Оказалось, что высоконадежные биометрические средства со стойкостью 1012 и выше проще создать, чем проверить их стойкость прямым численным экспериментом [6, 7]. При тестировании биометрических
устройств с вероятностью появления ошибок второго рода Р2 * 10-2 объем базы биометрических образов должен составлять N > 1000; сбор и обработка такой базы не составляет особого труда, не требуется много времени на формирование и тестирование с использованием этой базы. Положение резко меняется, когда заявленная ошибка второго рода Р2 * 10-12, тогда объем базы биометрических образов должен составлять N > 1013: сбор и обработка биометрической базы рукописных образов объемом 1013
(ввод и обработка одного пакета образов (20 образов) - 40 секунд) - 1,3-107 лет [6].
Ресурсы обычных вычислительных машин позволяют эмулировать 3000 сетей в секунду при атаках на
белом шуме, обрабатывать порядка 30 образов в секунду при извлечении из них 416 коэффициентов Фурье на коррелированных данных (данные программного продукта «Нейрокриптон 1.1» ФГУП Пензенский научно-исследовательский электротехнический институт. При такой производительности на обычной вычислительной машине потребуется 10 лет на перебор 1012 возможных вариантов при эмуляции атак «белого шума». На эмуляцию атак коррелированными данными потребуется 1000 лет [6].
В настоящее время методов ускоренного тестирования высоконадежных нечетких (непрерывных) нейросетевых преобразователей нет ни России, ни в США. Существующие методы криптоанализа и реализации планирования атак подбора криптографического ключа для анализа биометрико-нейросетевой защиты непригодны.
Современная криптография рассматривает конечные дискретные поля высокой размерности. Нейросе-тевые преобразователи работают с континуумами полей высокой размерности.
Для подготовки тестирования в соответствии с ГОСТ Р [1, 7] были созданы и исследованы реальные
базы биометрических образов достаточно больших размеров.
Для этого были определены и разработаны требования к представительности реальных биометрических баз рукописных образов; к преобразователям рукописных биометрических образов в электронные образы; к выбору длины рукописного слова-пароля и формированию словаря парольных слов; к программному обеспечению автоматизированного формирования базы рукописных биометрических образов; к условиям формирования базы рукописных биометрических образов; к испытуемым, персоналу и ведению отчетных документов.
Под каждый тип биометрических образов были сформированы свои критерии представительности тестовой выборки.
В качестве критериев представительности были предложены [6]: статистические характеристики
среднестатистического пользователя по биометрическому параметру (математическое ожидание, среднеквадратическое отклонение, коэффициенты корреляции); статистические характеристики среднего по некоторой группе пользователей, выделенной по некоторому биометрическому параметру (математическое ожидание, среднеквадратическое отклонение, коэффициенты корреляции); представительность по численности групп пользователей, классифицированных по некоторому биометрическому параметру.
В качестве биометрических параметров были предложены: стабильность, уникальность, стойкость к
атакам подбора.
Результаты исследований показали, что пользователи в группах были распределены на 7 классов, один из примеров приведен на рисунке 3 [6].
по классам средней
0,721
Рис.3. Процентное распределение биометрических рукописных образов "Свой" стабильности
Для больших баз биометрических образов, собранных по специальным методикам, закон распределения близок к нормальному. Знание функции закона распределения значений выходных кодов многомерных нейросетевых преобразователей позволяет на десятки порядков снизить число тестовых примеров, используемых при численных статистических экспериментах [9].
Тестирование высоконадежных средств биометрико-нейросетевой аутентификации выполненных в соответствии с [1] требует использования от сотен тысяч до миллионов примеров биометрических образов. При этом некоторые классические проверенные на практике методики [7] оптимизации статистических вычислений перестают корректно работать. Незначительные расхождения, не оказывающие сколько-нибудь существенного влияния на выборках из 400 образов, вносят существенную ошибку при 400 000 образов.
Поэтому проблема оптимизации числа степеней свободы при проверке гипотезы нормального закона распределения значений статистических данных по критерию х2 становится актуальной и потребовала более детального рассмотрения.
Оптимизация числа степеней свободы обусловлена тем, что при выборе малого количества столбиков, гистограмма не чувствует изменения формы закона. Например, при использовании всего двух столбиков метод вообще не чувствует вариации распределения, т.е. половина всех данных попадает в первый диапазон, а другая половина данных попадает во второй диапазон. В случае же использования большого количества столбиков, вероятность попадания значения в интервал очень низкая. Чем больше интервалов, тем ниже вероятность попадания в данный интервал. Обычно при выборе числа столбиков
обычно используют т= л/Й , где п - число экспериментов. Традиционный способ выбора числа степеней свободы (числа столбцов гистограммы) на больших выборках дает ошибку порядка 50%.
На рисунках 4 и 5 представлены аппроксимации нормального закона распределения гистограммами с выбранными нами оптимальным числом интервалов т=9 при количестве проведенных опытов п=^ (рисунок 1) и п=100 (рисунок 2).
При этом в классических вариантах для определения закона распределения статистических характеристик число опытов принято брать порядка 3 00...5 00 [5, 6, 7]. При указанном выше числе опытов по-
грешности аппроксимации нормального закона (рисунок 3) (заштрихованные «треугольники») не учитываются.
Рис.4. График аппроксимации нормального закона идеальной гистограммой с оптимальным числом интервалов (степеней свободы)
Рис. 5. Полученная гистограмма, аппроксимирующая нормальный закон на конечном числе опытов В связи с тем, что нам приходится исследовать статистическое распределение выходных параметров нейросетевых преобразователей биометрия-код, имеющих значительно большую размерность (порядка 109 и выше), то для получения правильного решения количество опытов должно быть увеличено. В нашем случае было использовано 1500 опытов. При этом увеличивается и количество степеней свободы и,
соответственно, изменяется ошибка аппроксимации. В нашем случае при п=50, получены следующие результаты: т=7, Е(т)=0,22. Для п=1500, т=20, Е(т) =0,06. (Рисунок 6).
Таким образом, при увеличении числа опытов в 30 раз, число степеней свободы увеличивается почти в 3 раза, ошибка аппроксимации уменьшилась почти в 3,6 раза. Но не учитывать данную ошибку, мы не имеем права, так как число реальных опытов по определению статистического распределения выходных параметров преобразователей биометрия-код будет значительно больше 1500.
Е(и)‘
1,6
1,4
1,2'
*8 1 д
О 0,8 0,6 0,4 0,2
0 т
0 5 10 15 20 25 30
Число степеней свободы
Рисунок 6 - Графики ошибки аппроксимации и ошибки из-за конечного числа опытов (п=50 и п=150 0)
Для выбора оптимального числа степеней свободы по критерию х2 при проверке гипотезы нормальности распределения выходных параметров преобразователей биометрия-код очень важно определить связь между количеством опытов, количеством степеней свободы и ошибкой аппроксимации, т.е. вычислить результирующую погрешность [6]. Как видно из графиков рисунка 6 погрешности носят случайный характер. Поэтому оптимальным будет взять эти оценки по модулю, а затем произвести их сложение. В результате они будут иметь явно выраженный минимум. Этот минимум и будет являться искомой точкой оптимальности.
Проведенные исследования [6] показали, что при проверке гипотезы нормального распределения значений для преобразователей биометрия-код выбор числа степеней свободы по правилу ->/П даёт верные результаты при п порядка 3 0 0 опытов. Ошибка в выборе число степеней свободы для 2000 опытов составляет 33% . По л/П - 4 5 столбиков, а по (1) - 30. Так как число столбиков уменьшается,
то, следовательно, в каждый столбик попадёт больше опытов, поэтому и общая ошибка вычислений уменьшается.
Благодаря данному подходу, удается получить более достоверные результаты тестирования высокоразмерных преобразователей биометрия-код.
ЛИТЕРАТУРА
1. ГОСТ Р 52633.0-2006 «Защита информации. Техника защиты информации. Требования к высоконадежным средствам биометрической аутентификации».
2. Руд, Б. Руководство по биометрии / Б. Руд. - М. : Техносфера, 2007. - 368 с.
3. О проблеме ресурсов при тестировании стойкости высоконадежных биометрических технологий /
В. И. Волчихин, А. Ю. Малыгин, М. Ю. Лупанов, А. В. Семенов / / Вопросы з ащиты информации. - М. :
Изд-во ВИМИ, 2006. - № 4. - С. 15-16.
4. Иванов А.И. Нейросетевые алгоритмы биометрической идентификации личности. - М : Радиотехника, 2004. - 144 с. - (Серия «Нейрокомпьютеры и их применение» Кн. 15).
5. Волчихин В.И. Быстрые алгоритмы обучения нейросетевых механизмов биометрикокриптографической защиты информации. Монография / В.И.Волчихин, А.И.Иванов, В.А.Фунтиков, -Из-во ПГУ, Пенза -2005 г. -276 с.
6. Малыгин А.Ю., Волчихин В.И., Иванов А.И., Фунтиков В.А. Быстрые алгоритмы тестирования высоконадежных нейросетевых механизмов биометрико-криптографической защиты информации. Монография.
- Пенза: Изд-во Пенз. гос. ун-та, 2006. - 160 с.
7. ГОСТ Р 50779.21-2004 «Статистические методы. Правила определения и методы расчета статистических характеристик по выборочным данным. Часть 1. Нормальное распределение».