В.Р. Григорьев, А.П. Никитин
ИСПОЛЬЗОВАНИЕ СТАТИЧЕСКИХ МЕТОДОВ ДЛЯ БИОМЕТРИЧЕСКОЙ ИДЕНТИФИКАЦИИ ПОЛЬЗОВАТЕЛЯ
Рассматривается задача аутентификации пользователя персонального компьютера по его клавиатурному почерку. Предложен подход, позволяющий реализовать систему идентификации пользователя персонального компьютера по особенностям его работы с клавиатурой. Для решения задачи идентификации пользователей предложено использовать статистические методы. Показано, что среди рассмотренных методов наибольшая эффективность для идентификации пользователя достигается путем использования критерия Манна-Уитни.
Ключевые слова: клавиатурный почерк, идентификация пользователя, биометрическая идентификация.
Клавиатурный почерк относится к динамическим (поведенческим) биометрическим характеристикам, описывающим подсознательные действия, привычные для пользователя. Его информативность давно уже стала предметом исследований с точки зрения его использования в задачах идентификации и аутентификации пользователей1.
Задача аутентификации пользователя персонального компьютера возникла практически тогда же, когда появились сами персональные компьютеры. Изначально основным методом решения данной задачи служили пароли или же разнообразные электронные ключи.
Однако минусы данных подходов состоят в том, что их стойкость гарантируется в основном техническими методами и сильно страдает от так называемого человеческого фактора. Ключ может
© Григорьев В.Р, Никитин А.П., 2012
В.Р. Григорьев, А.П. Никитин
быть утерян или украден, а пароль, особенно сложный, забыт или использован другим лицом. Все это может с легкостью привести к компрометации сколь угодно надежной системы безопасности.
В настоящее время доказано, что применение биометрических способов аутентификации пользователя позволяет с высокой эффективностью решать проблемы, присущие традиционным методам аутентификации. В задачах аутентификации пользователя клавиатурный почерк характеризует динамику ввода парольной фразы с помощью клавиатуры. Стандартная клавиатура позволяет измерить следующие временные характеристики: время удержания клавиши нажатой и интервал времени между нажатиями клавиш.
Клавиатурный почерк могут характеризовать и другие параметры, описанные в работе2: общее время набора парольной фразы, частота возникновения ошибок при наборе, факт использования дополнительных клавиш (использование числовой клавиатуры), особенности ввода заглавных букв (использование клавиши Shift или Caps Lock) и т. д.
Использование клавиатурного почерка не требует установки специальных аппаратных средств и кадров для установки и поддержки, является прозрачным для конечного пользователя, т. е. не причиняет неудобств пользователю и позволяет проводить скрытую аутентификацию. Клавиатурный почерк также позволяет проводить реаутентификацию для подтверждения личности пользователя перед выполнением критичных операций. Кроме того, клавиатурный почерк обладает всеми преимуществами, присущими биометрическим методам аутентификации3.
Так как для аутентификации пользователя используются такие параметры, которые не могут быть переданы другому лицу, забыты или потеряны, то это позволяет сильно снизить влияние человеческого фактора на систему безопасности и тем самым повысить предсказуемость ее поведения и надежность. Также в силу высокой индивидуальности этих данных (например, вероятность того, что у двух людей будут одинаковые отпечатки пальцев, составляет 2,4*10-7) возможно построение на их основе систем идентификации пользователей, что представляется совершенно невозможным при использовании традиционных методов.
Таким образом, разработка новых методов биометрической идентификации пользователя сохраняет актуальность и на сегодняшний день.
Использование статических методов для биометрической идентификации...
Далее в данной работе будет предложен метод применения статистических критериев для идентификации пользователя посредством использования динамических биометрических параметров (клавиатурного почерка).
Идентификация личности по клавиатурному почерку
Одной из достаточно сложных задач, повседневно решаемых многими людьми, является быстрый ввод текстов с клавиатуры компьютера. Обычно быстрого клавиатурного ввода информации удается достичь за счет использования всех пальцев обоих рук, при этом у каждого человека появляется свой уникальный клавиатурный почерк. Следует подчеркнуть, что уникальный личный почерк вырабатывается и при ежедневном решении более простой задачи передачи информации кодом Морзе, что использовалось ранее для идентификации личности телеграфиста по его почерку.
Современные исследования показывают, что клавиатурный почерк пользователя обладает некоторой стабильностью, что позволяет с достаточной вероятностью идентифицировать пользователя, работающего с клавиатурой. Применение способа идентификации по клавиатурному почерку целесообразно только по отношению к пользователям с достаточно длительным опытом работы с компьютером и сформировавшимся почерком работы на клавиатуре. В противном случае вероятность неправильного опознания легального пользователя существенно возрастает и делает непригодным данный способ идентификации на практике. Исходя из теории машинописи и делопроизводства, можно определить время становления почерка - работы с клавиатурой, при котором достигается необходимая вероятность идентификации пользователя, примерно 6 месяцев.
Данный метод идентификации пользователя представляет наибольший интерес с точки зрения практического применения в связи со следующими его особенностями по сравнению с другими перечисленными методами:
• отсутствие необходимости в дополнительном оборудовании;
• возможность динамического контроля психофизического состояния оператора ЭВМ;
• незаметность и прозрачность метода сбора данных.
В.Р. Григорьев, А.П. Никитин
Задача биометрической идентификации
Основное отличие задачи аутентификации от задачи идентификации состоит в том, что не пользователь должен доказывать свою личность, а система - распознавать пользователя. Наиболее серьезные различия между данными задачами проявляются тогда, когда ставится задача незаметной для пользователя идентификации. Требование незаметности процедуры идентификации накладывает серьезные ограничения на выбор методов решения данной задачи. Например, становится невозможным использование любых методов, требующих от пользователя каких-либо специфических действий, прямо указывающих на проведение процедуры идентификации.
Необходимость незаметности задачи идентификации может быть обусловлена следующими причинами: 1) проверка легитимности пользователя, зарегистрированного ранее каким-либо другим способом; 2) проведение мероприятий, направленных на борьбу с противоправными действиями отдельных граждан.
Еще более усложняет задачу требование незаметной идентификации пользователя удаленного персонального компьютера. Очевидно, что невозможно гарантировать на удаленном компьютере наличие какой-либо специализированной аппаратуры, предназначенной для проведения процедуры идентификации. Несмотря на широкое распространение встроенных в компьютер и внешних по отношению к нему веб-камер, строить универсальную систему идентификации на их основе в настоящее время нельзя, потому что данное устройство не является обязательным для каждого персонального компьютера. Таким образом, единственно возможными остаются динамические способы идентификации, основанные на использовании стандартных устройств компьютера -клавиатуры и мыши.
Задача незаметной идентификации пользователя удаленного персонального компьютера имеет ряд особенностей, влияющих на выбор конкретного метода ее решения, по сравнению с задачей аутентификации, успешно решаемой в последнее время:
- различное оборудование компьютеров, на которых может работать пользователь;
- использование для идентификации различных текстов и сравнение их с контрольным;
- вероятность того, что текст, применяемый для идентификации, не будет являться осмысленным.
Использование статических методов для биометрической идентификации.
Подводя итог всему вышесказанному, можно утверждать, что идентификация пользователя по его клавиатурному почерку представляет собой практически единственный на сегодняшний день способ решения задачи незаметной идентификации пользователя персонального компьютера.
Алгоритм идентификации пользователя
Для проведения процедуры идентификации пользователя необходимо создать формализованный образ его действий - некий набор параметров, позволяющих однозначно определить пользователя. В данной работе предлагается использовать следующий набор параметров:
• время удержания каждой клавиши;
• время между нажатием на первую и на последнюю клавиши сочетания из п клавиш;
• время между нажатием первой и отпусканием последней клавиши сочетания из п клавиш.
Образ пользователя имеет ряд параметров, каждый из которых является случайной величиной. Совокупность значений одного параметра для каждого конкретного текста назовем вектором. Почерк является психологической характеристикой, и поэтому можно утверждать, что распределение его параметров в общем случае нормально4.
Для проверки нормальности распределения существует целый ряд критериев. В данной работе для проверки нормальности распределения использован критерий Жака-Бера. Выбор данного критерия обусловлен тем, что обычно применяемые критерии дают большие погрешности на выборках малой длины5.
Для проверки нормальности распределения по критерию Жака-Бера используется тот факт, что у нормального распределения коэффициент асимметрии равен нулю, а эксцесс равен 3, отклонение этих величин от нормальных значений служит мерой отклонения распределения от нормального. На основе выборки из параметров строится статистика Жака-Бера:
2
]Ъ = Т-\52 + "К"^), (1)
где Т - количество наблюдений; к - количество оцениваемых в модели параметров;
В.Р. Григорьев, А.П. Никитин
К - эксцесс;
5 - коэффициент асимметрии.
В случае если распределения всех параметров будут нормальными, то для сравнения двух образов клавиатурного почерка возможно применение ^критерия Стьюдента.
Если нет уверенности в нормальности исследуемых распределений, имеет смысл обратиться к непараметрическому тесту -и-критерию Манна-Уитни6.
Проведя ряд экспериментов, мы установили, что многие распределения параметров образа пользователя не являются нормальными. Таким образом, использование ^критерия Стьюдента невозможно.
Алгоритм сравнения образов пользователей
Сначала строится пересечение7 сравниваемых образов. В результате в обоих образах остаются только общие параметры (буквы и п-граммы). Далее удаляются те параметры, векторы которых насчитывают менее пяти значений8. Затем для каждой пары параметров образов проверяется равенство медиан и вычисляется общее количество пар, у которых медианы совпадают. Итогом теста являлось число К = Ут / п, где Ут - число пар элементов, медианы которых не совпали, а п - общее количество параметров в сравниваемых образах. Назовем К коэффициентом различия образов пользователей.
Таким образом, используя описанный выше алгоритм, получаем степень численного различия двух образов, на основании которого возможна идентификация пользователя.
Экспериментально были установлены следующие границы для коэффициента различия образов пользователей.
К < 0,2 - образы принадлежат одному пользователю с уровнем достоверности 3а.
К > 0,2 - образы принадлежат разным пользователям с уровнем достоверности 3а.
Ошибки процедуры идентификации
На корректность процедуры идентификации пользователя по клавиатурному почерку приведенным выше методом влияют недостаточная длина текста; различные тексты; оборудование и программное обеспечение.
Использование статических методов для биометрической идентификации.
Таблица
Экспериментальные ошибки первого и второго рода для различных методов сравнения параметров клавиатурного почерка
Один текст, Один текст, Разные тексты, Разные тексты,
одинаковое оборудование разное оборудование одинаковое оборудование разное оборудование
^ч. Ошибка
Мето^ч 1-го 2-го 1-го 2-го 1-го 2-го 1-го 2-го
сравнения образов рода рода рода рода рода рода рода рода
Расстояние 0,12 0,014 0,75 0,27 0,67 0,24 0,8 0,39
Эвклида
Коэффициенты 0,09 0,007 0,24 0,11 0,15 0,05 0,56 0,13
корреляции Спирмена и Пирсена
и-критерий Мана-Уитни. 0,01 0 0,06 0 0,04 0 0,09 0,008
Различные тексты имеют различное частотное распределение букв и сочетаний, что ведет к сокращению параметров образов при построении пересечения. Таким образом, это усложняет задачу идентификации. Очевидно, что это практически не влияет на «короткие»9 параметры, но оказывает заметное воздействие на длинные сочетания букв, которые могут серьезно различаться для двух текстов, на которых происходит сравнение почерка. Все эти факторы ведут к появлению ошибок.
Экспериментально установленные ошибки первого и второго рода для описанных выше методов сравнения двух образов клавиатурного почерка представлены в таблице.
Предложенный в настоящей работе подход позволил перехватывать символы, вводимые не только с физической клавиатуры, но и при использовании экранных клавиатур. Также опытным путем было установлено, что антивирусные приложения (в том числе работающие в режиме контроля реестра ОС и динамического контроля состояния системы) не классифицируют работу данного программного комплекса как потенциально опасный процесс, что
В.Р. Григорьев, А.П. Никитин
связано с использованием штатных функций ОС семейства Windows, предназначенных для обработки системных сообщений. Таким образом, становится возможной доработка модуля для решения задачи незаметного для пользователя процесса идентификации.
Заключение
Проведен сравнительный анализ возможности использования статистических критериев для решения актуальной задачи идентификации пользователя по его клавиатурному почерку. Доказана корректность выбора критерия Жака-Бера для сравнения образов почерков пользователей.
Разработан программный комплекс, способный идентифицировать пользователя по его работе с клавиатурой. В результате проведения ряда экспериментов по идентификации пользователей в различных условиях было установлено, что вероятность успешной идентификации пользователя при использовании данного комплекса составляет не менее 0,91.
Проведенные эксперименты показывают, что применение данного метода позволяет решить задачу незаметной идентификации пользователя. Также показано, что созданный комплекс позволит в будущем изменять как методы сбора данных, так и методы сравнения образов почерков, что существенно повышает эксплуатационную гибкость данного комплекса.
Исходя из результатов, представленных в данной работе, сделан вывод, что идентификация по клавиатурному почерку является актуальной и перспективной темой, требующей многоаспектного исследования возможности использования для этой задачи биометрических методов. Дальнейшие разработки, возможно, сделают идентификацию по клавиатурному почерку столь же распространенной процедурой, как и графологическая идентификация по рукописному почерку. Такой подход в перспективе может стать еще одним надежным инструментом выявления попыток НСД к защищаемым информационным ресурсам.
Использование статических методов для биометрической идентификации...
Примечания
1 См.: Иванов А.И. Нейросетевые алгоритмы биометрической идентификации
личности. М.: Радиотехника, 2004. 143 с; См.: ГОСТ Р 52633-2006 «Защита информации. Техника защиты информации. Требования к средствам высоконадежной биометрической аутентификации». [Электронный ресурс] [М., 2006] URL: http://faculty.ifmo.ru/csd/files/52633-2006.pdf (дата обращения: 06.02.2012); См.: Трушин Е.А. Идентификация пользователя ЭВМ по клавиатурному почерку как метод защиты от несанкционированного доступа. [Электронный ресурс] [М., 1997] URL: http://www.securityclub.ru/ (дата обращения: 06.02.2012).
2 См.: Иванов А.И. Указ. соч.
3 См.: ГОСТ Р 52633-2006.
4 См.: Сидоренко Е.В. Методы математической обработки в психологии. СПб.,
2002. 350 с.
5 См.: Fay M.P., Proschan M.A. Wilcoxon-Mann-Whitney or t-test? On assumptions for
hypothesis tests and multiple interpretations of decision rules // Statistics Surveys. 2010. № 4. P. 1-39.
6 См.: Mann H.B., Whitney D.R. On a test of whether one of two random variables
is stochastically larger than the other // Annals of Mathematical Statistics. 1947. № 18. P. 50-60.
7 Здесь имеется в виду пересечение в смысле множеств.
8 См. требования критерия Мана-Уитни.
9 Буквы и сочетания из двух и трех букв.