Научная статья на тему 'Гистограммный метод распознавания клавиатурного почерка'

Гистограммный метод распознавания клавиатурного почерка Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
4883
383
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАВИАТУРНЫЙ ПОЧЕРК / АУТЕНТИФИКАЦИЯ / БИОМЕТРИЧЕСКИЕ ПАРАМЕТРЫ / СТАТИСТИЧЕСКИЕ МЕТОДЫ / НЕПАРАМЕТРИЧЕСКОЕ ОЦЕНИВАНИЕ / ПЛОТНОСТЬ РАСПРЕДЕЛЕНИЯ / ГИСТОГРАММНЫЙ МЕТОД РАСПОЗНАВАНИЯ / KEYBOARD WRITING STYLE / AUTHENTICATION / BIOMETRICS AND STATISTICAL METHODS / HISTOGRAM METHOD OF RECOGNITION / NONPARAMETRIC ESTIMATION / THE DENSITY DISTRIBUTION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Брюхомицкий Юрий Анатольевич

Предлагается метод распознавания клавиатурного почерка личности, который состоит в разбиении области распределения клавиатурных признаков на многомерные прямоугольные области и получении оценки плотности распределения как взвешенной суммы распределения признаков по областям. Преимущество метода состоит в сочетании простоты и точности распознавания.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

HISTOGRAM RECOGNITION KEYBOARD WRITING STYLE

We propose a method of handwriting recognition keyboard person, co-tory is to break the allocation of key-features on the multi-dimensional rectangular region and the derivation of the density distributions of a weighted sum of the distribution characteristics of areas. The advantage of the method is a combination of simplicity and accuracy of recognition.

Текст научной работы на тему «Гистограммный метод распознавания клавиатурного почерка»

Раздел II. Защита информационных процессов в компьютерных системах

УДК 004.065

Ю.А. Брюхомицкий

ГИСТОГРАММНЫЙ МЕТОД РАСПОЗНАВАНИЯ КЛАВИАТУРНОГО

ПОЧЕРКА*

Предлагается метод распознавания клавиатурного почерка личности, который состоит в разбиении области распределения клавиатурных признаков на многомерные прямоугольные области и получении оценки плотности распределения как взвешенной суммы распределения признаков по областям. Преимущество метода состоит в сочетании простоты и точности распознавания.

Клавиатурный почерк; аутентификация; биометрические параметры; статистические методы; непараметрическое оценивание; плотность распределения; гистограммный метод распознавания.

Y.A. Bryukhomitsky HISTOGRAM RECOGNITION KEYBOARD WRITING STYLE

We propose a method of handwriting recognition keyboard person, co-tory is to break the allocation of key-features on the multi-dimensional rectangular region and the derivation of the density distributions of a weighted sum of the distribution characteristics of areas. The advantage of the method is a combination of simplicity and accuracy of recognition.

Keyboard writing style; authentication; biometrics and statistical methods, nonparametric estimation, the density distribution; histogram method of recognition.

Контроль доступа в компьютерные системы, реализуемый на основе анализа клавиатурного почерка (КП), имеет ряд неоспоримых преимуществ. Главными из них являются: минимальная в классе биометрических средств стоимость, удобство использования, возможность эффективного сочетания с другими средствами контроля доступа, в частности парольными. К недостаткам биометрических средств этого класса принято относить: недостаточную для самостоятельного использования точность, зависимость результатов от психофизического состояния личности, наличие определенного уровня навыков работы на клавиатуре.

В данной работе обсуждается один из возможных подходов к повышению точности клавиатурных средств аутентификации, основанный на использовании особенностей статистических методов распознавания.

Принцип аутентификации пользователя, претендующего на доступ в компьютерную систему, по его КП заключается в проведении анализа КП при вводе некоторой контрольной фразы и вынесении по результатам анализа соответствующего решения. Исходными данными для проведения анализа являются особенности динамики работы на клавиатуре данного пользователя, представленные в виде совокупности контролируемых клавиатурных параметров. Анализ состоит в фор-

* Работа выполнена при поддержке гранта РФФИ № 08-07-00117-а.

мировании текущих клавиатурных параметров идентифицировавшего себя пользователя и сравнении их с эталонными клавиатурными параметрами пользователя с тем же именем, сформированными ранее, на этапе его регистрации.

Отправной точкой при создании методов и средств аутентификации личности по КП является принятый способ представления и использования индивидуальных клавиатурных параметров. Определим этот способ.

Пусть с клавиатуры пользователем за период времени Т вводится некоторая контрольная фраза, содержащая q символов. При вводе этой фразы произойдет г = q + р событий клавиатуры: q удержаний клавиш и р = q - 1 пауз между удержаниями. При большой скорости ввода возможны наложения времен удержания клавиш, когда нажатие очередной клавиши предшествует отпусканию предыдущей клавиши. Будем интерпретировать такой вид событий клавиатуры, как отрицательные значения длительности пауз между удержаниями.

Введем обозначения:

т, - значение длительности удержания клавиши ,, причем т,- > 0;

Ту - алгебраическое значение длительности паузы между удержаниями клавиш , и ]. То есть Ту > 0 для обычной паузы и т,у < 0 при наложении времен удержаний клавиш.

Процесс ввода некоторой контрольной фразы, для которой г = 11, q = 6, р = 5, иллюстрируется временной диаграммой (рис. 1).

Временная раскладка процесса клавиатурного ввода контрольной фразы в виде сочетаний длительностей удержания клавиш: т1, т2, т3, ..., тп и длительностей пауз между удержаниями: т12, т23, т34, ...., Т(п-1)п индивидуальна для каждого пользователя и выступает в качестве эталона КП.

Рис. 1. Временная диаграмма процесса ввода контрольной фразы

Поставим в соответствие результату клавиатурного ввода контрольной фразы, временная диаграмма которого показана на рис. 1, г-мерный вектор биометрических (клавиатурных) параметров

V = { V ] = Т/г,

каждый компонент которого соответствует длительности любо-

го очередного события клавиатуры (будь то удержание клавиши или пауза между удержаниями), произошедшего за период времени Т. События клавиатуры, состоящие в наложении времен удержания клавиш, интерпретируются отрицательными значениями соответствующих компонент вектора . При таком представлении вектор биометрических параметров можно рассматривать как образец КП данного пользователя.

Так, для временной диаграммы, показанной на рис. 1, вектор биометрических параметров будет иметь вид

V = {г^тл,, ...,17ц},

где V! = Ть У2 = Т12; Vз = Т2; У4 = -Т23; V5 = Т3; Уб = Т34; У7 = Т4; У8 = Т45; Уд = Т5;

У10 = т56; У11 = т6.

Для получения клавиатурного эталона какого-либо пользователя необходимо иметь серию из Ь образцов КП этого пользователя, которые составят обучающую выборку образцов 5-класса, соответствующего данному пользователю:

ч м = (V), I = ^г.

В общем случае в системе может быть зарегистрировано множество К = {к1, к2, км} пользователей, каждый из которых будет представлен своим эталоном

КП и соотнесен с одним классом из множества 5 = {51, 52, ..., 5М}. Таким образом, образуется однозначное отображение совокупности пользователей {Л} на множество классов: {5}, т.е. для формирования эталонов всех М легитимных пользователей потребуется М обучающих выборок:

Ч ) . . . ,Ч (;?м)

В режиме аутентификации неизвестный х-пользователь предъявляет обученной клавиатурной системе контроля доступа (КСКД) образец своего КП в виде вектора биометрических параметров . Система должна на ос-

нове вектора V (%) сформировать эталонное описание неизвестного х-класса, сравнить его с эталонами всех зарегистрированных в системе {к1, к2, ..., кМ} пользователей и по результатам сравнения вынести соответствующее решение. В такой постановке фактически решается задача классификации вектора V (%) на М+1 взаимоисключающих классов: М классов из множества 5 = {51, 52, ..., 5М}, соответствующих зарегистрированным в системе пользователям, и (М+1) класс, отведенный всем остальным пользователям, объединенным понятием «чужие».

При наличии в компьютерной системе процедуры предварительной авторизации пользователей задача упрощается и сводится к классификации вектора на

два класса: 5с - «свой», т.е. принадлежащий к какому-либо классу из множества {5}, и 5ч - «чужой», т.е. не принадлежащий ни к одному классу из множества {5}.

Конечной целью обучения КСКД является формирование эталонных описаний классов. Форма этих описаний определяется способом их использования в решающих правилах. Природа данных при анализе КП носит случайный характер, поэтому вид решающих правил обычно заимствуется из теории статистических решений и сводится к формированию отношения правдоподобия условных плотностей распределения и сравнению его с некоторым порогом Сп:

> С (1)

"г(VI 52 ) > п ( )

где - условная совместная г-мерная плотность вероятности выборочных

значений при условии их принадлежности к классу .

Во многих случаях хорошим приближением для аппроксимации распределения векторов является гауссово распределение. Такая аппрок-

симация эффективно используется в параметрических методах классификации [1]. Однако для КП характерны флуктуации контролируемых параметров, обусловленные суточными биоритмами, психофизическим состоянием и другими факторами [2]. Это приводит к тому, что с течением времени нормальное распределение клавиатурных признаков может изменять свои числовые характеристики. В этом слу-

чае приемлемым вариантом его аппроксимации является смешанное гауссово распределение с несколькими центрами.

При более существенных флуктуациях контролируемых параметров, приводящих к изменению закона распределения, применение параметрических методов может существенно увеличить ошибки классификации. В такой ситуации приходится прибегать к непараметрическим методам классификации.

Особенность реализации отношения правдоподобия (1) при непараметрической классификации параметров КП будет состоять в том, что плотности априорно не известны и должны быть представлены своими оценками ,

полученными при обучении на основе образцов векторов , .

Выделим в г-мерном пространстве ограниченную область , содержащую

все образцы обучающей выборки , и приведем эту область к

началу координат.

Определим диапазон изменения каждого компонента для всех образцов обучающей выборки :

^тш = тт^,-{Уг},1 = 1Д;

^тах = тахгтД^},! = ТД;

7 = 17г. ___

Приведенные к началу координат значения всех компонент векторов

образованные как

V,- = V,- — V,- . ,

7 7тах шп^

определяют координаты приведенной г-мерной области распределения векторов

(V) , ^ = ст.

Разобьем область Г на I одинаковых непересекающихся г-мерных прямоугольных подобластей: :

1Г = /[ и Ц и ..., /гг, Ц П // = 0, если I Э у, к = ТТ,

и подсчитаем число образцов обучающей выборки , попавших в каждую подобласть :

, если , и , если .

Теперь можно сделать оценку плотности распределения векторов :

®т=^а=1^, (2)

где - мера области , определяемая по формуле .

В соответствии со свойствами функции плотности вероятности для полученной оценки (2) плотности распределения векторов справедливо соотношение

3)

В качестве примера рассмотрим двумерное (г=2) смешанное гауссово распределение клавиатурных признаков с двумя центрами, представленное обучающей выборкой Ч (л) = (V) , состоящей из Ь=50 векторов.

Выделим в пространстве ограниченную область , содержащую все 50 образцов обучающей выборки , приведем эту область к началу коорди-

нат и разобьем на I = 1 2 одинаковых непересекающихся двумерных прямоугольных подобластей: II,/| ,...,7^ (рис. 1).

Рис. 1. Двумерное смешанное гауссово распределение клавиатурных признаков Оценка плотности распределения векторов (V) будет иметь вид

* 00=^2 И ^ (4)

где .

Матрица распределения 50-ти образцов по 12-ти подобластям будет иметь

вид

%1 ™12 ™із т14 8 7 4 0

М = ™21 ™22 ™2з т24 = 2 6 9 4

ИІ31 т33 т34 0 0 4 6

Гистограмма оценки плотности распределения векторов / (V) , отражающая вычисления по формуле (4), приведена на рис. 2.

Рис. 2. Гистограмма оценки плотности распределения векторов / (К)

Имея оценки плотности Й>г (К I Б;), Б; = ТТТТ, можно строить правило для принятия аутентификационного решения. Наиболее общий подход для построения такого правила разработан в теории статистического распознавания и основан на формировании отношения правдоподобия

_ _ Wr(V | 5Х)

%(У | 5С)'

где (V | бж) - оценка плотности распределения биометрических параметров V (%)

неизвестного пользователя; й>г (К | Бс) - оценка плотности распределения биометрических параметров «своего» пользователя.

Само решающее правило будет иметь вид

_ Г Бс, если С > Сп;

( Бч, если С < Сп,

где п - значение порога, выбираемое с учетом ошибок первого рода.

Очевидно, что точность классификации на основе гистограммного метода будет сильно зависеть от выбора числа и размерностей подобластей 1[ ,1% ,...,^Г. Известны, в частности, эмпирические рекомендации для выбора числа и ширины подобластей для одномерных распределений [3]. Для многомерных данных в общем случае можно воспользоваться адаптивным методом гистограммного оценивания [4]. Суть этого метода состоит в следующем.

Последовательно предъявляются векторы обучающей выборки Ч (г;) = (V) и измеряются расстояния от этих векторов до центров распределения уже определенных подобластей 1[ ,/%,..,,/гг. В зависимости от результатов измерений принимается решение об отнесении очередного вектора к той или иной подобласти или - об образовании новой подобласти с центром .

Для каждой подобласти вычисляются ее статистические характе-

ристики: математические ожидания центров ^.к и дисперсии сту у = 1 , 1,к = 1 , ;

распределения векторов (V.) в каждой подобласти, а также число векторов т попавших в каждую подобласть.

Оценки математических ожиданий центров и дисперсий ^Д, У = 1 , Т

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

удобно делать в темпе сбора статистики пользователя по мере увеличения числа р образцов в каждой подобласти:

тк — 1 - 1

* ~щГ' + ^1кр’

Л2 тк ~ 2 л2 1 / £ л2

а]ктк ~ тк — I ' тк — 1' ^кгПк ~ ’

у = 1 , 1, к = 1 , ;.

При предъявлении очередного вектора вычисляются расстояния от вектора до центров распределения уже определенных подобластей по формуле

ОД.5„) = 2, ^ . к = 1,1

7 = 1 ^

где

стД = тах{стД(0),стД}, где оД ( 0 ) - некоторое минимальное значение дисперсии; оД - оценка дисперсии по выборке.

Из вычисленных расстояний й (у,|^), к = 1 , I выбирается минимальное расстояние

й(уг,і.р) = тіпій(уг,1. к) ,

которому будет соответствовать некоторая подобласть /£, с центром, ближайшим к .

Далее вектор Уг классифицируется по правилу:

♦ если й (у, р) < /гь то У Є /£;

♦ если й (у, |^.р) > /г 2, то создается новая подобласть с центром в точке У;

♦ если , то вектор не классифицируется.

Здесь /г х и /г 2 - два положительных параметра, определяемых эвристическим путем.

При попадании каждого нового вектора У в какую-либо подобласть, для нее пересчитываются оценки математического ожидания и дисперсии.

При построении гистограммы для оценки плотности V (У) процедура выполняется в следующем порядке:

1) первый вектор У_ назначается центром первой подобласти ї[;

2) последующие векторы классифицируются по приведенному выше правилу;

3) векторы У, которые не были классифицированы, распределяются по ближайшим областям из списка .

После разбиения области Г на непересекающиеся г-мерные подобласти , строится оценка плотности распределения векторов по фор-

муле (2).

Адаптивный метод гистограммного оценивания плотности V (У) позволяет адаптировать число и размер подобластей к обучающей выборке , од-

нако он, в свою очередь, содержит эвристические параметры /г^ /г 2 , аД (0) .

Основное преимущество гистограммного метода оценки плотности распределения - его простота и ясный физический смысл. Кроме того, не требуется априорная информация о поведении плотности распределения признаков, кроме ее положительности и отсутствия скачков во всей области своего определения.

В классе непараметрических методов классификации многомерных данных точность гистограммного метода будет выше, чем наиболее часто применяемого метода классификации по расстоянию Хэмминга, в котором решение о принадлежности предъявленного образа к определенному классу принимается по результату попадания образца во всю область /г, т.е. в I раз более грубо.

К недостаткам метода можно отнести отсутствие способа оптимального разбиения области на подобласти , а также невозможность достижения

сходимости по вероятности оценки V (У) к истинной плотности V (У) при асимптотическом увеличении объема обучающей выборки .

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Брюхомицкий Ю.А., Казарин М.Н. Параметрическое обучение биометрических систем контроля доступа / Ю.А. Брюхомицкий, М.Н. Казарин // Вестник компьютерных и информационных технологий. - М.: Машиностроение, 2006. - № 2 (20). - С. 6-13.

2. Широчин В.П., Кулик А.В., Марченко В.В. Динамическая аутентификация на основе анализа клавиатурного почерка [Электронный ресурс] / В.П. Широчин, А.В. Кулик, В.В. Марченко. - Режим доступа : http://www.masters.donntu.edu.ua, свободный. - Загл. с экрана.

3. Статистическая классификация, основанная на выборочных распределениях / В.Н. Игол-кин, А.Б. Ковригин, А.И. Старшинов и др. - Л.: ЛГУ, 1978. - 256 с.

4. Лепский А.Е., Броневич А.Г. Математические методы распознавания образов: Курс лекций. - Таганрог: Изд-во ТТИ ЮФУ, 2009. - 156 с.

Брюхомицкий Юрий Анатольевич

Технологический институт федерального государственного автономного образовательного учреждения высшего профессионального образования «Южный федеральный университет» в г. Таганроге.

E-mail: [email protected].

347928, г. Таганрог, ул. Чехова, 2.

Тел.: 88634371905.

Bryukhomitsky Yuri Anatol’evich

Taganrog Institute of Technology - Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”.

E-mail: [email protected].

2, Chekhova street, Taganrog, 347928, Russia.

Phone: +78634371905.

УДК 681.3.067

В.М. Федоров, Д.П. Рублев, Е.М. Панченко, О.Б. Макаревич

ИСПОЛЬЗОВАНИЕ ВИБРОАКУСТИЧЕСКИХ ШУМОВ ДЛЯ ИДЕНТИФИКАЦИИ УСТРОЙСТВ ЗАПИСИ CD/DVD-ДИСКОВ*

Проведено исследование возможности идентификации устройств записи CD/DVD по виброакустическим шумам, возникающим при считывании дисков на одном и том же устройстве считывания. Анализ записанных виброакустических шумов производился с помощью вейвлет-преобразования. Показано, что использование нейронных сетей позволяет идентифицировать записывающиеусторойства CD/DVD.

Виброакустические шумы; идентификация; вейвлет-преобразование; нейронные сети; записывающие устройства CD/DVD.

V.M. Fedorov, D.P. Rublev, E.M. Panchenko, O.B. Makarevich

IDENTIFICATION OF CD/DVD RECORDING DEVICES BASED ON VIBROACOUSTIC NOISE

Research of CD/DVD recording device identification possibility based on vibroacoustic noise features of disk reading process on the same device is presented. Analysis of the recorded vibroacoustics noises was performed by wavelet transform. It is shown that neural networks could be used for CD/DVD recording devices identification.

Vibroacoustic noises, identification, wavelet transform, neural networks, CD/DVD recording devices.

Введение. Одной из важных и интересных проблем информационной безопасности является идентификация цифровых и аналоговых устройств записи звука, изображения и других данных на носители. Это связано с двумя актуальными задачами: установление авторских прав (фактически аналогично цифровым водяным знакам) и выявление устройств, на которых были нелегально записаны произведения (идентификация устройств записи). На данный момент известны методы идентификации цифровых фотоаппаратов и звуковых устройств записи (цифро-

* Работа выполнена при поддержке грантов РФФИ 08-07-00253-а и 09-07-00242-а.

i Надоели баннеры? Вы всегда можете отключить рекламу.