Научная статья на тему 'Цепочный метод клавиатурного мониторинга'

Цепочный метод клавиатурного мониторинга Текст научной статьи по специальности «Математика»

CC BY
175
43
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАВИАТУРНЫЙ МОНИТОРИНГ / КЛАВИАТУРНЫЕ БИОМЕТРИЧЕСКИЕ ПАРАМЕТРЫ / СМЕЖНЫЕ СОБЫТИЯ КЛАВИАТУРЫ / ТОЧНОСТЬ ПРЕДСТАВЛЕНИЯ / АУТЕНТИФИКАЦИЯ / KEYSTROKE MONITORING / KEYSTROKE BIOMETRIC FEATURES / SEQUENTIAL KEYBOARD EVENTS / PRECISION OF REPRESENTATION / AUTHENTICATION

Аннотация научной статьи по математике, автор научной работы — Брюхомицкий Юрий Анатольевич

Предлагается цепочный метод представления биометрических параметров личности, предназначенный для реализации клавиатурного мониторинга пользователей компьютерной системы. Метод позволяет повысить точность представления клавиатурных параметров пользователя, а в итоге − точность мониторинга. Идея метода состоит в использовании дополнительной информации о корреляционных зависимостях смежных событий клавиатуры.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CHAIN METHOD OF KEYBOARD MONITORING

We propose a chain method of personal biometric parameter representation that is applied to user keystroke monitoring. The method increases the precision of keystroke feature representation and hence the precision of keystroke monitoring. The general idea of the method is based on the use of additional information about correlation between sequential keyboard events.

Текст научной работы на тему «Цепочный метод клавиатурного мониторинга»

УДК 004.065

Ю.А. Брюхомицкий ЦЕПОЧНЫЙ МЕТОД КЛАВИАТУРНОГО МОНИТОРИНГА*

Предлагается цепочный метод представления биометрических параметров

,

пользователей компьютерной системы. Метод позволяет повысить точность представления клавиатурных параметров пользователя, а в итоге - точность .

о корреляционных зависимостях смежных событий клавиатуры.

Клавиатурный мониторинг; клавиатурные биометрические параметры; смежные события клавиатуры; точность представления; аутентификация.

Yu. A. Bryukhomitsky

CHAIN METHOD OF KEYBOARD MONITORING

We propose a chain method of personal biometric parameter representation that is applied to user keystroke monitoring. The method increases the precision of keystroke feature representation and hence the precision of keystroke monitoring. The general idea of the method is based on the use of additional information about correlation between sequential keyboard events.

Keystroke monitoring; keystroke biometric features; sequential keyboard events; precision of representation; authentication.

В системах клавиатурного мониторинга (КМ) пользователей компьютерных систем, работающих на произвольных текстах, решающее значение имеют характеристики точности и скорости определения легитимности фактически

. ,

,

клавиатурных биометрических параметров пользователей.

Задача представления биометрических параметров заключается в приведении событий клавиатуры к некоторому структурированному виду, который позволяет выявить характерные признаки клавиатурного почерка (КП) данного пользователя, отличающие его от других пользователей. В режиме обучения системы КМ по этим признакам строится биометрический эталон пользователя. В рабочем режиме путем сравнения текущих признаков КП фактически работающего пользователя с биометрическим эталоном реализуется классификация владельца КП по принципу «свой - чужой» (аутентификация).

Наиболее простым и распространенным способом представления

клавиатурных биометрических параметров пользователя, назовем его

,

клавиатурного ввода [1]. Как правило, контролируются три типа временных параметров элементарных событий клавиатуры: время удержания клавиш, время

*

Работа выполнена при поддержке гранта РФФИ № 08-07-00117-а.

пауз между очередными удержаниями клавиш, а также время возможного перекрытия в удержании клавиш при наборе смежных символов текста. Последний параметр удобно интерпретировать как отрицательное значение паузы между очередными удержаниями клавиш. В этом случае можно говорить только о двух типах временных параметров элементарных событий клавиатуры, принимаемых во внимание при анализе КП. При этом постулируется, что для конкретного пользователя эти события являются независимыми, а распределение вероятностей появления определенных значений временных параметров каждого события носит гауссовский характер с единственным центром распределения. При таком подходе в качестве индивидуальных характеристик КП-пользователя закономерно выступают усредненные значения временных параметров элементарных событий .

Если использовать обозначения:

• тi - значение времени удержания клавиши ,;

• т, - алгебраическое значение времени паузы между удержаниями клавиш , и ,,

то в классическом методе КМ [1] результат регистрации времен удержания всех контролируемых клавиш , = 1, 2,..., п отображается одномерной матрицей-строкой

X- = [Т1 Т2 ... Тп],, = 1, 2,., п, (1)

а результат регистрации времен пауз между удержаниями всех парных сочетаний клавиш отображается двумерной квадратной матрицей

Т11 Т12 "■ Т1п

т.

У

Ті Т О

п1 п 2

, і, ] = 1,2,..., п. (2)

(1) (2)

информацию об индивидуальных особенностях КП-пользователя.

На этапе аутентификации текущие значения клавиатурных параметров

, (1) (2), сравниваются с эталонными значениями, предварительно сформированными для данного пользователя в виде статистических оценок вариаций каждого параметра. На основании итогового баланса произведенных сравнений принимается аутентификационное решение (АР) «свой - чужой».

Недостатком классического метода КМ является низкая точность, , ,

представления клавиатурных параметров. Причем уровень ошибок существенно не снижается и при больших объемах статистики представления параметров. Это наталкивает на мысль, что в классическом методе представления и классификации клавиатурных параметров присутствует некоторая существенная по величине составляющая методической ошибки, не устраняемая на этапе реализации КМ.

Последующие исследования в этой области показали, что статистические оценки временных параметров одних и тех же событий клавиатуры, но наступающих в различных сочетаниях, заметно отличаются, что свидетельствует о

наличии устойчивых корреляционных зависимостей между смежными событиями .

представления клавиатурных параметров [2, 3], направленный на повышение точности систем КМ. В развитие этого подхода в данной работе для учета корреляционных зависимостей смежных событий клавиатуры предлагается иной, существенно отличающийся в реализации - цепочный метол представления параметров клавиатурного почерка. Метод направлен на получение и использование дополнительных статистических характеристик КП-личности для повышения точности представления клавиатурных параметров, а, в конечном итоге, - точности аутентификации.

В процессе КМ в динамике регистрируются, по существу, два вида последовательно наступающих событий клавиатуры: наличие факта удержания одной из п клавиш и отсутствие факта удержания одной из п клавиш. Наличие отрицательной , , условно относится ко второму виду событий клавиатуры.

Представим совокупность событий клавиатуры первого вида множеством А*,

а совокупность событий клавиатуры второго вида множеством Ау = А~ . Объединенное множество А = Ах и Ау будем рассматривать как алфавит А всех возможных событий клавиатуры: Ах с А, Ау с А.

Используя терминологию формальных грамматик, ограниченные последовательности событий клавиатуры из множества А, ориентированные слева направо, начинающиеся и оканчивающиеся событиями из множества Ах, будем рассматривать как цепочки событий, построенные из элементов алфавита А. Цепочки событий будем обозначать как Ти и , ,,1,,2,..., = 1,2,...,п. Длиной г цепочки будем

считать общее число событий алфавита А, входящих в эту цепочку:

Поскольку при клавиатурном наборе события из множеств Ах и Ау строго чередуются, в каждой цепочке длины г будет содержаться q событий множества Ах и р = д - 1 событий множества Ау. То есть г = q + р = 2q - 1. Частный случай такого представления при г = 1 соответствует классическому методу, при г > 3 - имеет место цепочный метод.

, п

длины цепочек г суть цепочного метода представления клавиатурных параметров в терминах формальных грамматик состоит в формировании всех возможных цепочек событий алфавита А длины г в пространстве размерности д = (г+1)/2.

Рассмотрим простейший случай, когда все цепочки событий алфавита А

г = 3.

будет содержаться г = 3 событий алфавита А, в том числе д = 2 событий множества Ах и р = 1 событий множества Ау. С учетом ориентации слева направо в цепочке будут последовательно наступать следующие события:

- , ;

- , , ;

- удержан ие клавиши ].

Сопоставим указанные события алфавита А с временными параметрами КМ. Для этого зададим в поле действительных чисел Р двумерную квадратную матрицу Т,, состоящую из п2 элементов Т, (,, ] = 1, 2,., п):

1 ’*2

ч

Т2 = 1^11,1,] = 1,2,...,п ц = 2.

Каждый элемент Ту (,, у = 1, 2,..., п) матрицы Т^ будем представлять цепочкой длины г, содержащей три временных параметра из числового поля Р:

- время т, - удержание клавиши ,;

- время т^- - паузы между удержаниями клавиш , и у (может принимать

, );

- время ту - удержание клавиши у.

Матрица Т, содержащая все цепочки длины г = 3 из алфавита А, будет иметь вид

Т1Т11Т1 Т1Т12Т2 •• ТТ Т 1 1п п т 11 2 т12 т 1п

II сч . к Т2Т21Т1 Т2Т22Т2 ТТ^ Т 2 2п п = т = 21 2 т22 т 2п

у ТпТп1Т1 ТпТп2Т2 ТТ Т п пп п т п1 т 1п 2 тпп пп

Следующий уровень цепочного метода соответствует ситуации, когда все цепочки алфавита А имеют длину г = 5. В каждой такой цепочке теперь будет содержаться г = 5 событий алфавита А, из которых ц = 3 событий множества Ах и р = 2 событий множества Ау. С учетом ориентации слева направо в цепочке будут последовательно наступать следующие события:

- удержание клавиши ,;

- пауза между удержанием клавиш , и у;

- удержан ие клавиши у;

- пауза между удержанием клавиш у и к;

- удержание клавиши к.

Сопоставим указанные события алфавита А с временными параметрами КМ. Для этого зададим в поле действительных чисел Р трехмерную (пространственную) кубическую матрицу Т^, состоящую из пъ элементов Тук (,,у, к = 1, 2,., п):

тф = ||Ту,к|[иj,к = 1,2,...,п ч =3.

Каждый элемент Тук (,, у, к = 1, 2,., п) матрицы Т^ будем представлять цепочкой длины г = 5, содержащей пять временных параметров из числового поля Р:

- время т, - удержание клавиши ,;

- время Ту - паузы между удержаниями клавиш , и у;

- ту - у.

- тук - у к;

- тк - к.

Для описания трехмерной матрицы представим ее совокупностью двумерных параллельных сечений определенной ориентации (і) с последовательной фиксацией индекса і = 1, 2, ..п для каждого сечения.

Рассмотрим первое сечение ориентации (і) , содержащее совокупность

элементов трехмерной матрицы Т^к с первым фиксированным значением первого индекса: і = 1. Такое сечение представляет собой двумерную квадратную матрицу:

Т -*111 2 Т11 Т 11п

Т3 = 11 ]к = к К4 Т 121 Т 122 Т 12п

Т 1п1 Т 11п 2 Т 1 пп

Второе сечение ориентации (/') Т23^ матрицы Т^ со вторым фиксированным значением первого индекса: /' = 2 дает вторую двумерную квадратную матрицу:

Т211 Т 212 Т 21п

= к |Т2 21 : Т 222 Т 22п

п1 Тп2 Т 2 п 2 Т2пп 2пп

Продолжая процедуру последовательного получения параллельных сечений ориентации (і) с і = 3, 4, ..., п фиксированными значениями первого индекса, получим последнее сечение ориентации (і) Тп3к матрицы Т^к с п-м фиксированным значением первого индекса: і = п, которое дает п-ю двумерную квадратную матрицу:

Т п11 Т п12 Т п1 п

Т3 = п]к = к Тп Т п21 Т 1п 22 •• Т 2 п2п

Т пп1 Т 2 • пп 2 Тппп ппп

Все п параллельных сечений ориентации (/'): Т^к , Т23^, ..., полностью

описывают трехмерную кубическую матрицу

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ТЩ = ||Т!*\|. 7.к = 1>2.-.п. Я = 3

По приведенной схеме можно реализовать представление параметров КП с цепочками любой заданной длины г, используя пространственные матрицы мерности я, где я = (г + 1) / 2. В общем случае, для представления событий алфавита А

временными параметрами КМ в поле действительных чисел Р необходимо задать пространственную матрицу мерности д:

Tq

42 ■■

T

содержащую nq элементов, представленных цепочками длины r = 2q - 1. При этом мерность пространства q определяется длиной формируемых цепочек коррелированных событий q = (r + 1) / 2. Другими словами, в цепочном методе используется многомерное представление связанных между собой событий клавиатуры, при котором каждой цепочке событий соответствует точка (£ь ^2, •••, £q) в многомерном пространстве мерности q с координатами tk, к = 1, 2, ..., q, определяемыми событиями i = 1, 2, ... n из множества Ах.

Пример представления цепочным методом, с заданной длиной цепочек r = 3 и r = 5, клавиатурного набора слова «почерк» иллюстрирует рис. 1.

Биометрический эталон пользователя получают на основе усреднения l измерений каждого параметра в элементах матриц Tq . . Для этого используются

i1i2 ..,lq

два известных способа. Выбор одного из них определяется числом проведенных l ( ) .

При малом числе измерений l биометрический эталон строится путем установления границ вариации каждого контролируемого параметра. Например,

при r = 3 содержимое цепочек Ttj матрицы Tj будет представляться в виде

Tij = (mini Ti, maxi т), (mini j maxi Tj), (mini Tj, maxi Tj).

При большом числе измерений l более достоверным является вычисление числовых характеристик распределения контролируемых параметров: математических ожиданий т(т) и дисперсий а(т), на основе которых определяются интервалы изменения каждого параметра:

mini т = m(z) - а(т), maxi т = m(z) + а(т).

При обработке биометрических данных рассматриваются распределения выборочных статистик, поэтому их следует задавать на основе /-распределения Стьюдента, учитывающего ошибку P1 «своего» пользователя. В этом случае интервалы изменения каждого параметрах вычисляются по формулам

minjT=m(r) - t[l(l-Pi)}a(T), maxit =m(x) +t[l(l-Pi)}<j(T),

где t - коэффициенты Стьюдента, получаемые из соответствующих таблиц по заданным значениям i и P1.

Так или иначе, каждый тип временного параметра в эталоне пользователя, в , -риабельности. В свою очередь, каждый элемент матриц Tq . будет представлен

Чг2 ..,lq

цепочкой удвоенной длины: R = 2r = 2(2q-1) = 4q-2.

q

q

г = 3

••• Е . к ... О ... і

Рис. 1. Пример представления цепочным методом с заданной длиной цепочек г = 3 и г = 5, клавиатурного набора слова «почерк»

Метрические показатели многомерных матриц ТЯ . сведены в табл. 1.

*1*2 ..,гд

Метрические показатели многомерных матриц Тд *

*1*2 ...*д

Число СИМВОЛОВ я Число пауз р Длина цепочки г Полная длина пары цепочек Я Число элементов матриц

2 1 3 6 п2

3 2 5 10 п3

4 3 7 14 п4

я Р=Я-1 г=я+р=2я-1 Я=2г=4я~2 т = пЯ

, , . 2.

Рис. 2. Структура системы КМ

События

клавиатуры

АР

Система КМ имеет два режима работы: обучения и рабочий.

Режим обучения - это предварительный этап в работе системы КМ, в течение которого для всех легитимных пользователей V = 1, 2, ..., N осуществляется сбор статистики распределения их клавиатурных параметров и

заполнение матриц Тд . . В результате формируются биометрические эталоны

*1*2 ...*д

легитимных пользователя V = 1, 2, ., N представленные наборами матриц:

" = (т2)1 (т3.)1... (тя .)1

1 \ і1і2 / ’ V і1і2і3 > ’ ’ V і1і2...ід / ’

Т

Т = (т2)2 (т3.)2... ( .)2

2 \ і1і2 ' ’ V і1і2і3 > ’ ’ V і1і2...ід / ’

Т = (т2 ) (т.3 )г (тя )

1V \ чн) ’ У чл/ \ г1г2..ля '

V = 1, 2, ., N.

Рабочий режим - это основной режим системы КМ, в котором собственно реализуется динамическая аутентификация пользователя. Этот режим содержит два последовательных взаимосвязанных этапа:

1.

работающего в компьютерной системе пользователя, который до получения результата аутентификации считается неизвестным (х-пользователь). На этом этапе заполняются матрицы Tx х-пользователя;

2. Этап аутентификации, на котором производится сравнение матриц Tx х-пользователя с матрицами T легитимного v-пользователя. Для сравнения используется биометрический эталон v-пользователя, который аутентифицировал себя в текущем сеансе.

Принцип организации сбора и накопления текущих биометрических

- ,

v- . ,

вычисляются парные оценки пределов вариабельности временных параметров, а

-

.

пользователя по мере увеличения числа i образцов каждого временного параметра. Для этого применяется итерационная формула

mi(T) ~ mi-i(x)x(/-1) / i+Ti/1.

В процессе клавиатурной работы пользователя неизбежно возникают дли, , -. -чены. Для этого необходимо ввести ограничения на максимально допустимые длительности событий клавиатуры. Верхний предел времени удержания клавиш обычно ограничивается автоматически включенным по умолчанию режимом Typematic (автоповтора передачи скан-кода нажатой клавиши). В случае использования режима Make/Break (отключение автоповтора передачи скан-кода нажатой ) . Ограничения на верхний предел времени пауз между удержаниями клавиш (x0)max необходимо также задавать явным образом для выделения лингвистически связанных цепочек событий клавиатуры. В результате, функционирование системы КМ в режиме накопления статистики будет состоять из чередующихся периодов накопления временных параметров и периодов вынужденных пауз Ти> (^)max.

В процессе сбора статистики текущая длина цепочки лингвистически связанных символов р является переменной величиной, изменяющейся в диапазоне 1 < р < r, и определяется сочетанием нескольких условий:

1. i-

Т .

i1i2 ...iq

: r появляется пауза Ти, >

(^)max, то i-цепочка считается законченной в момент начала паузы Тп, ее длина

ограничивается фактически достигнутой

T .

i1i2 ...iq

= p < r , а новая (і+1)-цепочка

начинается в момент наступления следующего события из множества А*.

2. Если в текущей /-цепочке до момента

то /-цепочка считается законченной в момент

Т,

Т,

= г пауза Тп не наступает, = г , а новая (/+1)-цепочка

начинается в момент наступления следующего события из множества Ах. Принцип образования цепочек на примере г = 5 иллюстрирует рис. 3.

1‘2 — ‘а

1‘2— ‘а

Цепочки Т14, Т56, Т7 11, Т12, чередуются с паузами Тп = т45, Тп

Тп = Т 12. Паузы

Тп = т45 и Тп = т67 превышают допустимый предел (т„}тах, поэтому являются

13

12

11

10

9

8

7

6

5

4

3

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2

1

клавиши

Т9

Т45

Т67

.10.

Ти

75,

Т7

Ту

причиной окончания цепочек Т14, Т56. Па)>за Тп = т1112, не превышает допустимый предел (т„}тах, тем не менее является причиной окончания цепочки Т711 поскольку последняя достигла максимально допустимой длины Ц= 5.

Рис. 3. Принцип образования цепочек на примере г=5

На этапе аутентификации производится сравнение матриц Тх с матрицами Ту легитимного у-пользователя, который аутентифицировал себя в текущем сеансе. По результатам сравнения принимается АР. В простейшем случае сравнение можно проводить с использованием меры близости Хэмминга. При этом результат сравнения одного текущего значения временного параметра с соответствующим эталонным значением дает один двоичный символ вектора Хэмминга. Для цепочки г г .

Общая длина ёЕ вектора Хэмминга Е для заданной глубины лингвистического анализа г определяется выражением:

ёЕ = ЗтЕз + 5 тЕ5 + •••, + г-тЕг = ^р=3 г ■ тЕр, 1 < р <г, тЕР < тЕг,

где тЕр - число цепочек матрицы , для которых были получены статистические оценки щ(т).

Аутентификацию текущего пользователя удобно реализовать в периодическом режиме. Период может измеряться величиной «чистого» времени сбора статистики (с вычетом всех пауз Г„), числом проведенных измерений Ь, числом цепочек тЕр матрицы ТX, для которых были получены статистические оценки или другим аналогичным способом. АР определяется пороговым значением меры Хэмминга Е1 , для у-пользователя, которое может быть задано разными способа-

т

т

8

Т

6

Т

5

Т

4

Т

3

I

Т

11 12

І

ми. Значение Elv можно определить экспериментальным путем на основе статистической оценки нижнего уровня числа нулевых символов вектора Хэмминга v-пользователя. Другой способ опирается на то обстоятельство, что при достаточно большом числе контролируемых биометрических параметров распределение значений меры Хэмминга для v-пользователя становится бл изким к нормальному, а

значит E с учетом выборочных статистик можно определить по формуле

E = m(Ev) + t[L, (1 - P)][ ].

Предлагаемый цепочный метод представления параметров клавиатурного почерка обобщает известные подходы в этой области. Он позволяет в необходимой степени, задаваемой на этапе создания системы КМ, учесть любую глубину корреляционных зависимостей в смежных событиях клавиатуры, и, тем самым, создать необходимые предпосылки для повышения точности представления клавиатурных параметров, а в конечном итоге - точности аутенти фикации личности.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Широчин В.П., Кулик А.В., Марченко В.В. Динамическая аутентификация на основе анализа клавиатурного почерка. // http: // www.masters.donntu.edu.ua / 2002 / fvti / aslamov / files / bio_autentification.htm.

2. . ., . .

// Известия ТРТУ. Технические науки. - 2006. - № 9 (64). - С. 153-154.

3. Брюхомицкий Ю.А., Казарин М.Н. Методы многосвязного представления клавиатурного почерка // Материалы III Международной конференции «Нелокальные краевые задачи и родственные проблемы математической биологии, информатики и физики. - Нальчик, 5-8 декабря 2006. - С. 68-69.

Брюхомицкий Юрий Анатольевич

Технологический институт Федерального государственного образовательного учреждения высшего профессионального образования «Южный федеральный университет»

. .

E-mail: bya@tsure.ru.

347928, г. Таганрог, ул. Чехова, 2.

Тел.: 8 (8634) 371-905.

Кафедра безопасности информационных технологий; доцент.

Bryukhomitsky Yuri Anatolyevich

Taganrog Institute of Technology - Federal State-Owned Educational Establishment of Higher Vocational Education “Southern Federal University”.

E-mail: bya@tsure.ru.

2, Chekhova str., Taganrog, 347928, Russia.

Phone: +7 (8634) 371-905.

Department of IT-Security; associate professor.

УДК 004.065

Ю.А. Брюхомицкий СТАТИСТИЧЕСКИЕ МЕТОДЫ РАСПОЗНАВАНИЯ

1З8

i Надоели баннеры? Вы всегда можете отключить рекламу.