ОЦЕНКА НЕОБХОДИМОГО РАЗМЕРА СВЁРТКИ
БИОМЕТРИЧЕСКОГО ОБРАЗЦА ДЛЯ ОБЕСПЕЧЕНИЯ ЗАДАННЫХ ПАРАМЕТРОВ
НАДЕЖНОСТИ БИОМЕТРИЧЕСКОЙ СИСТЕМЫ ИДЕНТИФИКАЦИИ
Д.А. Cилантьев,
стажер-консультант Департамента Управленческого Консалтинга, ООО «ИБС Экспертиз».
Адрес: 127434, Москва, Дмитровское шоссе, 9Б141090, e-mail: [email protected]
( N
В работе предложен способ оценки размера свертки биометрического образца. Рассмотрена взаимосвязь размера свертки и вероятностями ошибок ложного доступа и ложного отказа. Обсуждается возможность биометрической идентификации личности в больших масштабах.
V J
Ключевые слова: биометрический образец, свёртка, размер, биометрическая идентификация, коэффициент ложного пропуска, коэффициент ложного отказа доступа.
На сегодняшний момент разработано множество технологий идентификации человека на основе биометрических характеристик человека (БХЧ). Большинство из них использует одинаковый принцип — полученный биометрический образец человека (звук, изображение и др.) преобразуется в свёртку по некоторому алгоритму, которая сравнивается с хранимыми в базе данных биометрическими шаблонами (эталонами), полученными в процессе регистрации, с целью определения его соответствия какому-либо шаблону и соответствующей шаблону личности (так называемая схема «один ко многим»). При этом важнейшими характеристиками биометрической системы идентификации являются FAR — вероятность ошибки ложного доступа и FRR — вероятность ошибки
ложного отказа. Они зависят от многих параметров, например, таких как: количество зарегистрированных людей в базе, применяемых технических средств и алгоритмов, внешних условий при снятии образца и т.д.
Процесс идентификации носит вероятностный характер, поэтому многие параметры биометрических систем (такие как FAR, FRR, стабильность биометрической системы — возможность получать «близкие» друг к другу биометрические образцы независимо от номера попытки сканирования БХЧ) вычисляются опытным путем на основе статистики.
Сделав некоторые допущения, можно оценить необходимый размер свёртки для обеспечения требуемых уровней FAR и FRR, что позволит задать
требования к объему и качеству информации, извлекаемой из биометрического образца.
Пусть снятие образца БХЧ и обработка при помощи алгоритмов биометрической системы приводит к получению свёртки — двоичного числа длиной L . Введем следующую метрику:
р(x, y): {0,1}L х {0,1}L ^N,
где x, y e{0,1}L - свёртки биометрических образцов
L
P(°y) := X I X - У | Vo, y e {0 ,1} L,
i =1
т.е. кол-во позиций, по которым свёрткаX отличается от y
Пусть в БД биометрической системы имеется свёртка X (эталон), полученная при регистрации образа БХЧ человека А. При этом производится повторное сканирование той же БХЧ человека А, и
о/
получается новая свёртка X .
Будем говорить, что свёртка X распознается как свёртка X , если p(X,X ) < m , где 0<m«L — граница доверительного интервала (порог распознаваемости).
Допустим, что при повторном получении образа БХЧ, свёртки X , вероятность смены одной из позиций свертки с 0 на 1 или с 1 на 0 равна p (р <<1) и не зависит от позиции свёртки и человека, от которого она получена. Вероятность p характеризует стабильность получения биометрических образов и свёрток. Тогда вероятность того, что свёртка X будет удалена от свёртки X , на расстояние k равна:
Рр (k) = Р(р(о,X) = k) = Ckpk (1 - p)L-k -биномиальное распределение Bin( L, p)
E[p] =Lp — математическое ожидание (среднее число изменившихся позиций)
D[p~\ = Lp(l-p) — дисперсия
При L (в биометрических технологиях
обычно используется L > 103) в силу центральной предельной теоремы
Bin{L,p) » N(Lp,Lp( 1 - р)) » N(Lp,Lp)
Ошибка ложного отказа возникает, когда р(х, х ) > т . Будем считать, что «по близости», куда может попасть х , больше нет ни одной эталонной свёртки. При этом
=Р{р{х,х')>т) = . [
^пЬр ¿т+
FRR
2 Lp
dt
Используя таблицы для нормального распределения, заключаем:
ЕЯЯ < 10-3 при т>Ьр + 3,09^ , (1)
ГЯЯ < 10-5 при т>Ьр + 4,25-уДр ,
^^^ < 10-7 при т>Ьр + 5,,
Предположим теперь, что в БД образов находится Q эталонных свёрток (х; }|=1. При фиксированном Ь, максимальное расстояние, на которое могут оказаться «разведены» свёртки, равно
max(PmIn) ^ 2
Q
- очень грубая оценка . (2)
Такой вариант реализации эталонных свёрток при регистрации биометрических данных является наиболее благоприятным, т.к. в этом случае их легче всего отличить друг от друга.
Используя (1), при условии, что РЯЯ < 10-3, и (2) для двух любых свёрток х1, ху : I, у е [1, Q], получаем:
> тятгГ п . \>п(-г \
2—>2 Q
Q
* тах(уг,т1п)>/)(х!.,^)>т>1р+3)09ЛД^ (3)
2
Следовательно, — > p .
Q
Например, p e | [0,2 -10-9 ] при Q = 10-9 Из (3) получаем:
^ > 3,092 ■ р _ Юр
(2 1 2 Г 2 1
1Н
(4)
<2 = Ю\р = Ю"9 => I > Ю10 - 1Гбайт й = 10\р = Ю"10 => Ь > 2,5 ■ 108 » ЪО Мбайт 0 = Ю9,р = Ю-11 => Ь > 2,5• 107 = ЪМбайт <2 = 106,/? = 10"8 => Ь > 2,5 -104 - ЪКбайт
(большие оценки L получились вследствие грубости оценки (2) и большого Q).
Реальные биометрические системы сейчас используют свёртки величиной в несколько Кбайт. Задача биометрической идентификации может быть разрешена современными средствами при объеме БД в 1 000 000 записей. Однако увеличение БД до 1 000 000 000 записей потребует увеличения точности формирования свёртки на 3 порядка, а также объема каждой свёртки на 3 порядка, что потребует увеличения производительности сервера приблизительно на 6 порядков, что недопустимо.
Предположим, что в БД образов находится Q эталонных свёрток {х1 }^т=1 , и произведено сканирование БХЧ незарегистрированного в системе человека. Ошибка ложного доступа возникает, если р( х*, х)< т , где х* — одна из Q эталонных свёрток, х — свёртка отснятого для идентификации биометрического образца. Допустим, что в х может равновероятно реализоваться любая комбинация 0 и 1. Вероятность совпадения х и одного из : I е [1, Q] по более чем Ь — т позициям следующая:
FAR = CL
i i\L-m J,
Q.
Для систем с усиленным контролем доступа обычно требуется, чтобы FAR находилась на уровне менее 1%, т.е. FAR < FAR = 10-3.
Получаем:
R=C\
\L—m
Q=:
LI
1 \Lm
w
- Q—-- Q<FARWX
m\~ -Jlizm I — \ey
(L-m)\m\\l) m\\2
— формула Стирлинга,
1 ТП тп lg(/w!) « -lg(27iw) + m lg( )« /wlg(—)
2 ее
приm>10.
Получаем
1
lg2
lg( )
e
L-m
(5)
При Q = 109,FARmax =10"3 и m = 10 подбираем L>2 102 =25 байт .
При Q = 10^FAR,^ = 10"3 и m = 102 подбираем L >2-102 = 25 байт .
При g = 109,FARmax =10_3 и w = 103 подбираем L > 103 = 125 байт .
При Q = 109,FARmn[ = 10"6 и m = 103 подбираем
¿>1,1Ю3 =137 байт.
Биометрические системы с наименьшим параметром p (которые обеспечивают набольшую стабильность и повторяемость собираемых биометрических образов) позволяют достигнуть наибольшей точности и производительности в процессе идентификации за счет применения свёртки наименьшего размера, а также возможности использования узких границ доверительных интервалов (малые параметры m ), обеспечивая при этом низкий уровень ошибок ( FRR < 10-3, FAR < 10-6). Однако современный уровень развития биометрических технологий не позволяет добиваться приемлемой надежности идентификации при использовании больших БД (больше 100 000 записей, а иногда 10 000), что подтверждается экспериментальными данными. В основном это связано с недостаточным уровнем репрезентативности исходных данных. Следовательно, улучшение характеристик сканеров БХЧ и алгоритмов распознавания будет оставаться наиболее вероятным направлением развития биометрических технологий в ближайшие годы.
Открытым для исследований остается вопрос «максимально возможной репрезентативности» каждой отдельно взятой БХЧ. ■
m
Литература
1. Michael E. Schuckers. Test Sample and Size / Encyclopedia of Biometrics, Li, SZ and Elliot SJ (eds).
2. Спиридонов И.Н. Применение биометрических технологий в медико-биологической практике / ID news №2, 2005.