Научная статья на тему 'Особенности человеко-машинного интерфейса современных систем биометрической идентификации'

Особенности человеко-машинного интерфейса современных систем биометрической идентификации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
415
73
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЧЕЛОВЕКО-МАШИННЫЙ ИНТЕРФЕЙС / HUMAN-MACHINE INTERFACE / ИДЕНТИФИКАЦИЯ ЛИЧНОСТИ / PERSON IDENTIFICATION / БИОМЕТРИЧЕСКАЯ СИСТЕМА ИДЕНТИФИКАЦИИ / BIOMETRIC IDENTIFICATION SYSTEM / ГОЛОСОВАЯ БИОМЕТРИЯ / VOICE BIOMETRY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дырмовский Дмитрий Викторович, Коваль Сергей Львович

Обоснованы требования к организации человеко-машинного интерфейса для современных систем автоматической и автоматизированной идентификации личности, основанных на анализе биометрических признаков.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Дырмовский Дмитрий Викторович, Коваль Сергей Львович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FEATURES OF HUMAN-MACHINE INTERFACE OF MODERN BIOMETRIC IDENTIFICATION SYSTEMS

Modern systems designed for automated identification of personality based on biometric characteristics analysis is considered. Requirements on arrangement of human-machine interface for such systems are formulated.

Текст научной работы на тему «Особенности человеко-машинного интерфейса современных систем биометрической идентификации»

10. Rahurkar M., Hansen J. H. L., Meyerhoff J., Saviolakis G., KoenigM. Frequency Band Analysis for Stress Detection Using a Teager Energy Operator Based Feature // Proc. Intern. Conf. on Spoken Language Processing ICSLP-2002. Denver, CO USA, 2002. Vol. 3. P. 2021—2024.

11. Кобзарь А. И. Прикладная математическая статистика. М.: ФИЗМАТЛИТ, 2006. 816 c.

12. Chang C.-C., Lin C.-J. LIBSVM: a library for support vector machines // ACM Transactions on Intelligent Systems and Technology. 2011. Vol. 2, N 27. P. 1—27.

13. Kohavi R. A study of cross-validation and bootstrap for accuracy estimation and model selection // Proc. of the 14th Intern. Joint Conf. on Artificial Intelligence. 1995. Vol. 2. P. 1137—1143.

Андрей Владимирович Ткаченя Андрей Геннадьевич Давыдов Виталий Владимирович Киселёв Михаил Васильевич Хитров

Рекомендована кафедрой речевых информационных систем

Сведения об авторах

ООО „Речевые технологии", Минск; младший научный сотрудник; E-mail: tkachenia-a@speechpro.com

канд. техн. наук; ООО „Речевые технологии", Минск; старший научный сотрудник; E-mail: davydov-a@speechpro.com ООО „Речевые технологии", Минск; директор; E-mail: kiselev-v@speechpro.com

канд. техн. наук; ООО „ЦРТ", Санкт-Петербург; генеральный директор; Санкт-Петербургский национальный исследовательский университет информационных технологий, кафедра речевых информационных систем; зав. кафедрой; E-mail: khitrov@speechpro.com

Поступила в редакцию 22.10.12 г.

УДК 004.93+57.087.1

Д. В. Дырмовский, С. Л. Коваль

ОСОБЕННОСТИ ЧЕЛОВЕКО-МАШИННОГО ИНТЕРФЕЙСА СОВРЕМЕННЫХ СИСТЕМ БИОМЕТРИЧЕСКОЙ ИДЕНТИФИКАЦИИ

Обоснованы требования к организации человеко-машинного интерфейса для современных систем автоматической и автоматизированной идентификации личности, основанных на анализе биометрических признаков.

Ключевые слова: человеко-машинный интерфейс, идентификация личности, биометрическая система идентификации, голосовая биометрия.

Введение. Системы автоматической идентификации личности (САИ) по биометрическим признакам получают все большее распространение. Они предназначены для решения задач учета и мониторинга неизвестных лиц, выполнения криминалистических идентификационных экспертиз. Рассмотрим особенности интерфейса и структуры САИ на примере использования динамических идентификационных признаков речевого сигнала.

Оптимальное представление результатов работы САИ. В современных САИ используется процедура обучения на больших базах биометрических данных совпадающих и различающихся личностей. Например, в обучающих базах речевых САИ содержатся файлы речи нескольких тысяч дикторов, записанных в разных условиях. Корпусной подход позволяет автоматически выбрать оптимальные правила и параметры идентификации, сопоставляющие скалярному расстоянию х между сравниваемыми речевыми файлами значения вероятности совпадения/различия дикторов. САИ сравнивает пары дикторов и по найденному для них х выдает вероятностный результат тождества/различия дикторов, практическая интерпре-

тация которого может различаться для разных задач. Например, для задачи верификации достаточно принимать решение „Да"—„Нет".

Для решения задачи идентификации необходимы оценка точности предлагаемого решения и оценка его неопределенности. Характеристики речевого сигнала существенно зависят от свойств каналов звукозаписи и звукопередачи, состояния диктора, типа речевой коммуникации, сопутствующих помех и искажений и т.п. В силу этого создать представительные обучающие базы данных невозможно. Существующие учетные САИ [1—3] выдают результат только в виде ранжированного списка сравниваемых дикторов, что неприемлемо для единичных сравнений. Интерфейс САИ должен позволять пользователю выбрать оптимальную форму представления результатов и учесть характеристики конкретных сравниваемых дикторов, ориентируясь на случаи и множественного, и единичного сравнения. Ни одна из существующих прикладных и исследовательских САИ этим требованиям не удовлетворяет [1—6].

Известно много способов представления результатов работы САИ [7—9], однако выбор способа, оптимального для речевых систем, не очевиден. САИ проводит поиск целевого диктора в списке проверяемых. Предлагается представлять результат работы САИ в виде списка похожих дикторов (СП), полученного усечением списка всех проверяемых дикторов на основе предлагаемых показателей оценки работы системы. Будем исходить из того, что любая САИ для каждой пары целевой диктор—проверяемый диктор вычисляет наборы характеристических признаков и скалярное расстояние х между этими наборами. Используются показатели: FRR(x) — False Rejection Rate — оценка вероятности ошибки 1-го рода: вероятность того, что файлы с речью целевого („своего") диктора из списка проверяемых файлов не попадут в СП, если расстояние x от них до эталона будет больше соответствующего заданному значению FRR. FAR(x) — False Acceptance Rate — оценка вероятности ошибки 2-го рода: вероятность того, что файлы с речью нецелевого („чужого") диктора из списка проверяемых файлов попадут в СП, если расстояние x от них до эталона будет меньше соответствующего заданному значению FAR. LR(x) — likelihood Ratio — оценка отношения правдоподобия для гипотез совпадения и различия дикторов при данном x между сравниваемыми файлами. LR(x) рассчитывается как отношение вероятности отклонить „своего" диктора при расстоянии между сравниваемыми дикторами больше данного x к вероятности принять „чужого" диктора за своего при расстоянии между сравниваемыми файлами меньше x:

= FRR( x)/( FRR( x) + FAR( x) ) = FRR( x) ( FAR(x)/(FRR(x) + FAR(x)) FAR(x) .

Формула (1) имеет следующее толкование: вероятность верности нулевой гипотезы для интервала значений расстояния между дикторами больше данного x равна отношению доли попавших в этот интервал совпавших пар дикторов (т.е. FRR(x)) к общему числу пар дикторов, расстояние между которыми попало в этот интервал (т.е. FRR(x)+FAR(x)). Аналогично толкуется и знаменатель дроби в формуле.

Введем следующие понятия: P — общая вероятность совпадения сравниваемых дикторов; DET-график (Detection Error Trade-off) — график зависимости FRR от FAR.

Пример представления этих величин для системы автоматической идентификации VoiceNet приведен в таблице и на рис. 1 и 2. На рис. 1 представлены результаты идентификации САИ VoiceNet одного диктора (его данные заданы строкой в верхнем окне экрана) при сравнении с большим списком дикторов. Результат каждого сравнения указан в строках нижнего окна экрана. В каждой строке указан номер сравниваемого диктора в списке сравнения, идентификатор в базе данных, FRR, FAR, LR, имя секции базы данных, имя карточки диктора, имя звукового файла, тип источника звука. На рис. 2 приведен DET-график для результата сравнения двух дикторов в системе VoiceNet.

FRR, % FAR, % LR, у.е. P

29,07 0,01 2907 0,999

7,20 0,10 72 0,986

1,07 0,50 2,1 0,68

1,00 0,56 1,78 0,64

0,67 1,00 0,67 0,40

0,53 5,00 0,11 0,1

0,50 6,74 0,07 0,07

0,10 33,44 0,003 0,003

о Флйпм. учодтну«щии 10

ФЛЙП {

0 Ралультв г61 срЕШНимия дпн 1»ы6рпннпго файла.

РКП

БАЯ

Рис 1

Тчет мои пм Поп.

д

N Ж РА □НСГР Размещен»;« Форточка Файл Истом ими. V Р

ш а.м 4.0МЗ ИГУМСв] ЙЬафофЫ« о.втам

1.08 1.3713 £пд 1 ! 5Т_Т«<111000_Ив«П*Пв* «131(3} €' кв131(г).яач «V Ниадвсн о.зюоэ

704 1Л1 2-« ДОНФСМ £

553 («ОТ»} С-57 2-*! fi.uaо ЕА(М*_М 15Т_Тм; и000_И£ №130£6> С" ма130(ь).яв1г ш/1 ншЦЯ&т 0.4ЯМЭ

Ш 110 745) <з.за Э.-53 О.ОЕ50 ErrgUh.NI 5Т_ТвЯ: 1.1000, лр* тшйь} С №3 31(6-1.«а» , / НрдедафОг* 0.4*397

та (ЕО 411) 0-Э0 4.31 0.0715 15Т_ТеЯ! исос_яесол3 лр М77ВИ<Ч нмкрофщ. 0.480*5

зи (га тм) С.2Б 1.« О.ОМ2 Еггз 15Т_Т«4: №131(3) С" №131(3]. 0.47007

22? 0-21 4.М 0 0512 кпд 15Г_тмь иооо.яедайло» ИШ(]) С И759Э(Ц.*а* ММКККЙСН 0.47710

{№ !34» & к А.0«4 Я м*и«(9],№

(10 1344} 3-» О.ОМ5 М>ЗМ(и <>* 0-47$«

»1 (Ю 431) ш 6-3 7. 0.03£4 Мтв(71 Л А НвН«^ 0,36*7-1

570 (10 7в1) Ян б.ы" кл.озбг^ь №141(6] С №341(б-]лМч НИИрОфбИ

£13 777 (га б») (ГО ! 3261 Я15 щЖ 1.5 6.74 Ь77 Ш217 N Г 5Т_Тм: \lflOO _ИЬсо«1ов* Е'оТ^ЬьГ тм»: иОССИЕ ям №£51(6] №570(41 С- №351(&].«ВУ 4." №570(4l.wav 4 У Нирсрофст» ^ ■У У 0.46701 0.4«в7

✓ Покозшввть РБ

V Показывать ГА /Показывать ЬА

1x1000 ЮМ

результатов

Параметры поиска

' 1 График РЕТ для результата сравнения двух файлов (Основной тон)

"1----------г

-"1-

Основной тон: 28.0 х 28,0

m03_2.wav M716SI3i.wav

Метод: Основной тон: 28.0 х 28.0 ЕЕР1= 12.36%

ОСМШп 0.0615 (РА=1.78 РР=43.85)

Файл1: m03_2.wav

Файл2: М7166(3).игау

Р1* = 3,46% РА = 25.61%

Сохранить график

Карточка: Карточка:

т03_2 М7166{3)

] 12 окгябоя 2012 г.

Рис. 2

Проиллюстрируем возможность использования этих показателей для конкретной САИ [10]. После сравнения диктора с данными базы из 100 000 голосов получим СП, ранжированный по степени сходства с данным диктором. Если ограничить рассматриваемый СП только дикторами, для которых ЬЯ> 2907, то диктор, находящийся в списке проверяемых, попадет в СП с вероятностью ^70 %, а с вероятностью «30 % — не попадет. Такой способ выбора порога обладает существенным преимуществом. Соответствующее выбранному порогу значение РЛЯ= 0,01 % означает, что в СП попадет не более 10 „чужих" дикторов. Пользователь САИ за относительно малое время может проверить „ручными", трудоемкими, экспертными средствами реальность тождества целевого диктора с этими 10 дикторами и выяснить, есть он действительно среди них или нет. Для 10 дикторов такая проверка на практике реализуема, а для большего числа дикторов уже трудноосуществима. Такой порог выгодно применять при проверке по большой базе неизвестных дикторов. Пропуск „своего" диктора вероятен, но ввиду ограниченности ресурсов операторов системы по „ручной" проверке СП выбор такого порога часто является единственной возможностью обнаружить в базе неизвестного искомого диктора.

При ограничении рассматриваемого СП только дикторами, для которых ЬЯ>0,67, если целевой диктор есть в списке проверяемых, то он не попадет в СП с вероятностью всего «0,7 %. Однако у такого выбора порога отсечки есть существенный недостаток. Соответствующее выбранному порогу значение РЛЯ= 1 % означает, что наиболее вероятно в СП попадет около 1000 „чужих" дикторов, которые САИ сочтет близкими к целевому. Проверить „ручными" средствами реальность тождества этих 1000 дикторов с целевым затруднительно. Тем не менее, такой порог выгодно применять при проверке по малой базе проверяемых дикторов. БЕТ-график дает возможность выбора подходящих порогов отсечки для конкретной задачи с еще большей точностью, чем таблица.

Применение концепции доверительности данных к работе САИ. САИ применяются и в судебных экспертизах [4, 5, 11—14] при сравнении всего двух объектов. В этом случае результаты работы САИ целесообразно применять в рамках так называемого байесовского подхода [8, 15—17], объединяя данные исследований различных методов в единой формуле на основе значений ЬЯ по каждому из методов. Однако возможность применения статистических результатов обучения САИ к единичному случаю совершенно неочевидна. САИ вычисляет ЬЯ, что требует оценки неопределенности измерения [18]. Значение Р можно обоснованно считать оценкой случайной величины, а в качестве параметров неопределенности результата оценки предлагается считать границы односторонних доверительных интервалов (ДИ) [19], которые определяются на основе подхода, близкого к методике МБТ [20], которая использовалась для сравнительной оценки неопределенности результатов различных САИ. Нами рассматривается оценка неопределенности результатов работы отдельной САИ.

На этапе обучения САИ получает распределения частоты встречаемости расстояний х для пар совпадающих и различающихся дикторов. При решении задачи идентификации возможны два варианта: Н0 — сравниваемые дикторы совпадают и Н1 — различаются. Пусть Р(Н0\х) — апостериорная вероятность правильности гипотезы о совпадении дикторов. Тогда, согласно формуле Байеса:

где Р(Н0) и Р(Н1) — априорные вероятности гипотез, Р(х\Н0) и Р(х\Н1) — вероятности получения х при верности каждой из гипотез. Значения Р(Н0) и Р(Н]) для простоты полагаются равными.

Апостериорная вероятность Р(Н0|х) моделируется сигмоидной функцией зависимости от х [21], оценка параметров которой проводится на обучающей базе данных. На рис. 3

(2)

приведен пример зависимости апостериорной вероятности Р(И0\х) от х, полученной для конкретной САИ [10] на основе анализа гистограмм распределений х для совпадающих (эллип-

Рис. 3

Однако реальная форма распределения х для больших обучающих баз данных речевых САИ обычно далека от какого-либо стандартного типа. В силу этого при оценке ДИ для Р предлагается использовать непараметрический Ьоо1в1хар-метод, не требующий предположений о форме оцениваемого распределения [7, 20, 22]. Он позволяет оценивать распределение Р для генеральной совокупности, используя только одну большую выборку. Пусть оценка

апостериорной вероятности Рп = Рп(Но |х) получена для начальной выборки (X1, ..., Хп ) .

Чтобы оценить ДИ, в который с заданной вероятностью попадают значения Р(Н0\х), конструируем из начальной выборки большое количество других выборок, выбирая в произвольном порядке ее элементы „с возвратом". Создадим наборы из В возможно повторяющихся

элементов (Х1,..., Хп) и вычислим для них соответствующие значения Рп (Ь), Ь = 1,..., В . На

~ *

основе оценок для Ьоо1в1хар-выборок вычислим Ьоо1в1хар-распределение Рп :

~ *

О* (р) = Р{Рп < р} — аналог распределения наборов обычных выборок из генеральной совокупности. Соответствующие процентили этого распределения определяют квантили уровня значимости а и 1 -а О*-1 (а) = тЦх : О* (х) > а} и О*-1 (1 - а) как нижнюю и верхнюю границы 1 - 2а ДИ для оценки Рп = Рп (Н0 |х) [22].

В качестве характеристик САИ выберем односторонний доверительный интервал (ОДИ). Верхний ОДИ:

Р(-«< Р(И0 |х) < Рп") = а, (3)

где Рп" = О*"1 (1 - а), и нижний ОДИ:

Р(Рп1 < Р(И0 |х) < ®) = а, (4)

где Рп = О*-1 (а)

Для оценки результатов сравнений дикторов, близких к целевому, предлагается использовать нижнее значение ОДИ, а для дикторов, отличающихся от целевого — верхнее. Классический bootstrap-метод предполагает независимость элементов исходной выборки, что неверно для случая, когда сравниваются звуковые файлы одного и того же диктора. Для решения этой проблемы предлагается использовать subset bootstrap [23].

Экспериментальные результаты. На рис. 4 показана зависимость вероятности совпадения дикторов от расстояния между файлами (сплошная кривая) и кривая (пунктир) доверительных границ (ДГ), показывающая положение границ односторонних доверительных интервалов для а= 0,95. Такой уровень доверительности означает, что отображаемая кривой доверительных границ P(H0\x) имеет значения „не хуже" показанных на графике, по крайней мере, для 95% дикторов в обучающей базе данных. „Хуже" и „лучше" для пользователей САИ означает, что для заданного а положительное решение САИ о совпадении дикторов понимается только при условии PJ > 0,5, а отрицательное

только при выполнении условия P™ <0,5 . Кривая ДГ для заданного уровня доверительности дает значение вероятности совпадения дикторов, минимальное — при условии принятия решения об их совпадении и максимальное — при условии принятии решения об их различии. При использовании ДГ возникает принципиально новая область возможных решений, в которой с заданным уровнем доверительности нельзя принять ни положительного, ни отрицательного решения (LR=1). На рис. 4 это зона для значений

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 4

Например, для данной САИ среднее значение апостериорной вероятности для значений Р(И0|х1) = 0,8 и Р(Н0|х2) =0,98 соответствует значениям кривой ДГ Р^ (Н0 \ Х1) = 0,67 и

Рп (Н0 \ Х2) = 0,97. На рис. 5 приведены результаты идентификации системы БКЛ (БТС 2012), вероятностные результаты сравнения дикторов для двух речевых файлов, ДИ и ДГ (жирный шрифт).

На рис. 6 приведены ДГ для двух разных баз: микрофонные интервью в №8Т БКЕ 2008 [24] и телефонные диалоги в аналоговых ТСОП в базе ЯиБТеК [25]. Р(Н0\х) САИ [19] для баз данных МБТ БКЕ 2008 (1) и ЯиБТеК (2) и кривые доверительных границ для Р(Н0\х) для МБТ БКЕ 2008 (3) и ЯиБТеК (4), вычисленные при а= 0,95. Кривая ДГ показывает значения Р(Н0\х) для 95 % „лучших", с точки зрения принимаемого идентификационного решения, дикторов в обучающей базе.

т Идентификация

Файлы

Файл 1 [сГ 1341 c_ch l_5._F.vjav

16 бет; манп; В000 Гц; 60.53 сек.;

речь не отсегментирована! чистая речь: 38.72 сек.;

Файл 2 ¡А: 4e2c97_chl_s_i_11025.wav

16 бит; мина; 11025 Гц; 46.67 сек.;

речь не отсегментирована! чистая речь: 28.09 сек.;

Уровень доверительности: | 93%

Методы FR [m in, max], % FA [min,max], % LR [min,max] P [min,max], % Pi [min,max], % □ ET *

0 СФ 61.3 [57.7, 64.9] 2.4 [1.2, 3.51 26.1 [17.6,49.5] 96.3 [94.6, 98.0] 3.7 [2.0, 5.4] DET

а от 23.3 [20.2, 26.4] 10.5 [8.3,12.S] 2.2 [1.7, 2.9] 68.9 [63.3, 74.21 31.1 [25.8, 36.7] DET

0 СГР S.9 [ 6.S, 10.9] 0.7 [ 0.1, 1.4] 11.8 [5.S, 75.2] 92.2 [85.2, 98.7] 7.8 [ 1.3, 14.8] DET -

[3 Общее ... 10.6 [ 8.4,12.9] 0.4 [0.12, 0.9] 24.7 [10.6, 9 999.SE 96.1 [91.4, 99.99] 3.9 [0.01, 8.6] DET T"

Заключение:

Идентификационные характеристики дикторов совпадают с уровнем доверительности более 99%. Вероятность совпадения дикторов более 91.4%.

Рис. 5

Р(НоХ) 0,8

0,6

0,4

0,2

0 0,1 0,2 0,3 0,4 0,5 0,6 х

Рис. 6

Приведенные данные показывают высокую степень зависимости результатов работы САИ от типа обучающей базы данных, что требует наличия в пользовательском интерфейсе САИ настроек на свойства звуковых файлов.

Заключение. В работе предложены разработанные авторами, проверенные на практике подходы к организации пользовательского интерфейса САИ, ориентированные на решение задач мониторинга, учета и выполнения судебных экспертиз.

/t h /f - -

4 ........______/ / * *

li\ / ; i i • * ■ rh' ____________J........

3 t ч * 4/ и t 4

V k

список литературы

1. АПК „PhonoBase" [Электронный ресурс]: <http://www.sis-tss.ru/2010-06-23-20-32-10/2326-qphonobaseq.html>.

2. [Электронный ресурс]: <http://www.agnitio.es/producto.php?id_producto=3>.

3. [Электронный ресурс]: <http://www.loquendo.com/en/products/speaker-verification/>.

4. Попов Н. Ф. и др. Идентификация лиц по фонограммам русской речи на автоматизированной системе „Диалект". М., 1996.

5. Тимофеев И. Н. и др. Применение автоматизированной системы „Диалект" на базе компьютерной речевой лаборатории CSL (США) при решении задач идентификации дикторов: Метод. рекомендации. ЭКЦ МВД РФ, 2000.

6. Martin A. F., Greenberg C. S. The NIST 2010 Speaker Recognition Evaluation // INTERSPEECH 2010. Makuhari, Chiba, Japan, 2010. P. 2726—2729.

7. Wu J. C., Martin A. F., Kacker R. N. Measures, Uncertainties, and Significance Test in Operational ROC Analysis // J. Res. NIST. 2011. Vol. 116, N 1. P. 517—537.

8. Campbell W. M. et al. Estimating and evaluating confidence for forensic speaker recognition // Proc. ICASSP2005. Philadelphia, PA, 2005.

9. Rose P. Technical forensic speaker recognition: Evaluation, types and testing of evidence // Computer Speech and Language. 2006. Vol. 20, N 2—3. P. 159—191.

10. Belykh I. N. et al. The speaker identification system for the NIST SRE 2010 // Informatics and its Applications. 2012. Vol. 6, N 1. P. 91—98.

11. Drygajlo A. Forensic automatic speaker recognition // IEEE Signal Processing Magazine. 2007. Vol. 24, N 2. P. 132—135.

12. Drygajlo A. Statistical Evaluation of Biometric Evidence in Forensic Automatic Speaker Recognition // IWCF 2009. Hague, Netherlands, 2009.

13. Interspeech 2008 special session "Forensic Speaker Recognition Traditional and Automatic Approaches" [Электронный ресурс]: <http://interspeech2008.forensic-voice-comparison.net>.

14. Зубова П. И., Коваль С. Л. Методика экспертной идентификации дикторов по голосу и речи на основе комплексного анализа фонограмм // Теория и практика судебной экспертизы. 2007. Т. 3, № 7. С. 68—76.

15. Evett I., Buckleton J. Some aspects of the Bayesian approach for evidence evaluation // J. of Forensic Science Society. 1989. Vol. 29. P. 317—324.

16. Meuwly D., Drygajlo A. Forensic speaker recognition based on a Bayesian framework and Gaussian mixture modeling // Proc. „Odyssey". 2001. P. 145—150.

17. Gonzalez-Rodriguez J. et al. Robust likelihood ratio estimation in Bayesian forensic speaker recognition // Proc. Eurospeech. 2003. P. 693—696.

18. Guide to the Expression of Uncertainty in Measurement. Geneva, ISO, 1993.

19. Koval S., Lokhanova A. Confidence Bounds Curves as a Tool for Evaluation of Automatic Speaker Recognition Results Uncertainty // Proc. 14th Intern. Conf. on Speech and Computer. SPECOM 2011. Kazan, 2011. P. 284—289.

20. Wu J., Martin A. F., Greenberg C. S., Kacker R. N. Measurement Uncertainties in Speaker Recognition Evaluation // NIST Publication. 2010. P. 7722.

21. Platt J. Probabilistic outputs for Support Vector Machines and comparisons to regularized likelihood methods // Advances in Large Margin Classiers. Cambridge: MIT Press, 1999.

22. Bolle R.M. et al. Error Analysis of Pattern Recognition Systems: the Subsets Bootstrap // Computer Vision and Image Understanding. 2004. Vol. 93, N 1. P. 1—33.

23. Efron B., Tibshirani R. J. An Introduction to the Bootstrap. NY, 1993.

24. [Электронный ресурс]: < http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2011S11>.

25. LDC 2006S34 [Электронный ресурс]: <www.ldc.upenn.edu>.

Дмитрий Викторович Дырмовский

Сергей Львович Коваль

Сведения об авторах

филиал ООО „ЦРТ", Москва; директор филиала; Санкт-Петербургский национальный исследовательский университет информационных технологий, кафедра речевых информационных систем; соискатель; E-mail: ddv@speechpro.com

канд. техн. наук, доцент; филиал ООО „ЦРТ", Москва; главный эксперт; E-mail: koval@speechpro.com

Рекомендована кафедрой речевых информационных систем

Поступила в редакцию 22.10.12 г.

УДК 004.83

Ю. Н. Матвеев

ОЦЕНКА ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА ОБЩЕГО РЕШЕНИЯ АНСАМБЛЯ КЛАССИФИКАТОРОВ

Предложен алгоритм оценки доверительного интервала общего решения ансамбля классификаторов, выходом каждого из которых является логарифмическое отношение правдоподобия.

Ключевые слова: доверительный интервал, общее решение, ансамбль классификаторов, идентификация дикторов, голосовая биометрическая система.

Введение. При построении голосовых биометрических систем для повышения надежности идентификации личности по голосу (идентификации диктора) часто используется набор автоматических, полуавтоматических и экспертных методов исследования фонограмм, основанных на признаках речи различной природы. В качестве надежного итогового решения используется обобщающее, построенное на базе решений каждого из перечисленных методов идентификации.

По результатам исследования фонограмм для каждого метода выдается мера доказательности, которая строится на основе оценки степени тождества/различия дикторов. В качестве меры доказательности принят логарифм отношения правдоподобия (LR-оценка, Likelihood Ratio) каждого метода:

log(LR) = log f P( X|H0) 1, (1)

\P(X | H1))

где P(X\H0) — вероятность получения данных исследования Х при истинности гипотезы H0, P(X\H1) — вероятность получения данных исследования Х при истинности гипотезы Hi.

Для автоматических методов идентификации оценка значений Р(Х\Н0), Р(Х\Н1) производится без участия эксперта. Для получения зависимости вероятностей Р(Х^Н0), Р(Х\Н1) от расстояния между векторами признаков сравниваемых сигналов на этапе разработки используются большие речевые базы данных, на которых устанавливается статистическая связь вероятностей с расстоянием. Тем не менее представительность этих баз данных ограничена условиями, в которых собирались фонограммы. В силу этого для условий, отличных от тех, на которые алгоритм был точно настроен, реальные значения вероятности истинности того или иного идентификационного решения становятся меньше. Наиболее важными факторами, влияющими на надежность решения автоматической системы, являются различия в свойствах канала записи эталонной (образцовой) и исследуемой (спорной) фонограмм, различное фи-

i Надоели баннеры? Вы всегда можете отключить рекламу.