Научная статья на тему 'Генерация криптографических ключей на основе голосовых сообщений'

Генерация криптографических ключей на основе голосовых сообщений Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
136
29
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГОЛОСОВЫЕ СООБЩЕНИЯ / VOICE MESSAGES / НЕЧЕТКИЙ ЭКСТРАКТОР / FUZZY EXTRACTOR / ПОМЕХОУСТОЙЧИВОЕ КОДИРОВАНИЕ / NOISELESS CODING / БИОМЕТРИЯ / BIOMETRICS / ИДЕНТИФИКАЦИЯ ДИКТОРА / SPEAKER IDENTIFICATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сулавко Алексей Евгеньевич, Еременко Александр Валерьевич, Борисов Р.В.

Рассмотрена проблема генерации ключевых последовательностей на основе биометрических данных. Предложены два пространства признаков голоса человека (зависимое и не зависимое от произносимой фразы), способы генерации ключей на основе голосовых сообщений на основе метода нечетких экстракторов с использованием кодов Адамара и БЧХ, исправляющих ошибки. Произведена оценка эффективности описанных способов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сулавко Алексей Евгеньевич, Еременко Александр Валерьевич, Борисов Р.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Generation of key sequences based on voice messages

The problem of the generation of the key sequences on the basis of biometric data is described. Objective: To develop a method of generating a key sequence based on the subject of voice parameters with indicators of reliability and key length exceeding achieved. Two features spaces of human voice are proposed: dependent and independent of the uttered phrase. The methods of generating keys based on voice messages on the basis of fuzzy extractors using Hadamard or Bose Chaudhuri Hocquenghem error correcting codes are proposed. Also the ranking procedure of most stable features individual for each subject was proposed. The effectiveness of the proposed method was defined. The optimum methods for each proposed feature space have been found. These results are superior to previously achieved by generating a key sequence based on voice.

Текст научной работы на тему «Генерация криптографических ключей на основе голосовых сообщений»

А. Е. Сулавко, канд. техн. наук, Омский государственный технический университет, sulavich@mail.ru

А. В. Еременко, канд. техн. наук, Омский государственный университет

путей сообщения, 4eremenko@gmail.com Р. В. Борисов, Luxoft (Люксофт), г. Омск, brv1986@yandex.ru

Генерация криптографических ключей на основе голосовых сообщений1

Рассмотрена проблема генерации ключевых последовательностей на основе биометрических данных. Предложены два пространства признаков голоса человека (зависимое и не зависимое от произносимой фразы), способы генерации ключей на основе голосовых сообщений на основе метода нечетких экстракторов с использованием кодов Адамара и БЧХ, исправляющих ошибки. Произведена оценка эффективности описанных способов.

Ключевые слова: голосовые сообщения, нечеткий экстрактор, помехоустойчивое кодирование, биометрия, идентификация диктора.

Введение

На сегодняшний день киберпреступ-ность беспокоит не только специалистов по информационным технологиям и информационной безопасности. Инциденты в сфере кибербезопасности затрагивают интересы и высшего руководства организаций. По данным глобальных аналитических исследований PwC (PricewaterhouseCoopers), число инцидентов и объем причиняемого ими ущерба неуклонно растут. В 2014 г. количество инцидентов составило 42,8 млн. Это означает, что каждый день совершалось в среднем 117 339 кибератак. Если анализировать ситуацию за длительный период, то с 2009 г. совокупный среднегодовой темп роста числа выявленных инцидентов информационной безопасности ежегодно увеличивался на 66% [1]. Общую сумму убытков от киберпреступности в мировом масштабе узнать невозможно, поскольку о многих ки-

1 Работа выполнена при финансовой поддержке РФФИ (грант № 15-07-09053).

бератаках просто не сообщается, а ценность некоторых видов информации определить нелегко. Авторы исследования [2] пришли к выводу, что размер ежегодных убытков от ки-берпреступности для мировой экономики составляет от 375 млрд до 575 млрд долл. США.

Защита данных от несанкционированного доступа на уровне хранения обеспечивается их шифрованием. Современные методы шифрования надежны, если использовать стойкие ключи (пароли). Но проблема человеческого фактора сводит на нет использование сложных паролей и длинных ключей шифрования. Даже если необходимые требования к генерации надежных паролей и ключей на практике выдерживаются (что в подавляющем большинстве случаев не так), остаются актуальными проблемы безопасного хранения паролей (ключей), социальной инженерии (обманных способов выведывания злоумышленником паролей у пользователей). Кроме того, не секрет, что длинный пароль или ключ шифрования создают существенные неудобства для работника организации (или обычного пользователя), по причине чего владе-

лец оставляет на рабочем месте запись с паролем или подсказкой, которой легко может воспользоваться нарушитель. Поэтому метод контроля аутентичности субъекта посредством запроса пароля (ключа шифрования) нельзя считать достаточно надежным. К аналогичным заключениям можно прийти относительно аппаратных аутентификаторов, если продолжать наши рассуждения.

Итак, очевидно, что наилучшим вариантом будет привязка всех аутентификаторов пользователя (паролей, ключей шифрования и др.) к личности субъекта. Такая привязка должна быть неотъемлемой от субъекта, надежной и исключающей ее фальсификацию. Неотъемлемыми от человека являются его биометрические признаки. Для реализации такой связи могут быть использованы методы (алгоритмы), выделяющие случайные, равномерно распределенные последовательности битов из биометрических данных, называемые нечеткими экстракторами [3]. Нечеткие экстракторы можно использовать для воспроизведения ключей без необходимости их хранения в промежутках между обращениями к ним.

Цель работы состоит в создании способа генерации ключевых последовательностей на основе параметров голоса субъекта с показателями надежности и длиной ключа, превосходящими достигнутые. Для достижения поставленной цели необходимо решить следующие задачи:

1) выявить устойчивые параметры (биометрические признаки) голоса субъекта, зависимые от произносимой фразы;

2) выявить устойчивые параметры (биометрические признаки) голоса субъекта, не зависимые от произносимой фразы (произносимого текста);

3) разработать способ генерации ключевых последовательностей на основе параметров голоса диктора и произнесенной парольной фразы;

4) разработать способ генерации ключевых последовательностей на основе параме-

тров голоса диктора при произнесении произвольного текста;

5) оценить надежность предложенных способов генерации ключа с учетом случаев открытых (когда парольная фраза известна) и тайных (когда парольная фраза держится в секрете) биометрических образов.

Обзор методов генерации ключей на основе биометрических данных

Идея связывания биометрических образов с криптографическими ключами шифрования возникла из идеи аннулируемой биометрии [4], суть которой состоит в устранении недостатка классической биометрии, связанного с невозможностью изменять физиологический биометрический признак в случае его компрометации. При этом информативные признаки могут быть получены при использовании как открытых, так и тайных биометрических образов. Показателями надежности генерации ключа являются вероятности ошибки первого рода (FRR — False Rejection Rate, несовпадения ключа, генерируемого из признаков одного и того же субъекта) и второго рода (FAR — False Accept Rate, совпадение ключа, генерируемого из признаков двух различных субъектов).

Известны системы генерации ключа на основе отпечатка пальца [5; 6], радужной оболочки глаза [7-9], изображения лица субъекта [10; 11], подписи [12; 13], клавиатурного почерка [14-16], а также мультифакторные системы [17; 18]. При этом показатели надежности генерации ключа на основе статических биометрических признаков (отпечаток пальца, радужка) составляют порядка FRR = 0,005-0,055 и FAR = 0, длина генерируемого ключа составляет 140-327 бит. Для динамических биометрических признаков (подпись, клавиатурный почерк) данные показатели ориентировочно равны FRR = FAR = 0,09-0,12 при длине ключа 12-100 бит. Аналитический обзор методик генерации ключа на основе биометри-

[ 77 ]

ческих данных показал крайне низкое количество работ, описывающих способы генерации ключей на основе параметров голоса и речи. Идентификация личности по особенностям голоса, как и генерация на его основе ключевого материала (который также может быть использован для идентификации), имеет ряд привлекательных сторон. Во-первых, существует хорошо развитая телефонная сеть, во-вторых, звуковые карты фактически стали стандартным оборудованием современных персональных компьютеров. Кроме того, идентификация по голосу традиционна для людей и не вызывает неприятия. Для слепых идентификация по голосу — основной способ узнавания личности. Среди известных результатов можно указать следующий: FRR = FAR = 0,2 при длине ключа 46 бит [19]. Настоящая работа направлена на создание методики с улучшенными показателями.

Формирование базы голосовых сообщений

Для формирования базы голосовых паролей было привлечено 60 субъектов. Каждым субъектом были произнесены и записаны через микрофон (Pioneer V-237) не менее 50 раз следующие фразы и слова: «разрешить доступ», «авторизация», «здравствуйте», собственная фамилия и любое слово (словосочетание) на выбор. Всего было получено 9000 реализаций известных голосовых паролей и 6000 реализаций неизвестных голосовых паролей. Кроме того, каждый испытуемый записал на микрофон стихотворение «Бородино» М. Ю. Лермонтова, а также прочел текст новостной ленты длительностью 2-3 минуты.

Для выбора частоты дискретизации рассмотрим спектральную плотность непрерывного речевого сигнала для мужского и женского голосов. Усредненная спектральная плотность имеет максимум в диапазоне 250-500 Гц и затухает со скоростью 8-10 дБ на октаву (при удвоении частоты). Это при-

водит к тому, что на частотах выше 4000 Гц спектральная плотность падает до уровня 60 дБ, что соответствует ослаблению мощности по сравнению с максимумом, составляющим -25... — 30 дБ, в 20 и более раз. Это позволяет считать, что полоса пропускания для каналов передачи звуковых сообщений может быть ограничена частотой 4-5 кГц, а следовательно, частота дискретизации этого сигнала должна составлять 8-10 кГц. Для уменьшения размера записи и увеличения скорости вычислений для звуковых файлов были выбраны следующие параметры: частота дискретизации — 8 кГц, разрядность кодирования — 8 бит. Полученные реализации в дальнейшем использовались для анализа, создания эталонов и проведения экспериментов.

Для генерации ключей на основе биометрических признаков необходимо определить «собственную область» субъекта в пространстве выбранных признаков. Для решения этой задачи проводят процедуру преобразования биометрического признака в набор биометрических параметров. Данное преобразование выглядит следующим образом: Ф = П (X), где Ф — множество биометрических параметров пользователя, X — множество вариаций биометрического признака пользователя, и выполняется оно для преобразования больших массивов данных биометрического признака, содержащих большое количество избыточной информации, в небольшой набор параметров, пригодных для создания биометрических шаблонов. При выборе процедуры преобразования данных биометрического признака в набор эталонных параметров стремятся к тому, чтобы полученные области значений параметров для различных субъектов по возможности не перекрывались или их перекрытие было минимальным, т. е. | Фл П Ф^ | ^ min для всех i Ф j, k, где Фл, Ф^ — множества значений k-го биометрического параметра субъектов i и j. Параметры должны быть максимально стабильными для каждого конкретного испытуемого (дисперсия значений параметра для субъекта должна быть мини-

мальной). Параметры для разных классов (субъектов) должны быть различными, т. е. величина дисперсии каждого параметра, рассчитанная по реализациям для всего множества субъектов, должна существенно превосходить величину дисперсии этого параметра по реализациям каждого отдельного субъекта Б(Ф*) << Б (иДк) [20].

Голосовые признаки субъекта, зависимые от произносимой фразы

В большинстве задач спектрального анализа основной операцией является вычисление преобразования Фурье исследуемого сигнала. К звуковому сигналу применяется дискретное преобразование Фурье (ДПФ), строится амплитудный спектр сигнала. Частотное наполнение речевых сигналов разных дикторов различно даже при произношении ими одной парольной фразы, что позволяет на основе данных, полученных при анализе функции спектральной плотности, построить пространство признаков речевого сигнала (голосового сообщения).

Значения амплитуд зависят от громкости сигнала. Необходимо нормировать спектр путем деления значений амплитуд сигнала на величину, характеризующую его громкость. Громкость звукового сигнала X = f можно оценить по его средней мощности (средней энергии)

N

E = Е f )2/ N. (1)

1=0

Спектры схожих сигналов с близкими значениями энергий могут быть различны — гармоники, близкие по частоте, могут делить между собой амплитуду. В случае большей «размазанности» амплитудного спектра в окрестности пика значение амплитуды этого пика меньшее. Необходимо ввести некоторую величину, способную характеризовать исходный сигнал по его амплитудному спектру. Этой величиной является среднее арифметическое амплитуд гармоник в окрестно-

сти пиков нормированных амплитудных спектров. Преобразуем спектральную плотность по формуле

j + п

f ) = Е f (V )/(2п +1), (2)

1=] - п

где п — эмпирически подбираемая величина, определяющая степень сглаженности, f(у.) — амплитуда -й гармоники.

Очевидно, что в случае произнесения одним диктором одних и тех же звуков речевые сигналы будут иметь похожие спектры, но наблюдается нестабильность распределения энергии по частотам. Спектральная плотность имеет ярко выраженные пики, соответствующие частотам, вносящим наибольший вклад в исследуемый сигнал. Замечено, что от реализации к реализации их величина колеблется в некотором диапазоне около некоторого значения. Преобразуем спектральную плотность по формуле

Р *(у) = Е Р(1.), (3)

Ц1 =у1 - X

где — значение частоты, соответствующее экстремуму функции ¥ ( /.), х — ширина окна интегрирования, что позволяет решить две указанные выше проблемы.

Константу х следует выбирать таким образом, чтобы не «смазать» различия между спектрами разных сигналов и вместе с тем не давать возможности перейти экстремуму из одного окна в другое. Эмпирически установлено, что оптимальное значение х = 60 Гц. Преобразованные спектральные плотности речевого сигнала изображены на рис. 1.

ДПФ не учитывает локализацию частот во времени, поэтому целесообразно выделять наиболее значимые участки сигнала и обрабатывать их отдельно.

Наибольшую информацию о дикторе несут гласные. Выделить гласные можно, если учесть периодический характер сигнала. Разобьем весь сигнал на равные отрезки.

[ 79 ]

Рис. 1. Преобразованные спектральные плотности речевого сигнала (мужчина, фонема «а»)

Fig. 1. The converted spectral densities of the speech signal (a man, a phoneme «a»)

Вычислим спектральную плотность сигнала на каждом отрезке. Объединим соседние отрезки, коэффициент корреляции спектров которых превышает некоторое пороговое значение. При таком подходе возникают проблемы с появлением «лишних» фрагментов (рис. 2) и потерей «нужных» фрагментов (рис. 3).

Проблема появления «лишних» фрагментов решается введением ограничения на минимальную длину интервала (t = 0,125 с), для решения проблемы потери «нужных» фрагментов необходимо отдельное рассмотрение низких, высоких и средних частот. Эмпирически было установлено, что для вы-

деления гласных можно эффективно использовать функцию

К2 (х, у, 0, 1300) • [К (х, у, 1300, 2600) + + К (х, у, 2600, 4000)],

где К (х, у, п1, п2) — коэффициенты корреляции между функциями спектральных плотностей соседних отрезков х [ (к - 1) • т; k • т] и у [к • т; (к + 1) • т] анализируемого сигнала по полосам частот (п1 - п2).

Схожая система признаков предложена в [21], но в настоящей работе она была модифицирована посредством разбиения сигнала на гласные фонемы.

Таким образом, каждая гласная фонема речевого сигнала преобразуется в массив из 60 вещественных чисел — признаков (или атрибутов реализации голосового пароля). В разных реализациях сигнала f (0 при произнесении парольной фразы одним и тем же субъектом будут наблюдаться отклонения, поэтому амплитуды гармоник сигнала f(0 следует считать случайными величинами. При работе со случайным параметром необ-

Рис. 2. Появление «лишних» фрагментов с высоким коэффициентом корреляции

Fig. 2. The appearance of «extra» fragments with high correlation coefficient

Рис. 3. Потеря «нужных» фрагментов

Fig. 3. Loss of the «right» fragments

ходимо знать его закон распределения. На основании критерия Хи-квадрат Пирсона была подтверждена гипотеза о нормальном распределении указанных значений признаков (при уровне значимости а = 0,05).

Голосовые признаки, не зависящие от произносимой фразы

Также в настоящей работе планировалось оценить возможность использования иной системы признаков для генерации ключей, основанной на создании так называемых голосовых отпечатков [22]. Описанная в [22] технология является аналогом дактилоскопии в телекоммуникационном пространстве. Для формирования отпечатка голоса достаточно проанализировать речь субъекта длительностью в 20 секунд.

Учитывая, что голоса разных дикторов имеют разные частоты основного тона и их словарные запасы различаются, следует ожидать, что усреднение текущих спектров по речевому сообщению даст интегральный спектр, который будет характеризовать индивидуальные особенности диктора. Для подтверждения истинности гипотезы, по существу, можно ограничиться упрощенной характеристикой диктора — распределением интегральной частоты, в качестве которой можно использовать число переходов значений ча-

стоты через нулевую ось. Речевой сигнал/ (0 (/ — номер диктора) разбивается на отрезки длиной т -/ (0 [(к - 1) • т; k • т], т = 20 мс, для каждого к-го отрезка вычисляется число переходов сигнала через ноль SF0 ( / (¿) [(к - 1) • т; к • т]), что дает интегральную оценку частоты сигнала — нулевую форманту. Для совокупностей значений полученной функции SF0 (/ (0 [(к - 1) • т; к • т]) формируется гистограмма относительных частот SGF0kj■ (т), количество столбцов т = 20. Получаемые нормированные гистограммы похожи для сообщений одного диктора и различны для разных дикторов [22]. Каждый фрагмент речевого сигнала длительностью 20 секунд преобразуется в реализацию из 20 биометрических признаков — значений столбцов гистограммы SGF0кj (т). Было установлено, что закон их распределения также близок к нормальному.

Способы генерации ключевых последовательностей на основе голоса

Нечеткие экстракторы способны компенсировать ошибки, возникающие из-за невозможности абсолютно точного повторного воспроизведения биометрических данных. Изначально случайным образом генерируется битовая последовательность, кодируемая по-

мехоустойчивым кодом [23]. Данная последовательность объединяется с эталонными характеристиками биометрических признаков субъекта (биометрическим эталоном). В качестве способа объединения обычно используется сложение по модулю 2. Результатом объединения является открытая строка. Число реализаций, необходимых для вычисления эталонных характеристик, — параметр нечеткого экстрактора, который целесообразно вычислять исходя из вычислительного эксперимента. Чтобы получить сгенерированную ранее последовательность, субъект вводит новую реализацию биометрических признаков, которая обрабатывается соответствующим образом и «вычитается» из открытой строки для «отсоединения» биометрических данных. После применения кода, исправляющего ошибки, для полученной строки в случае высокой степени совпадения предъявленного биометрического образа и эталонного будет найдена исходная последовательность битов. Таким образом, хранение непосредственно эталонных характеристик (эталона субъекта) не требуется, требуется хранить лишь открытую строку. Отличие реализаций метода нечетких экстракторов заключается в использовании различных биометрических

признаков, способов их битового представления, используемых алгоритмах помехоустойчивого кодирования (декодирования), способов «объединения» и «разъединения» битовых последовательностей.

Исходные данные о значении признака представляют собой десятичное число, которое может храниться в памяти компьютера в виде числа с плавающей точкой, занимающего 4 байт информации (32 бит), или числа с плавающей точкой двойной точности, занимающего 8 байт (64 бит). Очевидно, что «сырые» биометрические данные по большей части состоят из неинформативных частей, поэтому было решено кодировать значение каждого признака одним байтом при формировании битовой последовательности из биометрических признаков. Исходные значения признака х е X, где X — множество возможных значений признака, заменяются значениями у е {0, 1, 3, 7, 15, 31, 63, 127, 255, 254, 252, 248, 240, 224, 192, 128} на основе преобразования у = f (х), принцип которого проиллюстрирован на рис. 4. Выходное значение у представляется в двоичном виде. Это позволяет минимизировать количество неинформативных битов. Разброс единичных ошибок (битов) в преобразованном значении бу-

Розультач л ре образования:

00№WW OOWOW1 — 00101111 «011111 00111111 шиш >111011 11111110 muí« H111WO in 1«« 111(00« ■ 1WW0> -

A / / asi 6 у/ 2 1 3 -

Знс чение ризна <a, xa pa ктериз ующего 7 субг ектов

Рис. 4. Предложенный способ кодирования значений признаков

Рис. 4. The proposed method of encoding attribute values

дет значительно менее существенным от реализации к реализации голосового сообщения.

Далее независимо от подхода производится «склейка» битовых последовательностей в одну результирующую, которая «объединяется» со случайной строкой. В работе [24] показана связь эффективности коррекции ошибок с методами группирования битов с разной вероятностью единичной ошибки. Несмотря на предпринятые в данном направлении усилия, единого подхода для группировки битовых представлений признаков до сих пор не выработано. В настоящей работе предпринята попытка развития данного направления по модернизации нечетких экстракторов. Результирующая последовательность формируется в 3 этапа:

1) оценка и ранжирование признаков по информативности;

2) случайное перемешивание признаков;

3) конкатенация битовых представлений преобразованных признаков.

Предлагается процедура индивидуальной оценки информативности признаков с учетом относительной частоты появления единичных (или нулевых) битов в преобразованном значении признака. Для каждого признака по всем отобранным для создания эталона преобразованным реализациям вычисляется относительная частота появления единичных битов. Далее определяется интегральная вероятность появления единичного бита во всех разрядах, при этом относительная частота берется как вероятность, интегральная вероятность (частота) является их произведением (вероятность одновременного появления событий). Вероятности, равные 0 или 1, преобразуются в числа, близкие к 0 и 1, но не равные им, чтобы произведение не стало равным нулю. Чем больше разрядов будут иметь частоты, близкие к 0 или 1, тем меньше получится итоговое произведение и тем выше интегральная оценка стабильности (информативности) признака для субъекта. Несложно заметить, что при подсчете частот появления нулевых битов вме-

сто единичных значение производящей функции будет тем же.

Далее изменяется порядок признаков — от самого информативного к самому малоинформативному, отбирается определенное количество признаков, а остальные отбрасываются. Оптимальное количество признаков, при котором вероятности ошибок 1-го и 2-го рода будут наименьшими, — параметр экстрактора, который для каждой задачи будет различным. В настоящем исследовании данный параметр определялся посредством серии вычислительных экспериментов для каждого исходного набора признаков.

На втором этапе последовательность признаков задается случайным образом для каждого субъекта индивидуально во время формирования открытой строки. Это делается для того, чтобы распределить ошибку более равномерно (большинство помехоустойчивых кодов ориентировано на равномерное распределение ошибок в передаваемом сообщении [25]). Кроме того, если последовательность признаков будет для каждого субъекта различна, то вероятность ошибки 2-го рода может быть снижена, так как при попытке «отсоединения» предъявленной битовой последовательности от открытой строки, принадлежащей другому субъекту, порядок признаков не совпадет. При этом вероятность ошибки первого рода гарантированно останется неизменной (последовательность признаков в образе «свой» всегда будет одинакова). Количество информативных признаков и их последовательность требуется хранить на отдельном носителе или выделенном сервере.

В качестве кодов, исправляющих ошибки, было решено опробовать два принципиально разных метода: метод помехоустойчивого кодирования Адамара и метод Боуза-Чоудхури-Хоквингема (БЧХ-коды) [25]. Было решено отказаться от использования кодов Хемминга вследствие их высокой избыточности (на 4 информативных бит приходится 3 бит синдромов ошибок) и низкой исправ-

[ 83 ]

ляющей способности (один бит на кодируемое сообщение).

В кодах Адамара расстояние между любыми двумя кодовыми словами одинаково и совпадает с кодовым расстоянием. Подобные коды называют эквидистантными [25]. Коды Адамара, обладая большим кодовым расстоянием, позволяют, соответственно, исправить и большое количество ошибок. В качестве параметра коды Адамара принимают размер блока кодируемого сообщения. Оптимальное значение для рассматриваемого случая также вычислялось исходя из эксперимента и для различного количества признаков составляет от 4 до 6 бит.

Коды БХЧ — это широкий класс циклических кодов, применяемых для защиты информации от ошибок при ее передаче по каналам связи. Код БЧХ отличается возможностью построения кода с заранее определенными корректирующими свойствами [25]. Оптимальная исправляющая способность кода зависит от количества признаков, она определялась в процессе проведения вычислительного эксперимента. Среди возможных алгоритмов декодирования БЧХ-кодов алгоритм Берлекемпа-Мэсси, алгоритм Евклида, алгоритм Питерсона-Горенстейна-Цирлера (ПГЦ). Последний использовался в работе [26] и в настоящем исследовании. Широко используемым подмножеством кодов БЧХ являются коды Рида-Соломона [25]. В данном исследовании решено ограничиться общей реализацией кодов БЧХ с возможностью задать исправляющую способность.

Оценка эффективности предложенных способов генерации ключей

Имеющиеся биометрические данные использовались для имитации процесса генерации секретных ключей, привязанных к субъекту. На первом этапе по равномерному закону генерировались сами ключевые последовательности, на основе которых с использо-

ванием биометрических данных в дальнейшем формируются открытые строки и которые будут восстанавливаться из открытых строк. На втором этапе производилась генерация секретных ключей, т. е. восстановление исходных сгенерированных секретных ключей и их сравнение с первоначальными ключами. Процесс генерации ключей повторялся с различными сочетаниями параметров экстрактора для всех реализаций всех субъектов, имеющихся в базе, за исключением тех, которые использовались для формирования открытой строки.

При оценке FAR для случая тайных биометрических образов в качестве ошибки принимались фамилия субъекта и факты случайного совпадения генерируемого ключа 7-го субъекта с ключом j-го субъекта при использовании в эксперименте реализаций различных для каждого субъекта речевых паролей, которые испытуемый выбирал самостоятельно. При оценке FAR для случая открытых (известных) биометрических образов в качестве ошибки принималась ситуация совпадения генерируемого ключа 7-го субъекта с ключом j-го субъекта при использовании в эксперименте реализаций фиксированных речевых паролей (предопределенных изначально — «разрешить доступ», «авторизация», «здравствуйте»). Для признаков, основанных на подсчете интегральной частоты переходов через нулевую ось (генерация ключей на основе непрерывной речи), случай тайных образов не рассматривался. На рис. 5 и 6 изображены графики вероятностей ошибок генерации 1-го и 2-го рода (ROC-кривые) в зависимости от параметров генератора. Признаки, основанные на интегрировании амплитудного спектра с предварительным разделением сигнала на гласные фонемы, являются малоинформативными для генерации ключа с высокой надежностью.

При использовании кодов Адамара и БЧХ получены практически идентичные результаты по надежности, однако код Адамара дал большую длину ключа. В данной задаче

Таблица 1. Основные результаты эксперимента*

Table 1. Main experimental results

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Признаки КР ДК КОД FRR FAR t FAR ДО (ДИ)

Речевые пароли 35 58 Адамара 0,183 0,044 0,156 0,05/0,05/0,05

(интегрированный спектр)

Речевые пароли (интегрированный спектр) 35 60 БЧХ 0,193 0,091 0,214 0,05/0,05/0,05

Непрерывная речь 20 с (переходы через ноль) 20 128 Адамара 0,369 0,293 — 0,05/0,05/ —

Непрерывная речь 20 с (переходы через ноль) 20 32 БЧХ 0,378 0,411 — 0,05/0,05/ —

Непрерывная речь 40 с (переходы через ноль) 10 128 Адамара 0,242 0,167 — 0,05/0,05/ —

Непрерывная речь 40 с (переходы через ноль) 10 32 БЧХ 0,29 0,27 — 0,05/0,05/ —

Непрерывная речь 60 с (переходы через ноль) 5 128 Адамара 0,151 0,101 — 0,05/0,05/ —

Непрерывная речь 60 с (переходы через ноль) 5 32 БЧХ 0,14 0,153 — 0,05/0,05/ —

Непрерывная речь 80 с (переходы через ноль) 3 128 Адамара 0,073 0,057 — 0,02/0,02/ —

Непрерывная речь 80 с (переходы через ноль) 3 48 БЧХ 0,121 0,107 — 0,02/0,02/ —

* КР — количество реализаций при формировании открытой строки; ДК — длина генерируемого ключа в битах; КОД -помехоустойчивый код;

FAR1 — вероятность ошибки 2-го рода для тайных биометрических образов; FAR2 — вероятность ошибки 2-го рода для известных биометрических образов; ДО (ДИ) — достоверность и доверительный интервал (последнее в скобках).

0.0 - ----1-1----н---1-----------4----1---I------f--h------I--F ■

6 в 10 12 14 16 18 20

Максимальное количество учитываемы* информативных признаков

Рис. 5. Характеристические кривые для нечеткого экстрактора на основе кодов Адамара (размер блока 5 бит, признаки — частота переходов через «ноль», длительность речи 20 секунд)

Fig. 5. Characteristic curves for a fuzzy extractor based on Hadamard code (block size of 5 bits, features — frequency transitions through «zero», the duration of 20 seconds of speech) codes

1 ! Г

\l.................. RR

.............:...... --i- —1— AR - - - ......i.....

6 S 10 12 14 16 18 20

Исправляющая способность кода

Рис. 6. Характеристические кривые для нечеткого экстрактора на основе кодов БЧХ (используемые признаки — частота переходов через ноль, непрерывная речь в продолжение 20 секунд)

Fig. 6. Characteristic curves for a fuzzy extractor based on BCH-code (features — frequency transitions through «zero», the duration of 20 seconds of speech)

коды БЧХ дают большую избыточность, так как удовлетворительные вероятности ошибок достигаются только при высокой исправляющей способности, которая обусловлена использованием малоинформативных признаков. При генерации ключей на основе непрерывной речи при использовании большего числа реализаций (1 реализация — 20 секунд, 2 реализации — 40 секунд, ...) для повышения стабильности признаков их значения суммировались.

В табл. 1 приведены наиболее показательные результаты проведенных экспериментов. Во всех случаях достоверность составила не менее 0,99 при различных доверительных интервалах.

Заключение

Человеческий фактор играет немаловажную (если не решающую) роль в проблеме защиты информации от несанкционированного доступа. Поэтому криптографические средства защиты информации сочетают с биометрическими, так как биометрические признаки позволяют «привязать» криптографический ключ или пароль к личности субъекта.

Статические биометрические образы позволяют реализовать надежную «связку ключ — субъект» при высоком значении длины ключа, но имеют ограничения на количество эталонных образов для одного человека (число пальцев, глаз и т. д.), а также позволяют изготовить фальсификат признаков. Динамические образы дают широкие возможности по выбору эталонного образа (например, рукописный пароль можно изменить) при более низкой надежности и длине ключа. Использование голосового пароля дает ряд преимуществ: имеется возможность скрытого получения признаков, не требуется специальное оборудование, не вызывает психологической неприязни, голосовые пароли могут быть использованы людьми с ограниченными возможностями.

Предложен способ генерации ключа длиной 128 бит на основе параметров голоса субъекта, извлекаемых из непрерывной речи длительностью свыше минуты, на основе кодов Адамара с применением процедуры ранжирования наиболее стабильных признаков по информативности индивидуально для каждого субъекта с вероятностью ошибок генерации 1-го и 2-го рода 0,073 и 0,057 соответственно и достоверностью результата 0,99 при доверительных интервалах 0,02.

Разработан способ генерации ключа длиной 58 бит на основе речевых паролей на базе кодов Адамара с применением процедуры ранжирования наиболее стабильных признаков по информативности индивидуально для каждого субъекта на основе интегрирования амплитудного спектра речевого сигнала в окрестности экстремумов с предварительным разбиением сигнала на гласные фонемы. Вероятность ошибок генерации 1-го и 2-го рода составила 0,183 (0,156 для случая, когда пароль известен) и 0,044 соответственно с достоверностью результата 0,99 при доверительных интервалах 0,05.

Эксперименты позволили заключить, что результаты применения разработанного метода превосходят известные методы, использующие генерацию ключевых последовательностей на основе голоса.

Параметры голоса субъекта, ранее используемые в целях идентификации, применены к решению еще одной задачи — генерации ключей шифрования или паролей на основе нечетких экстракторов, для чего предложен способ группировки битов ключа с учетом стабильности признаков.

В дальнейшем планируется повысить длину ключа при меньшей продолжительности речевого сигнала, для чего обеспечить возможность генерации ключа на основе анализа одной фразы и снизить вероятности ошибок посредством перехода на коды Безяева [27]. Улучшение этих параметров позволит перейти к практическому применению предложенной технологии.

Список литературы

1. Управление кибер-рисками во взаимосвязанном мире. Основные результаты Глобального исследования по вопросам обеспечения информационной безопасности. Перспективы на 2015 год. PricewaterhouseCoopers. URL: http://www.pwc.ru/ ru_RU/ru/riskassurance/pubHcations/assets/managing-cyberrisks.pdf

2. Center for Strategic and international Studies, Net Losses: Estimating the Global Cost of Cybercrime, June 2014.

3. Dodis Y, Reyzin L., Smith A. Fuzzy Extractors: How to Generate Strong Keys from Biometrics and Other Noisy Data // Proceedings from Advances in Cryptol-ogy. EuroCrypt. 2004. P. 79-100.

4. Ratha N. K. Enhancing security and privacy in biometrics — based authentication systems // IBM Systems Journal. 2001. № 40 (3). P. 614-634.

5. Teoh A., Kim J. Secure biometric template protection in fuzzy commitment scheme // IEICE Electron. Express. 2007. № 4 (23). P. 724-730.

6. Nandakumar K. A fingerprint cryptosystem based on minutiae phase spectrum // In Proc. of IEEE Workshop on Information Forensics and Security (WIFS). 2010. P. 1-6.

7. HaoF.,AndersonR. and Daugman J. Combining Cryptography with Biometrics Effectively // IEEE Transactions on Computers. 2006. № 55 (9). P. 1081-1088.

8. Bringer J., Chabanne H, Cohen G., Kindarji B. and Z'emor G. Theoretical and practical boundaries of binary secure sketches // IEEE Transactions on Information Forensics and Security. 2008. № 3. P. 673-683.

9. Rathgeb C, Uhl A. Adaptive fuzzy commitment scheme based on iris-code error analysis // In Proc. of the 2nd European Workshop on Visual Information Processing (EUVIP'10). 2010. P. 41-44.

10. AoM, Li S. Z. Near infrared face based biometric key binding // In Proc. of the 3rd International Conference on Biometrics 2009 (ICB'09) LNCS: 5558. 2009. P. 376-385.

11. Kelkboom E. J. C., Zhou X., Breebaart J., Veld-huis R. N. S., Busch C. Multi-algorithm fusion with template protection // In Proc. of the 3rd IEEE Int. Conf. on Biometrics: Theory, applications and systems (BTAS'09). 2009. P. 1-7.

12. MaioranaE., CampisiP. Fuzzy commitment for function based signature template protection // IEEE Signal Processing Letters. 2010. № 17. P. 249-252.

13. Santos M. F., Aguilar J. F., Garcia J. O. Cryptographic key generation using handwritten signature // Proceedings of SPIE, Orlando. Fla, USA. Apr. 2006. Vol. 6202. P. 225-231.

14.Харин Е. А. Построение систем биометрической аутентификации с использованием генератора ключевых последовательностей на основе нечетких данных // Матер. 50-й Всерос. межвуз. науч.-техн. конф. Владивосток: ТОВМИ, 2007. С. 112-115.

15. Еременко А. В., Сулавко А. Е. Способ двухфактор-ной аутентификации пользователей компьютерных систем на удаленном сервере с использованием клавиатурного почерка // Прикладная информатика. 2015. № 6. С. 48-59.

16. Monrose F., ReiterM. K. and WetzelR. Password hardening based on keystroke dynamics // Proceedings

[ 87 ]

of sixth ACM Conference on Computer and Communications Security. CCCS, 1999.

17. Sutcu Y, Li Q, Memon N. Secure biometric templates from fingerprint-face features // In IEEE Conference on Computer Vision and Pattern Recognition, CVPR'07. 2007. P. 1-6.

18. Nandakumar K., Jain A. K. Multibiometric template security using fuzzy vault // In IEEE 2nd International Conference on Biometrics: Theory, Applications, and Systems, BTAS '08. 2008. P. 1-6.

19. Monrose F, Reiter M. K, Li Q. and Wetzel S. Cryptographic key generation from voice // Proceedings of the 2001 IEEE Symposium on Security and Privacy. 2001.

20. Ту Д., Гонсалес Р. Принципы распознавания образов: пер. с англ. / под ред. Ю. Журавлева. М.: Мир, 1978. — 412 с.

21. Епифанцев Б. Н, Ложников П. С., Сулавко А. Е, Борисов Р. В. Комплексированная система идентификации личности по динамике подсознательных движений // Безопасность информационных технологий. М.: ФГУП «ВИМИ», 2011. № 4. С. 97-102.

22. Борисов В. В. Способ формирования голосового отпечатка диктора. Томск: ТУСУР, 2011. Т. 1. С. 60-63.

23. Robert H. Morelos-Zaragoza. The art of error correcting coding. John Wiley & Sons, 2006. — 320 р.

24. ScottiF., CimatoS., GamassiM., Piuri V., SassiR. Privacy-aware Biometrics: Design and Implementation of a Multimodal Verification System // 2008 Annual Computer Security Applications Conference, IEEE. 2008. P. 130-139.

25. Соловьева Ф. И. Введение в теорию кодирования: учебное пособие. Новосибирск: Новосиб. гос. ун-т., 2006. — 127 с.

26. Еременко А. В., Сулавко А. Е. Исследование алгоритма генерации криптографических ключей из биометрической информации пользователей компьютерных систем // Информационные технологии. «Новые технологии». 2013. № 11. С. 47-51.

27. Безяев А. В., Иванов А. И, Фунтикова Ю. В. Оптимизация структуры самокорректирующегося биокода, хранящего синдромы ошибок в виде фрагментов хеш-функций // Вестник Уральского федерального округа. Безопасность в информационной сфере. 2014. № 3 (13). С. 4-14.

References

1. Managing cyber risks in an interconnected world. Key findings from The Global State of Information Security Survey 2015. PricewaterhouseCoopers. Available at: http://www.pwc.ru/ru_RU/ru/riskassurance/publica-tions/assets/managing-cyberrisks.pdf

2. Center for Strategic and international Studies, Net Losses: Estimating the Global Cost of Cybercrime, June 2014.

3. Dodis Y., Reyzin L., Smith A. Fuzzy Extractors: How to Generate Strong Keys from Biometrics and Other Noisy Dataro Proceedings from Advances in Cryptol-ogy. EuroCrypt, 2004, pp. 79-100.

4. Ratha N. K. Enhancing security and privacy in biometrics — based authentication systems. IBM Systems Journal, 2001, no. 40 (3), pp. 614-634.

5. Teoh A., Kim J. Secure biometric template protection in fuzzy commitment scheme. IEICE Electron. Express, 2007, no. 4 (23), pp. 724-730.

6. Nandakumar K. A fingerprint cryptosystem based on minutiae phase spectrum. In Proc. of IEEE Workshop on Information Forensics and Security (WIFS), 2010, pp. 1-6.

7. Hao F., Anderson R. and Daugman J. Combining Cryptography with Biometrics Effectively. IEEE Transactions on Computers, 2006, no. 55 (9), pp. 1081-1088.

8. Bringer J., Chabanne H., Cohen G., Kindarji B. and Z'emor G. Theoretical and practical boundaries of binary secure sketches. IEEE Transactions on Information Forensics and Security, 2008, no. 3, pp. 673-683.

9. Rathgeb C., Uhl A. Adaptive fuzzy commitment scheme based on iris-code error analysis. In Proc. of the 2nd European Workshop on Visual Information Processing (EUVIP'10), 2010, pp. 41-44.

10. Ao M., Li S. Z. Near infrared face based biometric key binding. In Proc. of the 3rd International Conference on Biometrics 2009 (ICB'09) LNCS: 5558, 2009, pp. 376-385.

11. Kelkboom E. J. C., Zhou X., Breebaart J., Veld-huis R. N. S., Busch C. Multi-algorithm fusion with template protection. In Proc. of the 3rd IEEE Int. Conf. on Biometrics: Theory, applications and systems (BTAS'09), 2009, pp. 1-7.

12. Maiorana E., Campisi P. Fuzzy commitment for function based signature template protection. IEEE Signal ProcessingLetters, 2010, no. 17, pp. 249-252.

13. Santos M. F., Aguilar J. F., Garcia J. O. Cryptographic key generation using handwritten signature. Proceedings of SPIE, Orlando, Fla, USA, Apr. 2006, vol. 6202, pp. 225-231.

14. Harin E. A., Goncharov S. M., Kornyushin P. N. Postroe-nie sistem biometricheskoj autentifikacii s ispol'zovaniem generatora klyuchevyh posledovatel'nostej na osnove nechetkih dannyh [Construction of biometric authentication systems using the key sequence generator based on fuzzy data]. Materialy 50-j Vserossijskoj mezhvu-zovskoj nauchno-tekhnicheskoj konferencii [Proceedings of the 50th All-Russian Inter-University Scientific and Technical Conference]. Vladivostok, PNI, 2007, pp. 112-115.

15. Eremenko A. V., Sulavko A. E. Two-factor authentication of users of computer systems on remote server using the keyboard handwriting. Prikladnaya Infor-matika — Journal of Applied Informatics, 2015, no. 6, pp. 48-59 (in Russian).

16. Monrose F., Reiter M. K. and Wetzel R. Password hardening based on keystroke dynamics. Proceedings of sixth ACM Conference on Computer and Communications Security. CCCS, 1999.

17. Sutcu Y., Li Q., Memon N. Secure biometric templates from fingerprint-face features. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR'07, 2007, pp. 1-6.

18. Nandakumar K., Jain A. K. Multibiometric template security using fuzzy vault. In IEEE 2nd International Conference on Biometrics: Theory, Applications and Systems, BTAS '08, 2008, pp. 1-6.

19. Monrose F., Reiter M. K., Li Q. and Wetzel S. Cryptographic key generation from voice. Proceedings of the 2001 IEEE Symposium on Security and Privacy, 2001.

20. Tu D., Gonsales R. Pattern recognition principles, 1978. 412 p.

21. Epifancev B. N., Lozhnikov P. S., Sulavko A. E., Bor-isov R. V. Kompleksirovannaya sistema identifika-cii lichnosti po dinamike podsoznatel'nyh dvizhenij [Complexed system on the dynamics of the uncon-

scious movements of the individual identification]. BezopasnostInformacionnyh Tekhnologij, 2011, no. 4, pp. 97-102.

22. Borisov V. V. Sposob formirovaniya golosovogo ot-pechatka diktora [A method of forming a voice print speaker]. Tomsk, TUSUR, 2011, vol. 1, pp. 60-63.

23. Robert H Morelos-Zaragoza. The art of error correcting coding. John Wiley & Sons, 2006. 320 p.

24. Scotti F., Cimato S., Gamassi M., Piuri V., Sassi R. Privacy-aware Biometrics: Design and Implementation of a Multimodal Verification System. 2008. Annual Computer Security Applications Conference, IEEE, 2008, pp. 130-139.

25. Solov'eva F. I. Vvedenie v teoriyu kodirovaniya [Introduction to coding theory]. Novosibirsk, Textbook. No-vosib. state Univ., 2006. 127 p.

26. Eremenko A. V., Sulavko A. E. Analysis of algorithms for cryptography key generation based on user-specific biometric information of computer systems users. In-formacionnye Tekhnologii — Information Technologies, 2013, no. 11, pp. 47-51 (in Russian).

27. Bezyaev A. V., Ivanov A. I., Funtikova Yu. V. Optimization of the structure self-correcting bio-code, storing syndromes error as fragments hash-functions. Vest-nik URFO, Bezopasnost' v informacionnoj sfere, 2014, no. 3 (13), pp. 4-14 (in Russian).

A. Sulavko, Omsk State Technical University, Omsk, Russia, sulavich@mail.ru A. Eremenko, Omsk Transport University, Omsk, Russia, 4eremenko@gmail.com R. Borisov, Luxoft, Omsk, Russia, brv1986@yandex.ru

Generation of key sequences based on voice messages

The problem of the generation of the key sequences on the basis of biometric data is described. Objective: To develop a method of generating a key sequence based on the subject of voice parameters with indicators of reliability and key length exceeding achieved. Two features spaces of human voice are proposed: dependent and independent of the uttered phrase. The methods of generating keys based on voice messages on the basis of fuzzy extractors using Hadamard or Bose — Chaudhuri — Hocquenghem error correcting codes are proposed. Also the ranking procedure of most stable features individual for each subject was proposed. The effectiveness of the proposed method was defined. The optimum methods for each proposed feature space have been found. These results are superior to previously achieved by generating a key sequence based on voice.

Keywords: voice messages, fuzzy extractor, noiseless coding, biometrics, speaker identification.

About authors:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

A. Sulavko, PhD in Technique A. Eremenko, PhD in Technique R. Borisov, Postgraduate

About authors:

Sulavko A., Eremenko A., Borisov R. Generation of key sequences based on voice messages. Prikladnaya Informatika — Journal of Applied Informatics, 2016, vol. 11, no. 5 (65), pp. 76-89 (in Russian).

- [ 89 ]

Инструментальные средства Информационная безопасность

i Надоели баннеры? Вы всегда можете отключить рекламу.