I НЕПРЕРЫВНАЯ АУТЕНТИФИКАЦИЯ ДИКТОРА ПРИ ВЕДЕНИИ ТЕЛЕФОННЫХ ПЕРЕГОВОРОВ ПО НИЗКОСКОРОСТНЫМ ЦИФРОВЫМ КАНАЛАМ
Афанасьев А.А.1
В статье рассмотрена задача по разработке системы непрерывной аутентификации диктора. Предложен метод декомпозиции речевого сигнала на взаимосвязанные элементы речи при ее низкоскоростном кодировании на основе линейного предсказания. Использование данного метода при предварительном обучении системы позволяет осуществлять непрерывную аутентификацию абонента при доступе к ресурсу пропускной способности канала связи.
Ключевые слова: речевой сигнал, кодирование речи, линейное предсказание, синтезирующий фильтр, декомпозиция, взаимозависимость.
Введение
При ведении телефонных переговоров с использованием средств связи часто необходима предварительная аутентификация абонента с целью определения его легитимности для дальнейшего доступа к ресурсу пропускной способности инфокоммуникационной сети связи ограниченного доступа. Для выполнения данной процедуры в существующих системах в настоящее время может использоваться однократное подтверждение легитимности пользователя при вхождении в связь, после чего ему предоставляется полный доступ к услугам сети связи. В предлагаемой системе при ведении телефонных переговоров по низкоскоростным каналам связи процесс аутентификации является непрерывным и связанным непосредственно с обработкой речевого сигнала (РС) при применении метода линейного предсказания для его кодирования.
Теоретическая цель работы заключается в обосновании актуальности направления по созданию нового поколения защищенных систем низкоскоростного кодирования речи, основанных на использовании ее индивидуальных статистических и параметрических характеристик, вычисляемых в процессе обработки.
Основная часть
Среди многообразия разработанных методов обработки и кодирования РС одним из наиболее эффективных является метод прямого предсказания речи [1], использующийся в современных стандартах низкоскоростного речевого кодирования (табл. 1).
Анализ таблицы 1 указывает на тот факт, что основная доля информационных ресурсов кадра передачи расходуется на представление информации о сигнале возбуждения. В работе предлагается объективная возможность снижения количества бит, выделяемых на представление сигнала возбуждения при одновременном уменьшении вычислительных затрат на поиск вектора сигнала возбуждения в кодовой книге при векторном квантовании данных.
Современные системы низкоскоростного кодирования речи на основе линейного предсказания в общем случае реализуются с использованием переменной структуры и изменяемыми параметрами в выбранной структуре в процессе обработки. Таким образом, ее можно классифицировать как адаптивную систему с переменной структурой и параметрами. Процессом изменения структуры и параметров устройства обработки
Таблица 1
Распределение информационных ресурсов в стандартизованныхлипредерах
Стандарт GSM G.729 Усредненное распределение
Тип липредера RPE-LTP-LPC CS-ACELP
VK, кбит/с 13 8
Коэффициенты модели 0,14 0,23 0,19
Сигнал возбуждения 0,86 0,77 0,81
1 Афанасьев Андрей Алексеевич, кандидат технических наук, доцент, Академия ФСО России, г. Орёл, [email protected]
в реальном масштабе времени управляет устройство, в котором происходят анализ и выделение параметров РС. В соответствии с полученными параметрами выбирается одна из возможных структур обрабатывающего устройства, которая наиболее адекватно отобразит РС на сегменте [2].
Из статистического анализа характеристик РС известно, что распределение формант и их число для различных звуков речи отличаются друг от друга [3]. Данное свойство РС используется для построения системы компрессии речи с изменяемым числом параметров формирующей модели. В зависимости от полученных статантических аарак-теристик обработанного фпаемента речи принимается решение о передаче характеристических параметров. Ими являются параметры передаточной функции голосового тракта формарующего РС (линейные спектральные пары) и соответствующий сигнал возбуждения, их нахождение реализуется с использованием пррцедуры анализа через синтез [4]. Классическая функцеональная схемн кодера, основанного на применении метода рк-нейного предсказания и процедуры анализа через синтез, реализующего данный подход, приведена на рисунке 1. Она соответствует последним практически внедренным разработкам исследователей в данной области и подробно представлена в [5].
Сущность метода линейного предсказания заключается в том, что выберкр РС S(n) может быть предсказана линейной комбенацгей предшаст ву-ющих отсчетов этого сигнала:
M
S\n) = £ atS(n - /) + е{п\ (1)
i=1
где £\и) - предсказанное значение РС; а{ - весовой коэффициент или коэффициент линейного предсказания; М - число коэффициентов или порядок линейного предсказания, е(п) - ошибка предсказания.
Теоретическим основополагающим базисом метода линейного предсказания является авторегрессионная модель, успешно применяемая для решения различных задеч цифрового спектрального анализа и предполагающае в общем «идеальном» слупче бееконечный порядок формирующей системы при возбуждении ее сигналом в виде дискретного белого еауссовского шум а. Ое иде нтификаци я связана с ре шени ем состсмы алгебраических матричпсх уравнений Юла-Уокера [3]. [3 классгческой постановее задачи параметрического цифровогч спектрального анелиза возбуждение формирующего фильтра осуществляется сигналом и(п), представляющим собой реалезацги белого шума с математическим ожиданием, ровным нулю, и единичной дисперсией:
М {и(п)} = 0,
£>{и(п)} = о2 {и(п)} = 1. (2)
Точность идеиочфикацип мнтематической модели исследуемого псоцесса напрямую связана с выСором величины ее порядка МЛ.
В качвствк критерия настройки модели в предположении о гауссовском законе распределения исходного процесса используется взвешенная среднеквадратическая ошибка:
Кадр исходного речевого сигнала S
о—►
Адаптивная кодовая
книга тонового компонента сигнала возбуждения
CT
Фиксированная алгебраическая кодовая книса стохастического компонента сигнала возбуждения
Адаптивный Усилитель
CC
у-
Сопряженный векторный квантователь коэффициентов масштабирован ия компкнектов
сигнала возбуждения
( GT > GC )
Сигнал управленипяр кодовыми книгами
Предсказатель усиления
Идентификатор
(определение коэффициентов синтезирующего фильтра)
3лсп е
Векторный квантователь вектора линейных спектральных пар
Синсезирующий фильтр
H ( z ) = [ A( z )]-1
S
+
e = S - S
Блок минимизации взвешенной среднеквадратической ошибки
Взвешивающий -,р/, \ фильтр восприятия р (z )
Рис.1. Функциональная схема классического кодера линейного предсказания речевого сигнала на основе процедуры анализа через синтез
о
е1 (n) = d 2 ф, Sn) = N (S - S f (S - S') =
а спектральная плотность мощности
1 Л ? ? = -y(s-s* )2
y(nT) = -]ц amy(nT - mT) + ue(nT-),
) =-
1
G(w) = ■
;{uu(n)}T
(6)
(3)
(1 + am cos mwT)2 am sin mwT)2
где В -вектор иригинального РС, — Е5€?кто|э синтезированного РС, ВВ - колочество отсчетов на сегменте анализа.
Применительно к задаче предсказания речи повыш ение порядка перчдаточныхфункций фильтров анализа и синтеза приводит к «обелению» сгинала остатка предсказания, который являеися наилучшим еигналом оозбуждения.
В классической иостановке задачи параме-ергьеикого цифрового спеятрогиного анализи на основе авиорегрессионной моделг линейное разностное уровиение сНо|э мирру но щего фильтра выглядит следующим образом:
(4)
где у(пТ) - выходной сигнал, Т - интервал дискретизации, ат- коэффициенты фильтра.
Его амплигудно-частотнаг характеристика определяется в виде
1(1 + ^ am cos mwT)2 +(У- к» sin mwT)2 (5)
где тв - круговая частота дискретного преобразования Фурье.
Повышение порядка модели в выражениях (4), (5) и (6) приводит к получению более точеных оценок относительно анализируемого сигнала S. В идеале О (an) -— 0 при M -— оо.
На рисунке 2 аредставлена спектральная плотность мощности РС и сигнала остатка линейного предсказания на сегменте квазистационарности, анализ которого позволяет утверждать о наличии взаимдсиязи данных параметров.
На практике при реализации процедур пред-скакания значение M всегда ограничено, что приводит к иозникновению сигнала ошибки e(n), являющегося сигналом возбуждения фильтра синтеза модели лисейного предсказания. Таким об-раиом,сигнал и(п) уже не является реализациями белого шума с математическим ожиданием, равным нулю, и единичной диспепсией, а становится квазидетерминированным относительно множества {am} и связан с ним соответствующими корреляционными оависимостями.
Такое представление элементов декомпозиции РС в процессе функционирования системы низкоскоростного кодирования при предварительном! индивидуальном ее обучении дает возможность ввести термин «непрерывная аутентификация диктора». П редварительно е обучениетикой сиоте-
m=1
m=1
m=1
Рис. 2. Спектральная плотность мощности речевого сигнала и сигнала остатка линейного предсказания
мы при котором в процессе выполняется анализ и выделяются индивидуальные параметры диктора, даст возможность осуществлять непрерывную аутентификацию диктора при ведении телефонных переговоров.
Значения (а,в), определяющие функционирование модели синтезирующего фильтра, носят векторный характер, при этом они связаны друг с другом и со значениями S(n) некоторыми функциональными ограничениями и зависимостями. Мощности пространств представлений параметров {а} и {е} в общем случае различны. Эти ограничения приводятся к следующему виду:
{а, е)„ = (У),
где V - порядковый номер сегмента анализа.
При этом для получения приемлемых резул ь-татов обработки необходимые значения (а, е) должны быть неизменны на всем интервале времени для V.
Разработка систем подобного класса рассматривается как многокритериальная оптимизационная задача. Подобный класс оптимизационных задач возникает, когда оптимизация ведется по нескольким различным критериям, предъявляемым к системе компрессии. При решении данной задачи целесообразно воспользоваться методами, описанными в [6], которые приводят к получению приемлемых характеристик системы и могут быть использованы при ее синтезе. Однако предложенные методы целесообразно применять в случае унимодальности поставленной оптимизационной задачи, для задач по обработке речи это не всегда возможно.
Основная трудность практической реализации таких систем связана с отсутствием априорной информации о вероятной мощности пространства представлений различных вариантов структур при оптимальном решении этой задачи. Устранение данной неопределенности частично реализуется при рациональном ограничении возможных вариантов и заданном требуемом качестве обработки, так как необходимч перчдавать информацию о состоянии и структуре системы в процессе ее функционирования.При скнтезе систем обработки речевых данных многие решения носят эмпирический характер,так как пока отсутствует четкий математическзй аппарат, ноторый позволил бы связать воедино зачететный выбор между количеством возможных структур, заче-ством функционирования, алгорнтмом работы и сложностью функционирования.
При обработке РС и использовании байесо-
ва подхода в идеальном виде требуется знание функциональной зависимости ожидаемой ошибки е(п) от принятого решения и и значений S(n) обрабатываемого РС [3]. Для вычисления данного значения необходимо статистическое описание наблюдений S(n), а также параметров состояния синтезирующей системы. При этом полезный объем данных определяет значение ожидаемой ошибки при любом из ограниченного множества возможных решений. Выполнение задачи по синтезу системы в такой постановке осуществляется пр и извест ных распределениях вероятности р(5|(а,в) и р(а, е), где S - значения отсчетов РС на сегменте анализа, (а,е) - пара векторов параметров голосового тракта и сигнала возбуждения соответственно, выбранные с использованием процедуры анализа через синтез. Однако на пра ктике полное статистическое описание S(n) и (а, е) получить невозможно, что связано в данном случае с высокой размерностью решаемой задачи и сложностью статистического анализа речевых данных. При этом задачи по обработке речевых данных сопровождаются большей или меньшей априорной неопределенностью, которая ограничивает полноту статистического оп иса-ния. Аппроксимация распределений S(n) и (а, е) с помощью нормального распределения носит достаточно приближенный характер, ограничивающий область применения решений, и привносит ошибки в конечные результаты вычислений.
Таким вВрззом, существуюа зазеуднения в прямом исполчзованич бзйесвва пчдхадз со вземи его преимуществами и возможнпзтями.Возника-ющая априорная неопределензость отноиителв-но свпйзтв истовнича делает дсобо важной дазра-ботку методов синтева оистем обрчботки информации и принятпы решений прч такихусловияч.
При наличии данных (-граничений общее выражение для фун к-ии ошибки опрзделеется в виде е({и},з,МЗ,ч) вслуч ке испоевзнвенаяфунк-ции правдоподоИия ;?(£---,£?). Прав ткком прдходе отражаются нзыоторые ствтистические хсрыкте-ристики {а} и {е}, на основании которых вычисляется взаимосвязь между ними. Для задания подробного стапистичеккооо описания в этом случае необходимы математическое ожчзание параметров, дисперсия, а также моминты более пысоко-го порядка. Априозные данные могут быто получены путем вадачие некотопогз математического пж идания мно-окомндйенаннП фуноачч Ае). С тнозеиичесзоч и практзчаакоз точек зрения большое знавание имеет вычисленче корреля-циовной матрицы К- = ||н>|| ипиторп о. Результаты
таких вычислений используются для управления мощностью пространства представлений сигнала возбуждения.
При этом векторы (а, е) в процессе обработки могут рассматриваться как векторный скрытый марковский случайный процесс (7), т. е.
р(а, е) = П А [(а,е)г |(а,еХ- ]Ро е),
(7)
г=2
где переходная р [(а, е |(а, е ^ ] и начальная р0(а,в) плотности в общем случае полностью неизвестны.
Таким образом, вместо единственного ра с-пределения вероятности для параметров (а,е) с плотностью р(а, е) для решения задач по обработке РС задается класс распределений Р0, к ко-тор ому относятся все возможные распределения р(а, е) е Р0.
При этом наиболее универсальным способом статистического описания априорной неопределенности и учета имеющихся ограниченных сведений применительно к набл юдениям S(n) и к ненаблюдаемым параметрам (а, е) является параметрический способ.
Двумерное векторное множество (а, е) дискретно и каждое его значение принимается с определенной вероятностью. При этом если априорное распределение вероятностей не известно, то в качестве неизвестных параметров рассматриваются сами эти вероятности, формальное задание которых с учетом естественных ограничений р
р^ (а, е) > 0, ^ р1 = 1 определяет необходимое
к=1
распределение вероятностей через Р-1 неизвестный параметр.
П оследовательность переходов значений (а, е) определяет скрытый марковский процесс. Недостатком такого представления является априорное условие распределения параметров (а, е) по нормальному закону, чего на практике зачастую не выполняется. Тем не менее данный подход является удобным средством для учета имеющихся качественных представлений о статистическом поведении наблюдаемых данных S(n) и параметров (а, е) в сочетании с незнанием детальных количественных характеристик, точно определяющих это описание. Именно такое сочетание наиболее характерно для большинства прикладных задач обработки речи. Качественные представления, основанные на физической сущности рассматриваемой задачи, дают возможность задать структ уру распределений вероятности для S(n) и (а, е), при этом если S(n) или
(а, е) представляют собой конечное множество, то в качестве неизвестных параметров рассматриваются сами вероятности данных значений. Таким образом, параметрическое описание априорной неопределенности является достаточно универсальным средством учета ограниченных априорных сведений.
Данное описание должно удовлетворять двум подчас противоречивым требованиям. Во-первых, оно должно качественно правильно и, по возможности, количественно точно отражать ограниченные априорные знания, чтобы распределения с плотностями р(а, е.) при соответствующих переменных действительно представляли возможные в данной задаче распределения. Во-вторых, число параметров не должно быть слишком велико.
Увеличение размерности приводит к ухудшению качества решения основной задачи как из-за сложности технической реализации алгоритмов обработки данных наблюдения S(n), так и из-за утраты некоторой доли входной информации, которую неизбежно приходится затрачивать для определения значений или исключения неизвестных мешающих параметров.
Следовательно, разрабатываемую в данных условиях априорной неопределенности систему дополним подсистемой проверки правильности априорных предположений, положенных в основу принятого в данной задаче параметрического описания. Ее задача - установить, верно ли качественно введенное описание (например при фильтрации процесса S(n) соответствует ли действительности аппроксимация S(n) полиномом заданной степени с вычисленными коэффициентами или эта модель недостаточно адекватна) и достаточно ли число введенных параметров относительно (а, е). Такой алгоритм дает возможность при необходимости усложнить параметрическое описание, увеличив число параметров или качественно изменив модель априорной неопределенности, введя статистическую зависимость параметров {а} и {в}
Наличие такой зависимости объясняется тем, что в стандартах низкоскоростного кодирования речи используется ограниченный порядок анализирующего и синтезирующего фильтров, что определяется возможностью их физической реализации при необходимой и достаточной точности описания передаточной функции голосового тракта человека.
Присутствие взаимозависимостей между параметрами, описывающими передаточную функцию голосового тракта на участке квазистационарно-
Рис. 3. Классы подпространств представлений соответствий элементов декомпозиции РС
сти, и соответствующим сигналом возбуждения объясняется особенностями постановки и решения обратной задачи цифрового спектрального анализа при фиксированном порядке формирующего фильтра [7].
Точность идентификации математической модели исследуемого процесса напрямую связана с выбором величины ее порядка Р. Повышение порядка модели приводит к получению более точных оценок относительно анализируемого сигнала Б. В идеале е2(п) ^ 0 при Р . Однако на практике при реализации линейного предсказания значение Р всегда ограничено, что приводит к возникновению сигнала е(п), явояющегося сигнчлом возПуждения фильтра синтиза модели линейного предскозания. Таким обоазом, сигмил е(п) уже не являнтся реализацией белого шума с математическим ожиданием, равным нулю, и единичной дисперсией, а становится квазидетер-минорованныр относительно множества {ат} и связан с ним взаимокнвисимостоми. На риаунке 3 роказано, что при фнрмироваоии ограниконных множеств параметров голосового тракта {а (п)} и
сигналов возбуждения на основе остатка предсказания в виде кодовых книг данные зависимости вырождаются в соответствующие классы подпространств соответствий между собой и определяют элементы декомпозиции РС.
Таким образом, между пространством параметров формирующей модели и пространством векторов сигнала ошибки линейного предсказания (сигнала возбуждения на приеме) существует взаимосвязь, которую можно использовать с целью непрерывной аутентификации диктора. Для этого необходимо предварительное обучение системы с целью установления соответствия вектора подмножества сигналов возбуждения с соответствующим вектором параметров голосового тракта. Нарушение данных взаимосвязей, соответственно, изменение вероятностного распределения соответствий будет указывать на факт несанкционированного использования средства связи для доступа к услугам сети. Пример установления взаимосвязи для элементов декомпозиции 80-мерного сегмента для векторов параметров голосового тракта представлен в таблице 2.
Маблица 2
Соотиетствие векторов элементов декомпозиции РС при нейросетевом квантовании
Номера векторов кодовой книги параметров голосового тракта Номера векторов кодовой книги сигналов возбуждения
1 18 25 34 38 54 69 125 203 250 -
2 36 42 50 54 56 67 92 - - -
3 71 76 80 84 89 93 144 189 226 245
4 5 18 104 200 212 - - - - -
5 9 32 40 - - - - - - -
Прив едем доказательство того Яакта, что с игнал во збуждени я не ягяястся неза в исомым па^стцч^ссо)^ в виде водели Палино ^ьнуу^г^. Иечесой кигеал может Сытя п|я:1^^ст;Е13;л<С1^ ЕЗЬ.1|:);а>ЕС(?1^1Т1:^^ (Ы), пиги этот аго ииснкс и-^с^ ^нт<;?С)^а^(:?/С!0Сеы^"11|:с выраживив
ля^(^л^) = т (о-а ([¿г, ¿л5)) + е (о с6) ^
ОО (ое) = ЛЯ{Г" (иГ, рО, : )(|О-) епТ)\= п ОЛ^ Я- (яМ) Оо соо,
(8|
(9)
снс 8'СпТЯаЮ- -([{(^.с^сЕ^^магаит-!^!^ РС; n0ИяаM - собстеенвый е-поо(спыо шум, К—оТ)- ^[.;€!1-1К)а песосасиаоносс ИС.
"ВоТЫ еС{ = "а, Я-Ос СгОМ : а ы)
осе _ апооаерморная
всроятносто парпмефОД еом декомпозицио ии
КЕИС^'С^рО^-^Л^ и"л
Поряж-иющсй поопеас о—н -:1)сг^^л.а, ^^^оц^к1;:!-?-лп^ииию-о!"^ вкртжемстм (-), прт-ставвм фор-
мулу П11)и [д- ^иЫ-сЛК)) - дП1^с:::1^о)1^|Т||Ч1ь[|||::^ ^ж»^оО! ^г^у^огсас^-ЕЗ-)си:c шум cлeилвaислапo, допжны еиэС-юЭлГ)-
«^^И^!^^)^ услосия:
ОРрТПт-ЗЫпТИыЗТиТ)- (т)
{-"0(0(0- 0)СТОеО)"е о СРоСТ-О;! к" и"^ ( > -
иа)
аде КО-о одкостороисят сппятрслвная -^лтю"^^ сосок пощн-сои ^БИ"^:
М{а(Л1Г-) я м0ВТпТ)0-М11)О\пТС"=1 ,
о М ОТ^ЧоШ- (¿0 -оК)--!- М ж м ^ ом1+l:оoc)ом-nтм)}о )ы(о:ыпТо о.
Для дРКИ^К^-з^т");! гторкно оложе н)я Иы-(-жеоия 0(2), } ве доз (е пролы)р ин о: звдт ке п^со-^ 0)0^101^|^СР(|^|1"0 орoрeяce че(иез выncжeoян:
МnМо((о)ос + C(ЯDC-О)
с(nЫ) = ов (оо- (¿5- ое1- Ос ^а) -
)1-)
м^тт^^т -г -—Со
о метноМфг -и т/)яС|р;) + о0 -( + = о мем^-офи + eТ)0+)eи{оOзn>) с-(l),е -с- е+)}+
+м 0 (nC"|(/To (—вг" (|) ео1) Я ( 1!} )
[3 вяраж-нии (15) первыедва слагаемых можно сгитнть равными нулю, кто подтверждается в фо-мулаи (в Т о (1Р)( тт-гм oбрaьoм -ыраже-те (15) т-ассформноотся в формулу ("8), что свнгдо-ттетиттуят о том( пто )ТЕ0О) явля^еьттЕ:-) дискретным бес ым шумом при пос^сс^^иовке^
)тз)—(лп)о)оо] и де—. = Ммм(вп)а тт и о-1 (}КТоы о тй^С0° Усо-од5 ) в— М-)),":- у- ДТ)/По(оТ и ДТ)}осТ(оТ)Опт) ыр, ^ ^ ^ (1С)
Про СТоЯи Дт)cврcтeoлттo мРо-оТо ДО))
мМТОКИдИи ДДв(К о= м -ж' ИоТ- (т ¿с)!:1 - оОС" (д^^^1^^ (о^ ^ ^ ^^О1:,:1^ =мры'тмттмв(0)о){о0 "ст + . ( 1 7)
-М- -ТЫ))т{о-Cо-иД0Р))=0l
м) (мсеомт т Уоо}омТ(пТ})(па тДтр Н :)= = ^.ц)^^ [^ ^ ((8)
п+рожд—тщио ссн—нолс (^^пТ^^ |:||D(£-1)'^CT^}^-етн ео-гнки
ОСпОкве^^ео)) )( |э.ас^|э^1:[^^.п)?п1^и}!1\с :)-D„()?)'))) пои выполнеопи т—совто |())|, ^^^^^^^еием л-!-^ которого cj|)0^^:)!'Лi^ И"))1к^ ТВ), тОоТ')- ПН !--€!-
воррилп|рс>таоы ,/|г;)г> ^ 0- ов |)!лol-':):oc^)( ^ерж^-
- ост и их вумто ра ^1-1;11 <гв ер^т^к:" <ишиир окс-)) » ио|э-веооярнДсти 1л ^)у--!Кои/)»^ ги/о!)-
не ){е+вИ()Т
.ао^ ц;^,-^; Я-^ о^0 С - -и (и))1 о)в() ¡-¡о ^^^ .
^^ к)иормул е: )20) )0с у;(,) доосолх-^лон
:6|[:^|^:-0 прооевуом вк:lЦп0l ^1(1)Г:и.1( (■o^(l-)цa^|)o
¡кло^али-с! ас/г ел а (|l^^lc! ^oз:в)lел-:^^■:г утверж-lE)[-l"п)с (-ото он ^е являенся ерсгцрссом 1ез-)||аэ! ,-Г|1Е>.111..1-^
^|))e^clгi:::l^^(^:)||нь|::й лодлод п(итпcтиирaсcиo опи-" l-.a:-lи:^l:l ^^^Ц) кг )^oc^lгв{-■:Еl^тl)lЕ^l-on^ Ч1.(0 ^ каждое -суню-ссиой E<l^,al■^тl^^<l(ECK^)l( позсвается ||)e)|^oтo|э:a^|) iDнl^.гlци))ll1чea:0a^ /(001lи^^^^t:E ^лзл (^^¿¡ос^к-^ггия; с^та-}1!,;^ c-)lи:l:](^0! ^>1/ и^ ев о л ^)к в т(п( ^ ^<05, е)) с то} ^тв^^ пенп^-по ПЕ^ln:)|o:то:| л гloдрoPиoитиE котгоц:>ая co(ств^т-^ сиву-оетг имвющeмcи о ^:^к-l!)^l^м:^l()Hoc^яx -лхх D0D8дeлияE ((-и^и-г{lC'ки:^
66
Koп)ьoc^(| кoб/рбcзоп})нгx(™ |Г();1^1(6) - 2016
Подобная модель является наиболее сжатым описанием имеющегося опыта, содержащего как результаты изучения данных закономерностей, так и эмпирические данные относительно S(n) и (а,в)
Однако на практике получить статистическое описание параметров (a, e) отдельного диктора можно для реализации задачи по аутентификации в процессе кодирования данных, при этом следует учитывать тот факт, что аутентификация в процессе функционирования такой системы обработки становится непрерывной. Для более широкого класса задач по обработке речи (кодирование) такое представление достаточно проблематично, что связано с отсутствием априорного знания всех возможных голосов дикторов, подвергаемых обработке. Тем не менее на заранее сформированных универсальных кодовых книгах параметров декомпозиции сформировать классы взаимосвязей подобных параметров для отдельного диктора не составляет труда.
Следует также учитывать тот факт, что заранее до обучения нет возможности указать все классы взаимосвязей между соответствующими подпространствами векторов декомпозиции и, соответственно, выйти на конкретные значения скоростей передачи. Фиксированную информационную скорость можно реализовать на основе использования заранее сформированных пространств векторов декомпозиции конечной мощности, положение центроидов в которых будет определено в процессе обучения. В итоге создаются кодовые книги, содержащие векторы (образцы) параметров, описывающих передаточную функцию голосового тракта и соответствующего им сигнала возбуждения. Это позволяет перейти от учета статистики взаимосвязи между отдельными значениями данных векторов, вычисляемыми при обработке, к статистике взаимосвязи векторов между соответствующими кодовыми книгами.
На практике бывает и так, что кроме эмпирических данных всякая иная априорная информация относительно S(n) и (a,e) отсутствует. Однако если эти данные получены в обстановке, статистически однородной или хотя бы статистически связанной с той, в которой принимается решение по данным наблюдения S(n), то они являются в определенной степени статистическим эквивалентом аналитических моделей для распределений вероятности S(n) и (a, e) необходимых для нахождения оптимального правила принятия решения.
Степень этой эквивалентности, естественно, зависит от объема имеющихся эмпирических данных, которые, в свою очередь, могут быть использованы по-разному: непосредственно для нахождения недостающих распределений вероятности; для оценки функциональной зависимости апостериорного риска от S(n) и решения U; для уточнения структуры и параметров решающего правила, т. е. алгоритма обработки данных наблюдения S(n).
Применение выявленных взаимозависимости между элементами декомпозиции РС приводит к возможности значительного сокращения мощностей подпространств представления сигналов возбуждения синтезирующего фильтра, при этом возрастает требование по наличию достаточного объема запоминающих устройств.
Одновременное использование процедур интерполяции параметров передаточной функции на сегментах одинаковой природы образования РС дает возможность значительного снижения скорости передачи при сохранении качественных показателей.
Представленные подходы могут быть применены в задачах по низкоскоростной передаче речи при ограниченном ресурсе пропускной способности канала связи.
Заключение
Таким образом, в данной работе представлено обоснование перехода к построению систем обработки РС, осуществляющих непрерывную аутентификацию диктора при доступе к ресурсу инфо-коммуникационных систем, определены возможные пути создания подобных устройств, основанных на использовании объективно существующих зависимостей между элементами декомпозиции РС. Учет и применение данных зависимостей на этапе обучения системы кодирования дают возможность снизить скорость передачи РС по каналам связи и при этом осуществить непрерывную аутентификацию диктора при ведении телефонных переговоров по низкоскоростным цифровым каналам передачи. Актуальность исследований и значимость полученных результатов подтверждаются существующими объективными требованиями, предъявляемыми к разрабатываемым защищенным системам обработки РС, в частном случае при низкоскоростном кодировании РС, сформированными с учетом тенденций развития систем инфокоммуникаций.
Рецензент: Батенков Кирилл Александрович, кандидат технических наук, сотрудник Академии ФСО России, г.Орел, [email protected]
Литература:
1. Маркел Дж.Д. Линейное предсказание речи / Д. Маркел, А.Х. Грей. пер. с англ. / под ред. Ю.Н. Прохорова и В.С. Звездина. - М.: Связь, 1980. - 308 с.: ил.
2. Бухалев В.А. Распознавание, оценивание и управление в системах со случайной скачкообразной структурой. - М.: Наука, Физматлит, 1996. - 288с.
3. Афанасьев А.А., Рыжков А.П. Использование взаимозависимостей параметров линейного предсказания при реализации процедур обработки речевых данных // Телекоммуникации. 2012. № 13. С. 36-39.
4. Быков С.Ф. Цифровая телефония. Учеб. пособие для вузов / С.Ф. Быков, В.И. Журавлев, И.А. Шалимов. - М.: Радио и связь, 2003. - 144 с.
5. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи. - М.: Радио и связь, 2000. - 456 с.: ил.
6. Справочник по теории автоматического управления / под ред. А.А. Красовского. - М.: Наука, 1987. - 712 с.
7. Марпл-мл. С.Л. Цифровой спектральный анализ и его приложения. - М.: Мир, 1990. - 584 с.
CONTINUOUS SPEAKER AUTHENTICATION AT CONDUCTING TELEPHONE NEGOTIATIONS ACROSS LOW BIT RATE DIGITAL CHANNELS
Afanasev A.A.2
The article considers the problem of working out continuous speaker authentication system. The method of a speech signal decomposition on the interconnected speech elements at its low bit rate coding based on a linear prediction is offered. Use of the given method at preliminary system training allows to carry out continuous subscriber authentication at access to communication channel throughput resource.
Keywords: speech signal, speech coding, linear prediction, synthesizer filter, decomposing, interdependence.
References:
1. Markel Dzh.D. Lineynoe predskazanie rechi, D. Markel, A.Kh. Grey. per. s angl. Pod red. Yu.N. Prokhorova i V.S. Zvezdina. - M.: Svyaz, 1980. - 308 P.: il.
2. Bukhalev V.A. Raspoznavanie, otsenivanie i upravlenie v sistemakh so sluchaynoy skachkoobraznoy strukturoy. - M.: Nauka, Fizmatlit, 1996. - 288P.
3. Afanas'yev A.A., Ryzhkov A.P. Ispol'zovanie vzaimozavisimostey parametrov lineynogo predskazaniya pri realizatsii protsedur obrabotki rechevykh dannykh, Telekommunikatsii. 2012. No 13, pp. 36-39.
4. Bykov S.F. Tsifrovaya telefoniya. Ucheb. posobie dlya vuzov, S.F. Bykov, V.I. Zhuravlev, I.A. Shalimov. - M.: Radio i svyaz', 2003. - 144 P.
5. Shelukhin O.I., Luk'yantsev N.F. Tsifrovaya obrabotka i peredacha rechi. - M.: Radio i svyaz', 2000. - 456 P.: il.
6. Spravochnik po teorii avtomaticheskogo upravleniya / pod red. A.A. Krasovskogo. - M.: Nauka, 1987. - 712 P.
7. Marpl-ml. S.L. Tsifrovoy spektral'nyy analiz i ego prilozheniya. - M.: Mir, 1990. - 584 s.
2 Andrey Afanasev, Ph.D., Assistant Professor. The Academy of Federal Security Guard Service of the Russian Federation, Orel, [email protected]