то условию адекватности (21) удовлетворяют три модели М1, М2, М3. Поэтому по мере поступления дополнительной технологической информации следует повторить идентификацию модели М4. В дальнейшем предполагается разработать алгоритмы предварительной обработки информации, позволяющие исключать строки с отсутствующими данными и данными, превышающими допустимые предельные значения.
Литература
1. Дюбуа, Д. Теория возможностей. Приложения к представлению знаний в информатике / Д. Дюбуа, А. Прад.
- М., 1990.
2. Заде, Л. Понятие лингвистической переменной и его применение к принятию приближенных решений. - М., 1976.
3. Кандель, А. Нечеткие множества, нечеткая алгебра, нечеткая статистика / А. Кандель, У. Д. Байатт // ТИИЭР. -1978. - Т. 66. - № 12. - С. 37 - 51.
4. Кофман, А. Введение в теорию нечетких множеств / А. Кофман. - М., 1982.
5. Кудинов, Ю.И. Моделирование технологических и экологических процессов / Ю.И. Кудинов, А.Г. Венков, А.Ю. Келина. - Липецк, 2001.
6. Модели принятия решений на основе лингвистической переменной / А.Н. Борисов, А.В. Алексеев, О.А. Крумберг и др. - Рига, 1982.
7. Zadeh, L.A. Fuzzy - algorithmic approach to the definition of complex and imprecise concepts / L.A. Zadeh // Int. J. Man-Machine Stadies. -1976. - № 6. - P. 249 - 291.
8. Zadeh, L.A. Fuzzy sets / L.A. Zadeh // Inform. & Contr. - 1965. - № 8. - P. 338 - 353.
УДК 621.391
Д.Н. Чубатый
Научный руководитель: кандидат технических наук, доцент А.И. Горшков
СПОСОБ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ АБОНЕНТА В СЕТЯХ СВЯЗИ С НИЗКОСКОРОСТНЫМ КОДИРОВАНИЕМ РЕЧИ
В статье предлагается способ идентификации личности абонента в сетях сотовой связи стандарта GSM, использующих для передачи голоса алгоритм низкоскоростного кодирования речи - RPE-LTP (линейное предсказание с возбуждением регулярной последовательностью импульсов и долговременным предсказателем) на основе модели Гауссовых смесей.
Идентификация диктора, модель Гауссовых смесей, низкоскоростные кодеры речи, линейное предсказание речи.
The article suggests the method of identification of the telephone subscriber in cellular networks of GSM standard, using the algorithm of low-speed speech coding - RPE-LTP (linear prediction with the excitement of a regular sequence of pulses and long-term predictor), based on Gaussian mixture model.
Speaker’s identification, Gaussian mixture model, low-speed speech coders, linear speech prediction.
В XXI в. мировое сообщество вступило в новую эру своего развития, названную глобальным информационным обществом (ГИО). Для эффективной передачи и распределения всех видов информации в структуре ГИО создана и непрерывно развивается Всемирная сеть связи (World wide communication network), представляющая из себя совокупность всех взаимосвязанных национальных сетей связи на земном шаре. Всемирная сеть связи (ВСС) обеспечивает пользователям широкий набор телекоммуникационных услуг. Основой ВСС являются волоконнооптические линии связи и системы спутниковой связи, существенно дополняющие возможности наземных сетей.
Новый виток в развитии наземных сетей связи внесла сотовая связь. Система сотовой связи - это сложная и гибкая техническая система, допускающая большое разнообразие как по вариантам конфигурации, так и по набору выполняемых функций [3]. По данным компании Ericsson по состоянию на сентябрь 2011 г. общее число абонентов сотовых систем составляет 5,8 млрд, а к 2015 г. оно увеличится приблизительно до 7,8 млрд. Около 75 % всех абонен-
тов, или 4,4 млрд, приходится на стандарт GSM и лишь 14 % составляют пользователи сетей третьего поколения. Сети стандарта GSM охватывают более 85 % населения Земли; более 40 % имеют возможность доступа к сетям WCDMA/HSPA.
На сегодняшний день в телефонных сетях очень широко используются речевые технологии, позволяющие решать все задачи обработки в единстве: распознавание и синтез речи, распознавание личности говорящего и компрессия речи.
Интерес к голосу, как к биометрическому объекту, определяется наличием широкого круга практических приложений, которые могут быть разделены на два обширных класса:
1. Проверка прав доступа к различным системам (информационным и физическим): вычислительные системы, каналы связи, банковские счета, базы данных, и т.д.
2. Криминалистическая экспертиза: анализ записей переговоров при различных аварийных ситуациях, поиск подозреваемого, доказательство в суде [1].
Преимущества установления индивидуальности по голосу при решении подобных прикладных задач
очевидны: голос не отчуждаем от человека и не требует непосредственного контакта с пропускной системой.
В системах идентификации диктора (СИД) в качестве исходного материала используется речь, передаваемая в стандартном телефонном канале в формате в соответствии с рекомендацией G.711 (импульсно-кодовая модуляция, скорость 64 кбит/с), либо в соответствии с рекомендацией G.726 (адаптивная дифференциальная ИКМ, скорость 32 кбит/с). Идентификация проводится на речевом материале, представленном в виде, характеризующим форму речевого сигнала (ИКМ и АДИКМ - кодеры формы). В том случае, если будет использоваться преобразованная низкоскоростными кодерами речь, идентификация диктора с помощью этих систем будет невозможна.
Решение этой задачи требует разработки новых методов и алгоритмов обработки речевых сигналов, преобразованных низкоскоростными кодерами. В данной статье предложен способ идентификации личности абонента в сетях сотовой связи стандарта GSM, использующих для передачи голоса алгоритм низкоскоростного кодирования речи (НКР) - RPE-LTP.
Предложенный способ идентификации состоит из трех основных этапов: выделение различительных признаков, построение эталона модели, принятие решения об индивидуальности говорящего.
1 этап. Выделение различительных признаков
Выделение признаков - это один из самых важных этапов при предварительной обработке исходных данных в системах идентификации дикторов. Анализ существующих СИД показал, что большинство из них используют параметры, полученные на основе метода линейного предсказания: коэффици-
енты логарифмического отношения площадей [6], перцептивные коэффициенты логарифмического отношения площадей [6], мел-частотные кепстральные коэффициенты [5], коэффициенты линейного предсказания, линейные предсказывающие кепстральные коэффициенты [4], линейные спектральные пары, линейные спектральные частоты [4].
Процедура получения вектора различительных признаков из оцифрованного участка речи, представленного в виде, характеризующим форму речевого сигнала сводится к следующему:
- речевой сигнал анализируется на интервалах длительностью 10 - 30 мс, на таком коротком промежутке речевой сигнал может считаться примерно стационарным;
- для каждого сегмента оцениваются параметры фильтра линейного предсказания (коэффициенты) и параметры сигнала возбуждения [2];
- для расчета необходимого вектора различительных признаков коэффициенты линейного предсказания подвергаются дополнительному преобразованию.
Учитывая тот факт, что в алгоритмах НКР используется аналогичная процедура выделения параметров, также основанная на модели линейного предсказания, для их дальнейшего кодирования и передачи по каналу связи. Структура кадра кодера ИРЕ-ЬТР представлена на рис. 1 [7].
Для формирования вектора признаков были выбраны параметры g1... g8 - коэффициенты логарифмического отражения площадей. Чтобы выделить значения этих параметров, эталонный речевой сигнал представим в виде прямоугольного массива размером М*Ы, где N - длина кадра, а М - количество кадров в сообщении (рис. 2).
Параметры, относящиеся ко всему кадру
i-ый
подкадр
2-ой
подкадр
3-ий
4-ый
подкадр подкадр _Л____________К-
i-6 7-i2 i3-i7 i8-22 23-26 27-30 3i-33 34-36 37-43 44-45 46-47 48-53 54-56 ... 92 93. . i48 i49. .204 205. .260
gi g2 g3 g4 g5 g6 g7 g8 Li Ai Vi Gi Xi ...Xi3 L2.. Xi3 L3.. Xi3 L4.. Xi3
где g1... g8 - коэффициенты логарифмического отражения площадей (LAR); L1 ...L4 - задержка; Л1...Л4- коэффициент предсказания; Vi...V4 - номер последовательности; G1...G4 - максимальная амплитуда; xi... x13 - нормированные амплитуды импульсов.
Рис. 1. Структура кадра кодера RPE-LTP (рекомендация GSM 6.10)
Рис. 2. Речевой сигнал в формате GSM 6.10
Формализовано данный речевой сигнал можно представить в виде выражения 1:
[М, N ]
511 Я\2
521 5И
5М1 5М 2
2 N
MN
(1)
где ъпт е{0,1}, М - число кадров, N - длина кадра. А каждый из параметров соответственно:
*41 12
Х21 Х22
42L
ЛШ
где і = 1,...,8.
(2)
где gi - коэффициент логарифмического отношения площадей, Ь - количество бит в параметре, а М - число кадров.
Согласно выражению 3, преобразуем значения каждого из параметров в десятичный вид:
хп2(Ь-1) + х122(Ь-2)+... +х11 20 к1г
К (8, \м ,ь] = Х212(ь_1) + Х22 2^-2) +... +Х2і 20 = к2г
Х 2(ъ-1)+г 2(ь-2)+ +Х 20 М12 М 22 +...+хМ12 кМг
где і = 1,...,8.
(3)
В итоге, вектор различительных признаков будет представлен в виде матрицы размером М*8, где 8 -количество коэффициентов логарифмического отношения площадей, а М - количество кадров в сообщении:
К (g )[М ,8]
хп(й) Х1і(8і) •••
Х21( gl) Х22( g2) - Х28( g8)
ХМ 1(80 ХМ 2 (g2) - ХМ 8 (g8)
(4)
2 этап. Построение эталона на основе модели Гауссовых смесей (МГС)
2.1 Расчет начальной модели МГС представляет собой взвешенную сумму М компонента и может быть записана выражением [8]:
М
р( х |^>=І сіьі (х)
(5)
где X - это ^-мерный вектор случайных величин (в нашем случае это 8-ми мерный вектор коэффициентов логарифмического отношения площадей
К(g)^М ^ - выражение 4), Ь(х),i = 1,...,М, - функции плотности распределения составляющих модели, а с,1 = 1,...,М, - веса компонентов в модели.
Каждый компонент является ^-мерной гауссовой функцией распределения вида выражением [8]:
Ьі (х) =
1
(2.) -|К- |”“р П(г - )К;'(Х - - т
где Ц7- - вектор математического ожидания и К1 -
ковариационная матрица. Веса смеси удовлетворяют выражению:
М
І Сі = 1.
(7)
і=1
Полностью модель гауссовой смеси определяется векторами математического ожидания, ковариационными матрицами и весами смесей для каждого компонента модели. Эти параметры все вместе записываются в виде выражения:
Х =
{с,, і ,
(8)
В задаче распознавания голоса каждый диктор представляется моделью гауссовых смесей и ставится в соответствие со своей моделью X.
Одна из сильных сторон смеси гауссовых моделей заключается в том, что если они могут очень точно аппроксимировать произвольные распределения.
2.2 Алгоритм оценки максимизации (обучения) параметров МГС
Цель алгоритма оценки параметров модели - при заданном обучающем высказывании диктора оценить параметры модели X , которые наилучшим образом соответствуют распределению векторов признаков обучающего высказывания.
Существует несколько способов оценки параметров модели, но наиболее популярным и широко используемым является метод оценки максимального правдоподобия.
Цель оценки максимального правдоподобия -найти параметры модели, которые максимизируют правдоподобие ее. Для последовательности обучающих векторов X = {х1,..., хт | правдоподобие гауссовых смесей может быть записано в виде:
модели
р( Х1^) = П р( Х1^).
(9)
і=1
Но это выражение представляет нелинейную функцию от параметров X, и ее вычисление невозможно. Поэтому оценки параметров могут быть получены итерационно при помощи алгоритма оценки-максимизации [8].
Алгоритм оценки-максимизации начинается с оценки начальной модели X. На основе вектора признаков получена начальная модель диктора X,
представляющая собой совокупность векторов математического ожидания, главной диагонали ковариационной матрицы и весами смесей для каждого компонента модели.
Затем вычисляются новые параметры модели X, такие, что р(X |х) > р(X |Х).
Новая модель затем становится начальной моделью для следующей итерации, и процесс переоценки параметров повторяется, пока не будет достигнут некоторый порог сходимости. Этот способ используется для оценки параметров скрытых Марковских моделей при помощи алгоритма Баума-Велша [8].
В конечном виде модель эталонного высказывания диктора представляется в виде:
Хэт
3 этап. Принятие решения об индивидуальности говорящего
Апостериорная вероятность г-го акустического класса задается выражением [8]:
^11 М- . i2 .. ^1N Dii D i2 .. D1N
Н-21 ^22 . .. ^2N , D21 D22 .. D2N ,, (10)
^ M1 ^ M 2 . .. ^MN DM1 DM2 .. Dmn
p (і\Xt, Х) =
Сгьг(Xt)
M _ '
Х ckbk(Xt)
(ii)
k=i
Для идентификации по голосу группа из й дикторов представляется набором моделей гауссовых смесей Х1,^2,...,^й. Задача идентификации - найти
модель диктора, которая имеет наибольшее значение апостериорной вероятности для заданного высказывания:
Экспериментальная оценка разработанного способа идентификации производилась на базе высказываний, смоделированных на ПЭВМ с помощью стандартной программы «Звукозапись» в формате ИКМ с частотой дискретизации 22 кГц и разрядностью АЦП 16 бит. Затем с помощью этой же программы производилось кодирование речи в формат GSM 6.10. Продолжительность обучающего высказывания составляла примерно 30 с. Экспериментальная выборка из базы голосов состояла из трех мужчин и трех женщин. Для каждого из 6 дикторов было записано по 5 речевых отрезков по 30 с.
Для определения эффективности предложенного способа идентификации личности абонента была выбрана модель с 12 компонентами, а в качестве вектора признаков для идентификации дикторов использовался восьмимерный вектор коэффициентов логарифмического отношения площадей. Первое высказывание каждого из дикторов было использовано для получения эталона на основе МГС, обучение которой проводилось с использованием одинакового числа итераций. Полученные эталонные модели дикторов хранятся в базе данных в виде отдельного файла. В результате проведенного эксперимента были правильно идентифицированы все тестируемые 24 высказывания 6 дикторов.
свой / чужой
Принятие решения
Блок
выделения признаков (коэффициенты LAR)
Инициализация
модели
Число моделей
*
ао
зд
ио
s £ ио
Рис. 3. Система идентификации личности абонента
GSM 6.10
S P X p(X| Xk) Pr(Xk) (12
S = argmaxPr(Xк \X) = argmax-----------—----. (i2)
1йkйS ЇйkйS p(X)
Предполагая, что все дикторы одинаково вероятны (т.е. Pr (Xk) = 1/ S), а величина p(X) одинакова для моделей всех дикторов, правило классификации диктора упрощается до вида:
S = argmaxp,(X |Х). (13)
iйk йS
Используем логарифм и независимость между наблюдениями:
T _
S = argmaxХlogp(Xt \hX (14)
ІйІсйЗ t=1
где p(Xt |к) определена в (5).
На рис. 3 показаны основные компоненты СИД на основе модели Гауссовых смесей, реализующей предлагаемый способ идентификации личности абонента.
Применение разработанного способа идентификации личности абонента позволит:
1. Использовать параметры, передаваемые внутри кадра НКР для идентификации диктора.
2. Сократить количество этапов обработки; идентификация может быть произведена без предварительного декодирования сигнала.
Экспериментальная оценка способа идентификации личности абонента в сетях связи с низкоскоростным кодированием речи на основе модели Гауссовых смесей, представленная в статье, показала высокие значения вероятности правильной идентификации диктора. Поэтому дальнейшие исследования в этой области могут быть направлены на его реализацию в практических приложениях.
Литература
1. Галунов, В.И. Верификация и идентификация говорящего / В.И. Галунов // Доклады Санкт-Петербургского Государственного университета. - СПб., 2002. - С. 26 - 34.
2. Маркел, Дж. Д. Линейное предсказание речи / Дж. Д. Маркел, А.Х. Грэй. - М., 1980.
3. Ратынский, М.В. Основы сотовой связи / М.В. Ра-тынский. - М., 1998.
4. Садыхов Р.Х. Модели гауссовых смесей для верификации диктора по произвольной речи / Р.Х. Садыхов, В.В. Ракуш // Доклады Белорусского государственного университета информатики и радиоэлектроники. - Минск, 2003. -С. 95 - 103.
5. Campbell, J.P. Speaker recognition / J.P. Campbell // Proceedings of the IEEE. - 1997. - V. 85. - № 9 (September).
- P. 1437 - 1462.
6. Chow, D. Robust speaker identification based on perceptual log area ratio and Gaussian mixture models / D. Chow, W.H. Abdulla // INTERSPEECH 2004, 8th International Conference on Spoken Language Processing, Jeju Island, Korea. -
4 - 8 October. - 2004. - P. 1761 - 1764.
7. ETSI/TC SMG. Recommendation GSM 6.10. GSM full rate speech transcoding. - 1992. - February.
8. Reynolds, D.A. Robust text-independent speaker identification using Gaussian mixture speaker models / D.A. Reynolds, R.C. Rose // IEEE transaction on speech and audio progressing. - 1995. - V. 3. - № 1 (January) - P. 72 - 83.