Научная статья на тему 'Синтез и исследование алгоритмов идентификации дикторов по характеристикам остатков линейного предсказания'

Синтез и исследование алгоритмов идентификации дикторов по характеристикам остатков линейного предсказания Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
366
96
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Федоров Алексей Валерьевич, Омельченко Анатолий Васильевич

Описывается синтез и исследование текстонезависимых адаптивных алгоритмов идентификации дикторов по характеристикам остатков линейного предсказания. В качестве информативных признаков используются коэффициенты преобразования Фурье автокорреляционной функции остатков линейного предсказания, пропущенных через различные временные окна. Выполняется экспериментальная проверка предложенных алгоритмов идентификации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Synthesis and research of algorithms of identification of the speakers on performances of residuals of a linear prediction

The synthesis and experimental check of text independent adaptive algorithms of identification of speakers on performances of residuals of a linear prediction is carried out. The system of informative indications, used in this work, includes coefficients of the Fourier’s transformation of an autocorrelation function of the initial voice signal and signal of residuals of a linear prediction passed through various window functions.

Текст научной работы на тему «Синтез и исследование алгоритмов идентификации дикторов по характеристикам остатков линейного предсказания»

Текущий уровень качества условий доступа к ресурсам: QoS; = 0.65 . Текущее состояние не соответствует желаемому на: Д 2 =1.65 - <очень значительной Желаемый уровень качества условий доступа к ресурсам: QoSd = -1. В следующий период контроля ожидается изменение состояния условий на: Ді = 1 ~ <значительное>. Ожидаемый уровень качества доступа к ресурсам на следующем шаге будет равен: QoSp = -°.35 ~ <среднее>. Это состояние не соответствует желаемому на: Д 3 = 0.65 -<среднее>.

8. Выводы

В настоящей работе рассмотрены вопросы оценивания качества работы пользователя в компьютерной сети и качества функционирования самой сети. К основным результатам относятся метод оценивания качеств а доступа пользов ателя к ресурсам компью -терной сети. Результаты могут быть отнесены к научным, получены впервые.

Сравнение с аналогами. Отличие предлагаемого метода состоит в том, что для большинства подходов оцениваются только количественные характеристики [8]. Использование количественных характеристик снижает возможности интерпретации состояния объектов и оперативности принятия решений.

Общее описание научного результата можно представить как: впервые предложен метод оценивания качества доступа к ресурсам для пользователя компьютерной сети. Метод основан на комбинированном оценивании состояния уровня доступа к ресурсам, состоящий в том, что сначала оцениваются количественные показатели качества доступа, далее формируются экспертные оценки, и потом осуществляется переход от количественных оценок к качественным. Такой подход позволит получить простые дискретные оценки, позволяющие реализовать оперативный контроль состояния компьютерной сети в целом. Научная новизна заключается в том, что был разработан метод оценки качества условий доступа к ресурсам с учетом индивидуальных характеристик конкретного пользователя.

Практическая значимость состоит в том, что предложенные методы можно успешно использовать в системах непрерывного мониторинга состояния оценок качества условий работы пользователя в сети. Это в свою очередь способствует своевременному выявлению отказов сети, снижению затрат от наличия необнаруженных отказов, созданию предпосылок повышения доходности сети за счет повышения качества обслуживания пользователей.

Пути дальнейших исследований. Предполагается рассмотреть вопросы оперативного оценивания задержек и отказов в сети.

Литература: 1. Dinesh Verma C. Simplifying Network Administration Using Policy-Based Management» IBM Thomas J Watson Research Center, IEEE Network, March/ April 2002. P. 3-5. 2. Rich Ptak. Enterprise Network Configuration Management: A practitioner’s guide. 2003 Network World, Inc. and Ptak & Associates, Inc. P. 5-7. 3. Don Jones. Tips and Tricks Guide To Network Configuration Management. 2003 Realtimepublishers.com, Inc. P.5. 4. Саенко В.И., Сизова О.В. Модель пользователя компьютерной сети // АСУ и приборы автоматики. 2004. Вып. 129. С. 86-93. 5. Larsen K. The role of service level agreements in IT service delivery. // Information Management & computer security. 6/3, 1998. Р.128-132. 6. 3GPP Technical Specification 22.121 v4.0.0: “The Virtual Home Environment (Release 4)”, October 2000. Р.2-4. 7. UMTS Forum Report 1: “A Regulatory Framework for UMTS”, June 1997. Р.2-7. 8. Бацамут В.Н. Метод управления входной нагрузкой сети передачи данных для повышения оперативности доставки информации // АСУ и приборы автоматики. 2004. Вып. 128. С. 67-76.

Поступила в редколлегию 09.11.2006

Рецензент: д-р техн. наук, проф. Поповский В.В.

Саенко Владимир Иванович, канд. техн. наук, проф. кафедры информационных управляющих систем ХНУ-РЭ. Научные интересы: менеджмент компьютерных сетей. Увлечения и хобби: садоводство. Адрес: Украина, 61166, Харьков, пр. Ленина, 14.

Кривонос Татьяна Ивановна, магистр каф. информационных управляющих систем ХНУРЭ. Научные интересы: менеджмент компьютерных сетей. Увлечения и хобби: занятие спортом. Адрес: Украина, 61166, Харьков, пр. Ленина, 14.

УДК004.93’1:004.942:519.23

СИНТЕЗ И ИССЛЕДОВАНИЕ АЛГОРИТМОВ ИДЕНТИФИКАЦИИ ДИКТОРОВ ПО ХАРАКТЕРИСТИКАМ ОСТАТКОВ ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ

ФЕДОРОВ А.В., ОМЕЛЬЧЕНКО А.В_____________

Описывается синтез и исследование текстонезависимых адаптивных алгоритмов идентификации дикторов по характеристикам остатков линейного предсказания. В качестве информативных признаков используются коэффициенты преобразования Фурье автокорреляционной фун-

кции остатков линейного предсказания, пропущенных через различные временные окна. Выполняется экспериментальная проверка предложенных алгоритмов идентификации.

1. Введение

Задаче идентификации личности по голосу уделяется значительное внимание как у нас в стране [ 1,2], так и за рубежом [3-6]. Этот интерес практически не ослабевает на протяжении последних 3 0 лет. Несмотря на это, к настоящему моменту окончательного решения проблемы не найдено. Тем не менее, современный уровень развития систем связи предполагает внедрение новых услуг, включающих в себя управление своим счетом по телефону, удаленный доступ к информации, call центры и т. д. В связи с этим актуальной задачей является разработка алгоритмов иден-

РИ, 2006, № 4

71

тификации абонентов как мобильной, так и классической телефонной связи.

Целью настоящей работы является создание текстонезависимой системы идентификации дикторов по характеристикам остатков линейного предсказания. Сформулированная задача решается в три этапа. На первом этапе формируется система информативных признаков. На втором - синтезируется правило принятия решения и на третьем - разрабатываются алгоритмы вычисления решающих статистик.

2. Постановка задачи

В настоящее время для анализа речевых сигналов широко используется метод линейного предсказания. Преимущество его состоит в том, что он способствует быстрому и точному выполнению необходимых преобразований. Показав высокую эффективность в задачах распознавания речи [5, 6], метод линейного предсказания оказался приемлемым также и для автоматического опознавания дикторов [3, 5, 6], поскольку в результате анализа речевого сигнала таким методом мы обычно получаем комбинированную информацию о весьма важных параметрах речевой активности конкретного человека. Такими параметрами являются в первую очередь импульсы возбуждения голосовой щели, а также формантные частоты и полосы формантных областей [1]. Кроме того, методом линейного предсказания могут быть оценены параметры основного тона голоса [5, 6].

В основу модели линейного предсказания положено предположение, что любое значение речевого сигнала может быть представлено как линейная комбинация p предыдущих отсчетов [5]. Если непрерывный сигнал s(t) дискретизируется во времени с интервалом д, в результате получается последовательность sn = s(M), где n - целочисленная переменная, то значение предсказываемой величины может быть записано как p

®n = 2aksn-k , (1)

k=1

где ak - коэффициенты предсказания; p - порядок модели линейного предсказания. Определим ошибку (остаток) предсказания как разность между предсказываемым и действительным значением n -го отсчета временного ряда

p

en = sn — ®n = sn — 2 aksn-k . (2)

k=1

В рамках модели линейного предсказания синтез речевого сигнала может быть выполнен с использованием рекурсивного линейного цифрового фильтра согласно рис. 1.

Рис. 1. Цифровая модель речеобразования

Сигналом возбуждения un служит либо последовательность импульсов, формируемая генератором импульсов, либо шум, формируемый генератором белого шума. Эти два источника сигнала моделируют вокализованные и невокализованные фрагменты речевого сигнала. Ошибка предсказания, определяемая уравнением (2), в рамках данной модели совпадает с функцией возбуждения un . Исходя из этого, сигнал ошибки предсказания en может быть использован для решения задач идентификации дикторов, а также для определения периода основного тона и признака тон/шум. В [7, 8] показано, что речевой тракт и источник возбуждения связаны слабо и изменения конфигурации тракта мало влияют на колебания голосовых связок. Таким образом, в пределах справедливости этого положения источник и тракт с точки зрения анализа и построения эквивалентных схем могут рассматриваться независимо друг от друга.

Представим модель речеобразования в виде дискретного линейного полюсного фильтра с р полюсами. Передаточная функция этого фильтра, отражающая как особенности голосового тракта, так и излучение и форму речевой волны, описывается функцией вида

p ,

H(z) = A/(1 —2akz k), (3)

k=1

где A - коэффициент усиления; z - переменная z - преобразования.

Рассматриваемая задача синтеза и исследования алгоритмов идентификации дикторов в рамках модели линейного предсказания может быть сформулирована так. Реализации речи эталонных и идентифицируемых дикторов представляют собой сигналы со следующими характеристиками: частота дискретизации 8 кГц, ИКМ, 16 битов на отсчет. Формирование остатков линейного предсказания выполняется с помощью решетчатого фильтра [5] 10-го порядка по сегментам длительностью 30 мс. Классификация речи на вокализованные и невокализованные сегменты выполняется автокорреляционным методом. При этом сегмент считается вокализованным, если отношение пика нормированной автокорреляционной функции, лежащего в диапазоне 80-200 Гц, к значению этой функции в нуле не менее 0,25. Необходимо синтезировать адаптивные алгоритмы идентификации дикторов, устойчивые к возможным частотным искажениям исходного речевого сигнала в тракте передачи.

72

РИ, 2006, № 4

3. Информативные признаки

В задачах идентификации дикторов в качестве информативных признаков используются характеристики речевого сигнала, отражающие индивидуальность голоса. Помимо полноты представления информации об особенностях голоса и речи диктора информативные признаки должны обладать рядом других свойств. Во-первых, они должны быть легко измеряемы и малозависимы от мешающих факторов окружающей среды (шумов и помех), во-вторых, они должны обладать стабильностью во времени и, в-третьих, не должны поддаваться имитации. Создание системы признаков, удовлетворяющей всем этим требованиям, является трудно решаемой задачей. Поэтому, в первую очередь, производят отбор признаков по их способности наиболее адекватно и эффективно произвести описание индивидуального голоса, уделяя меньше внимания другим факторам.

Согласно [ 1 ] основные физические проявления индивидуальности следует искать в спектральных и формантных, а также временных и амплитудных характеристиках сигнала.

В результате выполненного анализа речевых фрагментов дикторов, содержащих гласные звуки (фонемы) «а», «и», «о», «у», «э», установлено, что форманты, представляющие собою резонансы голосового тракта, в первую очередь определяют характер произносимого звука и слабо зависят от диктора. В качестве примера на рис. 2, а, б показаны диаграммы формантных траекторий для звука «э», произнесенного двумя различными дикторами мужского пола. Оценивание формантных траекторий выполнялось согласно процедуре, изложенной в [5].

Первый диктор

4000 3500 а 3000 , 2500 н 2000 £ 1500 £ 1000 500 0

0 50 100 150 200 250 300

Номер сегмента а

Второй диктор

4000 3500 з 3000 , 2500

н 2000

£ 1500 £ 1000 500 0

0 50 100 150 200 250 300

Номер сегмента

б

Рис. 2. Диаграммы формантных траекторий для звука «э», произнесенного двумя дикторами мужского пола

Как известно [1], форма и характер следования голосовых импульсов являются индивидуально дифференцирующими свойствами и непосредственно участвуют в образовании характерного для диктора голоса. В свою очередь, энергетический спектр | S(ra) |2 звукового сигнала равен [8]

I S(ro) |2 =| V(ra) |2 - |Т(ш)|2, (4)

где | V(ra) | - энергетический спектр сигнала голосового возбуждения; Т(ю) - передаточная функция речевого тракта. Таким образом, информация об импульсах голосового возбуждения может быть получена из анализа спектральных характеристик как остатков линейного предсказания, так и исходного речевого сигнала. На рис. 3 представлены спектрограммы исходных речевых сигналов (а, б) и сигналов остатков линейного предсказания (в, г) тех же дикторов. Из анализа приведенных зависимостей легко видеть, что использование оценок энергетических спектров позволяет уверенно различить дикторов по реализациям достаточно большой протяженности.

Процедура формирования системы информативных признаков включает в себя следующие этапы: 1) формирование согласно (2) сигнала остатков линейного предсказания; 2) интегрирование исходного речевого сигнала и остатков линейного предсказания в целях компенсации эффекта дифференцирования, осуществляемого губами говорящего. Передаточная функция цифрового интегрирующего фильтра имеет

вид I(z) = 1/(1 -az-1), где а - параметр, значение

которого меньше единицы и должно быть близко к единице [5 ]; 3) выделение информативных признаков из преобразованных сигналов исходной речи и остатков линейного предсказания, полученных на втором этапе. Кроме того, для исследования влияния частотных искажений речи, возникающих в тракте передачи, речевой сигнал на этапе 2 пропускается через цифровой дифференцирующий фильтр с передаточной функцией D(z) = 1 -pz-1, р = 0,9 .

В настоящей работе в качестве информативных признаков использованы коэффициенты преобразования Фурье автокорреляционной функции преобразованных речевого сигнала и сигнала остатков линейного предсказания, пропущенных через различные временные окна. Если через Xk, k = 0, n -1 обозначить координаты вектора информативных признаков X = (xo, Х1, к, xn_1) размерности n , то

n-1 km

Xk = Re( £ r(m) w(m) e n ), (5)

m=0

n-1-m

где r(m) = £ s(l) s(l + m) - автокорреляционная фун-

l=0

кция сигнала s(l), полученного на втором этапе формирования системы информативных признаков; w(m)

- временное окно, форма которого определяется одним из следующих соотношений:

РИ, 2006, № 4

73

w(m) = 1 -

m

n-T

(треугольное окно);

w(m) = 0,5[1 + cos (•

П

П—Tm)J (окно Хеннинга);

Логарифмируя (7), получаем lnW(x | i, a)

X^a • xki)) +-^4}

k=0

a • x

«48)

n

w(m) = 0,54 + 0,46 cos (-1 m) (окно Хэмминга).

Дифференцируя и приравнивая к нулю правую часть соотношения (8), находим значение па-Второй диктор раметра а , минимизирующего выраже-

ние.

1

n-1

xk

a = _ X (i) nk=0xki)

Подставляя (9) в (8), получаем

(9)

n-1

lnW(x | i, a) — ln X (i)

k=0xk)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

n-1

X 1nxk

n k =0 k

xk +1 X 1nx(l)

(10)

С учетом (10) правило (6) преобразуется в следующий алгоритм:

А

n -1 x 1 n -1 (i)

1- j = min(in X -k-+- x inxkl)).(11)

i=1, m k=0xkl) nk=0

Считая вектор информативных признаков x принадлежащим n -му евклидовому пространству Rn с метрикой

Рис. 3. Спектрограммы исходных речевых сигналов (а, б) и сигналов остатков линейного предсказания (в, г)

d(x|i,a)= X (у

Vk=0

4. Алгоритмы идентификации

Правило принятия решения, полученное в рамках адаптивного подхода, имеет вид

j = arg max max{1n W(x | i, a)}

i=1,M a ’

n-1

X ц/xk - a •J x«)2 , записы-=0

ваем функцию правдоподобия как

2 r

W(x | i,a) = (2па2)-n/2 • exp(- d (x|2i,a)), (12)

где а2 - параметр масштаба распределения, одинаковый для всех дикторов.

Выполнив преобразования, аналогичные предыдущим, получим следующий алгоритм-

n-1

(6)

где j є {1, 2,..., M} - принятое решение об идентифицируемом дикторе; M - число дикторов; W(x|i, a) -функция правдоподобия вектора информативных признаков x с координатами, определяемыми соотношением (5); a - параметр, учитывающий неопределенность уровня сигнала. Основываясь на решающем правиле (6), можно предложить рад алгоритмов идентификации.

Используем предположение о стационарности сигнала в пределах анализируемого отрезка. Тогда, поскольку отсчеты спектрограмм стационарных временных рядов асимптотически независимы и имеют

х2 распределение с двумя степенями свободы [9], выражение для функции правдоподобия может быть записано в виде

1

~ ' (7)

A2 : j = min X (VxT - a •Jxfk

i=1, M k=0

2

(13)

здесь a =

n-1 r-

XV x

k=0

n-1

X

k=0

X xki)

_ n-1

W(x | i, a) = П

•exp{--

k=0 a • x|)) a • xki)

},

где xk - k-е значение вектора информативных при-

xki

знаков x идентифицируемого диктора; x!-i) - k-е

значение вектора информативных признаков x i-го эталонного диктора.

74

5. Результаты экспериментальных исследований

В настоящей работе выполнена экспериментальная проверка алгоритмов идентификации (11) и (13) для различных систем информативных признаков с учетом частотных искажений речи, возникающих в тракте передачи. В эксперименте использовалось 44 реализации 11 дикторов мужчин длительностью 18 с каждая. 11 из 44 реализаций использовались на этапе обучения, остальные 33 - на этапе идентификации. Таким образом, каждый из 11 дикторов был представлен 4 реализациями (по две записи двух текстов различного содержания).

РИ, 2006, № 4

Исследования показали, что регуляризация нормированного по мощности к единице речевого сигнала белым шумом с нулевым средним и дисперсией

стш = 0,1 позволяет повысить вероятность правильной

идентификации дикторов по остаткам линейного предсказания в среднем с 0,7 - 0,91 до 0,94 - 0,97. В таблице приведены оптимизированные по временному окну данные о вероятности правильной идентификации дикторов, соответствующие указанным условиям проведения эксперимента.

Из анализа данных таблицы легко видеть, что точность идентификации дикторов по спектральным характеристикам остатков линейного предсказания выше точности идентификации дикторов по аналогичным характеристикам исходного речевого сигнала. Кроме того, использование остатков линейного предсказания позволяет в значительной степени скомпенсировать частотные искажения речевого сигнала, вносимые трактом передачи с неравномерной частотной характеристикой.

Алгоритм Анализируемый сигнал

Без частотных искажений речи в тракте передачи С частотными искажениями речи в тракте передачи

Исходный речевой сигнал Сигнал остатков линейного предска- зания Исходный речевой сигнал Сигнал остатков линейного предска- зания

(11) 0,94 0,97 0,82 0,88

(13) 0,94 0,97 0,79 0,94

6. Заключение

Научная новизна работы определяется тем, что в ней предложены и исследованы системы информативных признаков, содержащих информацию о параметрах источника голосового возбуждения. Выполнен синтез алгоритмов идентификации дикторов по указанным системам признаков. Использована процедура предварительного интегрирования анализируемого сигнала в целях компенсации эффекта дифференцирования, осуществляемого губами говорящего, что позволило повысить вероятность правильной идентификации дикторов.

На основании выполненных исследований сделано заключение, что данные об импульсах голосового возбуждения, заключенные в спектральных характеристиках как исходного речевого сигнала, так и остатков линейного предсказания, в отличие от данных о значениях первых формант позволяют уверенно разделить дикторов по реализациям достаточно большой протяженности, в то время как форманты в большей степени характеризуют произносимые звуки, слабо меняясь для разных дикторов.

Осуществлена экспериментальная проверка предложенных алгоритмов. Исследования показали, что регуляризация речевого сигнала белым шумом позволяет повысить вероятность правильной идентификации дикторов по остаткам линейного предсказания в среднем с 0,7 - 0,91 до 0,94 - 0,97. Кроме того, точность идентификации дикторов по остаткам линейного предсказания выше аналогичных результатов для исходного речевого сигнала. Применение остатков линейного предсказания позволяет также в значительной степени скомпенсировать частотные искажения речевого сигнала, вносимые трактом передачи с неравномерной частотной характеристикой.

Практическая значимост ь работы определяется тем, что разработанные алгоритмы идентификации могут быть использованы в системах ограничения доступа, а также в криминалистике.

Дальнейшая перспектива исследований состоит в переходе от использования блочных алгоритмов обработки речи к непрерывным, а также в более детальном исследовании устойчивости предложенных алгоритмов к возможным искажениям сигнала в тракте передачи.

Литература: 1. Рамишвили Г.С. Автоматическое опознавание говорящего по голосу. М.: Радио и связь, 1981. 224 с. 2. Бондаренко М.Ф., Дрюченко А.Я., Шабанов-Кушна-ренко Ю.П. Гласные звуки в теории и эксперименте. Х.: ХНУРЭ, 2002. 348с. 3. АталБ.С. Автоматическое опознавание дикторов по голосам // ТИИЭР, 1976. Т. 64, № 4. С. 48-66. 4. Розенберг А.Е. Автоматическая идентификация диктора. Обзор // ТИИЭР, 1976. Т. 64, № 4. С. 66-79. 5. Маркел Дж. Д., Грей А.Х. Линейное предсказание речи: Пер. с англ. / Под ред. Ю.Н. Прохорова и В.С. Звездина. М.: Связь 1980. 308 с. 6. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: пер. с англ. / Под ред. М. В. Назарова и Ю.Н. Прохорова. М.: Радио и связь. 1981. 496 с. 7. Фланаган Д. Л. Анализ, синтез и восприятие речи: Пер. с англ. / Под ред. А.А. Пирогова. М.: Связь, 1968. 391 с. 8. Фант Г. Акустическая теория речеобразования: Пер. с англ. / Под ред. В. С. Григорьева. М.: Наука, 1964. 284 с.9. Бриллинджер Д. Р. Временные ряды. Обработка данных и теория: пер. с англ. / Под ред. А.Н. Колмогорова. М.: Мир, 1980. 536 с.

Поступила в редколлегию 06.11.2006

Рецензент: д-р физ.-мат. наук Прокопов А.В.

Федоров Алексей Валерьевич, ассистент кафедры «Сети связи» ХНУРЭ. Научные интересы: математическое моделирование в статистической теории распознавания образов. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. (057) 7021-429.

Омельченко Анатолий Васильевич, канд. техн. наук, доцент кафедры «Сети связи» ХНУРЭ. Научные интересы: методы обработки сигналов и распознавания образов. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. (057) 7021-429.

РИ, 2006, № 4

75

i Надоели баннеры? Вы всегда можете отключить рекламу.