Научная статья на тему 'МЕТОД ИДЕНТИФИКАЦИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ПОРЯДКОВЫХ СТАТИСТИК АМПЛИТУДНЫХ СПЕКТРОВ'

МЕТОД ИДЕНТИФИКАЦИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ПОРЯДКОВЫХ СТАТИСТИК АМПЛИТУДНЫХ СПЕКТРОВ Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
23
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЕВОЙ СИГНАЛ / ИДЕНТИФИКАЦИЯ РЕЧЕВОГО СИГНАЛА / ПОРЯДКОВЫЕ СТАТИСТИКИ СПЕКТРА / ГОЛОСОВОЙ СТАТИСТИЧЕСКИЙ ОБРАЗ / SPEECH SIGNAL / SPEECH SIGNAL IDENTIFICATION / SPECTRUM'S ORDER STATISTICS / STATISTICAL PATTERN OF THE SPEECH SIGNAL

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Кузнецов М.В.

В статье представлен новый метод идентификации речевых сигналов, основанный на применении зависимостей от частоты спектра сигнала квантилей вариационных рядов - порядковых статистик спектра Фурье речевого сигнала. В силу нормализации распределения значений спектра в составе выборочных квантилей, достигается повышение эффективности идентификации речевых сигналов известными методами статистической проверки гипотез по критерию Неймана-Пирсона. Метод идентификации приобретает свойства устойчивости к изменениям как статистических характеристик речи, так и статистических характеристик каналов передачи и воспроизведения речевых данных. Представлены данные, характеризующие эффективность разработанного метода.This article is about the newest speaker identification method using by speech. This method is based on application of variational series fractals depending on speech signal spectrum frequency - the order statistics of speech signal spectrum. Method is robust to abnormal noise, natural interference, man-made noise effects in channels of transmission, recording and playback of speech signals. The method efficiency data is submitted.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «МЕТОД ИДЕНТИФИКАЦИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ПОРЯДКОВЫХ СТАТИСТИК АМПЛИТУДНЫХ СПЕКТРОВ»

Метод идентификации речевых сигналов на основе порядковых статистик амплитудных спектров

Кузнецов М.В., Киев, Украина

• речевой сигнал • идентификация речевого сигнала • порядковые статистики спектра • голосовой статистический образ.

В статье представлен новый метод идентификации речевых сигналов, основанный на применении зависимостей от частоты спектра сигнала квантилей вариационных рядов — порядковых статистик спектра Фурье речевого сигнала. В силу нормализации распределения значений спектра в составе выборочных квантилей, достигается повышение эффективности идентификации речевых сигналов известными методами статистической проверки гипотез по критерию Неймана-Пирсона. Метод идентификации приобретает свойства устойчивости к изменениям как статистических характеристик речи, так и статистических характеристик каналов передачи и воспроизведения речевых данных. Представлены данные, характеризующие эффективность разработанного метода.

speech signal • speech signal identification • spectrum's order statistics • statistical pattern of the speech signal

This article is about the newest speaker identification method using by speech. This method is based on application of variational series fractals depending on speech signal spectrum frequency — the order statistics of speech signal spectrum. Method is robust to abnormal noise, natural interference, man-made noise effects in channels of transmission, recording and playback of speech signals. The method efficiency data is submitted.

Постановка проблемы

В настоящее время в полной мере нерешённой и актуальной остаётся задача идентификации диктора по его речевому сигналу. Идентификация (англ. identification — отождествление) в общем случае — это процедура установления тождественности процессов, объектов, персон. Процедура идентификации состоит из двух этапов: сопоставления совокупностей отдельных общих и индивидуальных признаков идентифицируемых объектов и принятия решения об идентичности по критериям проверки конкурирующих гипотез.

Трудность решения задачи обусловлена природой речевого сигнала, который является случайным нестационарным процессом, с медленно меняющейся дисперсией и сложной формой текущего спектра сигнала. Вследствие этого многомерные плотности распределения вероятностей параметров текущих спектров Фурье речевого сигнала являются негауссовскими и многомодальными. Это значительно усложняет применение извест-

3

ных статистических критериев согласия, ориентированных на статистическую идентификацию нормально распределённых случайных величин и существенно снижает вероятность правильной идентификации. Вышеперечисленные обстоятельства обуславливают актуальность разработки новых и совершенствования существующих методов спектральной идентификации1 речевых сигналов.

Цель: ознакомление специалистов в сфере распознавания речевых сигналов и признакового описания речевых сигналов с новым разработанным методом идентификации дикторов по речи, основанным на сопоставлении порядковых статистик спектра Фурье речевого сигнала.

1. Спектральная идентификация речевых сигналов

Основой анализа речевых сигналов и базисом многочисленных методов исследования речи является математический аппарат преобразования Фурье. Спектральный анализ позволяет охарактеризовать частотный состав измеряемого процесса. Теоретически допускается, что исследуемый сигнал квазистационарный на конечном интервале и рассматривается на бесконечно протяжённом участке времени или на конечном интервале, который в большинстве случаев не может быть очень большим, чтобы обеспечить приемлемую скорость обработки. Такой подход подразумевает использование в спектральном анализе статистических методов и даёт возможность говорить о полученном результате не как о точном представлении частотного состава исследуемого процесса, а лишь как о некоторой его оценке [1].

В современных системах идентификации с применением спектральных методов используются цифровые способы обработки речевых сигналов. Если представить последовательность отсчётов речевого сигнала х^) на сегменте анализа в виде: х[и]; и = 0,1,...,N -1, то спектральную плотность Фурье этой реализации можно записать в виде преобразования Фурье последовательности х[и];п = 0,1,...,N -1:

к=N-1 2П

ХР[и] = X х[к]ехр(-7 — кп)=ХС[п]- jXS[n],

к=0 N

где ХС[и];и = 0,1,...,N-1 — отсчёты чётной реальной части спектральной плотности Фурье; Х8 [и]; и = 0,1,..., N-1 — отсчёты нечётной мнимой части спектральной плотности Фурье [1].

Для идентификации анализируемого речевого сигнала по всей совокупности отсчётов спектральных плотностей Фурье определяют статистические характеристики параметров спектра Фурье для каждой частоты спектра речевого сигнала по всем сегментам анализа. Полученные статистические характеристики параметров спектра сравнивают по известным критериям согласия с соответствующими статистическими характеристиками параметров спектров образцовых речевых реализаций базы данных [2].

В ситуации, когда изначально характеристики сигнала неизвестны, трудно сказать, какая из спектральных характеристик с большей степенью достоверности отображает истинный спектр анализируемого сигнала. Такие неопределённости, часто возникающие на практике, показывают субъективный характер спектрального анализа.

4

1 Спектральная идентификация — идентификация речевых сигналов с использованием спектральных методов анализа речевых сигналов, методов, основанных на исследовании параметров сигнала по его спектру.

Рис. 1. Выборочные сегменты речевого сигнала, диктор № 1

В силу нестационарного характера речевого сигнала (рис. 1), реализации выборочных амплитудных спектров по сегментам анализа для одного и того же диктора существенно различаются (рис. 2).

На рис. 1 представлены выборочные сегменты речевого сигнала диктора № 1. По оси абсцисс отложена длительность сегмента в отсчётах, которая составляет 1024 отсчёта сигнала, что для частоты дискретизации 8820 Гц составляет 116 мс. По оси ординат — амплитуда напряжения сигнала в вольтах.

На рис. 2 представлены амплитудные спектры Фурье выборочных сегментов (рис. 1). По оси абсцисс отложены значения частоты спектра в Гц, по оси ординат — амплитуда напряжения сигнала в вольтах.

Рис. 2. Амплитудные спектры Фурье на выборочных сегментах анализа речевого сигнала, диктор № 1

5

Кузнецов М.В. Метод идентификации речевых сигналов на основе порядковых статистик амплитудных спектров

6 На практике имеют место существенные отклонения распределений значений сигнала и амплитуд спектра выборочных реализаций речевого сигнала от нормальных распределений. Наблюдается нестационарный характер и большой динамический диапазон изменения значений интенсивностей спектральных компонент речевого сигнала. Для решения задач спектральной идентификации речевых сигналов применение усреднённых на больших периодах времени спектров речи [3] приводит к нивелированию индивидуализирующих параметров речевого сигнала, которые отображаются на спектре сигнала. И, как следствие, приводит к снижению вероятности правильной идентификации [4, 5]. В этом случае повышение эффективности систем и методов спектральной идентификации речевых сигналов может быть достигнуто за счёт метода, основанного на применении зависимостей от частоты спектра сигнала квантилей вариационных рядов — порядковых статистик спектра Фурье речевого сигнала. 2. Порядковые статистики спектра речевого сигнала Порядковые статистики амплитудного спектра, в силу особенностей своего формирования [6], робастны к рассмотренным выше аномальным дестабилизирующим факторам. Вариационный ряд [ х )/п ] значений [ х/ ] частоты амплитудного спектра Фурье: х1/п < х1/п <... < х7п <... < хп-1/п < хп/п содержит всю информацию об исходной выборке [ х1 ]. Поэтому он называется тривиальной достаточной статистикой всей совокупности независимых случайных величин [ х ]. Значения х ,/=1...и реализации [х ] случайны и в общем случае непредсказуемы с разумной для практики точностью. Но если от выборки Хк =[ х ]к к выборке Хт = [х ]т, от одной реализации вектора Хк к другой реализации Хт, значения х,/=1...и являются случайными величинами и независимы между собой, то в значениях элементов вариационного ряда [х /п] начинают проявляться статистические связи и элементы устойчивости предсказания значений этих элементов с приемлемой для практики точностью. Таким образом, вектор квантилей вариационного ряда [ хн и ] является асимптотически (при и > 30) гауссовским вектором при произвольном законе распределения G( х) элементов генеральной совокупности, если производная g (х) плотности распределения вероятностей (ПРВ) непрерывна [6]. В силу случайного характера речевых процессов, значения квантилей спектров Фурье ха, получивших в литературе общее название порядковых статистик, являются случайными и меняются н)езависимо от выборки к выборке. В общем случае порядковые статистики ха можно рассматривать как упорядоченную совокупность новых случайных величин (случайный вектор), статистические характеристики которой зависят от вида функции g(х) и объёма выборки и. Вместе с тем в пределе (при и > 30) распределение каждой порядковой статистики ха вариационного ряда [х//п] асимптотически нормально. Таким образом, при переходе от анализа выборки [ х1 ] из генеральной совокупности, характеризуемой g (х) (ПРВ) и функцией распределения G( х) (вид

и параметры которых на практике обычно неизвестны), к анализу вариационного ряда [X /п] существенно упрощается получение оценок параметров новых распределений. Это обусловлено тем, что за исключением экстремальных значений х1/п, хп/п совокупность новых случайных величин является асимптотически нормальной [6].

3. Статистический вектор квантилей. Робастность метода

В представленном методе спектральной идентификации использовались речевые сигналы, которые представляют собой русскоязычные и англоязычные тексты в виде аудиокниг (производство «Сидиком», Украина). Характер речевого материала неоднородный. При чтении дикторы меняют интонации, пытаются имитировать голоса детей и пожилых людей с целью передачи настроения и смысла произведений. В исследовании применялись записи 15 дикторов. Исходный речевой материал подвергался предварительной обработке: понижению частоты дискретизации с 44100 Гц до 8820 Гц (редактор аудио-файлов CoolEdit Pro v. 2.0), удалению пауз в речи, сегментации (размер сегмента — 1024 отсчёта сигнала, что для частоты дискретизации 8820 Гц составляет 116 мс). Посегментно проводилось вычисление быстрого преобразования Фурье (БПФ), формирование зависимостей квантилей, с последующим построением статистического вектора квантилей речевого сигнала (голосового статистического образа) и проведением идентификационного сопоставления (рис. 3) значений статистического вектора квантилей исследуемых речевых сигналов со значениями статистических векторов квантилей речевых сигналов базы данных, т.е. сигналов, принадлежность которых источнику установлена достоверно. Статистический вектор квантилей насчитывает 100 сегментов анализа.

Рис. 3. Структурная схема метода спектральной идентификации речевых сигналов на основе порядковых статистик спектра

При формировании голосового статистического образа на основе порядковых статистик спектра речевого сигнала не происходит усреднения значений спектра речевого сигнала. Следовательно, сохраняются характерные для диктора особенности речевого сигнала, которые отображаются на спектре сигнала и на квантильных зависимостях.

7

Поскольку индивидуальность строения речеобразующего тракта человека — очевидный факт, речевой сигнал в разработанном методе рассматривается как целостный процесс, содержащий в себе все характеризующие параметры. По алгоритму разработанного метода не требуется дополнительно исследовать составляющие психофизического состояния диктора, смыслового наполнения речи, проводить акустический и лингвистический анализ сигналов.

С целью продемонстрировать достигаемую степень различий между голосовыми статистическими образами разных дикторов, на рис. 4 приведены голосовые статистические образы четырёх дикторов: «4а» — диктор № 1 женщина, язык английский; «4б» — диктор № 3 мужчина, язык русский; «4в» — диктор № 5 мужчина, язык английский; «4г» — диктор № 7 женщина, язык русский.

По оси абсцисс отложены значения частоты спектра сигнала, выведены значения до 1500 Гц, по оси ординат — амплитуда напряжения в вольтах, значения которой отображают величину значений квантилей. Наглядно оценить степень различия между полученными голосовыми статистическими образами разных дикторов можно по местоположению на оси частот максимальных значений зависимостей квантилей и по ширине полосы занимаемых ими частот, а также по величине энергетической составляющей зависимостей квантилей спектра (рис. 4).

8

Рис. 4. Выборочные голосовые статистические образы исследуемых речевых сигналов, дикторы № 1 (4а); № 3 (4б); № 5 (4в); № 7 (4г)

Для решения задачи идентификации можно менять уровень детализации образа, с целью изменения требуемого объёма информационного наполнения образа. Реализован уход от сопоставления параметров многомерных суммарных ПРВ к сопоставлению числовых значений векторов квантилей

вариационного ряда. Особенности алгоритма формирования порядковых статистик [6] спектра Фурье речевого сигнала позволяет смещать аномально слабые и аномально мощные значения зависимостей в области, которые не будут задействованы в идентификации. Это свойство позволяет нивелировать вредное влияние импульсных помех и шумов различного происхождения при анализе речевых сигналов без нарушения статистического наполнения сигнала и потерь информационной составляющей сигнала (рис. 5).

Рис. 5. Голосовой статистический образ диктора № 4. Область максимальных значений зависимостей «а»; область задействованных для идентификации значений «б»; область минимальных значений «в»

Максимальные значения порядковых статистик голосового статистического вектора представлены на рис. 5 «а» зависимостями квантилей экстремальных значений х1/п, хп / п статистического вектора. Наблюдается значительная дисгармония крайних максимальных значений зависимостей, которая вызвана перемещением в эту область образа мощных спектральных составляющих. По оси абсцисс отложены значения частоты спектра сигнала, выведены значения до 1500 Гц, по оси ординат — амплитуда напряжения в вольтах.

Минимальные значения порядковых статистик голосового статистического образа представлены на рис. 5 «в» зависимостями квантилей экстремальных значений х1/п, хп / п статистического вектора. В этой области наблюдается более спокойная картина крайних минимальных значений зависимостей, что объясняется перемещением в эту область образа спектральных составляющихс низкой энергетикой. При этом наглядно прослеживается низкая «характерность» значений зависимостей квантилей.

При этом сохраняется значительная стабильность значений зависимостей квантилей при рассмотрении группы образов, принадлежащих одному диктору, т.е. при переходе от одного статистического вектора квантилей [ хи п ] к другому вектору квантилей одного и того же диктора, наблюдается значительная стабильность значений квантилей.

Диктор похож сам на себя. Для иллюстрации этого явления на рис. 6 представлены выборочные голосовые статистические образы дикторов № 1, 5, 7.

Наблюдается значительное внутридикторное сходство образов по местоположению на оси частот максимальных значений зависимостей квантилей и по ширине полосы занимаемых ими частот, а также по величине энергетической составляющей зависимостей квантилей спектра, т.е. сохраняется значительная стабильность значений как частот, так и амплитуд. На рис. 6 по оси абсцисс отложены значения частоты спектра сигнала, выведены значения до 1500 Гц, по оси ординат — амплитуда напряжения в вольтах.

9

10

Рис. 6. Выборочные голосовые статистические образы дикторов

4. Сопоставление векторов квантилей.

Эффективность разработанного метода идентификации

Результатом формирования зависимостей квантилей ха:х./4,. = 1,2,3 является голосовой статистический вектор квантилей постоянной размерности, который является объектом сопоставления. Поэтому, в зависимости от длительности идентифицируемых речевых сигналов, которые, как правило, отличаются, формируется различное количество векторов квантилей равной размерности. Для выполнения процедуры сопоставления значений выборочных квантилей статистических векторов используется одинаковое количество векторов для речевых сигналов базы данных и идентифицируемых сигналов. Подход к сопоставлению можно охарактеризовать как «каждый-с-каждым», при этом значения каждого выборочного квантиля каждого задействованного статистического вектора квантилей базы данных У.,(. = 1,2,3,..., N) сопоставляются с соответствующими значениями каждого выборочного квантиля каждого статистического вектора квантилей идентифицируемого речевого сигнала ,(к = 1,2,3,...,N) (рис. 7).

Кузнецов М.В.

Метод идентификации речевых сигналов на основе порядковых статистик амплитудных спектров

исследуемые речевые сигналы

значения статистического вектора квантилей идентифицируемого речевого сигнала Хи

база данных значений статистических векторов квантилей речевых сигналов У, = 1, ... п -Ж-

блок реализации метода идентификации и принятия решения Rj

Рис. 7. Структурная схема реализации процедуры идентификации речевого сигнала

При этом вычисляются значения среднего абсолютного отклонения как наименее флюктуирующего параметра: RJ = mean (abs(Xk -Y.). Для каждой 7-й процедуры сопоставления формируются два массива значений метрик R. Первый — «внутридикторные» метрики

(массив «свой-свой») RJk=i = arg min

X - Y

, второй — «междудикторные» ме-

трики (массив «свой-чужой»), рассчитанный по совокупности значений векторов кванти

X

Y

, где j — номер квантиля, к,

лей всех «чужих» дикторов RJk= arg min

' i

i — номера дикторов, n, m — номера статистических векторов квантилей.

По рассчитанным статистическим значениям массивов метрик RJk=t (1275 значений метрик в примере) и RJk(1225 значений метрик в примере) строим графики условных функций распределения (ФР) значений метрик для статистических векторов квантилей идентичного источника (массив «свой-свой») и статистических векторов квантилей неидентичного источника (массив «свой-чужой») (рис. 8 «а»). По функциям распределения значений метрик выведено решающее правило (рис. 8 «б»). Принятая пороговая величина вариативности nj для j -го признака является условной, с точки зрения допустимого уровня ошибок 1-го рода (пропуск, отбрасывание «своего» диктора) и 2-го рода (принятие «чужого» за «своего», ложная тревога).

ФР для -идентичных источников / Выборочное j «а»

/ значение метрики / (порог) nj §

/

j ______ L ... ФР дл денти сточни я

не и чных ков

ft f ] 1 j /

i •

9 1 ..........J............

1

! j д- ...........т............ i I

Идентичные \ 1 Неидентичные «б» .

источники источни ки

Вероятность правильной 1ентификации

Вероятность ошибки 2-го и

ода 2 5% —у составляет 98%

Вероятнос ошибки 1-рода менее ть

го 2%

/ \

2.2 2.4 2 6 2.8 0 3.2 3.4 3 6 2 8 4

Рис. 8. Принятие решения об идентичности источников, решающее правило

11

0

2

4

5

С

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7

8

9

Результаты экспериментальной проверки метода показали, что вероятность правильной идентификации исследуемых речевых сигналов составила 98%, при вероятности ошибки 1-го рода 2% и вероятность ошибки 2-го рода около 2,5%.Допускается менять величину порога с целью изменения условия принятия решения об идентичности источников. Уменьшая значение вероятности пропуска, получим возрастание количества ложных тревог, и наоборот, уменьшая вероятность возникновения ложной тревоги, увеличивать вероятность пропуска.

Выводы

По результатам проведения экспериментов можно сделать выводы, что разработанный новый метод идентификации речевых сигналов [7], основанный на применении зависимостей от частоты спектра сигнала квантилей вариационных рядов — порядковых статистик спектра Фурье речевого сигнала, обладает следующими параметрами:

1. В соответствии с алгоритмом метода, для идентификации речевого сигнала,

не требуется проводить следующие исследования: влияние на речевой сигнал психофизического состояния диктора, смыслового наполнения речи, акустических и лингвистических признаков речи.

2. В силу нормализации распределения значений спектра в составе выбороч-

ных квантилей, достигается повышение эффективности идентификации речевых сигналов известными методами статистической проверки гипотез по критерию Неймана-Пирсона. Метод идентификации приобретает свойства устойчивости к изменениям как статистических характеристик речи, так и статистических характеристик каналов передачи речевых данных.

3. Результаты идентификации слабо зависят от разницы в уровне вокализации

речевых сигналов идентифицируемого источника и образцовых речевых сигналов базы данных.

4. Для идентификации требуется речевой сигнал минимальной длительности

30^40 секунд (без пауз), применяется мажоритарная схема сопоставления.

5. Результаты идентификации не зависят от языка речи.

6. Значения статистического вектора квантилей речевого сигнала не усредня-

ются, следовательно, не происходит утрат информативного, характеризующего диктора наполнения сигнала. Реализована детализация статистического вектора.

7. Реализована возможность перехода от сопоставления параметров многомер-

ных суммарных ПРВ к сопоставлению числовых значений векторов квантилей вариационного ряда.

Комплексное использование перечисленных отличительных особенностей и связанных с ними положительных эффектов позволяет обеспечить повышение эффективности существующих и перспективных систем спектральной идентификации речевого сигнала.

12

1. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи / Под. ред. О.И. Шелухина. М.: Радио и связь, 2000. С. 98-106.

2. Акишин Б.А., Хвастунов Ю.А. Цифровой спектральный анализ речевых сигналов: Учебное пособие. Казань: Изд-во Казан. гос. техн. ун-та, 2000. 48 с.

3. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ./ Под ред. М.В. Назарова и Ю.Н. Прохорова. М.: Радио и связь, 1981. 496 с.

4. Автоматическое распознавание и синтез речи. Сборник научных трудов НАН Беларуси, Институт технической кибернетики / Научный редактор д.т.н. Лобанов Б.М. Минск, 2000. 172 с.

5. Женило В.Р., Минаев В.А. Компьютерные технологии в криминалистических фоно-скопических исследованиях и экспертизах: Учебное пособие. М.: Академия МВД РФ, 1994. 139 с.

6. Дейвуд Дж. Порядковые статистики: Пер. с англ. М.: Мир, 1989. 540 с.

7. Патент Укра'ни на винахщ № 80587 МПК (2006). Споаб спектрально! щентифкаци мовного сигналу / М.В. Кузнецов, В.Л. Селетков (Укра'ша). Опублковано бюл. «Проми-слова власнють» № 16 10.10.2007 р.

Сведения об авторе

Кузнецов Максим Владимирович —

автор пяти научных публикаций, четырёх патентов на изобретения; область научных интересов: идентификация сложных сигналов. Ttmarun@rambler.ru

13

i Надоели баннеры? Вы всегда можете отключить рекламу.