Научная статья на тему 'Параметры вейвлета, выбор сдвига и масштаба непрерывного вейвлет-преобразования для детектирования эмоций по голосу'

Параметры вейвлета, выбор сдвига и масштаба непрерывного вейвлет-преобразования для детектирования эмоций по голосу Текст научной статьи по специальности «Физика»

CC BY
664
253
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЕВОЙ СИГНАЛ / ВЕЙВЛЕТ-АНАЛИЗ / НЕПРЕРЫВНОЕ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЕ / МАСШТАБ / СДВИГ / ПАРАМЕТРЫ / ВЕЙВЛЕТ МОРЛЕ / SPEECH SIGNAL / WAVELET ANALYSIS / CONTINUOUS WAVELET TRANSFORM / DILATION / POSITION / PARAMETERS / MORLET WAVELET

Аннотация научной статьи по физике, автор научной работы — Голубинский Андрей Николаевич, Асташов Роман Анатольевич

Предложен способ определения шага масштаба и сдвига непрерывного вейвлет-преобразования, обоснованы параметры материнского вейвлета Морле для выявления эмоционального состояния человека по голосу.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по физике , автор научной работы — Голубинский Андрей Николаевич, Асташов Роман Анатольевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PARAMETERS OF WAVELET, SELECTION OF POSITION AND DILATION OF CONTINUOUS WAVELET TRANSFORM FOR DETECTION OF AN EMOTIONAL STATE OF A PERSON

The approach of determining of a dilation pitch and position pitch of continuous wavelet transform f or identification of an emotional state of a person is developed, parameters of Morlet wavelet are proved.

Текст научной работы на тему «Параметры вейвлета, выбор сдвига и масштаба непрерывного вейвлет-преобразования для детектирования эмоций по голосу»

А.Н. Г олубинский,

доктор технических наук

Р.А. Асташов,

ОАО «Концерн «Созвездие»

ПАРАМЕТРЫ ВЕЙВЛЕТА, ВЫБОР СДВИГА И МАСШТАБА НЕПРЕРЫВНОГО ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ ДЛЯ ДЕТЕКТИРОВАНИЯ ЭМОЦИЙ ПО ГОЛОСУ

PARAMETERS OF WAVELET, SELECTION OF POSITION AND DILATION OF CONTINUOUS WAVELET TRANSFORM FOR DETECTION OF AN EMOTIONAL STATE OF A PERSON

Предложен способ определения шага масштаба и сдвига непрерывного вейвлет-преобразования, обоснованы параметры материнского вейвлета Морле для выявления эмоционального состояния человека по голосу.

The approach of determining of a dilation pitch and position pitch of continuous wavelet transform for identification of an emotional state of a person is developed, parameters of Morlet wavelet are proved.

Оценка эмоционального состояния с помощью аппаратно-программных средств является актуальной научно-практической задачей в области развития интеллектуальных систем, при этом автоматическая и объективная диагностика эмоционального состояния человека по его речи представляет большой практический интерес, например, в криминалистике, медицине, системах контроля и управления доступом и др.

Детектирование эмоций по параметрам устной речи является сложной задачей, как в плане математической формализации, так и в способах чёткой конкретизации эмоционального состояния — однозначного детектирования эмоций по речевому сигналу. Наиболее часто на практике пользуются упрощённой классификацией видов эмоций, например [1]: депрессия, тоска, печаль, норма, радость, страх, гнев.

Перспективным математическим аппаратом для обработки речевого сигнала с целью детектирования эмоций является непрерывный вейвлет-анализ [2], позволяющий вычислить частотно-временные характеристики речевого сигнала с удовлетворительным разрешением по времени и частоте, выявив существенные особенности в анализируемом сложном нестационарном сигнале.

При параметризации речевого сигнала с помощью непрерывного вейвлет-преобразования (НВП) для детектирования эмоционального состояния, например на основе меры различимости между локальными спектрами НВП, становится вопрос о выборе шага сдвига и шага масштаба, а также параметров материнского вейвлета. С одной стороны, отсчёты сдвига и масштаба должны наиболее полно характеризовать речевой сигнал, с другой — их количество должно быть минимально, формируя вектор существенных параметров и минимизируя вычислительные ресурсы.

Цель работы — выбор параметров материнского вейвлета Морле, определение шага масштаба и временного интервала между отсчётами сдвига непрерывного вейвлет-преобразования применительно к обработке речевых сигналов для детектирования эмоционального состояния человека по голосу.

НВП сигнала u(t) осуществляется путём свёртки [3]:

г 1 і* * (t — Ь ^

Wu (а, Ъ) = Гп(і) у ь (0^ = -п Г п(і) у* ---------------- ^, (1)

•’ ./а М V а

Л/И — ¥

где Ь — координаты сдвига (размерность времени); а — масштаб (безразмерная величина, обратно пропорциональная частоте); двухпараметрическая вейвлетная функция:

1

О — Ъл

Уа,Ъ(0 = ~ПУ------------- , (2)

V а )

здесь у(;) — материнский вейвлет.

Заметим, что человеческое ухо устроено так, что при обработке звукового сигнала результирующее преобразование сигнала будет с точностью до константы совпадать с вейвлет-преобразованием [4], при этом частотно-временные характеристики материнского вейвлета Морле аналогичны характеристикам базилярной мембраны.

Для описания речевых сигналов хорошо зарекомендовал себя материнский вейвлет Морле [2, 5], к преимуществам которого следует отнести наличие параметров: а (параметр масштаба, влияющий на ширину окна) и X (доминантная частота, позволяющая варьировать избирательность базиса). Варьируя данные параметры можно добиться : 1) приемлемой ширины для частотного и временного окон (параметр а); 2) высокой точности аппроксимации, используя небольшое количество коэффициентов вейвлет-преобразования — вследствие резонанса сигнала с вейвлетом (параметр X).

Вейвлет Морле при условии Х>4, что практически обеспечивает условие нулево-

_3

го среднего (значение не превышает 10 ) и достаточное затухание с ростом частоты спектральных составляющих (преобразования Фурье — ПФ) материнского вейвлета [6], задаётся следующим образом:

t2

у)~~ПГеіХ''е 2"2. (3)

ЛІО4 Р

С учётом (3) НВП для вейвлета Морле приобретает вид [5]:

2 Л ^ — Ъ)2 хі——ь

2о2а

¥

1 С

^(а ,Ъ) = г- 4— д—? I и 0)' ехР

ЫО 4 Рд/|а| •'

.2 2 ^Х'

Для анализа параметров Х и О материнского вейвлета Морле воспользуемся выражениями, устанавливающими связь между масштабом и частотой:

а =О = /-, (5)

о /

где он и /н — соответственно нормированные круговая и линейная частоты, которые для вейвлета Морле рассчитываются по формулам

Он = (Х + ^Х2 + 2-о“2)/2; /н = (Х+^Х2 + 2 - О_2)/(4р). (6)

В результате

Хо+^І(Хо)2+2 р+4р2+2

а-а _а^ _ха+^(ха) + 2 _£+ ;

а 2а 2а

X _ х® = 2а

а °н 1 + ^11 + 2-Р~2 где параметр, характеризующий НВП, Р=Х-а. При значении параметра Р>2л/5 »4,472

2 ______2

обеспечивается выполнение условия X >> 2а , что даёт приближенные выражения:

—оо

— оо

а-а »Ь/О); X/а »О. (7)

Таким образом, перепишем выражение для НВП (4) в следующей форме:

(г-Ь)2 - о2

Жи(а, Ь) = ЛЬ [и(г)-е 2-Ь -е Ь) -О& ■ (8)

(г - Ь )2 - о2

—¥

Здесь функция ехр

2-¡2

= Н(г-Ь, о) играет роль временного окна пере-

менной ширины и зависит от частоты (по аналогии с кратковременным ПФ). Значение параметра ¡5 для обработки сигналов при условии Х>4,5 в большинстве случаев целесообразно принять равным Ь =5. Однако в зависимости от требуемой разрешающей способности по частоте или во времени параметр ¡может принимать и иные значения.

К удобствам НВП при использовании материнского вейвлета Морле, который является комплексным (как и ПФ), при анализе периодических (квазипериодических, полигармонических) сигналов стоит отнести следующее. Модуль НВП с данным материнским вейвлетом не будет иметь вид периодической (квазипериодической) структуры, в отличие от НВП при использовании действительных материнских вейвлетов, а будет представлять собой амплитудные составляющие (по аналогии с амплитудным спектром ПФ) на соответствующих гармониках (спектральных составляющих).

Следует отметить, что для анализа сигналов удобно использовать локальный спектр НВП: Еи(а,Ь)=\Жи(а,Ь)\2.

На практике стоит задача обработки речевого сигнала, заданного набором отсчётов щ=и(г)=и(ЬА), /е 0,N-1, где N — количество отсчётов; А=1/ и / — шаг и частота дискретизации соответственно. Непосредственное вычисление интеграла НВП Жи(а,Ь) численными методами, помимо проблемы сходимости для малых значений а, требует достаточно больших машинно-временных ресурсов. Для обработки речевого сигнала с целью выявления эмоционального состояния необходимо использовать быстрые алгоритмы, позволяющие проводить вычисления с приемлемой для решаемой задачи скоростью. Для быстрого вычисления НВП речевого сигнала можно воспользоваться алгоритмом, который основывается на выражении, следующем из равенства Парсеваля [7]:

/- ¥

^и (а, Ь) = ^р | и (о)- ¥*(а- о)- еОЬ О, (9)

где и(О) и ¥(о) — соответственно преобразование Фурье от и(г) и у(г). Выражение (9) для дискретных значений ат и Ьп принимает вид

■ N—1 } 2л- п - к

№и(—,п) =—— V Ск ^а(к-т) е N , (10)

2л к=0

где С к — коэффициенты дискретного преобразования Фурье (ДПФ) для отсчётов речевого сигнала иг-, которые можно вычислить на основе алгоритма быстрого преобразо-

вания Фурье (БПФ). Отсчёты сдвига, как правило, задают линейной зависимостью:

Ьп = Ьтп + АЬ-п, п = 0,и,( N -1); АЬ = (Ьтах - Ьтт)/(^ -1) - (11)

Выражение (10) определяет алгоритм расчёта НВП, в котором обратное ДПФ от

произведения (ск - (к,—)) вычисляется с помощью процедуры БПФ.

Для вейвлета Морле (3) преобразование Фурье

а (X-О- а)2

¥ (О - а) = 42л - а-ехр

(12)

таким образом, функция Yw(k, m) = V2p ■ 7- exp

7

2

2 rx 2p ■ k-am л 2 ^

N-D

(13)

При параметризации речевого сигнала отсчёты масштаба должны адекватно его характеризовать, при этом для уменьшения вычислительных ресурсов количество обрабатываемых отсчетов следует минимизировать. К сожалению, использование линейного шага масштаба не позволяет компактно охарактеризовать речевой сигнал, так как в области малых масштабов (больших частот) при фиксированном шаге масштаба — частотный шаг весьма большой, что исключает ряд существенных компонент из спектра речевого сигнала. А в области больших масштабов (малых частот) при фиксированном шаге масштаба частотный шаг избыточно мал, что включает в меру различимости ряд несущественных компонент спектра речевого сигнала.

Для устранения описанных выше эффектов избыточности отсчётов масштаба на больших его значениях и недостатка информации о спектральных составляющих при малых значениях масштаба предлагается использовать нелинейную аппроксимацию функции масштаба [3].

Определим требуемую относительную ошибку шага частотной сетки для речевого сигнала при изменении шага сетки масштаба:

в А/ср = 0,5-(А/ + +А/-) = 0,5- [(/0-/0+)-(/0- -/0)] (14)

/0 /0 /0 ’

где /—/о, /0+ — значения частоты спектральной составляющей речевого сигнала при масштабах ат-1, ат, ат+1 соответственно; А/+, А/- и А/сР — соответственно абсолютные ошибки при увеличении и уменьшении номера отсчёта масштаба и усреднённое значение.

Обеспечиваемая относительная ошибка шага частотной сетки (при изменении шага сетки масштаба) для некоторой аппроксимации функции масштаба определяется выражением

У= \(Д,"+1 -a"'—'). (15)

2 - ат +1 - ат -1

Таким образом, критерий, позволяющий определить допустимую ошибку по частоте при изменении шага масштаба, имеет вид

у<в. (16)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Запишем три условия, которые должна обеспечить аппроксимирующая функция масштаба:

1) монотонное возрастание функции: ат+1> ат;

2) монотонное возрастание шага масштаба: ат+\ -ат > ат -ат-\ или

ат+1 + ат -1 > а .

2 ат ’

3) обеспечиваемое значение относительной ошибки шага частотной сетки не

должно превосходить требуемую ошибку: ат (ат +1—ат-1) < в .

2 ат +1 ат -1

Продемонстрируем, что показательная аппроксимация функции масштаба ат = а0 -С т, т = 0,1,..., М удовлетворяет записанным выше трём условиям при основании степени С:

1 < С < е, для d > 0, (17)

где е»2,71828 — основание натурального логарифма; d — константа в показателе степени.

Применение показательной аппроксимации функции масштаба позволяет обеспечить меньшее количество отсчётов масштаба (М) относительно аппроксимации кусочно-

степенной функцией при фиксированной средней относительной ошибке шага частотной сетки (в) [8]. В работе [8] предложены следующие удобные на практике виды показательной аппроксимации функции масштаба (по основанию 2 и экспоненциальная):

а — а 2 © ■т — а e

ат — Uq ■ 2 — Uq ■ e

q ■ m

m — 0,1,..., M .

(18)

где константы в показателях связаны формулой: 0=6/1п(2); минимальное значение масштаба вейвлета: а0=А/А?, здесь А? — эффективный временной размер материнского вейвлета, для вейвлета Морле равный: А? = <г/л/2 , в результате:

42

а0 =(19)

sfd

Номер наибольшего отсчета масштаба рассчитывается по формуле:

M

log 2

Г \

ам

Uq

ln

r \

Um

Uq

ln

g

fd fm

min J

(20)

здесь Г 1 — округление до целого числа в большую сторону; /тП — минимальная существенная частота в спектре речевого сигнала;

7 —Ун ■А/ —

— константа для вейвлета Морле.

42 442 ■ p л42 ■ p

Значение M-го отсчета масштаба рассчитывается по формуле:

ам — 7 — aQ ■ . (21)

s ■ J min J min

В качестве примера приведём рассчитанные характеристики экспоненциальной аппроксимации функции масштаба для следующих значений входных параметров: s=1 с; Х=5 Гц; наименьшая частота основного тона (на основе акустической теории речеоб-разования и многочисленных экспериментальных измерений) с высокой степенью достоверности имеет значение [9]: fmln =70 Гц; fd=8QQ0 Гц; проведённые исследования показали, что естественные вариации частоты основного тона имеют относительную ошибку порядка 2%, поэтому можно положить значение #=0,02. Таким образом, вычисленные характеристики показательной аппроксимации функции масштаба: ао=1,768 ■ 10-4; 7=0,574; M=210; om=1,159- 10-2.

Выигрыш по количеству коэффициентов при использовании показательной аппроксимации функции масштаба относительно линейной рассчитывается по формуле:

n — NT* / M,

(22)

где количество отсчетов масштаба при линейной аппроксимации функции масштаба:

N

лин

max

min aM а0

Da

Da

2M >>a0

aM . Da ’

учитывая, что шаг масштаба для максимальной частоты при относительной ошибке шага частотной сетки (в):

Da — а\ - aQ —

42

42 42

е

получим:

NU

s (fd-e^fd) s fd s fd 1 -в

fd

в<<1

42 в

s fd ’

q fm

min

1

В итоге выигрыш определяется выражением:

n = y-id— fmn,

ln

y

fd

\

(23)

/пт У

Для указанных выше значений параметров у выигрыш составляет V=15,7.

В табл. 1 представлены значения выигрыша по количеству коэффициентов при использовании различных видов аппроксимации функции масштаба.

Таблица 1

Пара- метр Вид аппроксимации функции масштаба

Линейная Кусочнолинейная (три прямые линии) Квадра- тичная Кубичная Четвертой степени Показа- тельная

Na 3280 866 807 403 371 210

V=Na/M 15,7 4,1 3,8 1,9 1,8 1

Таким образом, при использовании показательной аппроксимации функции масштаба выигрыш по количеству коэффициентов НВП (v) составляет до 15,7.

Для уменьшения количества коэффициентов локального спектра НВП при сохранении удовлетворительной точности описания частотно-временных характеристик речевого сигнала определим способ уменьшения коэффициентов НВП на основе рационального масштаба сдвига и количественную характеристику, отражающую погрешность преобразования спектра (при уменьшении количества коэффициентов НВП ).

Уменьшить количество коэффициентов НВП можно, осуществляя их прореживание, т.е. используя для параметризации речевого сигнала только те коэффициенты НВП, которые следуют через p отсчетов (из всего набора отсчетов сигнала ie 0,N-1). При прореживании в p раз шаг сдвига для вычисляемых коэффициентов НВП рассчитывается по формуле:

Db = p ■ D, (24)

где p — коэффициент прореживания. Количество отсчётов сдвига после прореживания: Nb = Tn / pl. (25)

В качестве меры, определяющей значимость искажения локального спектра НВП при прореживании в p раз, предлагается использовать следующую относительную ошибку прореживания:

M N-1/ ... N2

S E (- EU»(m.i) )

d = m =0 i =M n-1,-----------------------------------------------------------Й-100%. (26)

S S (E.T(m,ij)

m=0 i=0

Здесь (m, i) и ЕдБ(т, i) — соответственно исходный и при прореживании

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

локальный спектр НВП в логарифмическом масштабе. Следует отметить, что при прореживании количество коэффициентов НВП уменьшается в p раз. В связи с этим для сравнения локальных спектров НВП (в логарифмическом масштабе) в мере различимости (26) количество коэффициентов локального спектра НВП, полученного в результате прореживания, восстанавливается до числа коэффициентов в исходном спектре (N) посредством повторения соответствующих (n-х) коэффициентов поp раз.

Для расчета характеристик речевого сигнала использовалась персональная ЭВМ, ввод речевого сигнала в которую выполнялся с помощью стандартной шестнадцатиразрядной звуковой платы, частота дискретизации при этом составляла fd= 8 кГц. В каче-

стве речевого материала использовалась контрольная фраза — пароль, количество отсчётов речевого сигнала при этом было равно N = 3000.

В табл. 2 приведены величины ошибок (дЩ), рассчитанные по выражению (26) при различных значениях коэффициента прореживания (р), а также значения шага сдвига (ДЬ) и количество отсчётов сдвига (Nb).

Таблица 2

Величины ошибок при различных значениях коэффициента прореживания

р 1 2 4 8 10 16 20 32 40 64 80

ДЪ, мс 0,125 0,25 0,5 1 1,25 2 2,5 4 5 8 10

Ыъ 3000 1500 750 375 300 188 150 94 75 47 38

6ц, % 0 0,205 0,716 1,64 1,974 2,917 3,473 4,782 5,166 6,629 12,629

На рис. 1 показана зависимость ошибки 6 ц от коэффициента прореживания.

Рис. 1. Зависимость ошибки от коэффициента прореживания

На рис. 2, 3, 4 представлены графики локальных спектров НВП речевого сигнала соответственно: исходный (без прореживания, т.е. р=1, шаг сдвига ДЬ=0,125мс), при р=8 (шаг сдвига ДЬ = 1 мс) и р=40 (шаг сдвига ДЬ = 5 мс).

Рис. 2. Исходный (без прореживания) локальный спектр НВП речевого сигнала (р=1; ЛЬ=0,125мс)

Рис. 3. Локальный спектр НВП речевого сигнала при р=8 (ДЬ=1 мс)

Рис. 4. Локальный спектр НВП речевого сигнала при р=40 (ЛЬ=5 мс)

Как видно из рис. 4, локальный спектр НВП речевого сигнала при р=40 существенно искажается, что обусловлено значительной потерей информации (коэффициентов НВП) вследствие прореживания локального спектра.

При значении ошибки дщ, рассчитанной по формуле (26), превышающем 2% искажения локального спектра НВП при осуществлении прореживания (вр раз) являются значительными. В результате для порогового значения ошибки дщ в 2% предельное значение коэффициента прореживанияр должно быть ориентировочно не более десяти.

Следует отметить, что при использовании показательной аппроксимации функции масштаба и рационального временного интервала между отсчётами сдвига выигрыш по количеству коэффициентов НВП составляет 120^160, т.е. обеспечивается на два порядка уменьшение количества обрабатываемых и хранимых в памяти коэффициентов локального спектра НВП.

Таким образом, предложен подход к выбору параметров материнского вейвлета Морле, разработан способ определения шага масштаба и временного интервала между отсчётами сдвига непрерывного вейвлет-преобразования. Предлагаемый способ определения шага масштаба и шага сдвига позволяет существенно уменьшить количество вычисляемых

коэффициентов непрерывного вейвлет-преобразования, используемых для последующего анализа речевых сигналов для детектирования эмоционального состояния диктора.

ЛИТЕРАТУРА

1. Галунов В.И. О возможности определения эмоционального состояния по речи // Речевые технологии. — 2008. — №1. — С. 60—66.

2. Горшков Ю.Г. Многоуровневый вейвлет-анализ акустических сигналов при решении задач фоноскопической экспертизы // Информатизация и информационная безопасность правоохранительных органов: сборник трудов XX международной научной конференции. — М.: Академия управления МВД России, 2011. — С. 379—387.

3. Короновский А.А., ХрамовА. А. Непрерывный вейвлет-анализ и его приложения. — М.: Физматлит, 2003. — 176 с.

4. Горшков Ю.Г. Новые решения речевых технологий безопасности // Специальная техника. — 2006. — №4. — С. 1—13.

5. Голубинский А. Н. Выявление эмоционального состояния человека по речевому сигналу на основе вейвлет-анализа // Вестник Воронежского института МВД России. — 2011. — № 3. — С. 144—153.

6. Добеши И. Десять лекций по вейвлетам. — Ижевск: НИЦ «Регулярная и хаотическая динамика», 2001. — 464 с.

7. Бурнаев Е.В. Применение вейвлет преобразования для анализа сигналов. — М.: МФТИ, 2007. — 138 с.

8. Голубинский А.Н., Асташов Р. А. К вопросу о выборе масштаба непрерывного вейвлет-преобразования для обработки речевых сигналов // Охрана, безопасность, связь

— 2011: сборник материалов Международной научно-практической конференции. — Воронеж: Воронежский институт МВД России, 2011. — С. 64—68.

9. Фант Г. Акустическая теория речеобразования. — М.: Наука, 1964. — 284 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.