Научная статья на тему 'Анализ и синтез гласных звуков на основе математической модели в виде импульса колебания с амплитудно-частотной модуляцией со сложным несущим сигналом'

Анализ и синтез гласных звуков на основе математической модели в виде импульса колебания с амплитудно-частотной модуляцией со сложным несущим сигналом Текст научной статьи по специальности «Математика»

CC BY
156
88
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук

Аннотация научной статьи по математике, автор научной работы — Голубинский А. Н., Гущина А. А.

Разработан способ синтеза гласных звуков на основе полигармонической математической модели, основанный на использовании частот и амплитуд основного тона и обертонов речевого сигнала. Проанализированы спектральные составляющие, оказывающие существенное влияние на формирование конкретного гласного звука.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Голубинский А. Н., Гущина А. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Анализ и синтез гласных звуков на основе математической модели в виде импульса колебания с амплитудно-частотной модуляцией со сложным несущим сигналом»

АНАЛИЗ И СИНТЕЗ ГЛАСНЫХ ЗВУКОВ НА ОСНОВЕ МАТЕМАТИЧЕСКОЙ МОДЕЛИ В ВИДЕ ИМПУЛЬСА

КОЛЕБАНИЯ С АМПЛИТУДНО-ЧАСТОТНОЙ МОДУЛЯЦИЕЙ СО СЛОЖНЫМ НЕСУЩИМ СИГНАЛОМ

© Голубинский А.Н.*, Гущина А.А.*

Воронежский институт Министерства внутренних дел, г. Воронеж

Разработан способ синтеза гласных звуков на основе полигармонической математической модели, основанный на использовании частот и амплитуд основного тона и обертонов речевого сигнала. Проанализированы спектральные составляющие, оказывающие существенное влияние на формирование конкретного гласного звука.

Человеческая речь является одним из самых простых и естественных способов передачи информации. Необходимость создания максимально простых и точных алгоритмов распознавания и синтеза речи, становится все более актуальной, в связи с неуклонным развитием техники и ее все большей интегрированности во все сферы человеческой деятельности.

Разработка эффективных речевых систем видится в усовершенствовании существующих методов построения адаптивных математических моделей, определении признаков речевого сигнала, которые однозначно могли бы характеризовать конкретный звук. Используемые существенные параметры должны однозначно соответствовать адекватной математической модели, при этом количество параметров должно быть мало при удовлетворительной точности, как для распознавания, так и синтеза речи.

Наиболее популярный подход к распознаванию, основанный на оценке формантных частот (ФЧ), как отмечают исследования [1, 2] имеет ряд недостатков. Данные недостатки обусловлены, с одной стороны, тем, что использование только лишь нескольких (как правило, двух-четырех) ФЧ не позволяет детектировать звуки [1, 2]. Однако, при неоднозначности решения нахождения резонансов (случай близкого расположения резонансов), задача их определения сводится к вероятностной организации набора параметров, который фактически зависти от аккуратного набора статистики [3].

Устойчивость оценки ФЧ также зависит и от выбранного метода оценки. Наиболее популярными способами расчета ФЧ являются измерение частоты переходов через нуль временного сигнала, вычисление частоты максимума огибающей спектра [4], оценка на основе коэффициентов линейного предска-

* Профессор кафедры Радиотехники, доктор технических наук.

* Адъюнкт кафедры Радиотехники.

зания. Однако данные подходы имеют соответствующие недостатки - например, метод линейного предсказания изначально предназначен для кратковременной аппроксимации сигнала [1], а коэффициенты вычисляются в процессе минимизации ее ошибки, таким образом, вычисленные полюса спектра достаточно близки к резонансам речевого тракта. Однако, на практике, наблюдаются случаи, когда их расположение весьма произвольно. Также следует учесть проблемы, связанные с увеличением ошибки модели авторегрессии, начиная с некоторого ее порядка [5], что в общем случае приводит к несостоятельности оценок. Метод нулей сигнала зависит от точного определения длительности интервалов между нулями и ряда дополнительных параметров [1], что априори уже вносит значимую погрешность в вычисление оценок формантных частот. Спектральные оценки ФЧ имеют существенные ошибки, связанные с их несостоятельностью [6].

Успех формантного анализа речевого сигнала зависит от предварительной оценки ФЧ, однако наличие частотной модуляции в речевом сигнале [7] и указанных выше дополнительных эффектов обуславливают значительные погрешности оценок.

Корректирование видится в мгновенной оценке на основе периода основного тона [1], используя информацию о типе гласного, что приводит обратно к первичному определению набора параметров, способных однозначно охарактеризовать конкретный звук.

Таким образом, представляет научный интерес выявление и исследование областей спектра, оказывающих существенное влияние на формирование того или иного звука речи.

Цель работы - синтез гласных звуков на основе полигармонической модели, используя особенности спектрального состава; анализ спектральных составляющих и выявление существенных для детектирования звуков спектральных компонент.

Проанализируем спектральные составляющие речевого сигнала, значительным образом характеризующие гласные звуки. Генерируемый сигнал (формируемый голосовыми связками), является квазипериодической последовательностью импульсов, которая, впоследствии, проходит через акустический резонатор (речевой тракт) [8]. Таким образом, на основе данной физической модели можно описать речевой сигнал для задач анализа и синтеза речи математической моделью в виде полигармонического колебания с некоторым набором амплитудных, фазовых и частотных параметров, которые изменяются скачком, каждые 10-20 мс [9]. В связи с тем, что гласные звуки речи формируются и регистрируются на интервале времени значительно большем 10-20 мс (но ограничены по длительности), а также учитывая вариативность частоты основного тона (ЧОТ) и амплитудных спектральных составляющих на протяжении звука, целесообразно использовать для син-

теза математическую модель в виде импульса амплитудно-частотного колебания с полигармонической несущей [10]:

K L-1

u(t) = £Mk cos( 2%kF(st + Ф4 I cos \2n(l +1)f0t + (l +1) • щ sin(2tfF0t + %) + q],

k=0 l=0 (1)

t e[0, ]

где ти- длительность гласного звука;

Mk и Ш\ - соответственно глубина амплитудной модуляции k-ой гармоники и индекс частотной модуляции первой гармоники;

F0 - наименьшая частота модулирующих колебаний;

fo - ЧОТ;

Ф^ и q - начальные фазы модулирующих по амплитуде и несущих гармоник;

К, L - количество модулирующих по амплитуде и несущих гармоник соответственно.

В работе для синтеза гласных звуков использовался частный случай математической модели (1). Полагая, М0 = 1; Ф0 = 0; Ф1 = ж, К = 1; q = 0; у0 = -ж/ 2 формула (1) приобретает следующий вид:

L-1

u(t) = [1 -М1 cos(2xkF0t)]£U, cos [2ж(1 +1)f0t -(l +1) • m1 cos(2жF0t)],

1=0 (2)

t G[0, Tu ]

Параметры модуляции Mx и тг для обеспечения естественности звучания, как правило, принимались равными М1 = 0,1^0,5; т\ = 0,5^1,5.

Для решения поставленной задачи были записаны пять мужских и пять женских голосов. На основе модели (1) синтезированы гласные звуки а также проанализирован их спектральный состав, распределение энергии по частоте, проведен эмпирический анализ значений и соотношений между амплитудами, выявлены отличительные особенности для каждого звука.

В табл. 1 и 2 представлены результаты синтеза гласных звуков, где указаны амплитуды гармоник Ak в децибелах (дБ), оказывающих влияние на фонетический смысл гласных.

Амплитуда гармоники в относительных единицах:

Uk = Umax -10А/20 (3)

где Umsx = 1 В.

Таблица 1

Е),Гц Ли, дБ Л,, дБ Л2, дБ Л3, дБ Л4, дБ Л5, дБ Л6, дБ Л7, дБ Л«, дБ

5Я 1 203,13 -7,4 -10 -9,3 -3,3 0 -2,45 -14,6

2 195,31 -5,05 -9,97 -6,4 0 -5,6 -8,04 -6,68

о 3 210,94 0 -9,9 -7,2 -6,04 -0,71 -0,27 -2,32

ё 4 171,08 -1,31 -8,2 -7,7 -5,2 0 -1,2 -1,8

5 171,88 -10,7 -16,5 -13,7 -3,12 0 -12,5 -5,65

5Я 6 125 -17,9 -11,1 -13/4 -14,8 -6,9 -1,11 0

7 109,38 0 -4,02 -9,6 -6,7 -5,3 -4,7 -9,8

в 8 218,75 0 -21,3 -5,8 -8,2 -9,9 -32,3 -34,8

9 144,53 -10,9 -11,7 -9,2 -7,5 -7,9 -20,3 -15,8 0

10 125 -21,6 -10,7 -17,4 -16,6 -6,3 0 -12,1

5Я 1 199,22 -3,4 -1,5 0 2,6 -14,4 -17,4 -23,8 -12,6 -6,2

2 179,69 -5,7 -3,1 -0,18 0 -13,9 -19,23 -23,1 -23,1 -18,6

О 3 187,5 -5,85 -7,4 0 -15,7 -20,5 -25,09 -30,6 34,2 -34,7

ё 4 179,69 -2,03 -5,4 0 -7,9 -17,03 -22,2 -26,0 -27,3 -23,7

5 171,88 -13,9 -11,4 -9,3 0 -19,7 -20,6 -23,3 -22,0 -24,2

5Я 6 132,81 -14,7 -8,03 -11,05 -8,5 0 -14,7 -17,7 -25,6 -24,2

7 109,38 -5,4 -1,7 -10,3 0 -13,5 -18,5 -26,5 -27,7 -29,7

в 8 132,81 -12,0 0 -16,9 -2,4 -22,15 -22,4 -23,4 -32,9 -39,3

^ 9 121,09 -3,32 0 -6,68 -2,06 -18,4 -36,4 -38,02 -31,6 -33,8

10 125 -7,3 -5,8 -4,7 -0,11 0 -20,0 -14,0 -21,1 -23,1

5Я 1 214,84 -8,05 -4,95 0 -3,7 -20,7 -30,8

2 195,31 -5,56 -4,6 0 -8,2 -9,9 -25,2

О 3 218,75 -4,18 0 -8,81 -20,2 -32,7

ё 4 195,31 -10,9 -6,5 0 -3,06 -20,14 -33,5

5 179,69 -11,73 -7,3 0 -2,4 -9,9 -11,9

5Я 6 148,44 -6,4 -6,1 0 -1,41 -8,2 -12,0

7 117,19 -7,7 -0,95 -7,8 0 -8,4 -9,9

В 8 125 -0,78 -2,9 0 -2,01 -10,6 -10,2

£ 9 128,91 -1,7 -3,2 0 -3,4 -14,3 -28,7

10 125 -14,1 -11,5 -5,5 0 -6,7 -8,1

5Я 1 238,28 0 -6,6 -24,1 -36,1

2 203,13 -1,75 0 -12,8 -15,67

О 3 250 0 -3,06 -16,7

ё 4 203,13 -6,8 0 -15,5 -29,1

5 210,9 -6,7 0 -4,5 -24,3

5Я 6 187,5 -0,14 0 -13,1 -28,2

7 125 -4,5 0 -11,39 -10,3

В 8 125 -6,2 0 -2,5 -10,2

Е^ 9 136,7 -2,1 0 -7,2 -16,6

10 132,81 -5,7 -1,2 0 -14,1

5Я 1 234,38 0 -11,8 -29,7 -33,4 -31,3 -26,0 -29,7 -37,9

2 203,13 -4,1 0 -19,3 -24,8 -34,1 -34,7 -32,3 -27,7

О 3 234,38 0 -3,4 -34,7 -30,1 -29,3 -28,08 -24,7 -33,4

ё 4 203,13 -0,81 0 -27,56 -28 -34,8 -36 -29,7 -27,28

5 210,84 -6,84 0 -24,1 -25,6 -29,3 -30,4 -28,0 -34,9

& « 6 195,31 -1,4 0 -19,1 -30,7 -35,2 -31,05 -23,3 -23,5

СО 7 112,28 -4,2 0 -8,6 -19,3 -33,2 -34,1 -30,7 -35,5

у 8 125 0 -3,7 -2,5 -18,3 -32,4 -38,2 -30,9 -37,3

9 130,7 -4,3 0 -0,59 -21,4 -30,7 -31,5 -35,2 -20,63

10 132,81 -3,6 -0,07 0 -23,2 -29,8 -38,2 -41,4 -33,6

Продолжение табл. 1

Е),Гц Л0, дБ Л,, дБ Л2, дБ Л3, дБ Л4, дБ Л5, дБ Л, дБ Л7, дБ Л, дБ

1 234,38 0 -18,1

5Я 2 203,13 0 -1,72

о 3 242,19 0 -15,5

¡вук /и/ § 4 210,94 0 -11,6

5 199,2 0 -4,2

6 156,25 -5,7 0

« 7 125 -1,5 0

8 125 -7,9 0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

9 125 -6,8 0

10 140,6 -0,49 0

Таблица 2

№ Л10, дБ Ли, дБ Л12, дБ Лц, дБ Л.4, дБ Л15, дБ Л16, дБ Л17, дБ Л18, дБ Л19, дБ Л20, дБ

1 234,38 -22,3 -20,3 -22,3 -20,3

'Еа 2 203,13 -16,7 -22,2 -21 -17,1

о 3 242,19 -21,6 -29,3 -31,1 -25,4

4 210,94 -20,3 -29,3 -26,2 -25,5

-У 5 199,2 -11,1 -18,1 -17,5 -12,7

6 156,25 -27 -19,8 -28 -25,7

■в 7 125 -29 -32,2 -37

8 125 -47 -39 -44

9 125 -39 -39 -42

10 140,6 -17,5 -12,5 -29,9 -24 -18

Полученные результаты синтеза гласных звуков, позволяют сделать следующие выводы: звук /а/ характеризуется одним глобальным максимумом на интервале между первой-пятой (Ло-Л4) гармоникой, и нерезким спадом ближайших амплитуд (на 3-7 дБ); звук /и/ имеет два глобальных максимума - первый на первой гармонике (Л0) для женского голоса и на второй (Л1) для мужского (спад на 1-10 дБ); второй максимум находится на одинна-дцатой-пятнадцатой (Лп-Л15) гармонике для женского голоса и пятнадца-той-двадцатой (Л15-Л20) для мужского (амплитуды затухают, спад очень плавный); звук /о/ характеризуется одним глобальным максимумом на второй-четвертой гармонике (Л2-Л3) и незначительным спадом в обе стороны (3-10 дБ); для звука /у/ характерен один глобальный максимум на первой-третьей гармонике (Л0-Л2) (спад к третьей и первой незначительный, а далее резкий); звук /ы/ имеет два глобальных максимума - первый на первой-третьей гармонике (Л0-Л2) с плавным спадом к первой и резким к последующим гармоникам и второй максимум на седьмой-восьмой гармонике (Л6-Л7); звук /э/ имеет один глобальный максимум на второй-пятой гармонике (Л1-Л4) (спад плавный).

На основе полученных результатов были синтезированы гласные звуки, проведена верификация данных путем их проверки «на слух». Верификация проводилась тремя экспертами; ключевыми параметрами были - «похожесть» синтезированного звука на исходный эмпирический речевой материал, и натуральность звучания.

Список литературы:

1. Сорокин В.Н. Устойчивость оценок формантных частот / В.Н. Сорокин, А.С. Леонов, И.С. Макаров // Речевые технологии. - 2009. - № 1.- С. 3-21.

2. Голубинский А.Н. К вопросу о спектральном составе гласных звуков /

A.Н. Голубинский, А.А. Гущина // Международная научно-техническая конференция: «Наука и образование - 2012»: Сборник материалов. - Мурманск, 2012.

3. Галунов В.И. Современные проблемы в области распознавания речи /

B.И. Галунов, А.Н. Соловьев // Информационные технологии и вычислительные системы. - 2004. - Вып. 2. - С. 41-45.

4. Сапожков М.А. Речевой сигнал в кибернетике и связи / М.А. Сапожков. - М.: Связьиздат, 1963. - 452 с.

5. Дженкинс Г. Спектральный анализ и его приложения / Г. Дженкинс, Д. Ваттс. - М.: Мир, 1971. - 316 с.

6. Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий -СПб., 1997. - 394 с.

7. Леонов А.С. К анализу резронансных частот речевого тракта / А.С. Леонов, В.Н. Сорокин // Информационные процессы. - 2007. - Т. 7, № 4. -

C. 386-400.

8. Фант Г. Акустическая теория речеобразования / Г. Фант - Новосибирск: Наука, 1964 - 284 с.

9. McAulay R.J., Quatieri T.F. Speech analysis / synthesis based on a sinusoidal representation // IEEE Trans. On Acoustics, Speech and Signal Process. -1986. - Vol. 34, no. 4. - Р. 744-754.

10. Голубинский А.Н. Математические модели речевого сигнала для верификации и идентификации личности по голосу / А.Н. Голубинский, О.М. Булгаков. - Воронеж: Воронежский Государственный Университет, 2010. - 364 с.

МАТЕМАТИЧЕСКАЯ ТЕОРИЯ СТОЙКОСТИ ХЕШ-ФУНКЦИЙ К КОЛЛИЗИЯМ

© Исканцев Н.В.*

Брянский государственный технический университет, г. Брянск

Устойчивость криптографических хеш-функций к обнаружению коллизий является одним из важнейших свойств, которым должны удовлетворять функции криптографического хеширования. Названное свойство позволяет снижать вероятность подмена хешируемых документов,

* Студент кафедры «Информатика и программное обеспечение».

i Надоели баннеры? Вы всегда можете отключить рекламу.