Научная статья на тему 'К вопросу о физической интерпретации модели речевого сигнала в виде импульса ам колебания с несколькими несущими частотами'

К вопросу о физической интерпретации модели речевого сигнала в виде импульса ам колебания с несколькими несущими частотами Текст научной статьи по специальности «Физика»

CC BY
294
108
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЕВОЙ СИГНАЛ / МОДЕЛЬ В ВИДЕ ИМПУЛЬСА АМ-КОЛЕБАНИЯ / ЧАСТОТЫ ОСНОВНОГО ТОНА И ОБЕРТОНОВ / НЕСУЩИЕ ЧАСТОТЫ / АКУСТИЧЕСКАЯ ТЕОРИЯ РЕЧЕОБРАЗОВАНИЯ / SPEECH SIGNAL / MODEL AS A PULSE OF THE AMPLITUDE-MODULATED OSCILLATION / FREQUENCY OF A PITCH AND OVERTONES / CARRIERS FREQUENCIES / ACOUSTICAL THEORY OF SPEECH PRODUCTION

Аннотация научной статьи по физике, автор научной работы — Голубинский Андрей Николаевич

Приведено физическое обоснование модели речевого сигнала в виде импульса АМ колебания с несколькими несущими частотами на основе физических явлений процесса речеобразования. Даны рекомендации по оценке параметров речевого сигнала на основе акустической теории речеобразования

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

TO THE QUESTION ON PHYSICAL INTERPRETATING OF MODEL OF A SPEECH SIGNAL AS A PULSE OF THE AMPLITUDE-MODULATED OSCILLATION WITH A SEVERAL CARRIERS FREQUENCIES

The physical substantiation of model of a speech signal as a pulse of the amplitude-modulated oscillation with a several carriers frequencies on the basis of the physical phenomena of process speech production was resulted. The recommendations estimation to speech signal parameters on the basis of the acoustical theory speech production were given

Текст научной работы на тему «К вопросу о физической интерпретации модели речевого сигнала в виде импульса ам колебания с несколькими несущими частотами»

А.Н. Голубинский,

кандидат технических наук

К ВОПРОСУ О ФИЗИЧЕСКОЙ ИНТЕРПРЕТАЦИИ МОДЕЛИ РЕЧЕВОГО СИГНАЛА В ВИДЕ ИМПУЛЬСА АМ КОЛЕБАНИЯ С НЕСКОЛЬКИМИ НЕСУЩИМИ ЧАСТОТАМИ

TO THE QUESTION ON PHYSICAL INTERPRETATING OF MODEL OF A SPEECH SIGNAL AS A PULSE OF THE AMPLITUDE-MODULATED OSCILLATION WITH A SEVERAL CARRIERS

FREQUENCIES

Приведено физическое обоснование модели речевого сигнала в виде импульса АМ колебания с нескол ькими несущими частотами на основе физических явлений процесса речеобразования. Даны рекомендации по оценке параметров речевого сигнала на основе акустической теории речеобразования.

The physical substantiation of model of a speech signal as a pulse of the amplitude-modulated oscillation with a several carriers frequencies on the basis of the physical phenomena of process speech production was resulted. The recommendations estimation to speech signal parameters on the basis of the acoustical theory speech production were given.

Обработка речевых сигналов является актуальной задачей в различных отраслях науки и техники. Для эффективной обработки речевых сигналов необходимо изучение их структуры, процесса формирования и выявление особенностей их характеристик. В связи с этим представляет научный интерес разработка моделей речевого сигнала, отражающих индивидуальные особенности голоса человека, его уникальность при произнесении определенного речевого сообщения. Существуют различные методы построения моделей речевых сигналов [1]. Одна из моделей речевого сигнала, адекватно описывающая гласные и сонорные согласные звуки, — модель речевого сигнала в виде импульсов АМ колебаний с несколькими несущими. Преимущества и недостатки данной модели подробно обсуждались в работе [2].

Следует отметить, что модели, построение которых основывается на физических принципах речеобразования, наиболее адекватно описывают речевые сигналы [3—7]. Таким образом, анализ физических предпосылок создания модели речевого сигнала в виде импульсов АМ колебаний с несколькими несущими частотами представляет научный интерес для исследования, а также более глубокого понимания сущности данной модели.

Цель работы — разработка модели речевого сигнала в виде импульса АМ колебания с несколькими несущими частотами на основе физических явлений процесса ре-чеобразования.

Источником акустической речевой волны является артикуляционный аппарат диктора. Он состоит из следующих физиологических органов: бронхов, легких, диафрагмы, трахеи, голосовых связок, гортани, глотки, небной занавески, языка, ротовой и носовой полостей. При произнесении звуков речи поток воздуха нагнетается из легких, проталкивается через трахею, гортань, полость рта и носа, и затем излучается через губы и ноздри. Колебания голосовых связок создают несущий процесс гласных звуков,

являющихся последовательностью коротких импульсов. Частота следования этих импульсов называется частотой основного тона, которая, медленно изменяясь, создает эмоциональную окраску речи. В литературе [3, 6, 8] приводят разные значения частоты основного тона, ее значение варьируется у мужчин от 60 до 250 Гц, у женщин — от 70 до 350 Гц, у пилотов реактивных самолетов, говорящих в условиях перегрузок, частота основного тона может увеличиваться до 600 Гц.

Гортань и ротовую полость называют голосовым трактом. Изменения конфигурации голосового тракта и колебания голосовых связок взаимосвязаны так, что вся речеобразующая система функционирует как единый сложный объект. Изменение конфигурации тракта вдоль его продольной оси и во времени описывают функцией площади поперечного сечения. В акустике голосовой тракт рассматривают как систему резонаторов, характеристики которых медленно изменяются во времени. Частоты области резонансов называются соответственно формантными частотами и областями. Часто для краткости пользуются термином «форманта».

Звуки, при формировании которых голосовые связки осуществляют колебательные движения, называют вокализованными. Все остальные звуки можно отнести к невокализованным. Более точно: среди последних различают фрикативные звуки, возникающие при образовании турбулентного широкополосного шума, и взрывные звуки, формируемые путем создания в тракте смычки с последующим внезапным высвобождением сжатого в области за смычкой воздуха.

Волны, распространяющиеся в речеобразующей системе, могут быть описаны двумя функциями пространственных х,у,z и временной (непрерывной) t координат:

звуковым давлением p(х,у,z, ^ и объемной скоростью v(х, у,z,t). Для акустических колебаний с длиной волны 1, превышающей размеры голосового тракта, можно считать, что вдоль продольной оси тракта распространяется плоская волна. Такое допущение оправданно в частотном диапазоне ниже 5000 Гц. Звуковое давление и объемная скорость тогда являются функциями только двух переменных: p(х,{), v(х, ^. Если голосовой тракт аппроксимировать цилиндрической трубой с переменной площадью поперечного сечения, то распространение колебаний в трубе можно описать волновым уравнением Вебстера [9]

1 д S(х л ЭФ(хt) = д2ф(х 0 (1)

£ (х, () дх , дх с2 ^2 ,

где Ф(х, t) — потенциал скорости акустических колебаний; £(х, t) — переменная площадь поперечного сечения голосового тракта,

V =-p(x,t); (2)

д t р дФ ^,1)

д

= - ЧМХ (3)

x

р = 1,14 кг/м3 — плотность воздуха в трубе; с = 350 м/с — скорость распространения звука в воздухе.

Уравнение (1) описывает свободные колебания в тракте. При произнесении вокализованных звуков речи на вход тракта воздействует волна, поступающая от голосовых связок, объемная скорость которой V зависит от перепада звукового давления Ар на связках [9]:

V =

Г 2Ар ^2

0,875р_

(4)

а следовательно, от р(х, ^ или Ф(х, t) в тракте. Если обозначить «воздействие» на тракт через ¥(Ф, ^, то волновое уравнение, описывающее распространение акустических волн в системе «связки-тракт», запишется в виде [9]

-^^(ьо = (5)

£ (х, О дх у’ ' дх с 2 д 2 v ^

Из (5) можно сделать важный вывод: артикуляционный аппарат является нелинейной параметрической системой с распределенными параметрами. Нелинейный характер этой системы определяется зависимостью ¥ от Ф, а параметрический — наличием зависимости коэффициентов (5) от времени.

Если разделить переменные и записать ¥(Ф, t) = ^(Ф)^2(0, то выделяется внешнее возбуждение ¥2(4), генерируемое автономным генератором. Роль генератора выполняют голосовые связки. Такое упрощение (2), (3) основано на пренебрежении зависимостью состояния связок от голосового тракта.

Функция £(х, t) при каждом фиксированном значении х является непрерывной функцией непрерывного времени, а значит, при речеобразовании осуществляется модуляция непрерывным сообщением. Пусть управление описывается функцией времени и пространственной координаты 1( х, t). Можно записать функцию площади поперечного сечения следующим образом: £ (х,1(х, ?), ?), а модулирующим колебанием считать функцию 1( х, t). Речеобразование в этом случае надо интерпретировать как модуляцию дискретным сообщением, изменения значений которого происходят в случайные моменты времени.

Учитывая выражение (5), объяснить с физической точки зрения модель гласных звуков в виде импульсов АМ-колебаний несколькими несущими можно следующим образом:

1. Гармонические колебания импульсно вырабатывают голосовые связки, которые играют роль генератора акустических колебаний. Голосовые связки можно сравнить с колебаниями закрепленной с двух концов струны с основной частотой колебаний (частотой основного тона) [10]:

/ = 1 П 21У

р£

где О — натяжение струны, [0] = Н ; р — плотность материала; £ — площадь поперечного сечения струны; I — длина струны. Однако выражение (6) можно применять лишь для приближенной оценки частоты основного тона, так как следует учитывать, что голосовые связки — это не тонкая сильно натянутая нить с равномерно распределенной по длине плотностью, к тому же голосовые связки закреплены не на абсолютно жестких опорах.

Частоты обертонов речевого сигнала можно вычислить по соотношению [6]:

Л = п/ъ (7)

где (п -1) — номера обертонов. Подставив выражение (6) в формулу (7), получим следующее соотношение для приближенной оценки частоты обертонов:

/ = -;п 21^

О

р£

Следует отметить, что в общем случае колебания струны представляются в виде суммы гармонических собственных колебаний струны с частотами /п [10].

Если голосовые связки аппроксимировать круговым цилиндром с длиной I и диаметром основания равным d, то, учитывая соотношение

Таким образом, голосовые связки можно условно интерпретировать как генератор, вырабатывающий гармонические колебания с частотами /п , кратными частоте основного

тона /. Заметим, что колебания гармонического вида формируются генератором (связками) ограниченное время, причем каждый гласный или сонорный согласный звук можно рассматривать как отдельный импульс гармонического колебания с набором частот /п.

2. Речевой тракт (горло, носовая полость, гортань, ротовая полость, частично трахеи, бронхи и легкие) играет роль резонатора акустических колебаний, сгенерированных и излученных голосовыми связками. Усиление колебаний наблюдается на резонансных частотах, т.е. при совпадении частот колебаний /п (поступающих в резонатор от генератора), с собственными частотами резонатора /р™1,т2,тз), где ті,т2,т3

— номера мод. Частоты собственных колебаний резонатора, в общем случае, определяются формой и геометрическими размерами резонатора, а также веществом, которым заполнен резонатор, и материалом, из которого сделаны стенки резонатора. Резонатор на основе речевого тракта представляет собой тело сложной изменяющейся формы, у которого стенки упруги не абсолютно, к тому же данные стенки резонатора двигаются. В самом простом случае, можно представить, что резонатор характеризуется одним набором мод. Таким образом, частоты собственных колебаний резонатора можно представить в виде /, где т — номер моды.

Решение задачи о нахождении собственных частот резонатора, представляющего собой речевой тракт, в аналитическом виде весьма затруднительно. Однако можно приближенно оценить основную резонансную частоту (частоту резонанса основного типа — наименьшую резонансную частоту), используя следующее соотношение для расчета резонансной частоты резонатора с горлом [11—12]:

здесь с — скорость распространения звука в среде внутри резонатора; £0 — площадь отверстия; Ь — длина горла; Vр — объем полости резонатора (рисунок).

£ = жй 2,

(9)

получим расчетное значение частот

(10)

(11)

Конструкция акустического резонатора с горлом

Частоты резонанса для более высоких мод в данном резонаторе можно приближенно оценить как

Следует отметить, что «выживают» в резонаторе только лишь акустические колебания с определенными частотами. В спектре речевого сигнала можно наглядно наблюдать за ярко выраженными максимумами [2—6], соответствующими усилению колебаний вследствие эффекта резонанса. Как видно из спектра гласного звука [2], начиная с частоты /6 = 6/\, нормированная спектральная плотность мощности

ослабляется относительно максимального значения более чем на 20 дБ, т. е. в 100 раз по мощности.

Таким образом, основная энергия излученного речевого сигнала приходится на первые 5—6 гармоник.

3. Модуляция губами с относительно низкой частотой ¥ осуществляется в соответствии с информационным сообщением — передаваемыми (произносимыми) гласными и сонорными согласными звуками. Причем, в модулирующем сигнале есть плавное нарастание (передний фронт модулирующего импульса) и плавный спад (задний фронт модулирующего импульса).

Таким образом, можно предложить в виде аппроксимирующей функции модулирующего сигнала (огибающей) выбрать полпериода гармонического колебания, с положительным значением функции.

Объединив рассуждения во всех трёх вышеперечисленных пунктах, основанные на физической интерпретации процесса речеобразования по основным этапам:

1) генерация (и, частично, излучение) голосовыми связками импульсов гармонических колебаний (несущих колебаний) с частотами /п = п /1;

2) «выживание» в акустическом резонаторе — речевом тракте — колебаний с частотами, равными собственным частотам резонатора /п = /^т);

3) модуляция губами с частотой модулирующего колебания ¥ (произносимые гласные и сонорные согласные звуки) несущего колебания с частотами /п = п/1, — можно прийти к следующей модели речевого сигнала в виде импульсов АМ колебаний с несколькими несущими [2].

Математическую модель детерминированной части речевого сигнала представим в виде импульса АМ колебания при модуляции К несущих гармоник:

к=0

где /о — частота основного тона; (ро — начальная фаза несущего колебания; ти — длительность импульса; и к (0 — огибающая к - й гармоники

здесь ик — амплитуда к-й гармоники; М — глубина модуляции; 8^) — модулирующий сигнал. Предположим, что модуляция воздушного потока (губами, ртом) происходит по гармоническому закону, тогда:

(12)

К

(13)

ик (?) = ик [1 + Ы8 (г)],

(14)

г) = со$\іж¥0 г + Ф 0 ],

(15)

где ¥0 — частота модуляции; Ф 0 — начальная фаза модулирующего колебания.

Подставив (14), (15) в (13) получим следующую модель детерминированной части речевого сигнала:

К

и(г) =(1+Мсо8[2р¥0г+ф0] Ъик соъ\2лк/0г+%I г е[0;^м ]. (16)

к=0

Если положить, что ^0=0; М =1; Ф0 =р, тогда модель сигнала (16) упростится и примет вид

К

и(г) = 2вт2 р¥)? ] соъ[2л:к/0 г], г є[0;гм ]. (17)

к =0

Предложенные модели (16) и (17), учитывают наличие низкочастотной составляющей, которая обычно присутствует в речевых сигналах [3, 4].

Таким образом, приведено физическое обоснование модели речевого сигнала в виде импульса АМ колебания с несколькими несущими частотами на основе физических явлений процесса речеобразования. Даны рекомендации по оценке параметров речевого сигнала (частоты основного тона и обертонов) на основе акустической теории речеобразования.

ЛИТЕРАТУРА

1. Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов / Ю.Н. Прохоров. — М.: Радио и связь, 1984. — 240 с.

2. Голубинский А. Н. Модель речевого сигнала в виде импульса АМ-колебания с несколькими несущими для верификации личности по голосу / А.Н. Голубинский // Системы управления и информационные технологии. — 2007. — № 4. — С. 86—91.

3. Фант Г. Акустическая теория речеобразования / Г. Фант. — М.: Наука, 1964. — 284 с.

4. Сорокин В.Н. Теория речеобразования / В. Н. Сорокин. — М.: Радио и связь, 1985. — 312 с.

5. Фланаган Дж. Анализ, синтез и восприятие речи / Дж. Фланаган. — М.: Связь, 1968. — 392 с.

6. Фант Г. Анализ и синтез речи / Г. Фант.— Новосибирск: Наука, 1970. — 306 с.

7. Сорокин В.Н. Синтез речи / В.Н. Сорокин. — М.: Связь, 1992. — 392 с.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

8. Рабинер Л.Р. Цифровая обработка речевых сигналов / Л.Р. Рабинер, Р.В. Шафер. — М.: Радио и связь, 1981. — 496 с.

9. Назаров М. В. Методы цифровой обработки и передачи речевых сигналов / М.В. Назаров, Ю. Н. Прохоров. — М.: Радио и связь, 1985. — 176 с.

10. Яворский Б.М. Справочник по физике / Б.М. Яворский, А. А. Детлаф. — М.: Наука. Физматлит, 1996. — 624 с.

11. Крендалл И.Б. Акустика / И.Б. Крендалл. — М.: КомКнига, 2005. — 168 с.

12. Скучик Е. Основы акустики: в 2т. / Е. Скучик. — М.: Мир, 1976. — Т.1.— 520 с.; Т.2. — 564 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.