Научная статья на тему 'Методы исследования фонационных характеристик по речевому сигналу'

Методы исследования фонационных характеристик по речевому сигналу Текст научной статьи по специальности «Физика»

CC BY
124
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГОЛОСОВОЙ ИСТОЧНИК / ПАРАМЕТРЫ РЕЧИ / ПЕРВИЧНОЕ ОПИСАНИЕ РЕЧИ / VOICE SOURCE / SPEECH PARAMETERS / INITIAL DESCRIPTION OF SPEECH

Аннотация научной статьи по физике, автор научной работы — Собакин А.Н.

Рассматриваемое нелинейное преобразование речи позволяет получить по речевому сигналу импульсную последовательность, образованную голосовым источником. Приведены возможные модификации метода и результаты исследования естественных речевых сигналов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RESEARCH METHODS OF PHONATIONAL FEATURESUSING SPEECH PORTRAIT OF THE SPEAKER

Nonlinear transformation of speech allows to get the pulse sequence formed by the voice source using only speech signal. The results of the study of speech signal are presented. Possible modification of the method is suggested.

Текст научной работы на тему «Методы исследования фонационных характеристик по речевому сигналу»

УДК 81'32, 81'33 А. Н. Собакин

доктор филологических наук, доцент, профессор кафедры прикладной и экспериментальной лингвистики факультета английского языка МГЛУ; e-mail: ansobakin@yadex.ru

МЕТОДЫ ИССЛЕДОВАНИЯ ФОНАЦИОННЫХ ХАРАКТЕРИСТИК ПО РЕЧЕВОМУ СИГНАЛУ

Рассматриваемое нелинейное преобразование речи позволяет получить по речевому сигналу импульсную последовательность, образованную голосовым источником. Приведены возможные модификации метода и результаты исследования естественных речевых сигналов.

Ключевые слова: голосовой источник; параметры речи; первичное описание речи.

Sobakin A. N.

D. Sc., Department of Applied and Experimental Linguistics, Institute of Applied and Methematical Linguistics, Faculty of the English language, MSLU; e-mail: ansobakin@yadex.ru

RESEARCH METHODS OF PHONATIONAL FEATURES USING SPEECH PORTRAIT OF THE SPEAKER

Nonlinear transformation of speech allows to get the pulse sequence formed by the voice source using only speech signal. The results of the study of speech signal are presented. Possible modification of the method is suggested.

Key words: voice source; speech parameters; initial description of speech.

Введение

Речевые колебания образуются в результате взаимодействия характеристик фонации и артикуляции. Фонационная структура речи включает в себя описание подсвязочного воздушного потока и источников порождения звуковых колебаний в объемных резонаторах речевого тракта. В первом приближении рассматривают четыре основных типа источников возбуждения: голосовое (тональное), шумовое (турбулентное), смешанное возбуждение и взрыв (импульсное возбуждение).

Наибольшей информационной емкостью, с точки зрения восприятия речи, из всех указанных источников является голосовой [10]. Этот источник образуется колебаниями голосовых связок, превращающими

непрерывный воздушный поток из легких в квазипериодическую последовательность импульсов основного тона [3; 8]. Модельно он может быть представлен в виде пульсирующего воздушного потока с периодом основного тона Т0 [7].

Один период колебаний голосовых связок Т0 состоит из импульса основного тона на интервале Т1 и интервала сомкнутых связок Т2 (То=Т + Т2) [1].

Приближенно взаимодействие фонации и артикуляции описывается линейной моделью речеобразования [7]:

х = а, х , + ... + а х = И, (1)

п 1 п-1 р п-р п 4 '

где значения хпк (к = 0, 1 ... р) представляют собой систему векторов-столбцов, координаты которых образованы из соответствующих отсчетов речевого сигнала {хп-к, хп_к+1 ... хп_к+К-1}, и вектора-столбца Ип, образованного отсчетами источника {Ип, И ... И 1}. Значения а1, а2 ... ар в уравнении (1) определяют резонансные параметры речевого тракта, N - размерность векторного пространства, р - порядок модели.

На интервале Т2 сомкнутых голосовых связок возбуждающую функцию Ип можно приближенно считать равной нулю (Ъп к 0), и система векторов хпк (к = 0, 1 ... р) в силу уравнения (1) будет линейно зависимой. При этом система (1) находится в режиме свободных колебаний. Напротив, при разомкнутых голосовых связках на интервале Т1 под воздействием импульса основного тона наблюдаются вынужденные колебания, и система векторов становится линейно независимой.

Индикатором линейной зависимости и независимости системы векторов на одном периоде основного тона и, следовательно, индикатором свободных и вынужденных колебаний линейной системы (1) может служить определитель автокорреляционной матрицы Я|р+1|х|р+1|(К), построенной на векторах системы [2]1:

Мр(п N = ** К-^х р+1| (п) (2)

где Мр(п, N) - текущее значение определителя, (р+1) - порядок матрицы, N - размерность векторного пространства.

1 В математической литературе определитель автокорреляционной матрицы называется определителем Грамма.

Элементы г.. матрицы Я|р+1|х|р+1| (п) вычисляются по отсчетам речевого сигнала в виде скалярных произведений системы транспонированных векторов х' и х' соответственно:

А А п-1 п-

г. = (х'п-1> Х'п-.)' Для . = 0 1 ■■■ Р (3)

Значения фунции Мр (п, К) имеют простую геометрическую интерпретацию. Они равны квадрату объема параллепипеда, построенного на векторах системы [2], и следовательно, полученные значения будут всегда больше или равны нулю.

Эксперимент

В монографии автором рассматривались возможные модификации импульсного преобразования речи (далее - ИПР) в импульсную последовательность синхронную с квазипериодическими колебаниями голосовых связок в процессе речеобразования [5].

Первое изменение ИПР было направлено на упрощение процедуры (2) вычисления определителя автокорреляционной матрицы порядка выше третьего (р>2). Вместо определителя вычислялась сумма (р+1) произведений расширенной матрицы (Я|Я) параллельных главной дигонали со знаком плюс и (р+1) произведений параллельных побочной диагонали со знаком минус. Это напоминает распространение метода Сарюса для матриц третьего порядка на матрицы более высокого порядка.

Второе изменение связано с возможностью вычислить квадрат объема параллелепипеда непосредственно по квадратам длин векторов, составленных по сигналам-остаткам линейного предсказания порядка 0, 1 ... (р-1). При этом предполагалось, что эти векторы приближенно перпендикулярны друг другу в линейном векторном пространстве.

Отметим, что значения порядка р модели речеобразования и размерности линейного пространства системы векторов являются параметрами преобразования (1, 2) и влияют на результаты исследования естественных речевых сигналов.

Исследование

В качестве естественных звуков речи рассматривались гласные звуки речи в изолированном варианте, в ударном варианте в словах и фразах. Запись речевых сигналов производилась в акустической

кабине с использованием микрофона БИиге БМ48 с частотой дискретизации 41500 отсчетов в секунду и с 16-ю битами на отсчет для кодирования амплитуды речевых колебаний.

Речевые сигналы пропускались через фильтр, частотная характеристика которого имитировала полосу пропускания телефонного канала (300 Гц - 3400 Гц). Подавление сигнала на граничных частотах (нулевой и 4000 Гц) было не менее 60 дБ. Полученные в результате фильтрации сигналы разряжались в отношении 1:5, при этом частота дискретизации по времени равнялась 8300 Гц.

В приведенных примерах исследования речевых сигналов параметры преобразования (2) принимали фиксированное значение: порядок p модели речеобразования равнялся шести (соответствует трем формантам в полосе пропускания полосового фильтра), а значение N размерности векторов полагалось 60 (соответствует эффективному значению окна анализа ^ порядка 7 мс).

Применение преобразования (2) к исследованию ударного гласного [а] в слове матрац позволяет существенно упростить исходную структуру колебаний речевого сигнала и в соответствии с теоретическими предположениями преобразовать их в импульсную последовательность синхронную с периодом основного тона (с периодом колебаний голосовых связок).

Полученная по речевым колебаниям импульсная последовательность (нижний график) позволяет выделить серию отдельных импульсов, нормировать их по амплитуде и произвести статистическую обработку серии: вычислить усредненный импульс и среднеквадра-тическое отклонение. Для каждого импульса выделялись координаты его центра как центра образованной геометрической фигуры (площади фигур левее и правее, выше и ниже центра приравнивались соответственно друг другу).

Координаты центров пяти соседних импульсов совмещались по оси абсцисс, после чего импульсы умножались на величину, обратно пропорциональную ординате центров. Таким образом, производилось нормирование импульсов по амплитуде.

На рисунке (1, 2, 3) представлены усредненные импульсы ударных гласных диктора 1 в словах баранка, матрац, самовар, питательный, аметист, губительный, корица, парик.

Приведенные результаты исследований речевых сигналов показывают, что функция Мр (п, N действительно обладает следующими свойствами:

- на интервалах смыкания голосовых связок речевой сигнал почти полностью компенсируется и ее значение становится близким к нулю;

- на интервалах размыкания речевые колебания преобразуются в положительный импульс;

- в соответствии с моделью речеобразования (1) форма получающегося импульса зависит от произносимого звука речи и соответствует индивидуальным особенностям диктора;

- резонансные характеристики речевого тракта при этом не оцениваются и в вычислительном процессе не используются.

баранка матрац самовар

Рис. 1. Усредненные импульсы ударных гласных диктора в словах «баранка», «матрац», «самовар»

В работе [Потапова Р. К., Собакин А. Н., Маслов А. В. 2013] метод применялся для исследования речевых сигналов в системе Бкуре и показал свою эффективность и работоспособность.

Отметим диапазон апробированных значений параметров преобразования речи в импульсную последовательность, при которых сохраняются указанные свойства ИПР.

Значение р порядка модели речеобразования варьировалось в пределах от двух до десяти, это соответствует учету от двух до пяти формант в рассматриваемом диапазоне частот. Эффективное значение КТ окна анализа изменялось от 1,5 до 20 мс. Выбор параметров преобразования влияет на получаемые результаты: увеличение порядка модели р речеобразования приводит к более четкому выделению

импульсов и интервалов сомкнутых голосовых связок, увеличение размерности линейного пространства N (или увеличение эффективного значения NT окна анализа) усиливает сглаживающий эффект на полученные импульсы.

губительный

питательный

Рис. 2. Усредненные импульсы ударных гласных диктора в словах «аметист», «губительный», «питательный»

корица

парик

Рис. 3. Усредненные импульсы ударных гласных диктора в словах «корица», «парик»

Приведенные результаты показывают работоспособность и эффективность рассматриваемого нелинейного преобразования речи для исследования голосового источника возбуждения речевого тракта в процессе речеобразования.

В заключение отметим, что метод применим в исследовании

колебательных процессов и явлений, модели которых можно представить в виде линейной модели конечного порядка с сосредоточенными

параметрами, возбуждаемой импульсным источником.

СПИСОК ЛИТЕРАТУРЫ

1. Галунов В. И., Тампель Н. Б. Механизм работы голосового источника // Акустический журнал. - 1981. - Т. 27. - Вып. 3. - С. 321-334.

2. Гантмахер Ф. Р. Теория матриц. - М. : Наука, 1967. - 567 с.

3. Потапова Р. К., Собакин А. Н., Маслов А. В. Возможности модификации говорящего по голосу в системе интертелефонии «Skype» // Междисциплинарный подход в теоретической и прикладной лингвистике. -М. : ФГБОУ ВПО МГЛУ, 2013. - С. 177-188. - (Вестн. Моск. гос. лингвист. ун-та; вып. 13( 673). Сер. Языкознание).

4. Собакин А. Н. Артикуляционные параметры речи и математические методы их исследования: Монография. - M. : МГЛУ, 2005. - 220 с. - (Вестн. Моск. гос. лингвист. ун-та; вып. 517. Сер. Языкознание).

5. Собакин А. Н. Выделение импульсов основного тона по речевому сигналу // XXII сессия РАО: Современные речевые технологии: сб. науч. тр. -M. : GEOS. -2010. - С. 48-52.

6. CranenВ. andBovesL. Pressure measurements during speech production using Semiconductor miniature pressure transducers: Impact on models for speech production / J. Acoust. Soc. Am. - 19856. - 77. - N 4. - P. 1543-1551.

7. Fant G. Analysis and synthesis of speech processes // B. Malmberg (Ed.). Manual of phonetics. Amsterdam: North-Holland, 1968. - P. 173-177.

8. Fujisaki H. and Ljungqvist M. Proposal and evaluation of model for glottal source waveform // ICASSP'86: Proc. IEEE - IECEF - ASF Int. Conf. Acoust., Speech and Signal Process. - New York, 1986. - Vol. 3. - P. 1605-1609.

9. Holmberg T. B., Hillow R. E., Perkell J. S. Glottal airflow and transglottal air pressure measurements for male and female speakers in soft, normal and loud voice / J. Acoust. Sos. Am. -1988. - 84. - № 2 - P. 511-529.

10. Markel J. D., Grey A. H. Linear Predition of Speech / M. Svayz. - 1980. -P. 308.

11. Ondrachkova. Glottographical research in sound Groups // Модели восприятия речи. Международный психологический конгресс. - М., 1966. - Л., 1966. - P. 90-94.

i Надоели баннеры? Вы всегда можете отключить рекламу.