Научная статья на тему 'Что мы измеряем, оценивая значение частоты спектральных максимумов гласного звука?'

Что мы измеряем, оценивая значение частоты спектральных максимумов гласного звука? Текст научной статьи по специальности «Математика»

CC BY
268
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ФОРМАНТА / РЕЗОНАНС / СПЕКТРАЛЬНЫЙ МАКСИМУМ / РЕЧЕВОЙ ТРАКТ / ПОЛЮС / ФОРМАНТНЫЕ ТРЕКИ / FORMANT / RESONANCE / SPECTRAL MAXIMUM / VOCAL TRACT / POLE / FORMANT TRACKS

Аннотация научной статьи по математике, автор научной работы — Кузнецов В.Б.

В статье рассматривается сложный вопрос артикуляторной интерпретации измерений частот спектральных максимумов гласных звуков. Обсуждается разное понимание таких ключевых терминов, как «резонанс», «форманта». На основе анализа такого явления, как переподчинение спектральных максимумов полостям речевого тракта делается вывод о невозможности использовать термин «форманта» как синоним термина «резонанс» и ошибочности требования к упорядоченности формант по частоте.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Кузнецов В.Б.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

WHAT IS ACTUALLY MEASURED IF THE FREQUENCYOF SPECTRUM MAXIMA OF VOWELS IS ESTIMATED?

The present paper deals with an important and controversial issue of articulatory interpretation of spectral peaks of vowels. The consequences of different use of the terms resonance and formant are discussed. Analysis of the phenomenon of formant cavity affiliation led to the conclusion that it could not be regarded as correct to use the term formant as a synonym of resonance and that the constrain on frequency ranking of vowel formants is fallacious.

Текст научной работы на тему «Что мы измеряем, оценивая значение частоты спектральных максимумов гласного звука?»

УДК 81'342.1 В. Б.Кузнецов

кандидат филологических наук, доцент, профессор кафедры прикладной и экспериментальной лингвистики Института прикладной и математической лингвистики МГЛУ; e-mail: kuvlad2007@yandex.ru

ЧТО МЫ ИЗМЕРЯЕМ, ОЦЕНИВАЯ ЗНАЧЕНИЕ ЧАСТОТЫ СПЕКТРАЛЬНЫХ МАКСИМУМОВ ГЛАСНОГО ЗВУКА?

В статье рассматривается сложный вопрос артикуляторной интерпретации измерений частот спектральных максимумов гласных звуков. Обсуждается разное понимание таких ключевых терминов, как «резонанс», «форманта». На основе анализа такого явления, как переподчинение спектральных максимумов полостям речевого тракта делается вывод о невозможности использовать термин «форманта» как синоним термина «резонанс» и ошибочности требования к упорядоченности формант по частоте.

Ключевые слова: форманта; резонанс; спектральный максимум; речевой тракт; полюс; формантные треки.

Kouznetsov V. B.

Ph. D., Department of Applied and Experimental Linguistics, Institute of Applied and Mathematical Linguistics, Faculty of the Humanities and Applied Sciences, MSLU; e-mail: kuvlad2007@yandex.ru

WHAT IS ACTUALLY MEASURED IF THE FREQUENCY OF SPECTRUM MAXIMA OF VOWELS IS ESTIMATED?

The present paper deals with an important and controversial issue of articulatory interpretation of spectral peaks of vowels. The consequences of different use of the terms resonance and formant are discussed. Analysis of the phenomenon of formant cavity affiliation led to the conclusion that it could not be regarded as correct to use the term formant as a synonym of resonance and that the constrain on frequency ranking of vowel formants is fallacious.

Key words: formant; resonance; spectral maximum; vocal tract; pole; formant tracks.

Прежде чем обсуждать вопрос, поставленный в заглавие статьи, необходимо разобраться в употреблении таких ключевых терминов, как «резонанс», «частота резонанса», «форманта», «частота форманты». Заметим, что речь пойдет не столько о чисто терминологических аспектах соотношения этих терминов, сколько о содержательной интерпретации результатов спектрального анализа гласных звуков с использованием этих терминов.

В соответствии с теорией «источник-фильтр» [4] спектральные характеристики звуков речи определяются свойствами акустического источника и резонансными (фильтрующими, передаточными) функциями речевого тракта. Очевидно, что анализируя речевой сигнал, мы можем с той или иной степенью точности лишь оценить резонансную характеристику речевого тракта. Одна из наиболее часто стоящих задач перед фонетистами - измерение спектральных характеристик гласных звуков, в частности оценка значения частоты спектральных максимумов. Причем фонетистов интересуют те спектральные максимумы, которые обусловлены соответствующими резонансами речевого тракта, определяющими фонетическое качество гласного.

Итак, в вышеизложенном материале мы избегали использования термина «форманта», употребив термины «резонанс» и «спектральный максимум». Где же место форманты при описании акустических свойств речевого тракта и результирующего спектра?

Анализ литературы показывает, что существуют разные варианты использования этих терминов. Согласно одному из них, исходным термином для характеристики фильтрующей функции речевого тракта является резонанс, а форманта используется в качестве синонима. При описании спектральной огибающей прибегают к термину «спектральный максимум», или «форманта». Такой подход распространен очень широко. Например, авторы «Общей фонетики» С. В. Кодзасов и О. Ф. Кривнова пишут: «В речевой акустике резонансные максимумы передаточной функции называют формантами...» [3, с. 119]. При этом они отмечают, что «... частоты резонансов (формант) и частотное положение амплитудных максимумов в спектре гласного отождествлять, строго говоря, не следует. Однако если плотность спектральных линий достаточно велика, это различие становится незначительным. Поэтому в фонетической литературе термин "форманта" нередко употребляется для обозначения как резонансных частот тракта, так и амплитудных пиков в спектре вокальных звуков» [3 с. 154]. Заметим, что в вышеприведенной цитате под условием «если плотность спектральных линий достаточно велика», подразумевается, что анализируемый речевой сигнал характеризуется низкой частотой основного тона (низкий мужской голос). При этом вводится ограничение на соотношение формантных частот: < < Б3 и т. д. Таким образом, форманты упорядочены по частоте.

При таком подходе синонимичность терминов «резонанс» и «форманта» фактически бесполезна, а многозначность термина «форманта» может затруднить понимание того, о чем идет речь.

В литературе имеется пример, когда форманта, а не резонанс считается исходным понятием: «Супраларингальная часть речевого тракта пропускает пропорционально больше акустической энергии на определенных частотах, называемых формантными частотами. Термин "резонанс", или "затухающий резонанс", часто используется для обозначения формант системы» [10, с. 136]. Правда, в другом месте той же книги отношение между формантой и резонансом трактуется с точностью до наоборот: «Структура формантных частот речи является отражением резонансов супра-ларингальной части речевого тракта» [10, с. 147].

Довольно сложно дать однозначную интерпретацию такого словосочетания, как «формантные резонансы», встретившееся в работе Ладефогеда [9].

В другом варианте трактовки терминов «резонанс» и «форманта» говорят о том, что это разные понятия. В своей классической книге «Акустическая теория речеобразования» Г. Фант пишет: «Резонансные пики, наблюдающиеся в спектральной картине звуков речи, называются формантами ... Частотное положение максимумов |Т(1)|, т. е. резонансных частот, весьма близко к соответственным максимумам спектра Рф данного звука. Хотя, строго говоря, частоты резонансов и частоты этих максимумов не стоит отождествлять - в большинстве случаев термины «резонансная частота» и «формантная частота» можно считать синонимами» [4, с. 32].

Отметим разные основания синонимичности терминов «резонанс» и «форманта» в подходе, представленном в книге С. В. Код-засова и О. Ф. Кривновой, и позиции Г. Фанта. В первом случае синонимичность задана априори: просто в речевой акустике резонанс называют формантой. Фант же исходит из того, что форманта - это характеристика спектра. И так как частоты формант и резонансов во многих случаях оказываются близкими, появляется основание считать эти термины синонимами.

Неизменность позиции Г. Фанта по этому вопросу подтверждается им в его более поздней публикации 1997 г. «Акустический анализ речи», написанной для «Энциклопедии акустики» [7], где

он дает однозначное определение форманты: «Форма спектра в основном определяется отдельными формантами, т. е. пиками, сформированными резонансами речевого тракта».

В журнале «Вопросы языкознания» за 1962 (№ 5 и № 6) в разделе «Консультации» В. И. Григорьев опубликовал две прекрасные статьи [1; 2], в которых в доступной для лингвистов форме рассмотрел ключевые понятия акустики речи (резонанс, форманта, антирезонанс, антиформанта), что облегчало для неспециалистов понимание недавно переведенной тогда на русский язык уже упомянутой книги Г. Фанта «Акустическая теория речеобразова-ния». Вот его определение форманты, которое разделяем и мы: «... отображение резонансной характеристики полости на спектр возбуждающего источника и называется формантой» [1, с. 115].

Завершая терминологический анализ, скажем еще об одном термине, с которым фонетисты сталкиваются при описании резонансных характеристик речевого тракта. Этот термин - «полюс». В том случае, когда резонансная характеристика речевого тракта моделируется математически как фильтрующая функция, полюс соответствует резонансу, а ноль - антирезонансу. Читателя, желающего более подробно узнать о терминах «полюс» и «ноль», используемых, в частности, при описании спектров назализованных гласных и согласных звуков речи, мы отсылаем к статье В. И. Григорьева «О роли антиформант в образовании речевого спектра» [2].

Теперь обратимся к вопросу о том, как интерпретировать результаты измерения формантных частот гласных звуков.

Более полувека тому назад Г. Фант выражал сожаление о том, что в фонетической литературе все еще преобладает неполная, частично ошибочная и чрезмерно упрощенная теория сдвоенного резонатора [4], согласно которой связана с задней полостью, а Б2 -с передней. Фант убедительно показал что, это представление «. лишь чисто внешне соответствует факту корреляции между уменьшением ротовой полости и увеличением фарингальной в ряду [а], [ж], [е] и [1], что связано с уменьшением и увеличением Б2» [4, с. 115-116].

Предложенная Стивенсом и Хаузом [11] и несколько видоизмененная Фантом трехпараметрическая модель речевого тракта дает более адекватное представление о формировании резонансных

свойств надгортанной части речевого аппарата. В соответствии с этой моделью для предсказания параметров результирующего спектра ротового гласного достаточно знать, где находится место наибольшего язычного сужения, степень этого сужения (площадь поперечного сечения) и наличие или отсутствие огубленности.

Анализируя русские гласные, Г. Фант приходит к выводу, что модель сдвоенного резонатора применима только для гласного [i]. В качестве примера приведем интерпретацию Г. Фантом связи артикуляторных параметров гласного [u] с его формантной структурой: «... для гласного [u] F1 зависит от губного прохода в значительно большей степени, чем F2; обратное справедливо для язычного прохода. Если вдобавок учитывать еще и объемы полостей, то можно сделать вывод, что для [u] частота F1 связана главным образом с задней полостью и отверстием губ, а F2 - с передней полостью и язычным проходом. Однако совокупное влияние передней полости и отверстия губ на F1 в [u] больше, чем их влияние на Fy а совокупное влияние задней полости и язычного прохода на F2 больше, чем их влияние на Fj. С этой точки зрения F2 в [u] можно считать формантой, обусловленной задним резонатором, а Fj - передним» [4, с. 203].

Следует отметить, что для современной фонетики типична ситуация, когда, с одной стороны, теория речепроизводства Г. Фанта (источник-фильтр) общепризнанна и даже именуется классической, а с другой - в своей исследовательской практике фонетисты все еще продолжают опираться на представления теории сдвоенного резонатора.

Необходимо остановиться еще на одном явлении, увеличивающем сложность взаимосвязей между спектральными характеристиками гласного и его артикуляторной природой. Речь идет о переподчинении формант полостям речевого тракта (formant cavity affiliation). Это явление, начиная с работы Стивенса и Хауса, выполненной в 1956 г. [11], отмечалось многими учеными в модельных экспериментах и при анализе речевого сигнала. Обратимся к описанию этого явления в вышецитированной работе Григорьева [1]. Автор описывает процесс переподчинения формант полостям речевого тракта в расчетном эксперименте, использующем трехпараметрическую модель Г. Фанта (см. рис. 1). Приведем полученную Григорьевым схему-номограмму (слегка нами измененную) и его комментарий к ней.

Рис. 1. Трехпараметрическая модель речевого тракта: 1) выходное отверстие; 2) передняя полость; 3) суженная секция; 4) задняя полость

«При перемещении суженной секции от заднего положения примерно до середины трубы передняя полость, объем которой уменьшается при соответственном возрастании частоты резонанса, захватывает вторую форманту и перемещает ее из положения, близкого к первой форманте, вверх (см. рис. 2).

Одновременно навстречу второй форманте движется третья форманта, ведомая задней полостью, объем которой увеличивается, и соответственно, резонансная частота понижается. При выравнивании объемов передней и задней полости вторая и третья форманты R1 и R2 - нижние резонансы передней и задней полости речевого тракта соответственно максимально сближаются друг с другом и образуют на спектре единую область усиления. В этой точке влияние передней и задней полости на вторую и третью форманты уравновешивается, так что положение обеих формант определяется ими в равной степени. При дальнейшем перемещении суженной секции к выходному отверстию передняя полость захватывает третью форманту и ведет ее вверх до слияния с четвертой формантой, в то время как движение второй форманты в основном определяется увеличением объема задней полости" [1, с. 119-120]. Из этой цитаты со всей очевидностью следует невозможность трактовать форманту как синоним резонанса. Заметим, что в данном случае повышение информативности спектральной огибающей путем использования дикторов с низкой F0 не обеспечит совпадения формантной частоты и частоты резонанса. Причем обусловленность формант той или иной из полостей изменяется в точках максимумов и минимумов формантных треков на номограмме1.

1 Серия исследований этого явления была проведена французскими учеными. Они выявили в речевом тракте три местоположения этих точек, названных ими фокальными точками (focal points) [5]. Эти точки соответствуют гласным фонетического треугольника [i, a, u].

Гц

время

Рис. 2. Схема преобразований формантной структуры в результате

цикла деформации типа местных сужений, моделируемых трехпараметровой моделью речевого тракта (пунктиром обозначены положения формант, характерные для гласного шва)

Таблица 1

Средние значения частот резонансов (Я.) французских гласных (15 мужчин и 5 женщин). Для приведены средние значения стандартного отклонения (т). Я1, Я - резонансы задней полости, Я - резонанс передней полости

Мужчины (15) Женщины (5)

И И3 т И т

а 744 1345 2553 80 911 1594 2879 72

Б 526 1927 2570 42 673 2250 3087 67

0 329 1360 2247 62 450 1653 2623 44

е 350 2711 2105 64 434 3133 2429 66

У 256 1810 2138 55 255 2179 2596 70

1 242 3484 2172 61 250 3796 2589 66

и 257 647 2218 63 259 708 2551 47

Если мы будем, например, отслеживать (см. рис. 2) траекторию второго спектрального максимума (Б2), то получим один результат, а при анализе траектории резонанса передней полости (И^ результат будет совершенно иным. Таким образом, феномен переподчинение формант несовместим с требованием упорядоченности формант по частоте.

Отсюда дилемма: должны ли мы удовлетвориться отслеживанием и, соответственно, измерением формант как спектральных максимумов, упорядоченных по частоте, или же мы попытаемся проследить по спектральным максимумам изменение резонансных частот речевого тракта?

25,113 25,2 25,3

D I! G А

Рис. 3. Спектрограмма испанского слова «diga», демонстрирующая обусловленность спектральных максимумов резонансами передней (R2) и задней (R3) полостей речевого тракта

Для описания спектральных характеристик французских гласных исследователи [6] использовали частоты резонансов (см. табл. 1). Можно видеть, что для передних закрытых гласных [i, e] (выделенные в таблице строки) частота второго спектрального максимума (традиционно трактуемая как вторая форманта) определяется резонансом задней полости R3, в остальных же случаях Ri = F

На основе этих данных можно, например, предсказать, что при переходе от гласного [i] к гласному [a] произойдет пересечение треков второго и третьего спектральных максимумов, так как резонанс R2 должен снизиться с 3481 Гц до 1345 Гц, а R3 - подняться с 2172 Гц до 2553 Гц.

На рисунке 3 приведена спектрограмма испанского слова «diga", которая подтверждает предсказанную динамику изменения резонансных частот речевого тракта и эффект переподчинения спектральных максимумов.

В заключение следует отметить, что интерпретация спектральных максимумов как отображения резонансов речевого тракта существенно усложняется, если в спектре гласного прослеживается

влияние подгортанной (трахея, бронхи, легкие) и / или носовой полости [13; 14].

СПИСОК ЛИТЕРАТУРЫ

1. Григорьев В. И. О формантах и формантной структуре // Вопросы языкознания. - 1962. - № 5. - С. 115-121.

2. Григорьев В. И. О роли антиформант в образовании речевого спектра // Вопросы языкознания. - 1962. - № 6. - С. 99-107.

3. Кодзасов С. В., Кривнова О. Ф. Общая фонетика. - М. : Рос. гос. гуманит. ун-т, 2001. - 592 с.

4. Фант Г. Акустическая теория речеобразования. - М. : Наука, 1964. -284 с.

5. Badin P., Boe L. J., Perrier P., and Abry C. Acoustic considerations upon formant convergence // Journal of the Acoustical Society of America, 1990. - Vol. 87. - P. 1290-1300.

6. Bailly G. Characterization of formant trajectories by tracking vocal tract resonances // Levels in speech communication: relations and interactions. (Eds.) C. Sorin, J. Mariani, H. Méloni and J. Schoentgen. - Amsterdam : Elsevier, 1995. - P. 91-102.

7. Fant G. Acoustical Analysis of Speech // Encyclopedia of Acoustics, M. J. Crocker (ed.) John Wiley. - 1997. - Vol. 4. - P. 1589-1597.

8. Fant G. Speech Acoustics and Phonetics. - Dordrecht : Kluwer Academic Publishers, 2004. - 320 p.

9. LadefogedP. Instrumental Techniques for Linguistic Phonetic Fieldwork // The Handbook of Phonetic Sciences. Hardcastle, William J. and John Laver (eds). Blackwell Publishing, 1999. Blackwell Reference Online. 28 December2007.- P.92-113.-URL:http://www.blackwellreference.com/ subscriber/tocnode?id=g9780631214786_chunk_g97806312147865>

10. Lieberman Ph., Blumstein Sh. Speech physiology, speech perception, and acoustic phonetics // Cambridge studies in speech science and communication. - Cambridge : Cambridge University Press, 1988. - 249 p.

11. Stevens K. N., House A. S. Studies of formant transitions using a vocal tract analog // He journal of the Acoustical society of America. - N. Y., 1956. - Vol. 28. - P. 578-585.

12. Stevens K. N. On the quantal nature of speech // Journal of Phonetics. -1989. - Vol. 17. - P. 3-45.

13. Stevens K. N. Articulatory-Acoustic-Auditory Relationships // The Handbook of Phonetic Sciences.Hardcastle, William J. and John Laver (eds). Blackwell Publishing, 1999. Blackwell Reference Online. 28 December 2007. - URL: <http://www.blackwellreference.com/subscriber/ tocnode?id=g9780631214786_chunk_g978063121478615>

14. Chia Xuemin, Sondereggerb M. Subglottal coupling and its influence on vowel formants // He journal of the Acoustical society of America. - N. Y., 2007. - Vol. 122. - No. 3. - P. 1735-1745.

i Надоели баннеры? Вы всегда можете отключить рекламу.