Научная статья на тему 'ОТОБРАЖЕНИЕ И ОЦЕНКА ФОРМАНТНЫХ СВОЙСТВ АРТИКУЛЯЦИИ РЕЧИ ИНТЕГРАЛЬНЫМИ AFB-ПАРАМЕТРАМИ ДИНАМИЧЕСКИХ СПЕКТРОВ РЕЧЕВЫХ СИГНАЛОВ'

ОТОБРАЖЕНИЕ И ОЦЕНКА ФОРМАНТНЫХ СВОЙСТВ АРТИКУЛЯЦИИ РЕЧИ ИНТЕГРАЛЬНЫМИ AFB-ПАРАМЕТРАМИ ДИНАМИЧЕСКИХ СПЕКТРОВ РЕЧЕВЫХ СИГНАЛОВ Текст научной статьи по специальности «Физика»

CC BY
20
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук

Аннотация научной статьи по физике, автор научной работы — Дегтярёв Николай Петрович

Анализируются причины ненадёжного выделения и оценки формантных параметров речевых сигналов известными методами. Предложено измерять не сами формантные параметры речевых сигналов, а AFB -параметры обобщённых формант динамических спектров речи. Рассматривается параметрическая модель описания обобщённых формант спектров речевых сигналов, отличающаяся повышенной надёжностью получаемых оценок AFB -параметров относительно вариативности исходных характеристик каналов передачи и голосов дикторов. Исследуется фонетическая метрика оценки артикуляции с помощью полученных AFB -параметров обобщённых формант спектров речи.The causes of insecure allocation and estimation of the formant parameters of the speech signals by the known methods are analyzed. It is proposed to measure not oneself formants of the speech signals, but the AFB -parameters of generalized formants of dynamic speech spectrum. The parametric model of a description of generalized formants of dynamic speech spectrum and its dignity is considered. Phonetic metrics of estimation of articulation with the help of the obtained AFB -parameters of generalized formants is investigated.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ОТОБРАЖЕНИЕ И ОЦЕНКА ФОРМАНТНЫХ СВОЙСТВ АРТИКУЛЯЦИИ РЕЧИ ИНТЕГРАЛЬНЫМИ AFB-ПАРАМЕТРАМИ ДИНАМИЧЕСКИХ СПЕКТРОВ РЕЧЕВЫХ СИГНАЛОВ»

Отображение и оценка формантных свойств артикуляции речи интегральными AFB-параметрами динамических спектров речевых сигналов

Н.П. Дегтярёв

Анализируются причины ненадёжного выделения и оценки формантных параметров речевых сигналов известными методами. Предложено измерять не сами формантные параметры речевых сигналов, а АРВ-параметры обобщённых формант динамических спектров речи. Рассматривается параметрическая модель описания обобщённых формант спектров речевых сигналов, отличающаяся повышенной надёжностью получаемых оценок АРВ-параметров относительно вариативности исходных характеристик каналов передачи и голосов дикторов. Исследуется фонетическая метрика оценки артикуляции с помощью полученных АРВ-параметров обобщённых формант спектров речи.

Abstract

The causes of insecure allocation and estimation of the formant parameters of the speech signals by the known methods are analyzed. It is proposed to measure not oneself formants of the speech signals, but the ^FB-parameters of generalized formants of dynamic speech spectrum. The parametric model of a description of generalized formants of dynamic speech spectrum and its dignity is considered. Phonetic metrics of estimation of articulation with the help of the obtained ^FB-parameters of generalized formants is investigated.

Введение

Проблема надёжности автоматического выделения и оценки формантных параметров речевого сигнала, несмотря на все как давние [1-3], так и последние [4] предпринятые усилия, не находит своего удовлетворительного решения. Такое уже давно

65

сложившееся положение заставляет критически переосмыслить подходы к решению проблемы формантного анализа речевых сигналов применительно к задаче распознавания речи. Предложенные методы формантного анализа опираются, как правило, на некоторую универсальную модель анализа речевого сигнала, призванную выделять амплитуды и частоты первых трёх-четырёх формант речи безотносительно к характеру (голосовые или фрикативные) анализируемых сегментов речевого сигнала. Поэтому наиболее устойчивые результаты анализа наблюдаются только на сегментах, согласующихся с заложенной моделью [3]. Характер и причины проявляющихся ошибок (потеря третьей и четвёртой формант из-за низкого уровня относительно шумов, а также второй форманты из-за её шунтирования при назализации или маскировки первой формантой при их сближении и др. [1]) как раз демонстрируют структурную ограниченность используемых моделей формантного анализа, в результате чего не учитываются существенно различные свойства речевого сигнала для разных по способу образования звуков (сегментов) речи. Всё это заставляет обратиться к проблеме акустического описания артикуляции речи с позиции учёта структурных свойств формантной модели образования речевого сигнала.

1. Структурные свойства артикуляции речи

Теория речеобразования [5,6] для каждого из способов образования звуков речи (рис. 1) предлагает присущую ему акустическую или эквивалентную электрическую подмо-

Ротовые

Щелевые.

передние

задние

передние

диффузные

компактные

задние

- глухие фрикативные . звонкие фрикативные

■ глухие аспиративные

звонкие аспиративные

Носовые

(1) (2)

(3)

(4)

(5)

(6) (7)

66

дель. Структура каждой такой подмодели специфична, ибо отражает артикуляцию (конфигурацию речевого тракта, место и тип источника возбуждения), свойственную только данному способу. В силу этого каждая подмодель артикуляции способа образования описывается своим, отличным от других подмоделей, набором значащих фор-мантных параметров. Необходимость учёта в процессе анализа порождаемых таким образом структурных свойств речевого сигнала приводит нас к следующим принципиально важным выводам. Во-первых, полная модель формантного анализа речевого сигнала должна включать хотя бы основные подмодели артикуляции звуков речи (рис. 1), различающиеся способом их образования.

И главный вывод, к которому мы вынуждены прийти, состоит в том, что решение задачи формантного анализа речевого сигнала возможно только в рамках полной структурной модели формантного анализа с использованием фонетического контекста [3]. Заметим, что попытки построить полную

Рис. 1. Структура основных способов образования звуков речи, которые должны учитываться полной моделью формантного анализа речевых сигналов

математическую модель речевого сигнала также приводят к многофакторной структуре такой модели [7].

Следуя далее принятой нами концепции, мы должны признать, что понятие фор-манты является обусловленным определённым контекстом способ образования звуков речи, а формантное описание артикуляции речи по своей природе является контекстно-зависимым. Понятно, что результативность решения задачи формантного анализа в таком случае напрямую связана с корректностью моделирования верхних языковых уровней речевого процесса [3]. Вышесказанное ещё раз указывает на концептуальную и методологическую сложность корректного решения задачи анализа формантных параметров речевых сигналов.

Поэтому разработка методов внеконтекстного анализа и оценивания параметров описания формантных свойств речевых сигналов, на наш взгляд, становится весьма актуальной задачей, поскольку такие параметры описания, с одной стороны, могут составить хорошую основу для первичного (прямого) гипотезирования и распознавания смысловых элементов речи, а с другой могут стать важной составной частью полного структурно-параметрического формантного описания артикуляции речи. Исходя из сказанного, в данной работе рассматривается возможность описания и оценки артикуляции речи с помощью системы AFB-пара-метров обобщённых формант динамических спектров речевых сигналов, вытекающей из предложенной нами ранее двухформантной модели описания артикуляции речи [8-10].

2. Связь артикуляции с формантными свойствами речевого сигнала

Известно [11], что минимальным речеобразующим жестом является слог, минимальным смыс-лообразующим элементом речи — слово, а минимальным смысловым элементом речевого сообщения — предложение. В общем случае речевое сообщение состоит из последовательности слов и образуется путём артикуляции последовательности составляющих их слогов. В предельном случае речевое сообщение может состоять из одного односложного слова и образовываться минимальным артикуляционным жестом — одним слогом. Известно также, что в процессе речеобразования вследствие инерционности органов артикуляции имеет место явление коартикуляции соседних звуков речи, т.е. взаимовлияние артикуляции соседних звуков, приводящее к взаимозависимости их артикуляторных параметров. Явление коартикуляции звуков речи также имеет закономерную природу, описываемую так называемыми «звуковыми законами» слитной и разговорной речи [12, 13].

Отмеченные свойства речеобразования указывают на то, что основа образования речевых сообщений — закономерные и взаимозависимые движения органов артикуляции, задаваемые программой реализации артикуляторного жеста как минимального смыслообразущего элемента речи. А поскольку процессы артикуляции речи на акустическом уровне отображаются в закономерные изменения во времени структуры и значений формантных параметров речевого сигнала, то именно в закономерностях изменений формантных параметров речевого сигнала и нужно искать акустические инварианты описания минимальных элементов (артикулем) речи. При этом нужно помнить, что искомые инварианты имеют смысл искать в различных реализациях только одного и того же артикуляторного жеста (слова).

Тогда в качестве инвариантной по дикторам функции P*(t) описания смысловых модуляций параметра P*(t), адекватной модуляционным свойствам процесса речеобразования, физиологическому закону восприятия раздражений (закон Вебера-Фехнера) и оценке «количества информации» может служить функция,

67

ш

ш

Р*(0=ЬР(0-ЬР(£-т) = 1п (1)

где т — интервал времени, соответствующий разрешающей способности слуха во времени. Нетрудно видеть, что функция (1) не претерпевает существенных изменений при медленных по сравнению с т изменениях параметра P(t), когда P(t) = P(t -т).

При условии, что параметр P(t) явным образом отображает движения артикулято-ра или изменения во времени связанного с ним формантного параметра, функция P*(t) приобретает смысл фонетической функции, поскольку она инвариантна относительно средних значений P(t), которые характеризуют индивидуальные свойства параметра P(t) артикуляционного аппарата каждого конкретного говорящего. Таким образом, суть принципиально важного требования к параметрическому описанию речевого сигнала в задаче дикто-ронезависимого распознавания речи заключается в том, что каждый из акустических параметров описания речевого сигнала в одном и том же смысловом (фонетическом) контексте должен обладать инвариантностью характера его изменений во времени относительно вариаций (смещений), связанных с индивидуальностью голоса говорящего. Этому требованию отвечают только параметры, отображающие формантные свойства динамических спектров речевых сигналов [7, 8-10].

И, напротив, широко используемые в современных системах распознавания речи спектральные описания речевого сигнала (Фурье, LPC-параметры, кепст-ральные параметры [14]) не отвечают этому требованию и поэтому не могут служить основой для построения систем дикторонезависимого распознавания речи. Объясняется это тем, что преобразование названных параметров по (1) не устраняет дикторской вариативности спектров, связанной с индивидуальным для каждого диктора диапазоном изменений частот формантных максимумов спектров, в то время как преобразование формантных параметров по (1) отфильтровывает их смещения, связанные с дикторскими вариативностями спектров речи. В этом состоит принципиальное отличие изложенного здесь определения понятия фонетической функции по (1) от предложенного ранее в работе [15]. Модуляционная природа артикуляции речи порождает не только инварианты (в заданном контексте) описания смысловых элементов, но и вариативности, связанные с явлениями коарти-куляции звуков речи, закономерно проявляющиеся для различных норм произношения (полный стиль, разговорная речь), а также акцента и темпа произношения.

Таким образом, модель дикторонезависимого распознавания речи должна учитывать не только вариативности, связанные с источниками и переносчиками речевого сигнала (индивидуальные параметры речевого тракта, индивидуальность голоса, параметры среды и канала передачи), но и вариативности, проявляющиеся как в пределах действия звуковых законов слитной речи (стиль, темп), так и в форме индивидуальных особенностей (акцента) произношения. Вариативности второго (модуляционного) плана уходят в область лингвистических закономерностей артикуляции слитной речи. Поэтому их задание и описание в модели дикторонезависимого распознавания слитной речи возможны только через задание и описание базовых (фонетических) эле-

68

ментов артикуляции слитной речи [16].

3. Описание артикуляции интегральными АГВ-параметрами обобщённых формант спектров речи

Процедура получения и оценки ЛРБ-параметров исходя из требований двухформантной модели описания артикуляции речи [8-10, 17, 18] включает ряд последовательных этапов: предварительную обработку речевого сигнала [17], согласованный спектральный анализ [18], локализацию обобщённых формант спектров речи, и, наконец, оценку ЛРБ-параме-тров обобщённых формант [8-10, 17, 18].

3.1. Модель предобработки речевых сигналов в задаче получения интегральных

AFB-параметров описания артикуляции речи

Преобразование речевого сигнала на первом этапе основывается на отличительных свойствах первой и высших формант речи. При этом учитываются следующие два основных свойства.

1. Первый формантный максимум на огибающей спектра для большинства звуков речи явля-

ется глобальным (наибольшим) при условии соответствующей коррекции спектра голосового источника по методике, предложенной в работе [19].

2. Динамические диапазоны высших формант, связанные с их частотной перестройкой, суще-

ственно больше динамического диапазона первой форманты.

Остановимся более подробно на втором из названных свойств. Динамический диапазон речевого сигнала на входе приёмника (ухо, устройство оценки артикуляции, система распознавания речи) складывается из диапазонов изменений [20]: уровней звуков речи — до 45 дБ; громкости речи дикторов — до 15 дБ; затухания телефонных каналов передачи речи — до 10 дБ; расстояния до микрофона (телефонной трубки) от губ говорящего — до 15 дБ. В итоге средний динамический диапазон изменений уровней речевого сигнала на входе анализирующей (распознающей) системы равен 85 дБ. Однако для построения алгоритма оценивания формантных параметров, инвариантного от изменений уровней речевого сигнала, необходимо учесть также диапазоны изменений уровней формантных составляющих речевого сигнала. Это можно сделать, опираясь на закономерности связей уровней формант с их перестройками в соответствующих частотных диапазонах [5]. Оказывается, что изменения значащих уровней первой форманты укладываются в диапазон 6 дБ, а второй и высших формант — в диапазон 30 дБ относительно уровня первой форманты. Тогда общий (с учётом диапазона изменений уровней речевого сигнала — 85 дБ) диапазон изменений уровней первой форманты составит в среднем 6 + 85 = 91 дБ, а общий диапазон изменений уровней второй и высших формант — соответственно 6 + 30 + 85 = 121 дБ.

Таким образом, диапазоны изменений нужных нам компонент речевого сигнала различны и существенно больше диапазона уровней собственно речевого сигнала. Это свойство формантных компонент речевого сигнала указывает на целесообразность их предварительной отфильтровки и сжатия (компрессии) их динамических диапазонов. Кроме того, и это принципиально важно, раздельная компрессия отфильтрованных сигналов позволяет нормировать (уменьшить) вариативности уровней анализируемых сигналов от действия следующих факторов:

— разброса динамических диапазонов первой и высших формант по множеству дикторов;

— перекосов (изменений) частотных характеристик микрофонов и трактов передачи речевого сигнала.

69

70

Предварительная обработка речевого сигнала, заключающаяся в разделении его на две названные выше компоненты с последующей компрессией получаемых сигналов, с одной стороны, реализует часть методики [8 -10, 17, 18] получения ЛРВ-параметров, а с другой — позволяет существенно сократить информационный поток оцифрованных сигналов и минимизировать тем самым последующие вычислительные затраты. Разработанный нами программный модуль 5оЙВоагс1 реализует предварительную двухполосную обработку речевых сигналов [17]. Заметим также, что одновременно при этом решается задача повышения и стабилизации (нормализации) разборчивости речевых сигналов в условиях изменчивости параметров голосов дикторов и телефонных каналов передачи путём усиления и нормирования уровней информативных компонент (верхних формант) речевых сигналов.

Отметим, что проблема повышения качества и разборчивости речевых сигналов ранее активно исследовалась только применительно к системам связи [21-24], а позднее и применительно к прикладным системам распознавания речи [25] в связи с тем, что для современных систем распознавания речи речевой сигнал оказывается «недостаточно разборчивым». По этой причине для повышения «разборчивости речевых сигналов» для систем распознавания речи разрабатываются различные методы предобработки речевых сигналов, которые дают ощутимые положительные результаты [25], что и подтверждает актуальность реализуемой с помощью программного модуля SoftBoarC предварительной обработки речевых сигналов.

3.2. Модель согласованного спектрального анализа речевых сигналов в задаче получения интегральных AFB-параметров описания артикуляции речи

Спектральный анализатор речевого сигнала должен адекватно отображать фор-мантные свойства как голосовых, так и шумовых сигналов речи. Для удовлетворения этого требования модель разложения речевого сигнала в ряд Фурье должна быть согласована с моделью образования речевого сигнала. Если мы обратимся к формантной модели речевого сигнала [5]

ДО *]ГЛпеап('-тГо) sin[2nFn(t-m%)+en]

n=l

и сравним её с моделью обобщённого Фурье-разложения

V

г(0«5Хф*(0>

¿=1

то становится очевидным, что речевой сигнал аппроксимируется последовательностью затухающих синусоид частотой Fn с периодом основного тона F0. Каждое отдельно взятое формантное колебание

Фи(О«Л^(<"'йГо^ш[271^(?-тГо)+0„] (2)

представляет собой синусоидальное колебание с частотой Fn, модулированное по амплитуде частотой F0. Следовательно, каждая формантная компонента речевого сигнала есть сложный широкополосный сигнал. Для согласованной фильтрации таких сигналов требуется гребёнка полосовых фильтров с полосами пропускания не менее 2 F0. Модель широкополосного спектрального

анализатора согласуется с моделями спектрального анализа случайных сигналов [26], к которым относятся шумовые сигналы речи, и не противоречит свойствам слухового анализа акустических сигналов [27].

Для построения спектрального анализатора использованы цифровые фильтры 2-го порядка, описываемые уравнением:

Y(t,i) = {2*Y(t-i,i) -X(t-i)}*ki(i)- Y(t- 2,i)*k2(i)+ X(t), (3)

где Y(t, i), Y(t-1, i), Y(t-2, i) — значения выходных сигналов i-го фильтра в t-й, t-1, t-2-й от-счё-ты времени; X(t), X(t-1) — значения РС в t-й и t-1-й отсчёты времени; k1(i), k2(i) — коэффициенты, определяющие частоту настройки и полосу пропускания i-го фильтра.

Коэффициенты фильтра связаны с центральной частотой f(i) и полосой пропускания B(i) фильтров следующими соотношениями:

к, (i) = (l-я *B(i)/fd ) * cos (2*71 *f(i) !fd), k2(i)=(\-K*B(i)/fd)\

где n = 3,14 — константа; fd — частота дискретизации речевого сигнала.

Для лучшего согласования фильтров анализатора с формантными компонентами (2) речевых сигналов процедура (3) фильтрации реализуется последовательно дважды.

4. Сравнение формантных свойств исходных и преобразованных речевых сигналов

Из предыдущего мы знаем, что первой в ряду ступеней предобработки речевых сигналов является раздельная фильтрация первых двух формантных сигналов речи с последующим усилением и нормированием их уровней. На рисунках 2-5 приведены сравнительные изображения осциллограмм входных сигналов (верхние осциллограммы) и откорректированных в первых двух формантных областях (нижние осциллограммы) сигналов для звуков а и I.

Верхние осциллограммы на рисунках 2 и 3 иллюстрируют сумму двух первых формант, близких по частоте (для звука а). Нижние осциллограммы демонстрируют эффективное подчёркивание (локализацию) и равнозначное с первым сигналом взвешивание (нормирование) сигнала второй форманты.

Рис. 2. Результат формирования сигнала ww1 первой форманты (нижний рисунок) для реализации звука «<a» (верхний рисунок)

71

Рис. 3. Результат формирования сигнала ww2 второй форманты (нижний рисунок) для реализации звука «<a» (верхний рисунок)

Рис. 4. Результат формирования сигнала ww1 первой форманты (нижний рисунок) для реализации звука «и» (верхний рисунок)

Рис. 5. Результат формирования сигнала ww2 второй форманты (нижний рисунок) для реализации звука «4» (верхний рисунок)

72

Особенно ярко эти свойства проявляются на иллюстрациях (см. рис. 4 и 5) для звука I ввиду большой разницы частот первых двух формант.

На верхних осциллограммах хорошо видно, что сигнал второй форманты (высокий по частоте) на периоде основного тона быстро затухает, в результате чего он проявляется лишь в виде «вспышек» на коротких интервалах времени на периоде основного тона речи.

На нижней осциллограмме рис. 5 мы наблюдаем эффективное подчёркивание сигнала второй форманты на всём протяжении периода основного тона, и, следовательно, на протяжении всего времени реализаций соответствующих звуков речи.

Сопоставление изображений осциллограмм входных сигналов (верхние осциллограммы) и первых двух формант (нижние осциллограммы) для звуков а и I, представленных на рис. 2-5, показывает эффективность локализации и подчёркивания фор-мантных компонент речевого сигнала, которая иллюстрируется в виде чёткой локализации интенсивности «формантных треков» на широкополосных динамических спектрах преобразованных сигналов на рис. 6а. На рис. 6 представлены динамические спектры реализации слитно произнесённой женским голосом (диктором) фразы «ноль два».

Сопоставление изображений осциллограмм входных сигналов (верхние осциллограммы) и откорректированных в первых двух частотных формантных областях (нижние осциллограммы) для звуков а и I, представленных на рис. 2-5, показывает эффективность локализации и подчёркивания формантных компонент речевого сигнала, которая иллюстрируется в виде чёткой локализации «формантных треков» на широкополосных динамических спектрах преобразованных сигналов на рис. 6а.

Необходимо отметить также принципиально важное свойство получаемого спектрального отображения «формантных треков» на рис. 6а, на которых отсутствуют проявления гармонической структуры, характерные для динамических спектров речи с высокой частотой основного тона голоса, и которые наблюдаются на стандартной спектрограмме этой фразы (см. рис. 6б).

5. Алгоритм получения интегральных АРВ-параметров описания артикуляции речи

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для построения системы параметров описания артикуляции проанализируем о-щие свойства формант речи, устойчиво проявляющиеся на огибающих спектрах речевых сигналов

a)

б)

Рис. 6. Динамические спектры реализации слитно произнесённой женским голосом фразы «нольдва»:

а) оригинальное отображение программой VideoSpeech широкополосных динамических спектров преобразованных компонент (см. рисунки 2-5) речевого сигнала;

б) стандартное отображение программой Sound Forge исходного речевого сигнала.

Можно

выделить четыре типичных вида огибающих спектров, отображающих основные свойства артикуляции способов образования звуков речи (рис. 7).

В работах [8-10] мы предложили систему интегральных параметров А1, F1, А2, F2, B2 хорошо отображающих фор-мантные свойства огибающих спектров речи (рис. 7). Основная идея алгоритма оценивания названных параметров состоит в том, что в двух областях спектра речи с адаптивной границей их разделения формантные группы описываются моментами от отсчётов спектра, группирующихся около максимального из них:

2>>

Yfyay

А = -

7- 1

т

Иау 1

Рис. 7. Типичные формантные группы и их обобщённые параметры для звуков речи:

а) компактных и аспиративных;

б) диффузных;

в) носовых и звонких фрикативных;

г) глухих фрикативных

74

fky-Fy-iK

В-

(4)

max а,-

j

где а. — отсчёты мгновенного спектра мощности на частотах Г.; ) = 1,п; у = аг§г ; 'гу = щп(а. -Ьщха}); 0 < Н < 1; т — число отсчётов, превысивших порог Н

тах а.

Физический смысл оцениваемых согласно соотношениям (4) параметров состоит в том, что они выражают средневзвешенные (интегральные) значения амплитуды А, частоты Ги ширины В выделенных отсчётов спектра ау, представляющих данную формантную группу.

Свойства параметров (4) существенно зависят от значения коэффициента Н. При Н ^ 1 параметры А и Г представляются амплитудой и частотой максимального отсчёта спектра, а при Н ^ 0 — соответственно интенсивностью и средней частотой, выраженными через момент нулевого и первого порядка от выделенных отсчётов спектра. Параметр В связан с эффективной шириной спектра, а значение коэффициента Н определяет степень его чувствительности к модуляциям ширины спектра. Кроме того, коэффициент Н влияет на число выделенных отчётов т, группирующихся около максимального отсчёта и определяющих значения и интегральные свойства параметров (4). Поэтому значения коэффициента Н оптимизируются для каждой из двух аппроксимирующих формантных групп в зависимости от амплитудных отношений составляющих их формант. Тем самым обеспечивается свойство несмещённости получаемых согласно алгоритму (4) оценок интегральных формантных параметров. Выбор формантных групп и основные принципы (алгоритм) обработки их спектрального представления сводятся к следующему.

1. В частотных границах первой форманты звонкие звуки речи образуют формант-

ные группы, состоящие не более чем из двух первых формант. При этом амплитуда первой форманты в таких группах, как правило, является большей. Поэтому выбор значения Н в пределах 0,5-0,8 обеспечивает хорошую корреляцию параметров А1 и Г1, определяемых по выражениям (4), с амплитудой и частотой первой форманты. Названное выше свойство первой форманты позволяет также обнаруживать первую формантную группу по максимальному отсчёту спектра в диапазоне её существования.

2. По найденному значению Г1 производится инверсная фильтрация отсчётов

спектра первой форманты (см. рис. 2а), что обеспечивает эффективное разделение первой и второй формант в случаях, когда они сближаются так, что составляют одну формантную группу.

3. Полученные указанным способом спектральные отсчёты второй обобщённой

формантной группы описываются параметрами А2, Г2 и В2, определяемыми соответственно (4). При выборе значения коэффициента Н в пределах 0,3-0,6 названые параметры хорошо отображают амплитудно-частотные отношения второй и более высоких голосовых формант, частотное положение и эффективную ширину фрикативных и аспиративных формант.

Таким образом, двухформантная модель описания артикуляции интегральными AFB-параметрами обобщённых формант спектра речи не требует использования

a)

б)

Рис. 8. Исходные спектрограммы и соответствующие им базовые F1 F2 В2-параметры описания слитно произнесённой фразы «нольшесть»:

а) мужской голос;

б) женский голос

фонетического контекста и в то же время хорошо отображает связанные с ним формантные свойства спектрально-временного описания речевых сигналов (рис. 8).

Основными достоинствами предложенной системы параметров и алгоритма их выделения являются:

— возможность разделения первых двух формант (рис. 8, а) даже в случае их взаимной маскировки;

— возможность отображения формантных свойств (рис. 8, б и в) без разделения верхних формант, представляющееся наиболее сложной задачей;

— универсальность параметров описания, выражающаяся в равной эффективности отображения формантных свойств спектров, различных по способу (звонкий, фрикативный) образования звуков речи;

— инвариантность (независимость) получаемых спектрограмм и соответствующих им ЛРБ-параметров описания артикуляции речевых сигналов от типа голоса: мужской — женский, перекосов частотных характеристик микрофонов и каналов передачи;

— повышенная надёжность и помехоустойчивость интегрального принципа (4) оценива-нивания ЛРБ-параметров. Последнее свойство интегральных методов оценки формантных свойств спектров речи позднее было замечено и другими исследователями [28].

В связи с контекстуальной зависимостью формантное описание речи имеет изменчивую структуру значащих параметров, связанную со способом образования звуков речи (рис. 3). Это принципиально важное свойство формантного описания в полной мере может быть учтено при построении оценок формантных параметров методами анализа через синтез. И хотя алгоритм (4) получения ЛРБ-параметров контекстуально независим, тем не менее само ЛРБ-описание, будучи связанным с формантным, естественным образом отображает структурно-параметрические свойства различных по способу образования звуков речи (см., например, сегменты Б2, Б4, Б7 на рис. 9). Задача состоит в том, чтобы найти способ моделирования этого явления.

Рассмотрим 8-параметрическое ЛРБ-описание слитно произнесённой фразы «нольшесть» (рис. 9), где К^1, КГ2 и КюА1 — нормированные производные от соответствующих параметров. Опишем анализируемую реализацию ^-последовательностью сегментов Б1 = Б1, Б2,.., Б9, каждый из которых отображается значащими параметрами, характеризующими их физическую принадлежность данному сегменту (на рис. 9 значащие параметры

75

контрастно выделены). Если теперь построить алгоритмы создания эталонных описаний элементов 5 их значащими параметрами, учитывающими все закономерности артикуляции слитной речи, и автоматической сегментации (описания описания) реализаций речевых сигналов в алфавите Б. эталонных элементов, то поставленная задача будет решена.

6. Оценка артикуляции элементов речи

Введём понятие артикулемы как интересующего нас (значащего) элемента (5. сегмента) артикуляции речи. Пусть нами создана некоторая база данных N словаря артикулем. Для оценки [29] меры сходства Б" реализации п-го эталона из N словаря артикулем используем ДП-алгоритм [30] с оптимальным для речевых сигналов коэффициентом ограничения деформации времени сравниваемых сигналов, равном двум:

D(i-1, j- 2) + 2d (i, j-1) + d(i, j) D (i, j) = min <j D(i-1, j -1) + 2d (i, j) (5)

D(i- 2,7 -1) + 2 d{i -1,7) + d(i,j),

где i = 0,I — отсчёты параметрического описания реализации; i = 0,J — отсчёты параметрического описания эталона.

Здесь функция локального расстояния d!1.. между отсчётами i реализации и отсчётами jn -го эталона определяется в соответствии с выражением

1 *

Р —РП■

± а, г * а,]

(6)

1

Р + Р"■ '

a,i 1 а,]

где 0 < р <1 — коэффициент «взвешивания» параметра Ра; а = 1,к — индексы активных параметров п-го эталона.

Оценка расстояния Бп и обнаружение п-го эталона, удовлетворяющего условию достаточного правдоподобия, определяются из соотношений

Dn = minD"(i, Jn), Dn<0,5

(7)

где Рт — масштабирующий параметр, характеризующий «фонетический» вес п-го эталона. Окончание подобия п-го эталона находится в соответствии с правилом

= тт Опа Jn)..

/

Функция Бп(1, ]п) текущего расстояния п-го эталона к реализации речевого сигнала, используемая при решении задач (5) и (6), вычисляется с помощью рекуррентного ДП-уравнения (5), модифицированного для случая свободного (незакреплённого) начала реализации. Для п-го эталона, удовлетворяющего условию достаточного правдоподобия (7), относительно найденного IК окончания подобия на обратном временном окне длиною 2]п решается задача (5) определения его начала ¡Н с помощью модификации алгоритма (5) для закреплённого начала анализируемого процесса.

Нормированная мера подобия Яп найденного п-го эталона определяется следующим образом:

(8)

R" =

(P^-Dn)-100

рп

гм

0 <Dn <Р£.

(9)

Алгоритм (5)-(9) обнаружения и оценки артикуляции заданных элементов речи может быть использован как в задаче распознавания, так и в задаче обучения (оценивания) артикуляции слитной речи.

На рис. 10 приведены гистограммы корреляционных оценок (9) артикуляии выделенных слогов при произнесении слов суша, ноша, саша, кэш, крыша, ниша в указанной последовательности.

Рис. 10. Гистограммы корреляционных оценок артикуляции слогов

77

ш

ш

Гистограммы на рис. 10 а отображают корреляционные оценки артикуляции выделенных слогов для одного диктора, полученные с помощью алгоритма (5)-(9) для случая описания артикуляции совместно параметрами способа и места образования. Гистограммы на рис. 10 б и рис. 10 в отображают соответствующие оценки для двух разных дикторов при описании артикуляции только параметрам места образования. Причём необходимые оценки в этом случае получены в два этапа: на первом этапе с помощью алгоритма (5)-(9) по параметрам способа образования найдены границы слогов, а на втором — искомые оценки при описании артикуляции только параметрами места образования, что указывает на более широкие возможности построения акустических оценок атикуляции элементов речи с помощью AFB-параметров первичного описания речевых сигналов.

Из сравнения данных рис. 10 а и рис. 10 б, в видно, что во втором случае полученные оценки, сохраняя свойство выраженной корреляции с адекватными типами артикуляции для разных дикторов, одновременно обладают большей различающей способностью (информативностью). Отмеченные свойства указывают на преимущества и актуальность построения локальных фонетических метрик оценивания артикуляции элементов слитной речи.

1. Задача оценки формантных параметров речевых сигналов не имеет корректно-

го решения вне контекста способа образования анализируемых сегментов.

2. Предложено измерять не сами формантные параметры речевых сигналов, а

AFB-параметры обобщённых формант динамических спектров речи.

3. Предложенные система обобщённых AFB-параметров первичного описания ар-

тикуляции речи и метод обнаружения и оценки артикуляции заданных элементов речи могут составить хорошую основу для решения задач распознавания слитной речи.

4. Предложенные AFB-параметры описания речевого сигнала хорошо отображают

формантные свойства спектров речи и в связи с этим удовлетворяют требованиям линейной модели [7] аппроксимации параметров описания речевых сигналов, в рамках которой возможно создание топологических инвариантов (относительно характеристик каналов передачи и голосов дикторов) описания артикуляции (артикулем) слитной речи [31].

5. Использование AFB-параметров описания речевого сигнала в сочетании с со-

временными моделями описания фонетического уровня [16] в системах автоматического распознавания речи даёт надежду на определённое продвижение в решении проблемы многодикторного распознавания слитной речи.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6. И наконец, названные выше инвариантные свойства AFB-параметров описания

позволяют выйти на решение прикладных задач многодикторного распознавания слитной речи в условиях изменчивости АЧХ среды и каналов переда-

Выводы

78

чи речевых сигналов.

Литература

1. Бухтилов Л.Д., Лобанов Б.М. Алгоритм оценки формантных частот // Автоматическое распознавание слуховых образов (АРСО-14). Каунас, 1986. Ч. 1. С. 10-11.

2. Deng L., Ma J. Spontaneous Speech Recognition Using a Statistical Coarticulatory Model for the Vocal-Tract-Resonance Dynamics // J. of American Society of Acoustics. Vol. 108. № 6. 2000. P. 3036-3048.

3. Lee M., Santen J., at all. Formant tracking using segmental phonemic information // Proc. of the European Conf. on Speech Commun. and Techn. Eurospeech '99. Budapest, Sept. 5-9, 1999. Vol. 6. P. 2789-2792.

4. Lobanov B. On the Way to Precise and Robust Formant Frequencies Tracking / B. Lobanov, A. Davydau // Speech and Computer: proceedings of the 13th International conference SPEC0M'2009, St. Petersburg, Russia, 21-25 June, 2009 / St. Petersburg Institute for Informatics and Automation of RAS (SPIIRAS). St. Petersburg: Anatolia, 2009. P. 340-344.

5. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964.

6. Фланаган Д.Л. Анализ, синтез и восприятие речи. М.: Связь, 1968.

7. Винцюк Т.К. О математических моделях речевого сигнала, используемых в распознавании речи // Автоматическое распознавание слуховых образов (АРСО-12). Киев, 1982. С. 34-37.

8. Дегтярев Н.П. Двухформантная аппроксимация спектров речи // Автоматическое распознавание слуховых образов (АРСО-14). Каунас, 1986. Ч. 1. С. 12-13.

9. Дегтярев Н.П. Акустическое описание артикуляции параметрами обобщённых формант спектра речи // Автоматическое распознавание слуховых образов (АРСО-15). Таллинн, 1989. С. 145-149.

10. Degtjarev N.P. Two-Formant Model of the Acoustic Description of Speech Articulation // Proceedings of the XII-th International Congress of Phonetic science. France, Aix-en-Provence, 1991. Vol. 2. P. 410-413.

11. Чистович Л.А., Кожевников В.А. и др. Речь. Артикуляция и восприятие. М.-Л.: Наука, 1965.

12. Гвоздев А.Н. Современный русский литературный язык. Ч. 1.Фонетика и морфология. М.: Просвещение, 1973.

13. Русская разговорная речь / Под ред. Е.А. Земской. М.: Наука, 1973.

14. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов / Пер. с англ. М.: Связь, 1981.

15. Пирогов А.А. К вопросу о фонетическом кодировании речи // Электросвязь. 1967. № 5. С. 24-31.

16. Коваль С.Л., Смирнова Н.С., Хитров М.В. К проблеме разработки фонетического уровня в системах автоматического распознавания речи // Труды Междунар. семинара Диалог '2002 по компьютерной лингвистике и её приложениям, Т.2. М., 2002. С. 197-206.

17. Дегтярев Н.П. Выбор модели предобработки и спектрального анализа речевых сигналов в задаче получения AFB-параметров описания артикуляции речи // Автоматическое распознавание слуховых образов (АРСО-17). Ижевск, 1992. С. 176-180.

18. Дегтярев Н.П. Выбор модели спектрального анализатора речевых сигналов // Вычислительная техника и краевые задачи. Процессоры цифровой обработки сигналов. Рига, 1992. С. 89-96.

19. Дегтярев Н.П. Погрешности анализа формантных частот методом неадаптивной фильтрации // Автоматическое распознавание слуховых образов (АРСО-11). Ереван, 1980. С. 58-61.

20. Вемян Г.В. Передача речи по системам электросвязи. М.: Радио и связь, 1985.

21. Сапожков М.А. Защита трактов радио и проводной телефонной связи от помех и шумов. М.: Свя-зьиздат, 1959.

22. Бандура Н.В., Бухвинер В.Е., Добровольский Е.Е. Управляемые компандеры в радиосвязи и радиовещании. Оценка эффективности // Электросвязь. 1974. № 12. С. 36-40.

23. Рыффа В.Н. Повышение разборчивости речи путём сжатия динамического диапазона // Электросвязь и передача данных. Киев, 1969.

24. Optimum Lianear Filter for Speech Transmission // The Journ. of the Acoust. Soc. of Amer. Vol. 43. № 1. 1968. P. 81-86.

25. Sadaoki Furui. Perspectives of Speech Processing Technologies. International Workshop «Speech and Computer», Specom'98 St.-Petersburg, October 26-29 1998. P. 1-6.

26. Харкевич А.А. Спектры и анализ. М.: Гостехиздат, 1963.

79

ш

ш

27. Молчанов А.П., Лабутин В.К. Механизмы анализа сигналов в органе слуха и проблемы их моделирования // Распознавание слуховых образов / Под ред. Н.Г. Загоруй-ко и Г.Я. Волошина. Новосибирск: Наука СО, 1970. С. 142-204

28. Gajirc B., Paliwal K. Robust Parameters for Speech Recognition Based on Subband Spectral Centroid Histograms // Proc. of the European Conf. on Speech Commun. and Techn. Eurospeech '01. Scandinavia, 2001. Vol. 1. P. 591-594.

29. Дегтярев Н.П., Черников Д.А. Формантное отображение и оценка артикуляции речи // Анализ цифровых изображений. Минск: ОИПИ НАН Беларуси, 2003. Вып. 2. С. 174-185.

30. Sakoe H. Two-level DP — Matching — A Dynamic Programming Based on Pattern matching Algorithm For Connect Word Recognition // IEEE Trans on ASSP. Vol. 27. № 6. 1979. P. 588-595.

31. Дегтярев Н.П. Модуляционная основа инвариантов акустического описания артикуляции речи // Автоматическое распознавание слуховых образов (АРСО-16). Суздаль, 1991. С. 106-107.

32. Дегтярев Н.П. Параметрическое и информационное описание речевых сигналов. Минск: Объединенный институт проблем информатики Национальной академии наук Беларуси, 2003.

Дегтярев Николай Петрович —

главный конструктор проектов отдела совместных программ космических и информационных технологий Объединенного института проблем информатики Национальной академии наук Беларуси, автор монографии и более 50-ти научных публикаций в области речевых технологий, 8-ми авторских свидетельств на изобретения, награжден знаком «Изобретатель СССР» и серебряной медалью ВДНХ СССР.

80

i Надоели баннеры? Вы всегда можете отключить рекламу.