Научная статья на тему 'Использование фонетических характеристик для автоматического распознавания речи'

Использование фонетических характеристик для автоматического распознавания речи Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
245
59
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Комаров Д. А.

В данной статье рассматривается использование фонетических характеристик для автоматического распознавания слитной речи. Эффективность фонетических характеристик показана на примере двух фонетических характеристик: акустической характеристики сонорности и акустической характеристики звонкости. Данные фонетические характеристики были опробованы в комбинации с кепстральными коэффициентами по шкале мелов (MFCC). Для определения оптимальной комбинации акустических характеристик применяется линейный дискриминативный анализ (ЛДА). Также в работе приведено подробное исследование влияния различных преобразований спектра и фильтрации речевого сигнала на эффективность акустической характеристики сонорности, Фонетические характеристики были опробованы на корпусах с большим и малым словарями. По сравнению с использованием стандартных MFCC наблюдалось значительное улучшение работы системы автоматического распознавания речи: до 25 % на корпусе с малым словарем и до 5 % на корпусе с большим.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Phonetic Features for Automatic Speech Recognition

In this paper, the use of phonetic features of the speech signal for continuous speech recognition is considered. To show the efficiency of phonetic features, two of them, namely voicedncss and sonority, were selected. Features are tested in combination with the standard Mel Frequency Cepstral Coefficients (MFCC). Linear Discriminant Analysis is applied to find the optimal combination of different acoustic features. The effects of various warping and filtering techniques on the sonority feature are investigated. Experiments have been performed on small and large vocabulary tasks. Significant improvements in word error rate have been obtained by combining the MFCC feature with the voicedness and sonority features: improvements of up to 25 % on the small-vocabulary task and improvements of up to 5 % on the large-vocabulary task relative to using MFCC alone with the same overall number of parameters in the system.

Текст научной работы на тему «Использование фонетических характеристик для автоматического распознавания речи»

ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА

Сер. 9. 2007. Вып. 3. Ч. I

Д.А. Комаров

ИСПОЛЬЗОВАНИЕ ФОНЕТИЧЕСКИХ ХАРАКТЕРИСТИК ДЛЯ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ

Ведение. Системы распознавания речи, использующие акустические характеристики, представляющие собой компактное и модифицированное представление спектра (например, МРСС, РЬР), даже приблизительно не достигают эффективности человека. Это происходит из-за того, что не используется информация о порождении и восприятии звуков речи человеком, а также о соотношениях фонем в фонологической системе. Возможным решением этой проблемы является использование акустических коррелятов фонетических признаков для моделирования физических свойств звуков речи. Преимущество фонетических характеристик заключается в том, что они основываются на дифференциальных признаках фонем и, следовательно, обладают лучшей различительной способностью. Предполагается, что они более устойчивы к акустической вариативности.

Среди акустических характеристик, использующихся в современных системах распознавания речи в рамках фонетического подхода, можно назвать звонкость, местоположение формант, а также статистические распределения классов, соответствующих фонемам с различными дифференциальными признаками1.

Существенной проблемой использования фонетических характеристик является необходимость описания всех дифференциальных признаков, определяющих фонемы данного языка. Кроме того, не всегда легко измерить акустические корреляты этих дифференциальных признаков. В качестве решения данной проблемы можно предложить совместное использование фонетических характеристик с акустическими. В таком случае можно легко сравнивать результаты и говорить об увеличении эффективности системы распознавания речи за счет применения фонетических характеристик.

В настоящей статье рассматривается применение двух фонетических характеристик для автоматического распознавания речи, а именно степени сонорности и звонкости. В качестве коррелята первой из них используется производная спектра в частотной области. Наличие основного тона, показывающее звонкость звука, определяется при помощи автокорреляционного метода. Данные фонетические характеристики были опробованы на материале немецкого языка (на корпусах 81еТШ и УегЬМоЬП II) в комбинации с МРСС2. Для определения оптимальной комбинации акустических характеристик применяется линейный дискриминативный анализ (ЛДА).

Акустическая характеристика сонорности напрямую зависит от качества спектра речевого сигнала, поэтому на ее производительность влияют различные преобразования спектра и фильтрация речевого сигнала. В статье приведены результаты исследования степени влияния на акустическую характеристику сонорности различных видов предварительного преобразования спектра, включая мел-преобразование, барк-преобразование и билинейное преобразование, а также фильтрации речевого сигнала фильтром низких частот с различными частотами среза.

© Д.А. Кочаров, 2007

Акустическая характеристика звонкости. Звонкие и глухие звуки образуют два взаимодополняющих класса. Поэтому использование акустической характеристики, выражающей звонкость сегмента речевого сигнала, может привести к лучшей дифференциации фонем и, следовательно, к улучшению результатов распознавания. Акустическая характеристика звонкости (наличия основного тона) - это величина, отражающая, насколько периодическим является речевой сигнал в данный момент времени t. Для измерения периодичности используется автокорреляционная функция. Автокорреляция R (т ) выражает схожесть между временным окном X (V ) и его копией, смещенной на Т . В описываемой работе используется несмещенная оценка автокорреляции R*(т) :

1 r-T-l

R\x) =- Е x'fyyx'fy +т),

T-t v=0

где Т - длина временного окна. Автокорреляция периодического сигнала с частотой f достигает своего максимума R (0) не только при Т =0, но и при х= —, где к = 0,±1,±2,.. - это целочисленный множитель периода. Таким образом, пик в частотной области (где может находится частота основного тона), расположенный близко к R * (0), является показателем периодичности речевого сигнала.

Чтобы получить ограниченную величину звонкости, автокорреляция делится на R1 (0) Значения итоговой функции в основном находятся в интервале [-1.. 1 ], хотя из-за применения несмещенной оценки теоретически возможны любые значения.

Величина звонкости v* - это максимальное значение нормализованной автокорреляции в интервале естественных периодов основного тона [2,5 мс...12,5 мс]:

шах Д'СО

t _ 2,5i n-fs<x <12,5 i n-fs

Rf(0)

r f

где Js - частота дискретизации. Значения v , близкие к 1, обозначают звонкость соответствующего сегмента речевого сигнала. Значения v , близкие к 0, обозначают его глухость. Автокорреляционная функция вычисляется каждые 10 мс на сегменте речевого сигнала длиной в 40 мс. Длина сегмента увеличена по сравнению с той, что используется при вычислении коэффициентов MFCC для того, чтобы в него поместилось больше периодов основного тона. Таким образом, каждые 10 мс вычисляется одномерная акустическая характеристика звонкости.

Акустическая характеристика сонорности. Сонорность фонемы можно определить как степень ее звучности или как, наоборот, степень участия шумовых составляющих. Следуя такому определению сонорности, фонемы можно распределить на три больших класса в рамках шкалы сонорности (на рисунке 1 показаны спектры фонем /о/, /га/ и /s/):

- гласные - спектр с большим количеством формант;

- сонанты - спектр с форманто-образными гармониками;

- шумные согласные - достаточно плоский спектр.

0,5

0,5

0,5

к

й.

о

2000

/о/

4000

2000 ы

4000

2000

'/в/

4000

Рис. 1. Мгновенные спектры фонем /о/, /т/ и /в/, показывающие различия в количестве и значении пиков у этих фонем, принадлежащих к трем вышеназванным классам

В качестве акустического коррелята и показателя фонетической характеристики сонорности предлагается использовать производную спектра в частотной области. С математической точки зрения применение производной спектра мотивируется тем, что производная функции выражает скорость ее изменения. Производная функции обладает тем свойством, что чем выше скорость изменения функции, тем выше значение модуля производной. В дискретном случае производная функции равна разности значений функции в последовательных точках. Следовательно, производная спектра в частотной области должна отражать степень «изломанности» спектра, количество и значение пиков в спектре и соответственно может выразить сонорность фонемы. Получение величины акустического коррелята сонорности основано на вычислении всех производных амплитудного спектра в частотной области и суммировании модулей полученных производных.

Алгоритм вычисления производной спектра. После предварительного усиления высоких частот речевой сигнал взвешивается оконной функцией. В данном случае использовалась оконная функция Хемминга с длиной окна в 25 мс и смещением окна в 10 мс. Далее при помощи преобразования Фурье вычисляется амплитудный спектр. На следующем этапе производится энергетическая нормализация амплитудного спектра для учета различий в энергии разных окон. На основе нормализованного спектра вычисляется производная спектра. Производная г'-го порядка а(0)[я] нормализованного спектра Х [п] определяется так:

Полученные значения акустического коррелята сонорности спектра используются в дальнейшем в качестве дополнительной акустической характеристики речевого сигнала в системе автоматического распознавания речи.

5«= 10^1

Влияние преобразований спектра на эффективность характеристики сонор-ности. Очевидно, производная спектра напрямую зависит от спектра речевого сигнала. Поэтому было решено попробовать различные преобразования спектра и исследовать влияние, которое они оказывают на эффективность акустической характеристики сонор-ности. Сонорность звуков речи в основном зависит от частот в нижней части спектра, и можно предположить, что при вычислении производной спектра не следует учитывать высокочастотные составляющие спектра, так как это лишь уменьшит классифицирующую силу акустической характеристики. Для устранения высоких частот была опробована низкочастотная фильтрация. Были рассмотрены различные частоты среза низкочастотного фильтра. Далее рассматриваются использованные методы преобразования спектра, а также описывается примененный фильтр низких частот.

Барк-преобразование. Шкала, в которой человек воспринимает частоту сигнала, отличается от линейной шкалы в герцах. Это означает, что человек, слушая один тон, который в два раза выше другого по шкале герц, не обязательно воспринимает его как в два раза более высокий. Это явление привело к введению перцептивных шкал, таких, как шкала барков и шкала мелов.

Шкала барков была получена разделением шкалы частот на сегменты таким образом, что каждый сегмент соответствовал одной критической полосе, кроме того, сегменты не пересекались и покрывали всю частотную область. Функция, описывающая соотношения между барками и герцами, выглядит следующим образом:

V

со со ^

= 2'я '6-1п("

2- л ■ 600Иг V V2-л • 600НгJ

+ 1).

Для последующих вычислений это соотношение записывается в другом виде:

со

Чагк = 6' агс8тЬ(--——).

2 ■ п ■ 600Нг

Функция преобразования более или менее линейна до 1000 Гц, а затем становится похожей на логарифмическую. Таким образом, высокие частоты подавляются, а низкие практически не изменяются.

Мел-преобразование. В отличие от шкалы барков, шкала мелов была определена при помощи прямого измерения воспринимаемой высоты тона. Мел определен как одна тысячная высоты тона с частотой в 1000 Гц. Соотношение между мелами и герцами можно записать так:

со

0) ,= 2595.log,(1 +

ЬШЧ ЮОНг'

Функция мел-преобразования по форме похожа на функцию барк-преобразования.

Преобразование при помощи билинейной функции. Перевод спектра из шкалы герц в шкалу мелов увеличил эффективность акустической характеристики сонорности (см. «Результаты экспериментов»), вследствие чего было решено подробнее исследовать влияние нелинейных преобразований спектра на акустическую характеристику сонорности и использовать для этого билинейную функцию. Она определяется следующим образом:

сом = ш + 2 • arctan

f a sin(co) л 1 + a cos(co)

где от коэффициента преобразования а зависит кривизна графика билинейной функции.

У такого преобразования есть преимущество перед мел- и барк-преобразованиями в силу большей гибкости, связанной с применением коэффициента преобразования а, значение которого можно менять для достижения оптимальных результатов. Эмпирическим путем были опробованы четыре значения коэффициента а . Два из них были больше нуля: 0,4 и 0,8, а два из них симметрично меньше нуля: -0,4 и -0,8. Такие значения коэффициента преобразования были использованы для того, чтобы получить ясную картину влияния преобразования спектра на эффективность производной спектра. Целью данного эксперимента являлось не нахождение точного значения коэффициента ос, приводящего к наибольшей эффективности производной спектра, а определение тенденции влияния преобразования спектра, а также проверка результатов, полученных при использовании мел-преобразования спектра.

Низкочастотаная фильтрация. Основная часть формант находится в области низких частот. Даже у гласных, имеющих высокочастотные форманты, по крайней мере одна из формант расположена в зоне низких частот. По этой причине было решено рассмотреть влияние фильтрации при помощи полосного фильтра нижних частот с различными значениями частоты среза.

В данном эксперименте применялся идеальный РРТ-фильтр нижних частот, который определялся так:

Х'[п\ =

X4„yn<LJL

fs

fe-N

0 :п>

fs

где fc - частота среза, fs - частота дискретизации, а N - количество отчетов быстрого преобразования Фурье.

Было проведено несколько тестов с постепенным увеличением частоты среза низкочастотного фильтра от 500 до 6000 Гц.

Результаты экспериментов показали, какая частота среза оказывает наибольшее влияние на эффективность определения акустической характеристики сонорности. Наилучшие результаты получены при использовании фильтра нижних частот с частотой среза fc = 1000 Гц. Они практически совпадают с результатами, полученными при предварительном преобразовании спектра при помощи билинейной функции с коэффициентом сс= 0,8.

Экспериментальные данные. В экспериментах акустические характеристики сонорности и звонкости применялись совместно с MFCC. Для объединения акустических характеристик использовался линейный дискриминативный анализ. Для обучения и проверки системы автоматического распознавания речи применялись два корпуса с записями немецкой речи.

Корпус SieTill

- цепочки цифр на немецком языке, произнесенные по телефону;

- словарь из 11 немецких цифр, включая zwo;

- зависимые от пола говорящего НММ модели полных слов;

-12 MFCC характеристик;

- входной вектор ЛДА: МРСС, характеристика звонкости и производная спектра;

- 30-размерный выход ЛДА.

Корпус УегЬМоЬИ II

- немецкая спонтанная речь;

- словарь из 10 157 слов;

- НММ-модель с 3 состояниями с пропуском;

- 16 МРСС характеристик;

- входной вектор ЛДА: МРСС, характеристика звонкости и производная спектра;

- 33-размерный выход ЛДА.

Результаты применения акуситческих характеристик сонорности и звонкости.

Были опробованы различные параметры, влияющие на эффективность применения производной спектра в качестве акустической характеристики для автоматического распознавания спектра, в том числе длина окна при вычислении преобразования Фурье, типы нормализации спектра, применение разного количества производных спектра одновременно. Производная спектра (ПС) тестировалась совместно с характеристикой звонкости (Зв) и МРСС. Ниже в табл. 1 и 2 приведены результаты распознавания для различных комбинаций акустических характеристик.

Таблица 1. Результаты распознавания на корпусе 81еТШ

В Акустические характеристики Колич. ошибок,%

1 МБСС 3,83

МРСС + Зв 3,23

МРСС + ПСЗ 3,32

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

МРСС + Зв + ПСЗ 2,92

32 МРСС 1,89

МРСС + Зв 1,52

МРСС + ПСЗ 1,64

МРСС + Зв + ПСЗ 1,45

Таблица 2. Результаты распознавания на корпусе УегЬМоЬП II

Акустические характеристики Колич. ошибок, %

МРСС 21,6

МРСС + Зв 21,2

МБСС + ПС1 21,3

МРСС + Зв + ПС1 20,8

В табл. 1 и 2 используются следующие обозначения: Б - количество распределений в смешанной Гауссовой модели; а ПС № - общее количество примененных производных спектра; например ПСЗ значит, что используются 5 0>, £<2) и £(3>. Как видно из таблиц, оптимальное количество ПС зависит от корпуса.

Результаты экспериментов по исследованию влияния преобразований спетра на эффектиность акустической характеристики сонорности. Эксперименты проводились только на корпусе с большим словарем УегЬМоМ II.

В табл. 3 приведены результаты, полученные при осуществлении различных преобразований спектра перед вычислением производной спектра.

Таблица 3. Влияние преобразования спектра на эффективность определения акустической характеристики сонорности

Акустические характеристики Преобразование спектра Колич. ошибок, %

МРСС 21,6

М¥СС + ПС 21,3

МБСС + ПС Мел-преобразование 20,2

МБСС + ПС Барк-преобразование 20,8

МБСС + ПС Билинейное (ос = -0,8) 21,4

МБСС + ПС Билинейное (а =-0,4) 21,3

МБСС + ПС Билинейное(а =0) 21,3

МБСС + ПС Билинейное (а = 0,4) 20,8

МБСС + ПС Билинейное (а = 0,8) 20,2

Наилучшие результаты получены при использовании мел-преобразования и использования билинейной функции с коэффициентом преобразования а = 0,8.

В табл. 4 приведены результаты, полученные при низкочастотной фильтрации с различными частотами среза, произведенной перед вычислением производной спектра.

Таблица 4. Влияние низкочастотной фильтрации речевого сигнала на эффективность акустической характеристики сонорности

Акустические характеристики ^ гд Колич. ошибок, %

МБСС 21,6

МБСС + ПС 21,3

МБСС + ПС 6000 20,8

М¥СС + ПС 4000 20,9

МБСС + ПС 2000 20,7

МБСС + ПС 1000 20,3

МРСС + ПС 500 20,9

]с обозначает частоту среза фильтра низких частот.

Относительное уменьшение количества неправильно распознанных слов по сравнению с использованием акустической характеристики сонорности без предварительной фильтрации спектра достигает 4,5 %.

Заключение. Представленные в статье фонетические характеристики, выражающие звонкость и сонорность звуков речи, дают дополнительную информацию по сравнению со стандартными акустическими характеристиками, что показано на примере МРСС. При использовании обеих фонетических характеристик результаты по сравнению с применением одной только акустической характеристики МРСС, были улучшены: до 25 % на корпусе с маленьким словарем (81еТШ); до 5 % на корпусе с большим словарем (УегЬМоЬй II).

Результаты экспериментов также показывают сильную зависимость эффективности акустической характеристики сонорности от предварительного преобразования спектра или фильтрации речевого сигнала.

Наилучшие результаты были получены при преобразовании спектра с использованием билинейной функции с коэффициентом преобразования а= 0,8. Значительное уменьшение количества ошибок распознавания до 5 %, по сравнению с использованием только МБСС, было получено на корпусе с большим словарем УегЬМоЬй II.

Как показано в табл. 3, преобразование спектра значительно увеличивает эффективность производной спектра. Наилучшие результаты были получены при использовании мел-преобразования и билинейного преобразования с коэффициентом а - 0,8. Билинейное преобразование с отрицательным коэффициентом а =-0,8 вызывает ухудшение результатов распознавания. Это означает, что, как и предполагалось, низкие частоты несут больше полезной информации для вычисления сонорности звуков речи, чем высокие. Билинейное преобразование с коэффициентом а = 0,8, выделяющее низкие частоты и подавляющее высокие, сильнее, чем мел-преобразование, и дает гораздо лучшие результаты. Это также подтверждает идею о важности низких частот.

Из табл. 4 следует, какие именно частоты привносят больше информации для определения сонорности. Использование низкочастотного фильтра с частотой среза, равной 1000 Гц, дает почти такие же результаты, что и билинейное преобразование с коэффициентом а = 0,8. Вычисление идеального РРТ-фильтра намного проще и быстрее преобразования спектра, при этом оно дает практически те же результаты, поэтому имеет смысл применять именно его.

Результаты показывают, что производная спектра не является просто показателем звонкости: она улучшает эффективность системы распознавания речи и при совместном применении с характеристикой звонкости. Результаты описанного в данной статье исследования показывают эффективность и перспективность использования фонетических характеристик в системах автоматического распознавания речи.

1 Об этом см.: Сулейманова О.В. Проблемы русского синтаксиса: семантика безличных предложений. М., 1999; Постовалова В.И. Наука о языке в свете идеального знания //Язык и наука конца XX века. М., 1999.

2 Постовалова В.И. Указ. соч, С. 407-408.

3 Пупынин Ю.А. Субъектность и актуализационные категории предмета // Теория функциональной грамматики. Субъектность/объектность. Определенность/неопределенность, Коммуникативная перспектива высказывания. СПб., 1992. С. 148.

4 Сулейманова О.В. Указ. соч. С. 72.

5 Золотова Г.А., Онипенко Н.К., Сидорова М.Ю. Коммуникативная грамматика русского языка. М., 1998. С. 240-241.

6 Там же. С. 231.

7 Там же. С. 99. '

8 Барамыгина КБ. Компоненты с субъектным знанием в предложениях с оценочными предикативами // Веста. С.-Петерб. ун-та. 1996. Сер. 2. С. 199.

Статья принята к печати 26 февраля 2007 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.