Научная статья на тему 'Метод определения основного тона речевого сигнала'

Метод определения основного тона речевого сигнала Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
494
70
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЦИФРОВАЯ ОБРАБОТКА СИГНАЛОВ / АНАЛИЗ РЕЧЕВЫХ СИГНАЛОВ / ОСНОВНОЙ ТОН / DIGITAL SIGNAL PROCESSING / ANALYSIS OF SPEECH SIGNALS / PITCH

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гай Василий Евгеньевич

Предлагается метод определения основного тона сигнала. Рассматривается вся последовательность этапов определения основного тона, начиная с выделения вокализованного сегмента сигнала. Разработанный алгоритм основан на использовании теории активного восприятия, адаптированной к анализу речевых сигналов. Результаты проведённых экспериментов подтверждают возможность использования предложенного алгоритма для решения поставленной задачи.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHOD FOR DETERMINING THE PITCH OF THE VOICE SIGNAL

A method of determining the signal pitch. Examines the entire sequence of steps to determine the pitch, beginning with the selection of voiced segment of the signal. Developed algorithm is based on the theory of active perception, adapted to the analysis of speech signals. The results of the conducted experiments to confirm the possibility of using the suggested algorithm for the solution.

Текст научной работы на тему «Метод определения основного тона речевого сигнала»

УДК 534.87

В.Е. Гай

МЕТОД ОПРЕДЕЛЕНИЯ ОСНОВНОГО ТОНА РЕЧЕВОГО СИГНАЛА

Нижегородский государственный технический университет им. Р. Е. Алексеева

Предлагается метод определения основного тона сигнала. Рассматривается вся последовательность этапов определения основного тона, начиная с выделения вокализованного сегмента сигнала. Разработанный алгоритм основан на использовании теории активного восприятия, адаптированной к анализу речевых сигналов. Результаты проведённых экспериментов подтверждают возможность использования предложенного алгоритма для решения поставленной задачи.

Ключевые слова: цифровая обработка сигналов, анализ речевых сигналов, основной тон.

Основной тон - мгновенная частота колебаний голосовых складок диктора. Для мужских голосов типичной областью изменений основной частоты голоса является 50-150 Гц, для женских - более высокая область 120-500 Гц. Значение основного тона используется при оценке эмоционального состояния диктора. Типичные средние значения частоты основного тона в речи, определенные на группе говорящих, составляют 132 Гц для мужчин, 223 Гц для женщин и 264 Гц для детей [1]. По основному тону возможна классификация дикторов на мужчин и женщин [2].

Изменение частоты основного тона во времени имеет сложную структуру. Соседние периоды основного тона, как правило, отличаются по величине друг от друга, и эти различия передают информацию. Наиболее важная для интонации составляющая частоты основного тона - это крупные и плавные изменения (подъемы, падения и более сложные конфигурации), реализующиеся в пределах слогов, слов и синтагм. Именно применительно к данной составляющей контура частоты основного тона можно говорить о мелодике, только эти тональные изменения воспринимаются как мелодические и передают информацию. На конкретные значения частоты основного тона, наблюдаемые на протяжение высказывания, влияет ряд факторов [3].

На настоящий момент разработано большое количество алгоритмов, предназначенных для оценки величины основного тона.

Алгоритм, основанный на подсчёте пересечений нулевого уровня, рассматривается в [4]. Алгоритм определения периода сигнала, основанный на вычислении его автокорреляционной функции (АКФ) описан в [2]. Одним из его недостатков является сложность обработки сигнала, включающего несколько гармоника. В [5] рассматривается алгоритм, который решает указанную проблему.

Существуют также алгоритмы, предназначенные для поиска основного тона в фазовом пространстве [6], в частотной области [8], с помощью кепстрального анализа. В [9] выделение основного тона выполняется на основе фильтров с различной центральной частотой. Многомасштабный метод определения основного тона рассматривается в [10].

Количественная мера оценки точности выделения основного тона предлагается в [15]:

Введение

1. Обзор алгоритмов оценки частоты основного тона

© Гай В.Е., 2012.

где Е - оценка точности; К - количество измерений основного тона; - порог разделения грубых ошибок оценки и мелких отклонений; N - нормированная ошибка оценки основного тона; рк - оценка периода основного тона на выходе алгоритма; рк - контрольное значение периода для к-й точки, известное заранее.

Пусть А}) - исходный сигнал, представляющий собой запись голоса диктора, содержащую всю необходимую информацию для оценки частоты основного тона. Параметры алгоритма:

1) порог, используемый при сравнении амплитуд двух максимумов (Т);

2) длина анализируемого сегмента (Ь).

Исходные данные для алгоритма - спектральное представление сигнала £, построенное на основе ^-преобразования для одномерных сигналов [11, 12, 13, 14]. Спектральное представление Б включает М спектров, где М - число сегментов сигнала (формируется один уровень разложения). Каждый спектр представляет собой набор коэффициентов = [ё0, ..., При формировании спектра используется Г фильтров. Спектр вычисляется по отрезку сигнала длиной Ь отсчётов, со смещением в Т отсчётов. При реализации алгоритма используются фильтры Уолша системы Хармута [13, 14]. Сегменты не пересекаются (Т = Ь). Рассмотрим шаги алгоритма оценки основного тона.

1) Выполнить сравнение спектров разложения Б друг с другом: если суммарная разница элементов г-го иу'-го спектров меньше порога Т1, то значение г-го элемента массива N увеличивается на единицу. При сравнении спектров не учитывается отклик нулевого фильтра.

2) Сформировать массив Я (длина массива равна длине массива Ы):

3) Выполнить поиск последовательностей единиц в массиве Я. Каждая такая последовательность соответствует вокализованному участку исходного сигнала. Таким образом, после обработки массива Я будет получено разбиение исходного сигнала на вокализованные / невокализованные участки.

Для каждого сигнала значения параметров индивидуальны, однако следует придерживаться следующих замечаний по связи значений параметров:

а) не рекомендуется использовать значение Ь > 200, так как это существенно снижает точность выделения периодических элементов;

б) при уменьшении длины сегмента Ь надо уменьшать порог Т, иначе не будут выделяться периодические сегменты;

в) при увеличении длины сегмента Ь надо увеличивать порог Т, иначе вместе с периодическими сегментами будут выделяться участки сигнала, находящиеся рядом с компонентой и отличающиеся от неё по структуре (например, такие участки не содержат периодов, входящих в компоненту);

г) значение параметра Т2 влияет на точность выделения периодических компонент: меньшее значение параметра соответствует более точному выделению периодических составляющих (в данном случае под точностью понимается выделение компоненты с выраженной периодичностью), также уменьшение данного параметра приводит к уменьшению числа выделенных компонент;

д) при применении алгоритма рекомендуется начать с меньших значений Ь, если для них алгоритм не выдаёт результат, значение Ь нужно увеличивать.

2. Алгоритм выделения основного тона

2.1. Выделение периодической компоненты речевого сигнала

0, иначе.

2.2. Выделение максимумов сигнала

Одним из этапов является выделение максимумов сигнала. Максимумы выделяются на основе разложения, полученного на предыдущем шаге алгоритма.

После проведённого анализа участков сигналов, включающих максимумы, были выделены четыре типовых спектра, наличие которых указывает на расположение максимума относительно центра рассматриваемого сегмента (обозначается стрелкой над спектром, рис. 1 ). Стрелка вверх обозначает, что максимум приходится на центр анализируемого сегмента. В нижней части рис. 1 в квадратах показаны фильтры, формирующие отклики.

Для определения типа спектров необходимо сравнить отклики первого и второго фильтров:

1) если | 51 | > | s2 | и 51 > 0, то спектр относится к первому типу;

2) если | 51 | > | 52 | и 51 < 0, то спектр относится ко второму типу;

3) если | 51 | < | 52 | и 52 > 0, то спектр относится к третьему типу;

4) если | 51 | < | 52 | и 52 < 0, то спектр относится к четвёртому типу.

шшшш

а)

шшаш

б

шшаш

в

шшшш

г)

Рис. 3. Классификация спектров:

а - первый тип (—■); б - второй тип (—); в - третий тип (Т); г - четвёртый тип (—)

1

3

2

4

При анализе спектров сигнала может возникнуть ситуация, когда значения откликов первого и второго фильтров будут эквивалентны по модулю. В этом случае считается, что данные спектры относятся к третьему типу (см. рис. 7).

Выше описаны особенности спектров, которые позволяют определить позицию максимума относительно центра сегмента. В зависимости от ситуации для определения позиции максимума требуется два или три спектра. Например, возможны следующие ситуации:

1) спектр третьего типа указывает позицию максимума, спектр второго типа подтверждает найденную позицию;

2) позицию максимума определяют идущие подряд спектры первого и второго типов.

При анализе реальных сигналов были выделены следующие цепочки спектров, указывающих на присутствие максимума в сигнале на протяжении спектров, образующих цепочку:

1) —Т— (—^ТТ.-ТТ——, как вариант, в начале сигнала: ТТ-ТТ—, в конце сигнала: —^ТТ---ТТ) или Т;

2) —Т;

3) Т—;

4) ТТТ (несколько пиков принимаются за один);

5) цепочка ТТТ— (—ТТТ) распадается на две: ТТ и Т— (—Т и ТТ);

6) — •>

7) - ——• •>

8) — ——• •>

9) — —; •>

10) — Т;

11) Т —; •>

12) — —

Предполагается, что каждая из найденных цепочек соответствует только одному максимуму. Необходимо отметить, что цепочка ^^Т^^, а также все цепочки, построенные по похожему принципу, т.е. с дублированием первых и последних спектров, т.е. спектров одинакового типа, сокращается до ^Т^.

Таким образом, алгоритм выделения максимумов сигнала состоит из следующих этапов:

1) определение типа каждого спектра разложения (разметка сигнала);

2) выделение в размеченном сигнале описанных выше цепочек;

3) поиск максимума в 1-й цепочке:

• определение координаты начала (х) и конца (у) цепочки в сигнале;

• поиск на отрезке сигнала [х; у] спектра третьего типа с использованием механизм тремора;

• определение координаты максимума;

5) вследствие того, что при поиске максимума с помощью тремора существует некоторая погрешность определения его координаты, необходимо выполнить уточнение положения максимума на уровне отсчётов.

Одним из параметров алгоритма выделения максимумов является длина анализируемого сегмента сигнала L. Априорно не известно значение L, которое нужно выбрать для построения разложения сигнала. Оценить точность выделения максимумов при использовании заданного L можно, используя следующее выражение:

N /

Е = Е / М И/*.

На рис. 4 показан результаты выделения максимумов сигнала при L = 16.

0,9

0,2-1-1-1-1-1-1-^

0 200 400 600 800 1000 1200 1400

Рис. 4. Результат выделения максимумов при различных значениях Ь

2.3. Алгоритм определения основного тона

1. Предварительная оценка основного тона. Результаты, полученные на данном шаге, используются для оценки основного при дальнейшей работе алгоритма:

1.1. Определение позиции максимума максиморума сигнала (А);

1.2. Предварительная оценка расстояний между максимумами сигнала (в отсчётах): вычисляется расстояние от максимума А до ближайших максимумов ф и О, близких к нему по амплитуде (используется порог 7), расстояния AB и AC не должны отличаться более чем на 25 %, в противном случае необходимо проверить следующие максимумы;

1.3. Уточнение расстояний: рядом с найденными максимумами B и C могут быть максимумы, превосходящие их по амплитуде (период может быть сложной формы, рис. 5). По-

этому нужно поискать максимумы рядом, чтобы удостовериться, что рядом нет больших максимумов. Если же таковые присутствуют, то необходимо заменить индекс найденного ранее максимума на индекс максимума с большей амплитудой.

Рис. 5. Поиск ближайших максимумов:

.....- глобальный максимум

2. Определение основного тона периодов сигнала:

2.1. Поиск ближайшего по амплитуде максимума для В слева, обозначим найдённый максимум буквой Б;

2.2. Поиск ближайшего по амплитуде максимума для С справа, обозначим найдённый максимум буквой Е;

2.3. Расстояния БВ и СЕ не должны отличаться друг от друга, а также от расстояний AB и ВС более чем на 25%, в противном случае необходимо повторно выполнить шаги 4.1-4.2 с учётом координат найдённых максимумов. Если расстояния отличаются на допустимое значение, то координаты Б и Е сохраняются в массив Я, после чего выполняется обновление значений В и С: В = Б, С = Е.

Данный шаг выполняется до тех пор, пока не будут обработаны все максимумы, находящиеся слева и справа от А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Вычислить расстояния между максимумами по массиву Я:

V г е [1; #-1]:

ДО = Я(0 - Я(г+1), где N - количество элементов в массиве Я;

4. Поиск корректных расстояний: некорректным является расстояние, отличающееся от максимального из расстояний АВ, АС более чем на 25%.

Результат работы алгоритма - массив расстояний Б между максимумами, которые ограничивают периоды сигнала. По указанному массиву вычисляется массив частот основного тона Е:

V г е [1; #]:

Е(г) = С / до,

где С - частота дискретизации исходного сигнала.

Заранее неизвестно, какие значения Т и Ь позволят наиболее точно определить частоту основного тона. Поэтому предлагается выполнить оценку с помощью следующих наборов значений параметров: Т = [0.01 0.05 0.1 0.15 0.2 0.25], Ь = [4, 8], после чего из всех результатов выбрать наиболее точную оценку основного тона. Оценку точности выделения основного тона при использовании параметров {Ь, Т} можно выполнить, используя следующее выражение, приведённое в п. 2.2. Большие значения Е указывают на более точную оценку основного тона.

3. Вычислительный эксперимент

0,6 0,55 0,5 0,45 0,4 0,35 0,3 0,25

"0 100 200 300 400 500

Рис. 6. Тестовый сигнал 1

1

0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1

0 100 200 300 400 500 600 700 800

Рис. 7. Тестовый сигнал 2

Набор частот основного тона, вычисленных по сигналу, приведённому на рис. 6: 166, 158, 173, 179, 186 Гц, на рис. 7: 140, 144, 137, 141, 142, 142, 146 Гц. Точность оценки основного тона для первого сигнала составляет 3,4%, для второго - 5,1%.

Тестирование проводилось на речевых сигналах 20 дикторов (10 мужчин, 10 женщин). Результаты тестирования подтвердили достоверность работы предложенного алгоритма.

Заключение

В работе предлагается алгоритм оценки частоты основного тона. К достоинствам алгоритма относятся возможность обработки периодических сигналов сложной формы.

По сравнению с другими алгоритмами, работающими во временной области, предлагаемый алгоритм позволяет обрабатывать сложные периодические сигналы (с большим количеством гармоник) без предварительного сглаживания сигнала фильтрами нижних частот.

Библиографический список

1. Светозарова, Н. Д. Интонационная система русского языка / Н.Д. Светозарова. - Л.: 1982. - 176 с.

2. Аграновский, А.В. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов / А.В. Аграновский, Д.А. Леднов. - М.: Радио и связь, 2004. - 164 с.

3. Катаева, О.В. Многоаспектная природа «Мелодики речи» // Аналитика культурологи. 2005. Вып. 2(4).

4. Kedem, B. Spectral analysis and discrimination by zero-crossings / B. Kedem // Proceedings of the IEEE, 74(11): 1477-1493, November 1986.

5. Cheveigne, A. Yin, a fundamental frequency estimator for speech and music / A. Cheveigne, H. Kawahara // Journal of the Acoustical Society of America. 2002. 111(4).

6. Gerhard, D. Audio visualization in phase space / D. Gerhard // Mathematical Connections in Art, Musicand Science. 1999. P. 137-144.

7. Piszczalski, M. Predicting musical pitch from component frequency ratios / M. Piszczalski, A.B. Galler // Journal of the Acoustical Society of America. 1979. 66(3). P. 710-720.

8. Moorer, J. A. On the transcription of musical sound by computer / J. A. Moorer // Computer Music Journal. 1977. November. P. 32-38.

9. Geoffiois, E. The multi-lag-window method for robust extended-range f0 determination / E.Geoffiois // Fourth International Conference on Spoken Language Processing. 1996. V. 4. P. 2239-2243.

10. Утробин, В. А. Информационные модели системы зрительного восприятия для задач компьютерной обработки изображений / В.А. Утробин. - Н. Новгород: НГТУ, 2001. - 234 с.

11. Утробин, В. А. Компьютерная обработка изображений. Принятие решений в пространстве эталонов / В.А. Утробин. Н. Новгород: НГТУ, 2004. - 221 с.

12. Хармут, Х.Ф. Применение методов теории информации в физике: [пер. с англ.] / Х.Ф. Хар-мут. - М.: Мир, 1989. - 344 с.

13. Хармут, Х. Ф. Передача информации ортогональными функциями: [пер. с англ.] / Х.Ф. Хармут. - М.: Связь, 1975. - 272 с.

14. Бабкин, В.В. Помехоустойчивый выделитель основного тона речи // 7-я Международная конференция и выставка цифровая обработка сигналов и ее применение Б8РЛ-2005, Москва 16-18 марта 2005 г. - М., 2005.

Дата поступления в редакцию 20.01.2012

V.E. Gai

METHOD FOR DETERMINING THE PITCH OF THE VOICE SIGNAL

Nizhny Novgorod State Technical University n.a. R.Y. Alexeev

A method of determining the signal pitch. Examines the entire sequence of steps to determine the pitch, beginning with the selection of voiced segment of the signal. Developed algorithm is based on the theory of active perception, adapted to the analysis of speech signals. The results of the conducted experiments to confirm the possibility of using the suggested algorithm for the solution.

Key words: digital signal processing, analysis of speech signals, pitch.

i Надоели баннеры? Вы всегда можете отключить рекламу.