УДК 534.87
В. Е. Гай, В. А. Утробин
МЕТОДИКА ВЫДЕЛЕНИЯ В ЗВУКОВОМ СИГНАЛЕ УЧАСТКОВ РЕЧЕВОЙ АКТИВНОСТИ
Аннотация. Рассматривается алгоритм выделения пауз в речевом сигнале. Разработанный алгоритм основан на использовании теории активного восприятия, адаптированной к анализу речевых сигналов. Результаты проведенных экспериментов подтверждают возможность использования предложенного алгоритма для решения поставленной задачи.
Ключевые слова: цифровая обработка сигналов, теория активного восприятия, анализ речевых сигналов, выделение пауз в речевом сигнале.
Abstract. The article considers an algorithm of isolating the pauses in a speech signal. The developed algorithm is based on the use of the theory of active perception adapted for the analysis of speech signals. Results of the experiments confirm the possibility of the offered algorithm application for solving the problem.
Key words: digital signal processing, theory of active perception, speech signal analysis, pauses isolation in a speech signal.
Введение
Сегментация является одной из задач цифровой обработки и анализа речевых сигналов с целью выделения в сигнале участков речевой активности и пауз. В данной работе под паузой понимается сегмент речевого сигнала, на котором отсутствует речевая активность.
Сегментация является одним из первых этапов решения различных задач цифровой обработки сигналов, например задачи улучшения речевого сигнала, распознавания речи и т.п. В телекоммуникационных системах сегментация сигнала применяется для уменьшения объема передаваемых данных за счет исключения пауз.
Длительность паузы обычно определяется причиной ее образования. В разговорной речи паузы возникают, когда органы артикуляции находятся в сомкнутом состоянии, что связано с произношением смычных согласных. Длительность таких пауз составляет 0,1 с [1]. В процессе чтения длительность лингвистических пауз на границах синтагм (последовательности слов или морфем) не превышает 0,75 с, а между предложениями изменяется от 0,5 до 1,5 с [2, 3].
Таким образом, в данной работе будет использоваться предположение о том, что длительность паузы может изменяться от 0,1 до 1,5 с.
Одна из проблем, которая возникает при выделении пауз - зашумленность исходного сигнала. В связи с этим алгоритм сегментации сигнала должен обладать устойчивостью к наличию различного рода шумов в сигнале. Необходимо отметить, что в слуховой системе человека также реализованы механизмы помехоустойчивого восприятия [4]:
1) эфферентная обратная связь снижает чувствительность улитки при наличии шума и снижает риск перегрузки, защищает улитку от повреждения громким звуком [5];
2) бинауральное взаимодействие правого и левого каналов слуховой системы позволяет повысить разборчивость речи;
3) стременная мышца среднего уха позволяет увеличить жесткость цепи слуховых косточек, что приводит к уменьшению проводимой ими энергии и позволяет компенсировать помехи большой интенсивности.
Предлагаемые в работе алгоритмы основаны на теории активного восприятия [6, 7].
Рассмотрим алгоритмы, применяемые при выделении пауз. В работе [8] предложен метод сегментации сигналов, основанный на теории распознавания речи и нечеткой логике. Данный метод может применяться для обработки зашумленных сигналов.
Алгоритм определения активности голоса на основе максимума апостериорной информации и критерия Неймана - Пирсона рассматривается в [9].
Алгоритм выделения пауз, описанный в [10, 11], основан на предположении о том, что дискретное преобразование Фурье речи и шума представляет собой асимптотически независимые гауссовы случайные переменные.
В работе [12] рассматривается алгоритм определения активности речи, основанный на использовании дискретного косинусного преобразования. Алгоритм разработан с учетом того, что закон распределения речи и шума соответствует гауссовой и лапласовой моделям.
Алгоритм сегментации сигнала, основанный на вычислении автокорреляционной функции сигнала, рассматривается в [13]. Данный алгоритм разработан для систем реального времени и реализован на DSP-платформе для улучшения речи в слуховых аппаратах.
Алгоритм выделения пауз, основанный на адаптивном преобразовании Карунена - Лоэва, рассматривается в [14].
Необходимо отметить, что существующие методы выделения пауз обычно пытаются оптимизировать один из следующих параметров: точность выделения пауз, временную задержку, вычислительную сложность.
Для оценки качества сигнала используем отношение сигнал/шум (signal-to-noise ration, SNR) [15]:
где 5 - исходный сигнал; V - шум; Ns и N - количество отсчетов в исходном и шумовом сигналах.
Пусть ДО - исходный (анализируемый) сигнал. Предлагаемый алгоритм состоит в последовательном «грубо-точном» анализе сигнала:
1) разбить анализируемый сигнал ДО на сегменты длиной Ь отсчетов;
2) вычислить первую, вторую и третью производные для каждого сегмента;
3) если значения производных /-го сегмента равны нулю, то отметить рассматриваемый сегмент как относящийся к паузе и исключить его из дальнейшей обработки;
1. Обзор существующих алгоритмов
2. Предлагаемые методы выделения пауз
2.1. Алгоритм выделения пауз в неискаженном сигнале
4) если значения производных i-го сегмента не равны нулю, выполнить дальнейшее разбиение рассматриваемого сегмента, после чего для каждого его подсегмента выполнить шаги 2-3.
Алгоритм завершает работу, когда будет выполнена классификация каждого сегмента сигнала или достигнут определенный уровень разрешения. Если достигнут определенный уровень разрешения и существуют неклассифицированные сегменты, производные для которых не равны нулю, то такие сегменты помечаются как относящиеся к участкам речевой активности.
С учетом того, что принятая минимальная длина паузы в работе составляет 0,1 с, можно рассчитать минимальную длину анализируемого сегмента сигнала при известной частоте дискретизации:
L = 0,1F, (1)
где F - частота дискретизации сигнала.
2.2. Алгоритм выделения пауз в зашумленном сигнале
Описанный выше алгоритм позволяет сегментировать незашумленный сигнал. В реальных условиях такие сигналы вследствие наличия искажений в линиях связи, аппаратном обеспечении и наложении шума окружающей среды практически не встречаются. Следовательно, алгоритм выделения пауз должен учитывать присутствие шума. Алгоритм, предлагаемый для решения этой задачи, состоит из следующих шагов:
1) разбить анализируемый сигнал ft) на сегменты длиной L;
2) вычислить первую, вторую, третью производные и среднее
1 L
M = LI f (t) для каждого из сегментов;
L i=1
3) вычислить суперпозицию полученных значений параметров для каждого сегмента, если результат вычисления суперпозиции для i-го сегмента превышает некоторое пороговое значение, можно предположить, что данный сегмент содержит участок речевой активности;
4) определить участки сигнала, в которых сосредоточена речевая активность;
5) реализовать механизм расширения/сжатия областей, в которых сосредоточена речевая активность с целью уточнения границ областей сигнала, относящихся к областям речевой активности (данный механизм подобен алгоритму расширения/сжатия области зрительного поля [16]).
Алгоритм завершает работу, когда будет выполнена классификация каждого сегмента сигнала.
3. Вычислительный эксперимент
Реализация предложенных алгоритмов выполнена в системе Octave. Тестирование выполнялось на ЭВМ с процессором AMD Turion 2 Dual-Core Mobile M500, 2,20 ГГц, 4 Гб оперативной памяти.
Тестовый сигнал показан на рис. 1. Частота дискретизации сигнала -16 кГц, глубина кодирования - 16 бит, длительность - 8,192 с. Результат ручной сегментации сигнала приведен на рис. 2. Минимальный размер сегмента L при указанных параметрах сигнала составляет 1024 отсчета (64 мс). При вычислении длины сегмента по формуле (1) (рис. 3) в качестве результирую-
щей длины выбирается число, являющееся степенью двойки. Минимальная длина сегмента составляет 128 отсчетов (8 мс). Необходимо отметить, что слуховая система оценивает изменения в звуковом импульсе, происходящие на интервале времени меньше 1 мс [16].
Рис. 1. Исследуемый сигнал
Рис. 2. Ручная сегментация сигнала
Результаты исследования предложенного алгоритма на тестовом сигнале (рис. 4) показали, что ошибка первого рода (ошибочное выделение паузы) составляет 0,02, ошибка второго рода (пропуск паузы) - 0,017. Время обработки сигнала составляет 0,18 с.
При тестировании алгоритма выделения пауз в искаженном сигнале использованы следующие аддитивные шумы:
1) теоретические (модельные):
- нормальный;
- равномерный;
2) реальные:
- шум автомагистрали;
- шум улицы;
- звук двигателя поезда;
- звук горелки аэростата.
Рис. 3. Результат выделения пауз
Рис. 4. Разница между ручной и автоматической сегментацией
Шум автомагистрали субъективно похож на нормальный шум. Отличие между ними заключается в том, что шум автомагистрали содержит участки нарастания интенсивности, появляющиеся в момент приближения автомобиля к устройству регистрации звука.
Длина обрабатываемого сегмента Ь на основе экспериментов, проведенных с незашумленным сигналом, выбрана равной 128 отсчетам. Время обработки сигнала не зависит от типа шума и составляет 0,14 с.
Результаты применения алгоритма к исходному сигналу, искаженному различными шумами, показаны в табл. 1. В столбце с заголовком 1 приведена ошибка первого рода (количество ложных выделений пауз, в процентах), в столбце 2 - ошибка второго рода (количество пропущенных пауз, в процентах).
Результаты оценки среднеквадратического отклонения (СКО) шума, искажающего сигнал, приведены в табл. 2.
Таблица 1
Результаты работы алгоритма
ОСШ Шум
норма- льный равно- мерный аэростата автомаги- страли поезда улицы
1 2 1 2 1 2 1 2 1 2 1 2
30 дБ 0 6 0 6 0 0 5 5,6 0 5 0 5,8
20 дБ 0 6 0 6,7 3,1 3,3 4,3 5,9 0 6 0 4,2
10 дБ 0 7,1 10 3,8 30,6 14,6 3,7 3,9 1,5 3,5 5,3 3,3
5 дБ 1,5 7,8 32,4 1,9 35,4 40,2 3,8 4,4 14,8 3,5 20,1 1,5
0 дБ 31,4 4 51,8 0 35,5 46,7 4 2,4 40,1 3,7 20,7 3,6
Таблица 2
Характеристики шума (СКО шума)
Шум
ОСШ норма- льный равно- мерный аэростата автомаги- страли поезда улицы
30 дБ 0,00171 0,00405 0,00260 0,00091 0,00089 0,00083
20 дБ 0,00559 0,01327 0,00813 0,00454 0,00445 0,00417
10 дБ 0,02021 0,04034 0,01951 0,01362 0,01423 0,00835
5 дБ 0,03495 0,05762 0,03903 0,02088 0,02313 0,01669
0 дБ 0,05013 0,11537 0,06992 0,84024 0,03503 0,03004
На рис. 5-7 приведен тестовый сигнал, искаженный различными шумами, а также результат его сегментации.
Результаты исследования помехоустойчивого алгоритма сегментации речевого сигнала:
1) при увеличении длительности обрабатываемого сигнала снижается точность сегментации, одно из возможных решений данной проблемы - отдельная обработка участков сигнала длительностью 2-3 с;
2) если сравнить точность выделения границ участков « и «2 (Л1 - максимальная амплитуда участка «1; Л2 - участка «2; Л1 << Л2), то точность выделения границ участка «1 ниже, чем участка «2, это можно объяснить различной степенью влияния накладываемого шума на участки речевого сигнала с различной амплитудой;
3) если сравнить точность выделения границ участков «1 и «2 (Ь1 - длина «1; Ь2 - участка «2; Ь1 << Ь2), то точность выделения границ участка «1 ниже, чем участка «2.
Можно отметить, что предложенный алгоритм по параметру «точность сегментации» не уступает существующим алгоритмам сегментации речевых сигналов [15], а в ряде случаев, показывает лучшие результаты.
Заключение
В работе рассмотрены подходы к сегментации речевого сигнала на участки речевой активности и паузы. Предложены два алгоритма, один из которых предназначен для сегментации речевых сигналов, искаженных шумом, второй - для сегментации неискаженных сигналов. При разработке алгоритмов выделения пауз использовались методы, основанные на аналогичных механизмах, функционирующих в системе зрительного восприятия.
0.4 -
0 2
а)
б)
10
х 10
12
х 10
х 10
Рис. 5. Сегментация сигнала, зашумленного нормальным шумом (ОСШ = 10 дБ): а - сигнал; б - результат сегментации
а)
х 10
Рис. 6. Сегментация сигнала, зашумленного нормальным шумом (ОСШ = 0 дБ): а - сигнал; б - результат сегментации (см. также с. 92)
0,4 -
0.2 ■
б)
Рис. 6. Окончание
10
12
х 10
10 12
х 10
б)
10
1| 1 1 1 1 1 1 0 2 4 6 8 10 12 14 4 х 10 а)
| 0 2 4 1 6 1 1 1 8 10 12
Л - ^ х 10 1|ц .1^1
12
х 10
Рис. 7. Сегментация сигнала, искаженного звуком горелки аэростата (ОСШ = 20 дБ): а - сигнал; б - результат сегментации
В работах отечественных и зарубежных авторов также отмечается аналогия процессов обработки информации в зрительной и слуховой системах.
Можно отметить следующие преимущества предложенного алгоритма перед существующими: низкая вычислительная сложность, отсутствие настраиваемых параметров, простота реализации и точность выделения пауз.
Дальнейшие исследования будут направлены на анализ возможности применения предложенного подхода к сегментации речевых сигналов, искаженных мультипликативным шумом.
Список литературы
1. Варшавский, Л. А. Исследование формантного состава и некоторых других характеристик звуков русской речи / Л. А. Варшавский, И. М. Литвак // Проблемы физиологической акустики. - 1955. - Т. 3. - С. 5-17.
2. Шейкин, Р. Л. К анализу механизмов возникновения пауз в речи / Р. Л. Шей-кин // Механизмы речеобразования и восприятия сложных звуков. - М.-Л. : Наука, 1966. - С. 31-44.
3. Goldman-Eister, F. Pauses, clauses, centences / F. Goldman-Eister // Language and Speech. - 1972. - V. 15, № 3. - P. 103-113.
4. Альтман, Я. А. Тенденции развития физиологии слуха / Я. А. Альтман, С. Ф. Вайтулевич, И. А. Вартанян, И. Г. Андреева, Е. С. Малинина // Успехи физиологических наук. - 2005. - Т. 36, № 1. - С. 3-23.
5. Николлс, Д. От нейрона у мозгу / Д. Николлс, Р. Мартин, , Б. Валлас, П. Фукс ; пер. с англ. П. М. Балабана, А. В. Галкина, Р. А. Гиниатуллина, Р. Н. Хазипова, Л. С. Хируга. - М. : Едиториал УРСС, 2003. - 672 с.
6. Утробин, В. А. Информационные модели системы зрительного восприятия для задач компьютерной обработки изображений : учебное пособие / В. А. Утробин. - Н. Новгород : Изд-во НГТУ, 2001. - 234 с.
7. Утробин, В. А. Компьютерная обработка изображений. Принятие решений в пространстве эталонов : учебное пособие / В. А. Утробин. - Н. Новгород : Изд-во НГТУ, 2004. - 221 с.
8. Beritelli, F. A robust voice activity detector for wireless communications using soft computing / F. Beritelli, S. Casale, A. Cavallaro // IEEE Journal on Selected Areas in Communications. - 1998. - V. 16, № 9. - P. 1818-1829.
9. McKinley, B. L. Model based speech pause detection / B. L. McKinley,
G. H. Whipple // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP ’97). - Munich, Germany, 1997. - V. 2. -P. 1179-1182.
10. Sohn, J. A statistical model-based voice activity detection / J. Sohn, N. S. Kim, W. Song // IEEE Signal Processing Letters. - 1999. - V. 6, № 1. - P. 1-3.
11. Cho, Y. D. Analysis and improvement of a statistical model-based voice activity detector / Y. D. Cho, A. Kondoz // IEEE Signal Processing Letters. - 2001. - V. 8, № 10. -P. 276-278.
12. Gazor, S. A soft voice activity detector based on a Laplacian-Gaussian model / S. Gazor, W. Zhang // IEEE Transactions on Speech and Audio Processing. - 2003. -V. 11, № 5. - P. 498-505.
13. Sheikhzadeh, H. Real-time implementation of HMM-based MMSE algorithm for speech enhancement in hearing aid applications / H. Sheikhzadeh, R. L. Brennan,
H. Sameti // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP ’95). - Detroit, Mich, USA, 1995. - V. 1. -P. 808-811.
14. Rezayee, A. An adaptive KLT approach for speech enhancement / A. Rezayee, S. Gazor // IEEE Transactions on Speech and Audio Processing. - 2001. - V. 9, № 2. -P. 87-95.
15. Pwint, M. Speech / Nonspeech Detection Using Minimal Walsh Basis Functions / M. Pwint, F. Sattar // EURASIP Journal on Audio, Speech, and Music Processing. -2006. - V. 2007. - P. 3-12.
16. Элементы теории биологических анализаторов / под ред. Н. В. Позина. - М. : Наука. Главная редакция физико-математической литературы, 1978. - 360 с.
Гай Василий Евгеньевич
кандидат технических наук, доцент, кафедра вычислительных систем и технологий, Нижегородский государственный университет им. Р. Е. Алексеева
E-mail: [email protected]
Утробин Владимир Александрович доктор технических наук, профессор, кафедра вычислительных систем и технологий, Нижегородский государственный университет им. Р. Е. Алексеева
E-mail: [email protected]
Gai Vasily Evgenyevich
Candidate of engineering sciences, associate
professor, sub-department of computing
systems and technologies, Nizhny
Novgorod State University named
after R. E. Alekseev
Utrobin Vladimir Alexandrovich Doctor of engineering sciences, professor, sub-department of computing systems and technologies, Nizhny Novgorod State University named after R. E. Alekseev
УДК 534.87 Гай, В. Е.
Методика выделения в звуковом сигнале участков речевой активности / В. Е. Гай, В. А. Утробин // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2011. - № 4 (20). - С. 85-94.