ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ
НАУКА. ИННОВАЦИИ ТЕХНОЛОГИИ, №3, 2016
УДК 621.39 Жиляков Е.Г. [Zhilyakov E.G.],
Белов С.П. [Belov S.P.], Медведева А.А. [Medvedeva А.А.], Курлов А.В. [Kurlov A.V.], Лихолоб П.Г. [Likholob P.G.]
ОБ ОДНОМ АЛГОРИТМЕ ОПРЕДЕЛЕНИЯ
ИНФОРМАЦИОННЫХ
ЧАСТОТНЫХ ИНТЕРВАЛОВ*
About one algorithm of determining the frequency intervals information
Рассматривается задача анализа отрезков речевых сигналов, с целью выявления их особенностей. Необходимость решения таких задач возникает в области сегментации и распознавания речи, ее сжатия и очистки от шумов. Анализ литературных источников показывает, что наиболее часто при решении таких задач используются частотные представления. При этом наиболее эффективным является использование субполосного частотного анализа, суть которого заключается в соотнесении свойств отрезков сигналов с некоторым разбиением оси частот на интервалы конечной ширины. В рамках данной статьи представлены результаты исследования метода определения информационных частотных интервалов в речевых сигналах, полученные на основе применения субполосного частотного анализа. Определена зависимость вероятности ошибочного определения информационных частотных интервалов от уровня энергии накладываемого шума. Результаты исследования алгоритма определения информационных частотных интервалов свидетельствуют о целесообразности использования адаптивного порога для определения информационных частотных интервалов в задачах анализа речевых сигналов.
Ключевые слова: речевые сигналы, информационные частотные интервалы в речевых сигналах, субполосный частотный анализ, распределение энергии речевых сигналов в частотной области.
Considers the problem of analysis of speech signals, with the aim of identifying their characteristics. The needs to solve these problems arise in the field of speech recognition and segmentation, its compression and removal of noise. Analysis of the literature shows that the most commonly used frequency representation in solving such problems. The most effective is the use of sub-band frequency analysis, the essence of which lies in the correlation properties of the signal segments with some splitting the frequency axis into intervals of finite width. In this article the results of research method for determining the frequency domain information in the speech signals obtained on the basis of sub-band frequency analysis. The dependence of the probability of an erroneous definition of frequency intervals information on the energy level of noise overlay. Results of the study algorithm for determining the frequency intervals of information indicate the feasibility of using an adaptive threshold to determine the frequency intervals of information for the analysis of speech signals.
Keywords: speech signals, information of frequency intervals in the speech signals, subpolicy frequency analysis, energy distribution of speech signals in the frequency domain.
* Работа подготовлена в рамках II Международной конференции «Параллельная компьютерная алгебра и ее приложения в новых инфоком-муникационных системах»
При решении различных задач обработки речевых сигналов (таких как сегментация, распознавание речи, сжатие, очистка речи от шума и др.) возникает необходимость предварительного анализа отрезков речевых сигналов, с целью выявления их особенностей. Анализ литературных источников показывает, что наиболее эффективным является анализ особенностей распределения энергии речевых сигналов в частотной области. При этом наиболее эффективным является использование субполосного анализа [1], суть которого заключается в соотнесении свойств отрезков сигналов с некоторым разбиением оси частот на интервалы конечной ширины.
Для вычисления энергии, сосредоточенной в заданном частотном интервале предлагается использовать субполосные матрицы А,, с элементами вида [1]:
а;к=(*т(У2г(1-к))-*т(Г1г(1~к)))/(х(1-к)) а^(У2г-У1г)/л:
где V и V - соответственно нижняя и верхняя частоты г-го частотного интервала.
Использование соотношения:
Рг{Х]у) = ХхАгХн, (2)
позволяет вычислить точное значение энергии анализируемого отрезка речевого сигнала хм = (хг.., х,;)7. сосредоточенной в г-ом частотном интервале, не переходя в частотную область.
В выражении (2) N - длительность анализируемого отрезка сигнала в отсчетах, Т обозначает операцию транспонирования.
Использование данного математического аппарата позволяет проводить анализ особенностей распределения энергии отрезков речевых сигналов, соответствующих различным звукам речи (рис. 1-4).
Рис. 1. Фрагмент речевого сигнала, порожденного звуком «а»
(Га= 16 кГц, N = 256).
Длительность сигнала, отсчетов
Рис. 2. Фрагмент речевого сигнала, порожденного звуком «ш»
16 кГц, N = 256).
Как видно из представленных рисунков для различных звуков русской речи характерно разное распределение энергии в области частот.
При решении ряда задач обработки речевых сигналов интерес представляет определение в автоматическом режиме частотных интервалов, которые несут основную информацию о характере звука, так называемых информационных частотных интервалов.
Очевидно, что к информационным частотным интервалам необходимо отнести интервалы, в которых сосредоточена большая энергия, превышающая некоторое пороговое значение.
0.25
0.15
0 05 -
0 1000 2000 3000 4000 5000 6000 7000 8000 Частота, Гц
Рис. 3.
Распределение энергии фрагмента речевого сигнала, порожденного звуком «а» 16 кГц, N = 256,А? = 128).
0.045 0.04 0.035
та
1 0.03
г
о
2 0.025
та ш
ё 0.02 сх
| 0.015 о
0 01 0.005 0
0
1000 2000
3000 4000 5000 6000 Частота, Гц
7000 8000
Рис. 4.
Распределение энергии фрагмента речевого сигнала, порожденного звуком «ш» 16 кГц, N = 256, Я = 128)
№3, 2016
ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ
Об одном алгоритме определения информационных частотных интервалов
27
Рис. 5. Фрагмент речевого сигнала, порожденного звуком «а»
(fd= 16 кГц, N = 256).
О 03
_I_I_l_I_I_
О 50 100 150 200 250 300
Длительность сигнала, отсчетов
Рис. 6.
Фрагмент речевого сигнала, порожденного звуком «ш» (fd= 16 кГц, N = 256).
В качестве порогового значения предлагается выбирать среднее значение энергии, приходящейся на анализируемый частотный интервал. Таким образом, решение о принадлежности частотного интервала к информационным будет приниматься при выполнении условия [2]:
Рг(хм)>\\хм ||2 (Г2г-Г1г)/я:. (3)
Все остальные интервалы в этом случае представляют собой неинформационные частотные интервалы. На рисунках 5-8 представлены результаты определения информационных частотных интервалов в соответствии с выражением (3) для некоторых звуков русской речи.
Как видно из представленных рисунков, использование предложенного алгоритма позволяет выделить информационные частотные интервалы с преобладающей энергией. Интерес представляет устойчивость определения информационных частотных интервалов к воздействию аддитивных шумов.
Для выявления чувствительности определения информационных частотных интервалов к воздействию аддитивного шума были оценены вероятности ошибочного определения информационных частотных интервалов для различных звуков русской речи при разных отношениях шум/сигнал. При этом оценивались две вероятности: вероятность ошибок первого и второго рода:
=инф ■ ^все_неинф- *
'°ои<2 — -— ^инф ^все инф- Р.»
где Нинф- количество частотных интервалов, ошибочно отнесенных к информационным; ^все_неинф - количество неинформационных частотных интервалов, использованных для исследования; ^шф ~ количество частотных интервалов, верно отнесенных к
информационным; N все _инф - количество информационных частотных интервалов, использованных для исследования.
ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ
. Об одном алгоритме определения информационных частотных интервалов .
Рис. 7. Распределение энергии фрагмента речевого сигнала, по-
рожденного звуком «а» с указанием информационных частотных интервалов 16 кГц, N = 256, Я = 128).
Рис. 8. Распределение энергии фрагмента речевого сигнала, по-
рожденного звуком «ш» с указанием информационных частотных интервалов 16 кГц, Л/= 256, /? = 128).
Информационные и неинформационные частотные интервалы, используемые для исследования, определялись при отсутствии шумов. В таблице 1 представлены результаты оценки вероятностей первого и второго рода для различных длительностей отрезков анализа.
Табл. 1. ЗНАЧЕНИЯ ВЕРОЯТНОСТЕЙ ОШИБОЧНОГО ПРИНЯТИЯ
РЕШЕНИЯ ПРИ РАЗЛИЧНЫХ ЗНАЧЕНИЯХ ОТНОШЕНИЯ ШУМ/СИГНАЛ 16 кГц)
Отношение Рош1 Рош2
шум/сигнал N = 128 N = 256 N = 128 N = 256
0,1 0,0132 0,0142 0,0026 0,0028
0,2 0,0287 0,0289 0,0052 0,0058
0,3 0,0424 0,0447 0,0083 0,0088
0,4 0,0559 0,0605 0,0119 0,0124
0,5 0,0689 0,0762 0,0164 0,0170
0,6 0,0815 0,0916 0,0235 0,0242
0,7 0,0939 0,1065 0,0362 0,0367
0,8 0,1061 0,1210 0,0553 0,0555
0,9 0,1182 0,1349 0,0794 0,0791
1,0 0,1299 0,1485 0,1060 0,1053
Из таблицы видно, что вероятности ошибочного принятия решения при различных длительностях отрезка анализа отличаются незначительно и не превышают 0,15.
Таким образом, использование предлагаемого подхода позволяет определить информационные частотные интервалы даже при высоком отношении шум/сигнал, что позволяет говорить о целесообразности использования данного метода в задачах анализа и обработки речевых сигналов.
Работа выполнена при поддержке гранта РФФИ № 15-0701463 "Разработка методов и алгоритмов автоматического распознавания устной речи с использованием субполосного анализа речевых сигналов".
Библиографический список
1. Жиляков, Е.Г. Вариационные методы анализа сигналов на основе частотных представлений [Текст] / Е.Г. Жиляков, С.П. Белов, A.A. Черноморец // Вопросы радиоэлектроники, сер. ЭВТ, вып. 1. Москва: Электроника, 2010. 185 с.
2. Жиляков Е.Г О сегментации речевых сигналов на однородные отрезки [Текст] / Жиляков Е.Г, Белов С.П., Белов A.C., Фирсо-ва A.A. // Научные ведомости Белгородского государственного университета, Серия Экономика Информатика, №7(204), вып. 34/1, 2015, с. 194-199.