Научная статья на тему 'Об однозначности определения идентификационно-значимой частотной полосы в звуках русской речи, подверженных влиянию шума'

Об однозначности определения идентификационно-значимой частотной полосы в звуках русской речи, подверженных влиянию шума Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
213
59
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЕВЫЕ ДАННЫЕ / ЧАСТОТНАЯ ПОЛОСА / ЧАСТОТНЫЙ ИНТЕРВАЛ / ЧАСТЬ ЭНЕРГИИ / СУБПОЛОСНАЯ МАТРИЦА / СУБПОЛОСНЫЙ АНАЛИЗ / ИДЕНТИФИКАЦИОННО-ЗНАЧИМАЯ ЧАСТОТНАЯ ПОЛОСА / ПОРОГ / ЧАСТОТНЫЙ ПОТЕНЦИАЛ / VOICE DATA / FREQUENCY BAND / THE FREQUENCY INTERVAL OF THE ENERGY MATRIX OF THE SUBBAND / SUBBAND ANALYSIS / IDENTIFICATION / SIGNIFI-CANT FREQUENCY BAND / THE THRESHOLD FREQUENCY POTENTIAL

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Жиляков Е.Г., Лихолоб П.Г., Курлов А.В., Медведева А.А.

В работе описано применение моделей звуков русской речи для задач шумоочистки, сжатия, стеганографического кодирования с позиции субполосных представлений. Введены критерии, влияющие на определение частотной полосы, доступной для изменения. Введено понятие «частотный потенциал». Представлен способ оценки частотного потенциала отрезка речевого сигнала. В статье представлены результаты исследования влияния шума на величину частотного потенциала различных звуков русской речи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Жиляков Е.Г., Лихолоб П.Г., Курлов А.В., Медведева А.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The paper describes the use of Russian speech sounds models for noise suppression tasks, compression, steganographic encoding position subband representations. Introduced criteria that influence the determination of the frequency band available for change. The concept of frequency potential. The way of evaluating the frequency potential of the speech signal segment. The article presents the results of a study of noise impact on the value of the frequency potential of different sounds of Russian speech.

Текст научной работы на тему «Об однозначности определения идентификационно-значимой частотной полосы в звуках русской речи, подверженных влиянию шума»

Серия Экономика. Информатика. 2016. №2 (223). Выпуск 37

ИНФОРМАЦИОННО-ТЕЛЕКОММУНИКАЦИОННЫЕ

ТЕХНОЛОГИИ

УДК 004.415.24

ОБ ОДНОЗНАЧНОСТИ ОПРЕДЕЛЕНИЯ ИДЕНТИФИКАЦИОННО-ЗНАЧИМОЙ ЧАСТОТНОЙ ПОЛОСЫ В ЗВУКАХ РУССКОЙ РЕЧИ, ПОДВЕРЖЕННЫХ

ВЛИЯНИЮ ШУМА

ON THE UNIQUENESS OF CERTAIN IDENTIFYING SIGNIFICANT FREQUENCY BANDS IN THE SOUND RUSSIAN SPEECH EXPOSED TO NOISE

Е. Г. Жиляков, П.Г. Лихолоб, А.В. Курлов, А.А. Медведева E.G. Zhilyakov, P.G. Likholob, A.V. Kurlov, A.A. Medvedeva

Белгородский государственный национальный исследовательский университет, Россия, 308015, Белгород, ул. Победы, 85

Belgorod State National Research University, 85 Pobeda St, Belgorod, 308015, Russia e-mail: Zhilyakov@bsu.edu.ru, Likholob@bsu.edu.ru, Kurlov@bsu.edu.ru, Medvedeva_aa@bsu.edu.ru

Аннотация. В работе описано применение моделей звуков русской речи для задач шумоочистки, сжатия, стеганографического кодирования с позиции субполосных представлений. Введены критерии, влияющие на определение частотной полосы, доступной для изменения. Введено понятие «частотный потенциал». Представлен способ оценки частотного потенциала отрезка речевого сигнала. В статье представлены результаты исследования влияния шума на величину частотного потенциала различных звуков русской речи.

Resume. The paper describes the use of Russian speech sounds models for noise suppression tasks, compression, steganographic encoding position subband representations. Introduced criteria that influence the determination of the frequency band available for change. The concept of frequency potential. The way of evaluating the frequency potential of the speech signal segment. The article presents the results of a study of noise impact on the value of the frequency potential of different sounds of Russian speech.

Ключевые слова: речевые данные, частотная полоса, частотный интервал, часть энергии, субполосная матрица, субполосный анализ, идентификационно-значимая частотная полоса, порог, частотный потенциал.

Key words: voice data, frequency band, the frequency interval of the energy matrix of the subband, subband analysis, identification, signifi-cant frequency band, the threshold frequency potential.

Человек для информационного обмена достаточно часто использует устную речь. Осуществляя информационный обмен на расстоянии, нередко устную речь преобразуют в речевые данные. Под речевыми данными будем понимать цифровую фиксацию в дискретные моменты времени аудио-сигнала, порождаемого устной речью на выходе микрофона. Естественно предположить, что результат воспроизведения речевых данных будет отличаться от исходного звучания устной речи. Уменьшение отличия между исходной речью и результатом ее цифрового представления является важным аспектом при решении различных задач, направленных на повышение качества звучания речи. Под качеством звучания будем понимать разборчивость, громкость и натуральность. Кроме того, важным критерием качества звучания также является комфортность. Комфортность обусловлена сохранением в речевом сигнале частотных компонент, формирующих ее тональную окраску и лингвистические признаки [1].

В процессе создания, записи, передачи и обработки речевых данных составной частью выступают шумовые компоненты. Шумовые компоненты возникают вследствие неидеальности записывающей аппаратуры, собственных шумов микрофона, электромагнитных наводок либо в результате применения информационных технологий обработки данных. При этом стоит учесть, что спектральная полоса шума зачастую перекрывает спектр речевого сигнала. Это приводит к тому, что в некоторой доле частотной полосы энергия шумовых компонент может превысить энергию компонент речевых данных, изменяя частотные свойства речи. Таким образом, появление шума оказывает влияние на качество и комфортность звучания речи при ее воспроизведении.

Зачастую ухудшение качества восприятия речи происходит вследствие сильного влияния энергии шума на частотные компоненты речевых данных, содержащие малую долю энергии. Следовательно, можно повысить качество восприятия речи, удаляя (фильтруя) малоэнергетические частотные компоненты, наиболее подверженные влиянию шума.

Частотные компоненты речевых данных с большей энергией оказывают большее влияние

на качество воспроизведения. Следовательно, эту часть полосы стоит оставлять без изменения. Оси ^ и и ^ и

новной проблемой при этом является адаптивный выбор частотной полосы, энергия в которой влияет на качество и комфортность восприятия речи.

Известно, что у большинства звуков русской речи энергия частотных компонент содержится в малой доле частотной полосы. Это энергетическое свойство можно положить в основу модели восприятия речи человеком. Характеристику, оценивающую часть энергии Рг (х), сосредоточенной в частотном интервале г возможно определить из соотношения [2]

Р (x) = JL JIX(v)2do, Г

е R ,

оеПг

где ^г - частотная субполоса; Я - количество частотных субполос, образующих частотную полосу; х = ((, х2,..., ) - отрезок речевых данных; X(у) - трансформанта Фурье:

(1)

X (v) =

- jv( n-1)

(2)

где хп - отсчеты анализируемого отрезка речевых данных; N - длительность отрезка речевых данных; у - мнимая единица (у2 = -1).

Частотные компоненты, влияющие на комфортность звучания, формируют ее тональную окраску и помогают улучшить качество звучания, определяя идентификационно-значимые свойства речевого сигнала. А частотную полосу, в которой содержится подавляющая часть энергии этих компонент, естественно назвать идентификационно-значимой.

На рисунке 1 представлен отрезок речевых данных, порожденных звуком «а», и результаты оценки трансформанты Фурье (2). На рис. 1 б заштрихованная область соответствует визуально определенной идентификационно-значимой частотной полосе, которая содержит подавляющую часть энергии сигнала.

AQ Г

а

£

s

а

I

N

32 64 96

длительность сигнала, отчетов

МЧ

1.5708

частота

v

L

а б

Рис. 1. Отрезок речевых данных, порожденных звуком «а» в слове «кадры»:

а) огибающая амплитуд x ; б) огибающая нормированного амплитудного спектра X Fig. 1. The length of the voice data generated by the sound of "a" in the word "cadres":

a) amplitude envelope x ; b) the envelope of the normalized amplitude spectrum X

n=1

x 10

3

0.2

2.5

0.1

2

0.05

0

1.5

0.1

-0.15

н "0.5

-0.2

0

0

0

0.7854

2.3562

Для удобства анализа распределения энергии речевых данных частотную полосу предлагается разбивать на непересекающиеся частотные интервалы, обеспечивая при этом выполнение условия

(2(Я -1)+ 1) = *, (3)

где Я - количество частотных интервалов, на которые была разбита полоса частот; Л^1 - ширина

первого частотного интервала.

При этом предполагается, что все интервалы, кроме первого, имеют одинаковую ширину Л^г, определяемую следующим образом:

ДОг = 2 •ДО1, г = 2,..., Л (4)

Использование такого разбиения обусловлено вычислительными аспектами использования субполосных матриц и наличием у отрезка речевых данных постоянной составляющей.

Также стоит отметить, что речевые данные, порожденные устной речью, - это цифровое представление нестационарного, сложно-модулированного сигнала, порождаемого работой речевого аппарата или ее отсутствием. В ходе экспериментов было выявлено, что, с течением времени, у речевых данных изменяются как временное представление, так и распределение энергии по частотным интервалам. При этом доля энергии, содержащейся в идентификационно-значимой частотной полосе, практически не изменяется. Эта закономерность выполняется в том случае, если отрезки речевых данных получены в одних и тех же условиях (для одного звука при длительности отрезков анализа до 20 мс). Таким образом, это свойство частотной концентрации энергии необходимо учитывать при анализе и обработке отрезков речевых данных, порожденных звуками устной речи. При этом необходимо определить множество идентификационно-значимых частотных интервалов (). Очевидно, что для их определения целесообразно осуществлять сравнение энергии каждого частотного интервала с пороговым значением. В случае, если энергия превышает заданный порог, частотный интервал целесообразно считать идентификационно-значимым. Проблема заключается в том, что изменяется не только энергия сигнала, но и распределение долей энергии по частотным интервалам. Поэтому для определения идентификационно-значимых частотных интервалов () целесообразно использовать адаптивный порог, учитывающий долю энергии, содержащуюся в изменяемой от отрезка к отрезку полосе частот. Стоит отметить, что порог должен быть слабо чувствителен к наличию энергии шума.

Учитывая свойства нестационарности и концентрации энергии речевых данных, в качестве адаптивного порога предлагается использовать среднее значения энергии, приходящееся на частотную полосу.

К (х) = |\х\\2 • ДО.г /л, Г=1,2,...,Л (5)

Исходя из выражения (1) и адаптивного порога (5), будем иметь в энергетической области неравенство (6), определяющее номера частотных интервалов, принадлежащих к идентификационно-значимым:

2

\\х\\

Рг(х)>Ц--ДОг, г е (6)

г л г

где ||х||2 - энергия отрезка речевых данных.

Во многих задачах обработки речевых сигналов представляет интерес анализ размера частотной полосы, которую можно подвергнуть обработке без воздействия на информационно-значимые частотные интервалы (в задачах сжатия, стеганографического кодирования, шумочист-ки). На рисунке 1 б - это не заштрихованная частотная область. Характеристику, оценивающую долю пригодной для изменения частотной полосы, выделенную при сравнении энергии частотной полосы с адаптивным порогом (5) определим, как частотный потенциал речевых данных:

В = [л-X ДО г ]/л, (7)

где ДОг - ширина частотного интервала; - множество идентификационно-значимых частотных интервалов.

Частотный потенциал (7) определяет отношение суммарной ширины частотных интервалов, не содержащих энергию идентификационно-значимых частотных компонент, к числу п.

При многократном анализе частотной полосы отрезка речевых данных, условно разбитой на равные частотные интервалы, удобно использовать математический аппарат, построенный на использовании субполосных матриц [2, 3, 4]:

Р (х ) = хтАгх , (8)

где А - субполосная матрица, определяемая элементами:

Аг = К ^ а'а = (вш^,( - к)) - 5ш(цг( - к)))/(л(т - к)),

а'п = (2г -Цг )/л , г е Я, I, к = 1,., N . Математический аппарат позволяет, без перехода в область частот, определять значение части энергии, сосредоточенной в частотном интервале.

Иллюстрацией работы решающего правила (6), при использовании математического аппарата (8) является рисунок 2.

я

m

P„

ТФФ

порог ^

К

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

§

■г с о а

а -

I'OOSiiiQiiiiiiSiiiSniiiiiSiasiSiiiSiti-

R

5 10 15 20 25

номер частотного интервала

Ж

частотная полоса

Рис. 2. Частотное распределение энергии отрезка речевого сигнала, порожденного звуком «а» слова «кадры»

( fd =8кГц, диктор мужчина, при длительности отрезка равной N=128 отсчетов) Fig. 2. The frequency distribution of the speech signal segment of the energy generated by the sound of «a» of the word «cadres» ( fd = 8 kHz, Speaker man, with a duration equal to the length N = 128 samples)

На рис. 2 отображено распределение частей энергии по частотной оси для звука «а», огибающая амплитуд и спектра которого отображены на рис. 1. Отрезок речевых данных в количестве N =128 отсчетов был разбит на R=32 частотных интервала.

Для каждого частотного интервала в соответствии с (8), было найдено значение части энергии, сосредоточенной в анализируемом частотном интервале. Результатом работы решающего правила (6) стало отнесение к идентификационно-значимой полосе частотных интервалов с номерами 1-8 и 15. На рис. 2 видно, что энергия в этих интервалах превышает пороговое значение, отмеченное пунктирной линией.

Появление шума приводит к изменению распределения энергии по частотной оси, что в свою очередь оказывает влияние на определение частотных компонент, не относящихся к идентификационно-значимым. Необходимость правильного определения идентификационно-значимых частотных интервалов связана с тем, что воздействие на них приводит к ухудшению качества звучания речевых сигналов. Таким образом, необходимо исследовать чувствительность адаптивного порога к шуму, что позволит избежать следующих негативных случаев.

Случай 1. Неэффективное использование частотной полосы, вызванное некорректным определением частотного потенциала речевых данных. К данному случаю относятся ситуации, когда оценка частотного потенциала D занижена. В системах сжатия это приводит к необходимости хранения большего объема информации. В случае реализации стеганографических систем при неэффективном использовании частотной полосы будет передан меньший объем информации.

Случай 2. Ухудшение качества звучания речевого сигнала вследствие неверного определения значимости частотного интервала (идентификационно-значимый частотный интервал ошибочно отнесен к частотному потенциалу).

В качестве модели, описывающей воздействие шума на отрезок речевых данных, будем использовать соотношение

y = x + h0 • и , (10)

где y - отрезок речевых данных, содержащий шумовую компоненту; и - отрезок данных, соответствующий шуму (IUI2 = 1); h02 - отношение шум/сигнал.

В таблице 1 представлены результаты оценки частотного потенциала D при длительности отрезков анализа 8 мс (N=128 отсчетов при /¿=8кГц). Для оценки частотного потенциала было использовано более Z =3200 отрезков речевых данных, записанных с частотой дискретизации /з=8кГц и разрядностью кода 16 бит.

В качестве эталона в таблице использованы оценки частотного потенциала, определенные для отрезков речевых сигналов, не подверженных зашумлению.

Как видно из таблицы 1, при увеличении отношения шум/сигнала величина частотного потенциала изменяется. Это свидетельствует о наличии ошибок определения частотного потенциала. Интерес представляет оценка устойчивости определения частотного потенциала к воздействию шумов.

0.16

0.14

0.12

0.08

0.06

0.04

0.02

0

0

30

Таблица 1 Table 1

Значения частотного потенциала The values of the frequency potential

гласные

звук а е е и о у ы э ю я

эталон 0,8049 0,8732 0,8777 0,8859 0,8331 0,8857 0,8908 0,8344 0,8735 0,8606

h02 =0.01 0,8085 0,8746 0,8823 0,8880 0,8358 0,8885 0,8921 0,8376 0,8698 0,8636

h2 =°л 0,8086 0,8764 0,8783 0,8884 0,8355 0,8876 0,8922 0,8374 0,8673 0,8632

сонорные согласные

звук й л м н р

эталон 0,8781 0,8711 0,9145 0,9204 0,8209

h02 =0.01 0,8789 0,8731 0,9166 0,9215 0,8214

h2 =0.1 0,8779 0,8736 0,9164 0,9206 0,8196

звонкие согласные

звук б в г д ж з

эталон 0,9155 0,8735 0,8680 0,8816 0,8250 0,8728

h02 =0.01 0,9165 0,8758 0,8663 0,8832 0,8323 0,8736

ho2 =0.1 0,9153 0,8763 0,8651 0,8846 0,8329 0,8711

глухие согласные

звук к п с т ф х ц ч ш щ

эталон 0,7569 0,8170 0,7586 0,7259 0,7806 0,7724 0,7180 0,7334 0,7783 0,7622

h02 =0.01 0,7586 0,8115 0,7628 0,7295 0,7836 0,7783 0,7273 0,7390 0,7867 0,7660

ho2 =°л 0,7591 0,8130 0,7614 0,7228 0,7818 0,7786 0,7251 0,7303 0,7832 0,7641

Гипотеза Но: частотный интервал относится к частотному потенциалу.

Вероятность ошибки первого рода Ра обозначает ложное принятие решающим правилом (6) положительного решения, то есть частотный интервал, входящий в частотный потенциал речевых данных, в результате воздействия шума, будет отнесен к идентификационно-значимому:

Р«= Л/(XЛ) , (11)

где Я1 - количество частотных интервалов, ошибочно отнесенных к идентификационно-значимым из-за воздействия шума; 7 - количество проанализированных отрезков речевых данных; Л0 - количество частотных интервалов, относящихся к частотному потенциалу г-го отрезка анализа.

Вероятность ошибки второго рода Рр обозначает ложное принятие решающим правилом (6)

отрицательного решения, то есть частотный интервал, не входящий в частотный потенциал речевых данных, в результате воздействия шума будет к нему отнесен:

Рр = %>/(ЕЛ 1 , (12)

р

/ V ¿=1 У

где Я0 - количество частотных интервалов, ошибочно отнесенных к частотному потенциалу в последствии воздействия шума, 2 - количество проанализированных отрезков речевых данных; Ли -количество частотных интервалов, относящихся к идентификационно-значимым для г-го отрезка анализа.

В таблицах 2 и 3 и на рисунке 3 представлены результаты оценки вероятностей ошибок первого и второго рода, определенные на основе анализа свыше 2 =3200 отрезков речевых данных, записанных с частотой дискретизации /з=8кГц и разрядностью кода 16 бит при различных отношениях сигнал/шум, К02. При этом для анализа были использованы отрезки длительностью N=128 отсчетов (8 мс) при разбиении частотной оси на R=32 непересекающихся интервала.

Таблица 2 Table 2

Значения вероятностей ошибок первого и второго рода для всех звуков русской речи The values of the probabilities of the first and the second kind of errors for all the sounds

of Russian speech

Вероятность ошибки первого рода, Ра Вероятность ошибки второго рода, Рр

h2 звук 0.0001 0.001 0.1 1 0.0001 0.001 0.1 1

а 0,0008 0,0025 0,0082 0,0852 0,0007 0,0025 0,0082 0,0290

б 0,0005 0,0014 0,0039 0,0816 0,0003 0,0007 0,0020 0,0057

в 0,0003 0,0013 0,0040 0,0817 0,0004 0,0017 0,0050 0,0155

г 0,0012 0,0025 0,0057 0,0832 0,0002 0,0014 0,0055 0,0186

д 0,0004 0,0014 0,0059 0,0865 0,0008 0,0022 0,0063 0,0172

е 0,0003 0,0008 0,0033 0,0807 0,0005 0,0015 0,0047 0,0135

е 0,0009 0,0031 0,0083 0,0890 0,0014 0,0030 0,0052 0,0115

ж 0,0008 0,0023 0,0096 0,0968 0,0013 0,0037 0,0103 0,0291

з 0,0008 0,0022 0,0076 0,0921 0,0007 0,0019 0,0057 0,0157

и 0,0002 0,0009 0,0026 0,0764 0,0002 0,0008 0,0027 0,0088

й 0,0004 0,0012 0,0037 0,0800 0,0006 0,0011 0,0025 0,0094

к 0,0018 0,0048 0,0148 0,0982 0,0018 0,0057 0,0170 0,0505

л 0,0002 0,0006 0,0023 0,0763 0,0003 0,0009 0,0031 0,0109

м 0,0004 0,0014 0,0040 0,0804 0,0003 0,0011 0,0032 0,0083

н 0,0003 0,0009 0,0035 0,0806 0,0005 0,0012 0,0030 0,0072

о 0,0005 0,0014 0,0052 0,0792 0,0006 0,0018 0,0058 0,0205

п 0,0012 0,0034 0,0106 0,0981 0,0009 0,0039 0,0120 0,0374

р 0,0012 0,0036 0,0136 0,1057 0,0011 0,0038 0,0123 0,0355

с 0,0021 0,0068 0,0236 0,1209 0,0021 0,0069 0,0205 0,0573

т 0,0028 0,0078 0,0240 0,1148 0,0022 0,0061 0,0199 0,0631

у 0,0003 0,0010 0,0038 0,0814 0,0004 0,0012 0,0038 0,0108

ф 0,0020 0,0063 0,0216 0,1215 0,0021 0,0063 0,0185 0,0520

х 0,0015 0,0044 0,0148 0,1007 0,0014 0,0045 0,0141 0,0445

ц 0,0022 0,0083 0,0275 0,1203 0,0026 0,0085 0,0265 0,0769

ч 0,0023 0,0068 0,0211 0,1125 0,0017 0,0060 0,0193 0,0592

ш 0,0018 0,0047 0,0145 0,1018 0,0011 0,0039 0,0129 0,0408

щ 0,0014 0,0047 0,0176 0,1105 0,0018 0,0058 0,0170 0,0502

ы 0,0003 0,0010 0,0037 0,0815 0,0004 0,0011 0,0029 0,0083

э 0,0005 0,0019 0,0064 0,0860 0,0009 0,0024 0,0064 0,0202

ю 0,0006 0,0020 0,0054 0,0826 0,0003 0,0006 0,0019 0,0128

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

я 0,0003 0,0017 0,0047 0,0819 0,0008 0,0017 0,0041 0,0144

Таблица 3 Table 3

Средние значения вероятностей ошибок первого и второго рода The average error probability values of the first and second kind

Отношение сигнал/шум, А02 0.0001 0.001 0.1 1

Ошибка первого рода, Ра 9.7032e-04 0.0030 0.0098 0.0925

Ошибка второго рода, Р^ 9.8045e-04 0.0030 0.0091 0.0276

Результаты исследований показали, что в среднем вероятность ошибки первого рода составляет порядка 0.0925, а вероятность ошибки второго рода - 0.0276. Для звуков таких как «ф», «с», «ц», «т», «ч», «щ», «р», «ш», «х», «к», «п», «ж», вероятность ошибки больше, что связано с их природой. Данные звуки относятся к классам шумовых и взрывных согласных. В свою очередь, вероятность ошибочного принятия решения для гласных и сонорных звуков речи меньше.

P„

0.1 0.2 0.3 0.4 0.5 0.6 0.7 отношение шум/сигнал

0.9

Рис. 3. Результат оценки вероятностей ошибок первого и второго рода, при воздействии флуктуационной помехи Fig. 3. The outcome of the assessment of probabilities of errors of the first and second kind, when exposed

to fluctuation interference

0

ä

2

h

0

0

1

Выводы

Таким образом, при анализе речевых данных целесообразно оценивать частотный потенциал речевых данных, представляющий собой частотные компоненты, доля энергии которых меньше адаптивного порога. Частотный потенциал речевых данных не используется слуховой системой человека и может быть использован в задачах сжатия и кодирования речевых данных, а также в задачах скрытия информации. Вероятности ошибок первого и второго рода при воздействии аддитивных шумов с отношением сигнал/шум И02 =1 составляют порядка 0,09 и 0,03 соответственно, что свидетельствует об устойчивости определения частотного потенциала отрезков речевых сигналов.

Работа выполнена при поддержке грантов РФФИ № 15-07-01570 «Субполосная скрытная интеграция/извлечение дополнительной информации в аудио или видео контентах» и РФФИ № 15-07-01463 «Разработка методов и алгоритмов автоматического распознавания устной речи с использованием субполосного анализа речевых сигналов».

Список литературы References

1. Аграновский, А.В. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов / А.В. Аграновский, Д.А. Леднов - М.: Радио и связь, 2004. - 164 с.

Agranovskij, A.V. Teoreticheskie aspekty algoritmov obrabotki i klassifikacii rechevyh signal-ov/A.V.Agranovskij, D.A. Lednov - M.:Radio i svyaz, 2004. - 164 s.

2. Жиляков Е.Г. О сегментации речевых сигналов на однородные отрезки / Жиляков Е.Г., Белов С.П., Белов А.С., Фирсова А.А. // Научные ведомости БелГУ. Сер. История. Политология. Экономика. Информатика. № 7(204), вып.34/1, 2015г, с.194-199.

ZHilyakov, E.G. O segmentacii rechevyh signalov na odnorodnye otrezki / ZHilyakov E.G., Belov S.P., Belov A.S., Firsova A.A.// NaucNauchnye vedomosti BelGU. Ser. Jekonomika. Informatika. № 7 (204), vyp.34/1, 2015g, s.194-199.

3. Жиляков, Е.Г. Вариационные методы анализа и построения функций по эмпирическим данным / Е.Г. Жиляков. - Белгород: Изд-во БелГУ, 2007. - 160с.

ZHilyakov, E.G. Variacionnye metody analiza i postroeniya funkcij po ehmpiricheskim dannym / E.G. ZHilya-kov. - Belgorod: Izd-vo BelGU, 2007. - 160s.

4. Жиляков, Е.Г. Вариационные методы анализа сигналов на основе частотных представлений / Е.Г. Жиляков, С.П. Белов, А.А. Черноморец// Вопросы радиоэлектроники, сер. ЭВТ, вып.1. - Москва: Изд-во ОАО «ЦНИИ «Электроника», 2010. - 185с.

ZHilyakov, E.G.Variacionnye metody analiza signalov na osnove chastotnyh predstavlenij / E.G. ZHilyakov, S.P. Belov, A.A. CHernomorec/ / Voprosy radioehlektroniki, ser. EHVT. vyp.1. - Moskva: Izd-vo OAO CNII EHlek-tronika, 2010. - 185s.

i Надоели баннеры? Вы всегда можете отключить рекламу.