Научная статья на тему 'Об одном подходе к уменьшению объема битовых представлений речевых данных без пауз'

Об одном подходе к уменьшению объема битовых представлений речевых данных без пауз Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
159
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОТРЕЗОК РЕЧЕВОГО СИГНАЛА / РЕЧЕВЫЕ ДАННЫЕ / РАСПРЕДЕЛЕНИЕ ЭНЕРГИИ / СУБПОЛОСНАЯ МАТРИЦА / СОБСТВЕННЫЕ ВЕКТОРА СУБПОЛОСНОЙ МАТРИЦЫ / ИНФОРМАЦИОННЫЕ ЧАСТОТНЫЕ ИНТЕРВАЛЫ / КОЭФФИЦИЕНТ СЖАТИЯ / КОДОВЫЕ КНИГИ КВАЗИОПТИМАЛЬНЫХ КВАНТОВАТЕЛЕЙ / SPEECH SIGNAL SEGMENT / SPEECH DATA / ENERGY DISTRIBUTION / SUBBAND MATRIX / EIGENVECTORS OF THE SUBBAND MATRIX / INFORMATION FREQUENCY INTERVALS / COMPRESSION RATIO / CODEBOOKS OF QUASI-OPTIMAL QUANTIZERS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Белов С. П., Медведева А. А., Болдышев А. В.

Непрерывное увеличение в информационно-телекоммуникационных системах (ИТС) потоков речевых сообщений, как наиболее естественной для человека формы информационного обмена, привело к почти полной занятости частотно-временных ресурсов современных ИТС. В связи с этим, сегодня созданы методы уменьшения объемов битовых представлений речевых данных (сжатие) как за счет удаления пауз между отдельными словами, так и за счет сжатия речевых сигналов, порождаемых собственно звуками речи, что позволило существенно уменьшить затраты частотновременных ресурсов ИТС при передаче этого вида трафика. Однако существующие сегодня подходы к сжатию собственно звуков речи, основанные на использовании психоакустической модели с применением грубого квантования по уровню так называемых субполосных преобразований отрезков (векторов) отсчетов речевых сигналов не являются оптимальными.В работе предлагается метод сжатия речевых данных без пауз, созданный на основе применения математического аппарата собственных векторов субполосных матриц, позволяющего адекватно сформулировать вариационные условия и решить оптимизационные задачи обработки речевых данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Белов С. П., Медведева А. А., Болдышев А. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The continuous increase the flows of voice messages in the information and telecommunications systems (ITS), as the most natural form of information exchange for a person, has led to the almost full employment of the time-frequency resources of modern ITS. In this regard, today, methods have been created for reducing the amount of bit representations of speech data (compression), both by removing pauses between individual words, and by compressing speech signals generated by the actual speech sounds, which significantly reduced the cost of ITS time-frequency resources this type of traffic. However, existing approaches to compression only of the sounds of speech, based on the use of a psychoacoustic model with the use of coarse quantization by level of so-called subband transformations of segments of speech signal samples (vectors) are not optimal.The paper proposes a method of compression of speech data without pauses, created on the basis of the application of the mathematical apparatus of the eigenvectors of subband matrices, which allows adequately to formulate variational conditions and solve optimization problems of processing speech data.

Текст научной работы на тему «Об одном подходе к уменьшению объема битовых представлений речевых данных без пауз»

УДК 004.522

ОБ ОДНОМ ПОДХОДЕ К УМЕНЬШЕНИЮ ОБЪЕМА БИТОВЫХ ПРЕДСТАВЛЕНИЙ РЕЧЕВЫХ ДАННЫХ БЕЗ ПАУЗ

ABOUT ONE APPROACH TO REDUCE THE VOLUME OF BIT VOTE REPRESENTATIONS WITHOUT PAUSE

12 2 С.П. Белов , А.А. Медведева , А.В. Болдышев

S.P. Belov1, A.A. Medvedeva2, A.V. Boldyshev2

1)1 Белгородский университет кооперации, экономики и права, Россия, 308023, г. Белгород, ул. Садовая, д. 116а 2) Белгородский государственный национальный исследовательский университет, Россия, 308015, г. Белгород, ул. Победы, д. 85

1)1 Belgorod University of Cooperation, Economics and Law, 116а Sadovaya St., Belgorod, 308023, Russia 2) Belgorod State National Research University, 85 Pobeda St., Belgorod, 308015, Russia

E-mail: [email protected], [email protected], [email protected]

Аннотация

Непрерывное увеличение в информационно-телекоммуникационных системах (ИТС) потоков речевых сообщений, как наиболее естественной для человека формы информационного обмена, привело к почти полной занятости частотно-временных ресурсов современных ИТС. В связи с этим, сегодня созданы методы уменьшения объемов битовых представлений речевых данных (сжатие) как за счет удаления пауз между отдельными словами, так и за счет сжатия речевых сигналов, порождаемых собственно звуками речи, что позволило существенно уменьшить затраты частотно-временных ресурсов ИТС при передаче этого вида трафика. Однако существующие сегодня подходы к сжатию собственно звуков речи, основанные на использовании психоакустической модели с применением грубого квантования по уровню так называемых субполосных преобразований отрезков (векторов) отсчетов речевых сигналов не являются оптимальными.

В работе предлагается метод сжатия речевых данных без пауз, созданный на основе применения математического аппарата собственных векторов субполосных матриц, позволяющего адекватно сформулировать вариационные условия и решить оптимизационные задачи обработки речевых данных.

Abstract

The continuous increase the flows of voice messages in the information and telecommunications systems (ITS), as the most natural form of information exchange for a person, has led to the almost full employment of the time-frequency resources of modern ITS. In this regard, today, methods have been created for reducing the amount of bit representations of speech data (compression), both by removing pauses between individual words, and by compressing speech signals generated by the actual speech sounds, which significantly reduced the cost of ITS time-frequency resources this type of traffic. However, existing approaches to compression only of the sounds of speech , based on the use of a psychoacoustic model with the use of coarse quantization by level of so-called subband transformations of segments of speech signal samples (vectors) are not optimal.

The paper proposes a method of compression of speech data without pauses, created on the basis of the application of the mathematical apparatus of the eigenvectors of subband matrices, which allows adequately to formulate variational conditions and solve optimization problems of processing speech data.

Ключевые слова: отрезок речевого сигнала, речевые данные, распределение энергии, субполосная матрица, собственные вектора субполосной матрицы, информационные частотные интервалы, коэффициент сжатия, кодовые книги квазиоптимальных квантователей.

Keywords: speech signal segment, speech data, energy distribution, subband matrix, eigenvectors of the subband matrix, information frequency intervals, compression ratio, codebooks of quasi-optimal quantizers.

Введение

Проблема уменьшения объемов битовых представлений речевых данных при их хранении и передаче рассматривается в работах многих авторов, особенно специалистов в области телекоммуникаций, что подтверждается результатами анализа научно-технической литературы [Сергиенко, Баринов, 2009.; Свириденко, 2009; Жиляков и др., 2007; Жиляков и др., 2005; Сэломон, 2004.; Санников, 2003; Шелухин, 2000; Ashwin, Kumaresan, 2000; Seki, 1958; Калинцев, 1991; Жиляков и др.,2010; Быков и др., 2003; Алдошина, 2002].

При этом отмечаются два основных аспекта: необходимость обнаружения с последующим их кодированием пауз [Шелухин, 2000; Калинцев, 1991; Жиляков и др.,2010; Жиляков и др., 2007; Белов и Прохоренко, 2006; Быков и др., 2003], возникающих между отдельными словами и в режиме диалога занимающих до 60% длительности исходных звукозаписей, и сокращение объемов битовых представлений собственно звуков речи без пауз [Сергиенко, Баринов, 2009.; Свириденко, 2009; Алдошина, 2002; Ковалгин, Вологдин, 2004].

Существующие методы сжатия звуков речи без пауз с использованием грубого квантования по уровню основываются на психоакустической модели, что приводит к необходимости применения так называемых субполосных преобразований отрезков (векторов) отсчетов речевых сигналов, позволяющих получить другие векторы, подвекторы которых отражают частотные свойства исходного вектора в выбранных диапазонах оси частот [Жиляков и др., 2007; Гусинская, Зайцев, 2004; Сергиенко, 2003; Синильников, 1988]. Именно компоненты этих подвекторов подвергаются квантованию по уровню с различными шагами, чем достигается учет частотно-избирательных свойств человеческого слуха. В настоящее время для субполосного преобразования принято использовать процедуру прореживания выходных последовательностей КИХ-фильтров (фильтров с конечной импульсной характеристикой), настроенных на соответствующие участки оси частот [Сергиенко, 2003; Синильников, 1988]. Такая процедура субполосного преобразования не является оптимальной в смысле минимума погрешностей аппроксимации спектров исходных векторов в выбранных частотных диапазонах, что приводит к увеличению погрешностей восстановления данных по квантованным значениям и, как следствие, к ухудшению качества воспроизводимой речи [Синильников, 1988].

В связи с этим, авторами предлагается метод сжатия речевых данных без пауз, созданный на основе применения математического аппарата собственных векторов субполосных матриц, позволяющего адекватно сформулировать вариационные условия и решить оптимизационные задачи обработки речевых данных.

Математические основы метода

Осуществляется обработка отдельных отрезков (векторов отсчетов) сигнала речи:

X = (*!,..., хы У (1)

в соответствии с выбранным равномерным разбиением полосы нормированных частот 0 <а <ж на Я интервалов Уг вида:

ул - ул =Щ Я; ГгМ = Ут2; г = 1;2... Я -1 (2)

одинаковой ширины. В основе сжатия данных используется свойство концентрации энергии речевых сигналов в малой доле частотной полосы, что позволяет использовать аппроксимацию вида

х = а ^ хг , (3)

геКт

где

Х- = А • х, (4)

а А - субполосная матрица, определяемая элементами:

А -{а г V - (г - к))- аЦ^ (г - к)) ,

Аг = \аг,к /, г,к = 1,..., Ж, ал =-Т—рг-; г * к.

7Г( - к)

11—112

Коэффициент а при сумме (3) выбирается из условия || хг || = тр|| , что дает:

■\fmjx

a =

r

rERm

(5)

где R - множество частотных интервалов минимальной суммарной ширины, для которых выполняются условия

Z P(X) = m II x ||2; (6)

0,85 < m < 0,98; (7)

где m - множество информационного частотных интервалов.

Соответствующие некоторым частотным интервалам компоненты вида (4) обладают свойством оптимальности в смысле:

J| X(a) - Xr(a)|2 da + J| Xr(a)|2 da I2л = min

aeVr a<tVr /

т.е. наилучшей аппроксимацией отрезков трансформанты Фурье Xr (a) исходного вектора в соответствующих частотных интервалах и допускают представление вида

Jr

Xr =ZAT^rqr ; air = (X, q r ), (8)

i=1

где Ä'r - собственные числа собственных векторов q. субполосной матрицы, принимающие значения 0 <Х < 1. Подстановка (8) в (3) дает разложение по набору собственных векторов:

~ j

x = ZZß^, (9)

rERm i = 1

где

ß = аХга1Г, i = 1,.., Jr. (10)

Так как наборы собственных векторов qrt предполагаются известными, то для

восстановления исходного отрезка достаточно сохранять информацию о соответствующих коэффициентах разложения. Проведенные исследования показали, что мощность множества частотных интервалов (int R) почти для всех звуков русской речи удовлетворяет соотношению

int Rm * 0,3R. (11)

Поэтому с учетом равенства J = N / R получаем коэффициент сжатия за счет использования аппроксимации (3) (по количеству сохраняемых чисел):

CH = N /(int Rm • J) * 3. (12)

Следующий шаг заключается в применении к коэффициентам разложения квантования по уровню с малым их количеством. В общем виде процедура квантования описывается следующим образом, если выполняется условие:

ßr SO m =[(Pm-1,9m ). (13)

то положим

ß; = dm, m = 1.....K, (14)

где K - количество используемых уровней квантования.

Проблема заключается в оптимальном выборе границ отрезков в (13) и значений dm в (14) в смысле минимизации погрешностей аппроксимации исходных данных квантованными значениями:

K

= 1 I (ßr - dm )2,(i = 1,..., J), r e Rm, (15)

m=1 ßr = Sm

где Sm - множество значений ßir, удовлетворяющих условию (13). В результате проведенных исследований было показано, что при заданных отрезках Om в (13) минимум

правой части (15) достигается на множестве уровней квантования, равных соответствующим средним значениям:

d = I(ß /intS ),m = 1,...,K, (16)

m / j ^'ir m-7' ' ' ' 4 y

ßr =Sm

где int Sm - мощность множества Sm (число попадающих в них значений ßir ). Введем положительную неубывающую последовательность:

0 < Zk < zA+i,k = 1;2... NK -1, (17)

NK = J • int Rm, (18)

причем

** e{ßß|}/7,i = 1,-, J; r e Rm;

/ = max|ßr |, Vi и r e Rm. (19)

Показано, что выполнение условий

K

1 Imi2m = max, (20)

111 = NK, (21)

" m

m=1

где

Z = У Z

m ' i=1 m-1

_ m

+i / Im , (22)

к =1 I,, к=о, 1=1

а также выбор уровней квантования в виде

2 = хт, т = 1,..., К, (23)

дает минимум погрешности аппроксимации ^ квантованными значениями

*:= 2 т, (24)

когда выполняется условие

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

+1 < < +1 . (25)

Реально вместо операции (24) следует использовать кодирование

со<2к = т, (26)

имея в виду, что номера уровней квантования целесообразно обозначать двоичными числами разрядности р, так что

К = 2Л (27)

Таким образом, количество уровней квантования целесообразно выбирать из множества (2; 4; 8 ...). В соответствии с этим в процессе проведения исследований был разработан алгоритм решения задачи (20), (21) с последовательным делением подпоследовательностей на две части, каждая из которых удовлетворяет этим условиям со своими параметрами 1т и <т (так как деление на две последовательности любой длины

несложно реализуется последовательным перебором). Использование стандартизованных последовательностей вида (17)-(19) позволяет не хранить значения уровней (23), а для восстановления данных использовать уровни из заранее сформированной кодовой книги, удовлетворяющей условию

K

Ё Im • (Zm - dm )2 = Ш1П , (28)

m

=1

где

D = {d[,...,dlK},d[ < d[ <... < dlK. (29)

Такие кодовые книги сформированы при К = 2; 4; 8 с учетом всех звуков русской речи с усреднением по множеству дикторов. В таблицах 1 -3 представлены некоторые из полученных кодовых книг, а также среднее значение уровней квантования для всех звуков и среднеквадратическое отклонение (СКО), вычисляемое по формуле

а =

1Ё(Nk, - Nk)2 , (30)

L,=1

где L - количество звуков русской речи; Nk уровень квантования; Nk - среднее значение уровня квантования.

Таблица 1 Table 1

Кодовые книги при квазиоптимальном квантовании на 2 уровня Code books for quasi-optimal quantization of 2 levels

Звуки речи 1-ый уровень 2-ой уровень

А 0.2875 0.7065

Б 0.2138 0.7845

В 0.2262 0.7623

Г 0.2437 0.7497

Д 0.2277 0.7749

Е 0.2425 0.7465

Е 0.2507 0.7676

Ж 0.2852 0.7143

З 0.2347 0.7726

И 0.2099 0.7838

и 0.2212 0.7451

К 0.3247 0.6721

Л 0.224 0.7656

М 0.2104 0.7801

Н 0.1955 0.794

Окончание табл. 1

О 0.2801 0.7313

П 0.2904 0.7223

Р 0.2839 0.7168

С 0.3282 0.6911

Т 0.3357 0.6718

У 0.2313 0.7641

Ф 0.3149 0.712

Х 0.2916 0.6782

Ц 0.3155 0.6648

Ч 0.3197 0.68

Ш 0.336 0.6802

Щ 0.3209 0.6771

Ы 0.2335 0.7397

Э 0.2672 0.7201

Ю 0.2354 0.7534

Я 0.2681 0.7262

Среднее значение 0,2661 0,7306

СКО 0,0434 0,0396

Таблица 2 Table 2

Кодовые книги при квазиоптимальном квантовании на 4 уровня Code books for quasi-optimal quantization of 4 levels

Звуки речи 1-ый уровень 2-ой уровень 3-й уровень 4-ый уровень

А 0.0911 0.3554 0.9133 0.9133

Б 0.0444 0.2847 0.9597 0.9597

В 0.0486 0.3058 0.952 0.952

Г 0.0558 0.3213 0.9344 0.9344

Д 0.0533 0.3003 0.9528 0.9528

Е 0.0558 0.3256 0.9481 0.9481

Е 0.0654 0.342 0.9453 0.9453

Ж 0.09 0.355 0.9097 0.9097

З 0.0544 0.306 0.95 0.95

И 0.0356 0.2847 0.965 0.965

и 0.0522 0.2983 0.946 0.946

К 0.1266 0.3917 0.8778 0.8778

Л 0.0431 0.2972 0.9543 0.9543

М 0.0381 0.2779 0.9619 0.9619

Н 0.0303 0.2602 0.9641 0.9641

О 0.0788 0.3603 0.929 0.929

П 0.1028 0.3744 0.8969 0.8969

Р 0.0832 0.3495 0.9148 0.9148

С 0.1239 0.3907 0.8799 0.8799

Т 0.1471 0.3991 0.8557 0.8557

У 0.0563 0.3112 0.9523 0.9523

Ф 0.1191 0.3758 0.8925 0.8925

Х 0.1012 0.3631 0.8983 0.8983

Ц 0.1228 0.3841 0.8587 0.8587

Ч 0.1321 0.3921 0.8705 0.8705

Ш 0.1327 0.3991 0.8708 0.8708

Щ 0.1235 0.3857 0.8641 0.8641

Ы 0.0495 0.3093 0.9488 0.9488

Окончание табл. 2

Э 0.0666 0.342 0.9272 0.9272

Ю 0.0599 0.3399 0.9399 0.9399

Я 0.075 0.3469 0.9116 0.9116

Среднее значение 0,0793 0,3396 0,9208 0,9208

СКО 0,0346 0,04047 0,0353 0,0353

Таблица 3 Table 3

Кодовые книги при квазиоптимальном квантовании на 8 уровня Code books for quasi-optimal quantization of 8 levels

Звуки 1-ый 2-ой 3-й 4-ый 51-ый 6-ой 7-ой 8-ой

речи уровень уровень уровень уровень уровень уровень уровень уровень

А 0.0134 0.1334 0.3973 0.3973 0.6254 0.6697 0.8711 0.9878

Б 0.005 0.0722 0.3207 0.3207 0.6998 0.7408 0.9327 0.9962

В 0.008 0.0788 0.3452 0.3452 0.6747 0.7172 0.9195 0.9915

Г 0.0061 0.0881 0.3621 0.3621 0.6543 0.6962 0.902 0.9932

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Д 0.0079 0.083 0.3401 0.3401 0.6926 0.7324 0.9256 0.9943

Е 0.0056 0.0887 0.3671 0.3671 0.6419 0.6849 0.9148 0.994

Ё 0.0043 0.103 0.3877 0.3877 0.6657 0.6993 0.9139 0.9962

Ж 0.0147 0.1304 0.396 0.396 0.6291 0.6681 0.8705 0.987

З 0.0091 0.0832 0.3462 0.3462 0.6823 0.719 0.924 0.9937

И 0.0032 0.0599 0.3204 0.3204 0.6954 0.7397 0.9406 0.9974

Й 0.0065 0.082 0.3371 0.3371 0.6579 0.7112 0.9096 0.9937

К 0.0249 0.1745 0.4354 0.4354 0.5901 0.6226 0.8304 0.9785

Л 0.0044 0.0712 0.3362 0.3362 0.6793 0.7236 0.9238 0.9954

М 0.0049 0.0642 0.3125 0.3125 0.6967 0.742 0.9371 0.9969

Н 0.0019 0.0525 0.2931 0.2931 0.7156 0.7623 0.9411 0.9979

О 0.0111 0.1217 0.404 0.404 0.6395 0.6772 0.8875 0.9912

П 0.0173 0.1494 0.4202 0.4202 0.6111 0.6457 0.8485 0.9826

Р 0.0123 0.12 0.3906 0.3906 0.6333 0.6735 0.878 0.9874

С 0.0279 0.1672 0.4297 0.4297 0.6157 0.6443 0.8376 0.973

Т 0.0367 0.1953 0.4419 0.4419 0.5881 0.6148 0.8059 0.9632

У 0.0054 0.0907 0.3538 0.3538 0.6679 0.7113 0.9209 0.9957

Ф 0.0238 0.166 0.4194 0.4194 0.6291 0.6589 0.8497 0.98

Х 0.0189 0.146 0.4019 0.4019 0.5885 0.628 0.8526 0.9809

Ц 0.0278 0.1644 0.4264 0.4264 0.5786 0.6111 0.8101 0.9666

Ч 0.0298 0.1846 0.4346 0.4346 0.5867 0.6206 0.82 0.9702

Ш 0.0304 0.1859 0.4425 0.4425 0.5984 0.6287 0.8213 0.9731

Щ 0.0241 0.1695 0.4315 0.4315 0.5926 0.627 0.8154 0.9724

Ы 0.0049 0.0816 0.3489 0.3489 0.6466 0.6964 0.9171 0.9964

Э 0.009 0.1052 0.3895 0.3895 0.6251 0.6709 0.8852 0.9908

Ю 0.0065 0.0971 0.3805 0.3805 0.6402 0.6866 0.8939 0.9925

Я 0.0112 0.111 0.394 0.394 0.6288 0.6717 0.8666 0.9897

Среднее 0,0134 0,1168 0,3808 0,3808 0,641 0,6805 0,8828 0,9871

значение

СКО 0,0097 0,0427 0,0429 0,0429 0,0389 0,0431 0,0434 0,0102

Для иллюстрации работоспособности и эффективности разработанных метода и алгоритма были проведены экспериментальные исследования, которые показали, что разборчивость речи сохраняется уже при K = 2. Таким образом, с учетом необходимости сохранения знакового разряда и значения У достигаемый максимальный коэффициент сжатия может быть равен

CHmx = 12 N /(N +12), (31)

(в предположении 8-разрядности исходных отсчетов). То есть если N достаточно велико, то

CH.max = 12 . (32)

Заключение

В результате проведенных исследований было установлено, что предлагаемый метод сжатия речевых данных без пауз на основе оптимального квантования по уровню коэффициентов разложения отрезков речевых сигналов по собственным векторам субполосных матриц из да-информационных частотных интервалов с применением кодовых книг квазиоптимальных квантователей позволяет в зависимости от величины разрядности исходных отсчетов указанных сигналов обеспечить коэффициент сжатия до 12 раз.

Выводы

Использование разработанного метода позволит достичь общего коэффициента сжатия речевых данных как за счет обнаружения и кодирования пауз, которые могут составлять более 60% от продолжительности диалога, так и за счет квантования по уровню коэффициентов разложения отрезков речевых сигналов по собственным векторам субполосных матриц из да-информационных частотных интервалов величин в 20-25 раз.

Исследования выполнены при поддержке гранта РФФИ № 15-07-01463.

Список литературы References

1. Ashwin R., Kumaresan R. 2000. On decomposing speech into modulated components. IEEE Transactions on Speech and Audio Processing, 8(3): 240-254.

2. Seki Н. 1958. A new method of speech transmission by frequency division and multiplication. The Journal of the Acoustical Society of Japan, 14: 138- 142.

3. Алдошина И. 2002. Основы психоакустики. Слух и речь. Часть1. Информационно -технический журнал «Звукорежиссер». 1: 38-44.

Aldoshina I. 2002. Fundamentals of psychoacoustics. Rumor and speech. Part1. Information and Technical Journal "Sound producer". 1: 38-44.

4. Белов С.П., Прохоренко Е.И. 2006. Об уменьшении объема трафика при пакетной передаче речевых сообщений за счет кодирования пауз. Научные ведомости БелГУ. Сер. Информатика и прикладная математика. 1(21): 141-148.

Belov S.P., Prokhorenko E.I. 2006. On the reduction in the volume of traffic for packet transmission of voice messages due to the coding of pauses. Belgorod State University Scientific Bulletin. Informatics and Applied Mathematics. 1(21): 141-148.

5. Быков С.Ф., Журавлев В.И., Шалимов И.А. 2003. Цифровая телефония. М., Радио и связь, 144.

Bykov S.F., Zhuravlev V.I., Shalimov I.A. 2003. Digital telephony. M., Radio and Communication, 144.

6. Гусинская Е.И., Зайцев А.А. 2004. Оптимизация банка фильтров в задачах субполосного кодирования: тематический обзор. Научно-технический журнал Цифровая обработка сигналов. 3(12): 18-29.

Gusinskaya E.I., Zaitsev A.A. 2004. Optimization of the filter bank in sub-band coding problems: a thematic review. Scientific and technical journal Digital signal processing. 3(12): 18-29.

7. Жиляков Е.Г., Белов С.П., Прохоренко Е.И. 2005. О сжатии речевых сигналов. Вестник Национального технического университета «ХПИ». Сборник научных трудов. Тематический выпуск: Информатика и моделирование. Харьков: 32-41.

Zhilyakov E.G., Belov S.P., Prokhorenko E.I. 2005. On the compression of speech signals. Bulletin of the National Technical University "KhPI". Collection of scientific papers. Thematic issue: Informatics and modeling. Kharkov, 56: 32-41.

8. Жиляков Е.Г., Белов С.П., Прохоренко Е.И. 2007. Методы обработки речевых данных в информационно-телекоммуникационных системах на основе частотных представлений. Белгород, Изд-во БелГУ, 138.

Zhilyakov E.G., Belov S.P., Prokhorenko E.I. 2007. Methods of processing speech data in information and telecommunication systems on the basis of frequency representations. Belgorod, Publishing house of BelSU, 138.

9. Жиляков Е.Г., Белов С.П., Прохоренко Е.И. 2007. Новый метод вычисления спектрограмм речевых сигналов. Сборник докладов 13-й Междунар. науч.-техн. конф. «Радиолокация, навигация, связь». Воронеж, 1: 278-283.

Zhilyakov E.G., Belov S.P., Prokhorenko E.I. 2007. A new method for calculating the spectrograms of speech signals. Collected papers of the 13th Intern. Scientific-techn. Conf. "Radar, navigation, communication". Voronezh, 1: 278-283.

10. Жиляков Е.Г., Белов С.П., Прохоренко Е.И. 2007. Уменьшение объема битового представления речевых данных на основе нового метода удаления пауз. Вопросы радиоэлектроники. Серия Электронная вычислительная техника (ЭВТ). М., 2: 124-139.

Zhilyakov E.G., Belov S.P., Prokhorenko E.I. 2007. Decrease in bit representation of speech data on the basis of a new method of deleting pauses. Questions of radio electronics. The series Electronic computing (EWT). M., 2: 124-139.

11. Жиляков Е.Г., Белов С.П., Белов А.С., Фирсова А.А. 2010. Об эффективности различных подходов к сегментации речевых сигналов на основе обнаружения пауз. Научные ведомости БелГУ. Сер. Информатика. 7(78): 187-193.

Zhilyakov E.G., Belov S.P., Belov A.S., Firsova A.A. 2010. On the effectiveness of different approaches to the segmentation of speech signals based on the detection of pauses. Belgorod State University Scientific Bulletin. Informatics. 7(78): 187-193.

12. Калинцев Ю.К. 1991. Разборчивость речи в цифровых вокодерах. М., Радио и связь, 220.

Kalintsev Yu.K. 1991. Intelligibility of speech in digital vocoders. M., Radio and Communication, 220.

13. Ковалгин Ю.А., Вологдин Э.И. 2004. Цифровое кодирование звуковых сигналов. СПб., Корона-принт, 240.

Kovalgin Yu.A., Vologdin E.I. 2004. Digital coding of sound signals. St. Petersburg, Crown-print, 240.

14. Санников В.Г. 2003. Методы кодирования речевых сигналов: Учебное пособие. М., МТУСИ, 63.

Sannikov V.G. 2003. Methods of encoding speech signals: Textbook. Moscow, MTUCI, 63.

15. Сергиенко А.Б. 2003. Цифровая обработка сигналов. СПб., Питер, 604.

Sergienko A.B. 2003. Digital signal processing. St. Petersburg, Peter, 604.

16. Сергиенко В.С., Баринов В.В. 2009. Сжатие данных, речи, звука и изображений в телекоммуникационных системах. М.: Радио Софт, 360.

Sergienko VS, Barinov V.V. 2009. Compression of data, speech, sound and images in telecommunication systems. M .: Radio Soft, 360.

17. Сжатие данных в системах сбора и передачи информации. Под ред. В.А. Свириденко. 1985. М.: Радио и связь, 184.

Compression of data in information collection and transmission systems. Ed. V.A. Sviridenko. 1985. Moscow: Radio and Communication, 184.

18. Синильников А.М. 1988. Полосовое кодирование звуковых сигналов с ортогональным преобразованием. Электросвязь. 9: 34-36.

Sinilnikov A.M. 1988. Band coding of audio signals with orthogonal transformation. Telecommunications. 9: 34-36.

19. Сэломон Д. 2004. Сжатие данных, изображений и звука. М., ТЕХНОСФЕРА, 368.

Salomon D. 2004. Compression of data, images and sound. M., TECHNOSPHERE, 368.

20. Цифровая обработка и передача речи. Под ред. О.И. Шелухина. 2000. М., Радио и связь, 456.

Digital processing and voice transmission. Ed. O.I. Shelukhina. 2000. Moscow, Radio and

Communication, 456.

i Надоели баннеры? Вы всегда можете отключить рекламу.