Научная статья на тему 'Нейросетевой подход к векторному квантованию коэффициентов отражения при вокодированииметодом линейного предсказания'

Нейросетевой подход к векторному квантованию коэффициентов отражения при вокодированииметодом линейного предсказания Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
176
54
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Нейросетевой подход к векторному квантованию коэффициентов отражения при вокодированииметодом линейного предсказания»

То6= N • г, • 1се2 N . (8)

Возможны последовательная и параллельная реализация данного метода. При параллельной реализации сравнение чисел происходит параллельно. При последовательной - используется память для хранения промежуточных максимумов.

Вывод: данный метод удобно использовать при поиске максимума, для полного ранжирования этот метод требует достаточно больших аппаратных затрат, показывая при этом долгое время выполнения.

Заключение. Результаты сравнения рассмотренных реализаций алгоритмов сортировок, приведенные в таблице, показывают, что минимальное время достигается при последовательной реализации метода подсчета при количестве схем сравнения, равным количеству элементов в неупорядоченной последовательности.

Таблица

Время ранжирования различных аппаратных реализаций

количество сравниваемых элементов

название метода 4 8 16 32

Метод подсчета Последовательныйс 1 схемой 5 2 О 992гг

Последовательный 2 схемами 6г 2 00 120гг 446гг

Последовательный ^схемами 3г 7 г 15г. 31г.

Метод пузырька Последовательный с 1 схемой 6г 2 00 120гг 446гг

Последовательный 2 схемами 4, 14г 6 о 223гг

Параллельный 6г 2 00 120гг г 4

Модернизированнный 5г, щ 2 61г.

Пирами- дальная сортировка Последовательный с 1 схемой 4 00 240г 992гг

Последовательный п схемами 8г, 6 160г.

Параллельный 6г, 2 о 5 155гг

Ю.В. Чернухин, А.В. Лунев

НЕЙРОСЕТЕВОЙ ПОДХОД К ВЕКТОРНОМУ КВАНТОВАНИЮ КОЭФФИЦИЕНТОВ ОТРАЖЕНИЯ ПРИ ВОКОДИРОВАНИИМЕТОДОМ ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ

Введение. В настоящее время эффективное сжатие речевых данных (вокоди-) -.

этапов является векторное квантование первичных признаков при анализе речи [1]. Эффективность квантования таких признаков непосредственно сказывается как на качестве воспроизводимой речи, так и на скорости ее передачи. Оба эти параметра являются основополагающими для вокодеров.

Традиционно векторное квантование выполняется на основе кодовой книги [1], которая формируется на этапе проектирования. Наиболее распространен-

ным алгоритмом построения такой книги является алгоритм LBG (Linde-Buzo-Gray) [2]. Однако в работе [3] показано, что данный алгоритм часто сходится к .

книги является самоорганизующийся обучающий алгоритм Кохонена [4], позволяющий избежать проблему локального оптимума и, в отличие от алгоритма LBG, позволяет обновлять кодовую книгу в реальном масштабе времени. В работе [5] представлен сравнительный анализ, который подтверждает эффективность алго-

LBG. ,

для решения задачи векторного квантования целесообразно использование самоорганизующихся нейросетей Кохонена [4].

В работе [6] векторное квантование первичных признаков с помощью нейросети Кохонена было нами экспериментально исследовано на основе канального вокодера. Однако, в отличие от полной схемы вокодера, в данном эксперименте не использовалось распознавание вокализованных и невокализованных звуков, и не определялся основной тон речевого сигнала. В декодирующей части вокодера в качестве сигнала возбуждения использовался только источник белого шума, поэтому звучание синтезированной речи осуществлялось в виде шепота. По этой [6] -ность высокой степени сжатия речи с помощью нейросети Кохонена, не может служить в качестве полноценного вокодера речи.

В данной работе мы проводим более детальное исследование эффективности векторного квантования с помощью нейросети Кохонена в составе полнофункционального вокодера. За основу взят вокодер DoD FS 1015 LPC-10 [7], являющийся первым стандартизованным вокодером, работающим на скорости передачи 2400 бит/с. Применив нейросеть Кохонена для квантования первичных признаков, мы рассчитываем существенно снизить скорость передачи бит без значительного снижения качества воспроизводимой вокодером речи.

Квантование коэффициентов отражения в вокодере LPC-10. В вокодере LPC-10

( ). -

, , -тов является квантование параметров линейного предсказания [8]. Очень важно квантовать эти параметры, используя как можно меньше бит, но при этом, незна-

. LPC-10

предсказания являются так называемые коэффициенты отражения, представляющие собой побочные величины, формируемые в результате вычисления коэффициентов линейного предсказания. Коэффициенты отражения более удобны, чем коэффициенты линейного предсказания для передачи по линии связи, так как в силу своих статистических характеристик в меньшей степени могут приводить к потере устойчивости фильтра линейного предсказания при квантовании [9]. В вокодере LPC-10 ,

дополнительно преобразуются функцией логарифмического отношения площадей LAR (Log-Area Ratio). Затем все десять полученных коэффициентов скалярно .

Однако скалярное квантование параметров линейного предсказания является субоптимальным в отношении коэффициента спектральных искажений в том смысле, что коэффициент спектральных искажений не может быть снижен до минимума, если каждый параметр квантуется отдельно. Таким образом, векторное квантование параметров линейного предсказания значительно эффективнее скалярного [1]. Поэтому с целью снижения скорости передачи вокодера LPC-10 ниже 2400 / ,

работе мы заменили в алгоритме ЬРС-10 скалярное квантование коэффициентов отражения векторным квантованием этих коэффициентов с помощью нейросети Кохонена. Преобразование первых двух коэффициентов функцией логарифмического отношения площадей (ТЛЯ) в данном случае не выполняется.

Расчет скоростей передачи бит при различных схемах квантования. В стандартном вокодере ЬРС-10 [7] для вокализованных речевых сигналов на формирование результата скалярного квантования всех десяти коэффициентов отражения выделено 41 бит информации, а для невокализованных сигналов - 20 бит

21 -. -лизации выделено 7 бит, для квантования энергии речевого сигнала - 5 бит, для - 1 . 54 , -

22,5 . ,

54 бит / 22,5 мс = 2400 бит/с. В случае, если не передавать биты защиты и допустить, что данные передаются при переменной скорости, то для передачи вокализованного кадра потребуется 54 бит, а для невокализованного кадра - 33 бита. Таким образом, средняя скорость передачи бит составит ((54 бит + 33 бит) / 2) / 22,5 мс = 1933 / .

При векторном квантовании коэффициентов отражения требуется меньше бит информации. В данной работе построены две конфигурации нейросети Кохонена. 4096 , 1024 .

4096 -

димо ^2 4096 = 12 бит. Следовательно, экономия для вокализованных кадров почти в 3,5 раза больше по сравнению со скалярным квантованием (12 бит вместо 41 бита). А для невокализованных кадров - в 1,5 раза больше (12 бит вместо 20 ). 25 ,

скорость передачи бит составит 25 бит / 22,5 мс = 1111 бит/с.

, 1024 , -

12 . - 1022 / .

Конфигурация и обучение нейросети Кохонена. Как было уже сказано, было построено две конфигурации нейросети Кохонена. Отличие этих конфигураций только в количестве нейронов сети - 4096 и 1024 нейрона. Входное пространство -десятимерное. Топология нейросети - двумерная решетка.

Функционирование нейросети выполняется следующим образом [4].

Нейрон-“победитель” определяется по правилу:

й(х, wc ) = шт{{(х, )}, /= 1,2,...,N, (1)

/

где х - входной вектор нейросети, wc - весовой вектор нейрона-“победителя”, w. -весовой вектор /'-го нейрона, й(х, w,) - функция расстояния (в данном случае Эвклидово расстояние), N - число нейронов в сети.

Процесс обучения выполняется по алгоритму:

w ,х+1)=w ,х)+^х М) - wi х)], (2)

= Ь0 ехр(-|\Г/ -Гс\2/а2^ (3)

где w(t + 1) - новое значение весового вектора /'-го нейрона, w(г) - предыдущее

значение весового вектора /'-го нейрона, Ь0 = Ь0 (г) - скорость обучения, а = а(г) -

размер окрестности, ||г. - гс|| - Эвклидово расстояние между нейроном-

“победителем” и г-м нейроном согласно их топологическому расположению в дву.

Так как диапазон входных значений колеблется для каждого из элементов входного вектора x от -1 до +1, начальная инициализация весов нейронов установ, 0. -

лось в два этапа.

На первом этапе выполняется упорядочивание нейронов. Количество шагов обучения было выбрано равным 50000. Коэффициент скорости обучения h0 равномерно снижается от 0,9 на первом шаге до 0,5 на последнем шаге. Размер окрестности о вначале этапа устанавливается равной величине максимального расстояния между нейронами сети и снижается к концу этапа до 0, после чего величина hci h0 .

На втором этапе выполняется тонкая подстройка весов нейронов. Количество

10 . h0 равномерно снижается от 0,5 на первом шаге до 0 на последнем шаге.

Подготовка аудио данных. Речевые данные для обучения и тестирования нейросети Кохонена были записаны с телевизионного канала BBC World. Речевой материал включает в себя только английский язык, речь мужского и женского рода и содержит как чистую речь (например, постоянный репортер, интервью внутри помещения), так и речь с высоким уровнем фонового шума (например, уличные репортажи, шум транспорта, ветер, фоновые голоса, фоновая музыка и т.д.).

Все аудио данные были разделены на две части (обучающее и тестовое мно-). , 500

секунд. А тестовые данные - примерно 540 секунд. Все данные были оцифрованы с частотой дискретизации 8 кГц и разрешением 16 разрядов в режиме моно.

Эксперименты и результаты. В целях тестирования нового вокодера с векторным квантованием коэффициентов отражения и сравнения его с исходным вокодером LPC-10, выполнена объективная (математическая) оценка качества воспроизводимой вокодерами речи. Использовались следующие объективные оценки: перцепционная оценка качества речи PESQ (Perceptual Evaluation of Speech Quality), коэффициент искажений Итакура-Саито (IS), логарифмическое отношение правдоподобия LLR (Log Likelihood Ratio), мера различия взвешенного спектрального наклона WSS (Weighted Spectral Slope), а также комбинированная мера различия (4), представляющая собой линейную комбинацию мер LLR, PESQ и WSS [10].

C. = 3,093 -1,029 • LLR + 0,603 • PESQ - 0,009 WSS, (4)

Slg 7? ? 7

Результаты объективных оценок качества воспроизводимой вокодерами речи при различных способах квантования коэффициентов отражения приведены в табл. 1.

1

Результаты объективной оценки

Квантование коэффициентов отражения PESQ IS LLR WSS C '-'sig

Скалярное (стандарт ЬРС-10) 2,65 3,24 1,06 52,77 3,13

Векторное, 12 бит 2,24 3,59 1,25 59,33 2,62

Векторное, 10 бит 2,20 3,78 1,28 60,25 2,56

Для мер 18, ЬЬЯ и WSS значения, которые дальше от нуля, означают меньшее качество воспроизводимой речи. А для мер РБ8Р и меньшему качеству воспроизводимой речи соответствуют значения, которые ближе к единице.

Сравнение скоростей передачи бит для стандартного вокодера ЬРС-10 и во-10- 12. 2.

2

Сравнение скорости передачи бит

Квантование коэффициентов отражения Тип скорости передачи Наличие битов защиты - бит в кадре - нейро- нов Скорость передачи, /

Скалярное (стандарт ЬРС-10) Постоянная Да 54 - 2400

Переменная Нет 54 и 33 - 1933

Векторное, 12 бит Постоянная Нет 25 4096 1111

Векторное, 10 бит Постоянная Нет 23 1024 1022

,

вокодером речи (в среднем около -10% для комбинированной меры различия), скорость передачи битов снижена больше чем 2 раза: до 1111 кбит/с при 12 битовом квантовании и при 10 битовом - до 1022 кбит/с.

.

нейросетевого подхода для решения задачи векторного квантования коэффициентов отражения на примере стандарта DoD FS 1015 LPC-10 при вокодировании методом линейного предсказания. При незначительном снижении качества воспроизводимой вокодером речи, была существенно снижена скорость передачи бит, что в свою очередь позволяет использовать такой вокодер для каналов связи с меньшей

. -

димой речи несколькими наиболее широко используемыми в речевых технологиях

способами. Выполнено сравнение стандартного вокодера LPC-10 и вокодера на

LPC-10, -

водится с помощью нейросети Кохонена. Сравнение выполнено на основе качества воспроизводимой речи и на основе скорости передачи бит.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. W.C. Chu. Speech coding algorithms: foundation and evolution of standardized coders. John Wiley & Sons, Hoboken, NJ, 2003.

2. Y. Linde, A. Buzo and R.M. Gray. An algorithm for vector quantizer design. IEEE Transactions on Communications, 1980, vol. 28, pp. 84-94.

3. D.J. Vaisey, A. Gersho. Simulated annealing and codebook design. Proc. ICASSP-88, April 1987, pp. 1176-1179.

4. T. Kohonen. The self-organizing map. Proc. IEEE, special issue on Neural Networks I, September 1990, pp. 1464-1480.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. C. Pope, L. Atlas, C. Nelson. A comparison between neural network and conventional vector quantization codebook algorithms. Proceedings of IEEE Pacific Rim Conference on Communications, Computers and Signal Processing, Victoria, B.C., Canada, June 1-2, 1989, pp. 521-524.

6. . ., . . -ных в телекоммуникационных системах. Доклад. В кн. Информационные технологии,

// -ренции. Сборник трудов. - Таганрог: Изд-во ТРТУ, 2005. - С. 16-20.

7. Federal Standard 1015, Telecommunications: Analog to digital conversion of radio voice by 2400 bit/second linear predictive coding, National Communication System - Office Technology and Standards, Nov. 1984.

8. K.K. Paliwal and B.S. Atal. Efficient vector quantization of LPC parameter at 24 bits/frame. IEEE Trans. Speech Audio Process., Jan. 1993, vol.1, no.1, pp.3-14.

9. A.S. Spanias. Speech Coding: A tutorial review. Portions published in Proceedings of the IEEE, Oct. 1994.

10. Y. Hu and P. Loizou. Evaluation of objective measures for speech enhancement. Proceedings of INTERSPEECH-2006, Philadelphia, PA, September 2006.

i Надоели баннеры? Вы всегда можете отключить рекламу.