ПОИСК БЛИЖАЙШЕГО СОСЕДА С ВЫЧИСЛЕНИЕМ РАССТОЯНИЯ ПО ВЗВЕШЕННОЙ ЭВКЛИДОВОЙ МЕТРИКЕ В ЗАДАЧАХ СЖАТИЯ РЕЧЕВЫХ СИГНАЛОВ

Ткаченко Александр Николаевич; Грийо Тукало Оксана Франсисковна

Поиск ближайшего соседа с вычислением расстояния по взвешенной эвклидовой метрике в задачах сжатия речевых сигналов

Ткаченко А.Н., кандидат технических наук, доцент Грийо Тукало О.Ф.

Рассматривается задача повышения производительности компьютерных систем для обработки мультимедийной, в частности, речевой информации за счет уменьшения времени поиска ближайшего вектора в словаре большого размера. Разработанный подход базируется на использовании М-деревьев и сочетает преимущества методов быстрого поиска ближайшего соседа с применением взвешенной эвклидовой метрики. Достигнутое снижение вычислительной сложности делает возможной реализацию предложенного метода на процессорах с ограниченной производительностью.

• сжатие речевых сигналов • линейные спектральные частоты

• векторная квантизация • словари • kd-дерево • спектральное искажение • взвешенная евклидовая метрика

The problem of increasing the performance of computer systems for multimedia processing, in particular voice data, by reducing the nearest vector quantization time in a large dictionary. The approach based on the kd-tree is developed that combines the advantages of both: fast vector search and using the weighted Euclidean metric. The achieved reduction in computational complexity makes it possible to implement the proposed method on processors with limited capacity.

• compressing speech signals • linear spectral frequencies • vector quantization • dictionaries • kd-tree • spectral distortion • weighted Euclidean metric

ВВЕДЕНИЕ

Благодаря бурному развитию методов записи и хранения данных, объемы информации, передаваемые и обрабатываемые в компьютерных системах, в последнее время существенно выросли. В настоящее время Интернет объединяет сотни миллионов серверов, на которых размещены миллиарды различных сайтов и отдельных файлов с разнообразной информацией. Следует отметить, что в современных сетях основной объем трафика приходится на мультимедийную, в частности, аудио- и речевую информацию. Объемы данных столь значительны, что человек не в состоянии проанализировать их самостоятельно, поэтому необходимость автоматизации

47

т^Ш

48

Ткаченко А.Н., Грийо Тукало О.Ф. Поиск ближайшего соседа с вычислением расстояния по взвешенной эвклидовой метрике...

процессов анализа, в частности поиска данных, вполне очевидна. В настоящее время поиск имеет большое значение, он является основой для решения широкого круга задач, а именно: информационный поиск, сжатие данных, распознавание и классификация образов, кодирование изображений, звуковых данных и т. д. Необходимость обеспечения функционирования в реальном масштабе времени накладывает жесткие требования к быстродействию микропроцессорных устройств, входящих в состав систем обработки речевых сигналов. Таким образом, существует проблема недостаточной производительности компьютерных систем, предназначенных для обработки мультимедийной информации. Повышение скорости поиска данных позволяет существенно повысить эффективность работы таких систем.

Задача поиска ближайшего соседа заключается в нахождении среди множества элементов, расположенных в многомерном метрическом пространстве, элементов, близких к заданному согласно некоторой функции близости. Уменьшение вычислительной сложности поиска ближайшего соседа в словарях большого размера рассматривалось в [1-3]. Применение приведенных в этих работах методов позволяет сократить количество операций и, соответственно, время поиска в 20...30 раз. Однако практическая ценность этих методов существенно ограничивается невозможностью применения взвешенной эвклидовой метрики (ВЭМ) [4], поскольку все они базируются на предварительной обработке данных в словарях, когда значения весов еще неизвестны.

Целью работы является повышение производительности функционирования компьютерной системы за счет уменьшения вычислительной сложности поиска данных, что достигается благодаря реализации нового подхода, который сочетает преимущества методов быстрого поиска ближайшего соседа с применением ВЭМ. Суть его заключается в том, что на первом этапе на основе быстрого поиска по Ы-дереву по невзвешенной эвклидовой метрике (НЭМ) отбираются кандидаты, из числа которых на втором этапе с использованием ВЭМ отбирается один, ближайший к входному с заранее заданной вероятностью р.

РАЗРАБОТКА МЕТОДА БЫСТРОГО ПОИСКА БЛИЖАЙШЕГО ВЕКТОРА ПО ВЭМ НА ОСНОВЕ М-ДЕРЕВА

Пусть К = {у у ..., ук} - множество векторов, содержащихся в словаре. Суть разработанной двухэтапной стратегии поиска, схематически представленной на рис.1, состоит в том, что:

Структурированный словарь векторов

Блок У1

быстрого У2 Блок поиска

поиска • • по ВЭМ

по ЭМ ■ Ук

Рис. 1. Структурная схема двухэтапной стратегии поиска векторов в словаре

I

n

На первом этапе выполняется так называемый быстрый поиск в упорядоченном определенным образом словаре, в процессе которого по НЭМ выбирается множество С с К векторов (кандидатов), упорядоченных по возрастанию расстояния к входному вектору X.

C = <ур y2, ..., уД ICI = t, t < к.

(1)

2. На втором этапе с использованием ВЭМ с отобранного множества кандидатов выбирается один вектор, ближайший к входному (с заданной вероятностью р).

Поскольку по ВЭМ размерности имеют разный вес, вектор из словаря, который является ближайшим по НЭМ, может оказаться не лучшим при учете весов. Такая ситуация для двумерного случая показана на рис. 2:

Рис. 2. Поиск ближайшего соседа по ВЭМ в двумерном пространстве

Как видно из рисунка, точка yn (вектор в двумерном пространстве) является ближайшей по НЭМ, но в результате использования ВЭМ ближайшей оказывается точка у', поскольку для нахождения вектора ближайшего к входному по ВЭМ, в процессе поиска достаточно охватить множество кандидатов, ограниченное кругом радиуса rmax = max(a, b), что детально рассматривалось в [5].

Дополнительное уменьшение времени поиска можно получить, отказавшись от требования обязательного нахождения на втором этапе вектора, ближайшего к входному по ВЭМ. Предпосылки к этому следующие:

1. Вероятность того, что текущий вектор есть ближайшим по ВЭМ, уменьшается

с ростом расстояния по НЭМ от вектора-кандидата к входному. Таким образом, значительная часть вычислений расстояний необходима лишь для того, чтобы убедиться в отсутствии лучшего вектора.

2. Пропуск в некоторых случаях ближайших векторов по ВЭМ не приводит к за-

метному увеличению спектрального искажения [4].

Объясняется это тем, что вместо ближайшего вектора, как правило, выбирается вектор, достаточно близкий к входному. Так, экспериментальные данные [3], показывают, что пропуск ближайших векторов в 5 - 10% фреймов увеличивает спектральное искажение лишь на 0,01 - 0,02 дБ.

Таким образом, нет необходимости вычислять расстояние по ВЭМ ко всем векторам, попадающим в круг (гипершар) радиусом rmax, а, задав некоторое значение вероятности p*, следует найти величину r*, определяющую радиус поиска, в пределах которого с вероятностьюp >p* находится вектор, ближайший к входному по ВЭМ. Для этого необходимо найти зависимость г = f(p, r ) или p = f(r/r ).

J si ~ max' J- J 4 max'

49

50

Вероятность нахождения ближайшего вектора на расстоянии r можно найти как отношение части объема M-мерного эллипсоида, ограниченного гипершаром радиуса r, ко всему объему M-мерного эллипсоида:

p(r) = vSF1, p(r) = {?' r = 0 (2)

el ' max

Геометрическая интерпретация приведенной зависимости для двумерного случая показана на рис. 3:

Рис. 3. Геометрическая интерпретация зависимости вероятности от расстояния

Часть объема М-мерного эллипсоида, ограниченного гипершаром радиуса г можно найти как:

У(М)(А) = УМ(И) + У(М)(А) - У^Щ), (3)

где У(М) - объем части полуэллипса в М-мерном пространстве, ограниченного гиперплоскостью, проходящей на расстоянии А;

У^Щ = J VjM'r>(y)dy,

(4)

При А = Ь, где Ь - максимальная полуось эллипса, формула (4) позволит получить полный объем полуэллипса.

У (М)(И) - объем М-мерного сектора радиусом г и углом 2а;

у (M>(h> = 2%rl. у M-2> -

где у (M-r> = ГДе у M

(M - 1> . r . sinM 3 а . cos a M. (M - 2>

. у (M-i>. r b '

(5)

. VSM-3> - объем гипершара размерности (М-1)

У (M>(h> - объем М-мерного конуса высотой h.

Vc (h> у (M-1>

У (M)(h> = ■

M

. h.

(6)

Для случая М = 5 (разбиение 10-мерного вектора линейных спектральных частот (LSF) на два подвектора при раздельном квантовании) формулы (4) - (6)

принимают вид:

у/Щ = J n2abcd(1 -^dy = Щ?-(h - 2-2. h + ¿4•

5e4

у (5>(h> =

у, (5> = -r=- n2abcde, el 15

2 . n2. r5 ^ h , / h \ 3

15

(2 - 3 -7 + (

у^(И> =

= n2. (r2 - h2>2. h

10

(7)

(8) (9)

(10)

1

e2 . (r2 - a2) где h = M —y = r

1

i - ( a )2

i - ( a г

; a < b < c < J < e - полуоси эллипсоида.

Подстановка (7) - (10) в формулы (2) и (3) позволяет получитьр = /(г, а, Ь, с, й, е), однако из-за высокой вычислительной сложности данная зависимость имеет только теоретическое значение. На практике предельные радиусы поиска ближайшего вектора по заданному значению вероятностир удобно определить для областей, показанных на рис. 4:

а)

б)

Рис. 4. Гзометрическая интерпретация зависимости вероятности от расстояния согласно формул (11) и (12)

В этом случае получаем явную зависимость р = /(г, г ), заданную формулами (11), (12):

И5)(г)_ 15 г 5 , г „ .3 , г

p(r) = уЖ = X • — - 4 . (Г")3 + 8 . ?

el max max max

p(h) =

_ V®(h) _ 15 h

h

V (5)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

el

8 r 4 yr ' 8 yr '

(11) (12)

Так, используя соотношение (11), можно найти:

= 0,707, = 0,621, — = 0,506.

r r r

max p*=0.95 max p*=0.9 max p*=0.85

Это означает, что, например, для определения ближайшего вектора в словаре по ВЭМ с вероятностью p* = 0,95 достаточно пройти лишь 70% расстояния и т.д. Формулы (11) и (12) определяют соответственно верхнюю и нижнюю границу вероятности p*, что следует из их геометрической интерпретации (см. рис. 4).

Метод поиска вектора из словаря, ближайшего к входному по ВЭМ из числа кандидатов C с K, упорядоченных по возрастанию расстояния г на втором этапе с заданной вероятностьюp* < 1 реализуется следующим образом:

1. Определяются весовые коэффициенты входного вектора wk > 1, k = 1, M

2. Инициализация: i = 1, r = INF.

max

3. По формулам вычисления вероятности (11) или (12) вычисляется значение

sk

для заданного значения вероятностиp . max

4. Для /'-го вектора из списка кандидатов i = 1, IKI вычисляется расстояние по ВЭМ r (WE):

5. Если -

r ( E )

r(WE) = £ [w.([x. - J/)]2;

M J

> p*, где r(E) = £ r(E), rE = (x. - y)2;

ijjjj

m ax j =1

(13)

поиск завершается, |C|=i. Если r(WE) < r , присваивается r = r(WE);

1 'ii / max ' max i

6. i = i + 1, переход к п. 4.

51

x

52

Для выполнения быстрого поиска векторов в словаре на первом этапе векторы было упорядочено на основе кУ-дерева (к - мерное дерево). АУ-дерево -это бинарное дерево (БД), в котором каждая вершина задает разбиение пространства на два подпространства некоторой плоскостью, проходящей через нее [6]. В кУ-дереве кроме корневой присутствуют два типа вершин: терминальные и нетерминальные (узлы).

Математически задача поиска ближайшего соседа по кУ-дереву формулируется так: дан некоторый М-мерный вектор; необходимо найти вершину кУ-дерева у', чтобы выполнялось условие:

rE(v', v) = min {rE(v., v)}, i = (1, n), v. e V,

(15)

Использование кУ-деревьев позволяет существенно уменьшить количество необходимых измерений, необходимых для поиска ближайшего соседнего вектора (в среднем 1о§2 п вместо п при полном поиске). Вместе с тем растет погрешность квантования и, соответственно, спектральное искажение, поскольку поиск по кУ - дереву не гарантирует нахождения действительно ближайшего вектора по формуле (15) [6]. В работе [7] предложена усовершенствованная процедура поиска по кУ-дереву, впервые введенная при кодировании изображений, которую предлагается применить для поиска ближайшего вектора в словаре в процессе кодирования речи с учетом специфики речевых сигналов. Иллюстрация поиска ближайшего вектора в словаре, упорядоченного на основе кУ-дерева, для двумерного случая показана на рис. 5.

Рис. 5. Иллюстрация поиска ближайшего вектора по kd-дереву для двумерного случая

Чтобы обеспечить нахождение ближайшего вектора, поиск, кроме прямой фазы поиска (спуска по дереву), должен иметь также обратную. Во время прямого поиска фиксируются все расстояния к узлам d.. Прямая фаза завершается вычислением расстояния к соответствующей терминальной вершине D, = D . После этого начинается обратная фаза поиска, при этом

k min 1 1 1

вычисляются расстояния Dk только к тем вершинам дерева, которые могут обеспечить выполнение D, < D . Если это условие выполняется, считают,

k min J

что D = D, [6].

min k

Приведенная процедура поиска обеспечивает получение не одного ближайшего вектора, а некоторого множества векторов, упорядоченных по возрастанию расстояния согласно формуле (1). Это возможно за счет того, что данные о расстоянии к уже пройденным терминальным вершинам сохраняются, и одновременно осуществляется их упорядочивание по возрастанию расстояния до входного вектора. Благодаря этому дополнительное нахождение нескольких ближайших векторов не требует больших вычислительных затрат.

ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ

Для экспериментального исследования двухэтапной стратегии поиска использовалась общедоступная часть англоязычного акустического корпуса TIMIT. Тренировочная последовательность состояла из 90 000 векторов LSF, полученных на основе модели линейного прогнозирования десятого порядка [8]. Тестовая последовательность состояла из 15 000 векторов LSF, отличных от векторов тренировочной последовательности. Длина фрейма составляла 20 мс. Расстояние измерялось по ВЭМ с использованием весов разрядов, вычисленных по спектральной чувствительности [9]. Размер словаря составил 4096 векторов размерности M = 5.

На рис. 6 приведены результаты проверки соответствия экспериментальным результатам предложенных математических соотношений (3) - (5) для оценки вероятности нахождения ближайшего вектора в словаре по ВЭМ на расстоянии r. Результаты усреднялись для 10 720 фреймов.

0.1 Error

OOS

0.06

о.см

0 0? ____— "" . р

0 7 0.0 О Й "

0.02 /

-0 04 -0 06 У .........

о 03

-0 1 • ■—• веуеекяя оценки вероятности •■♦■♦ч HiriKHiR оцени вероятное™ ■ ■ ■ ■ уточненная оценки вероятности

Рис. 6. Погрешность оценивания вероятности

На рис. 6 погрешность определяется по формуле:

Error = p - п ,

* expr г teor'

гдеpteor - значения вероятностей, вычисленные на основе предложенных математических соотношений (3) - (5); p - значения вероятностей, полученные экспериментально.

Как видно из приведенного рисунка, для больших значений вероятности, которые являются наиболее важными с точки зрения практического применения, все теоретические оценки в достаточной степени совпадают с результатами, полученными экспериментально (погрешность меньше 0,02).

Таблица 1

Производительность двухэтапного поиска ближайшего вектора по ВЭМ на основе kd-дерева

Заданное значение вероятности выбора ближайшего вектора в словаре, р* 1 0,95 0,9 0,85

Спектральное искажение, Ж (дБ) 1,18 1,19 1,20 1,21

К-во векторов из словаря, к которым необходимо вычислить расстояние, |С|=|С1|+|С2| Словарь 1: |С1| 11,9 2,7 1,8 1,4

Словарь 2: |С2| 37,9 12,9 8,2 5,8

Общее количество операций во время поиска (М=5х2, п=4096) 1 этап 6870 3270 2070 1690

II этап 1096 343 220 158

53

Эффективность двухэтапной стратегии поиска ближайшего вектора с заданной вероятностью оценивалась по спектральному искажению [4] и количеству операций, выполняемых в процессе поиска. Полученные результаты приведены в табл. 1.

В табл. 1 количество выполненных при поиске операций N оценивалась следующим образом:

• полный поиск по ВЭМ (вычисление расстояния до всех векторов в словаре согласно (13)):

N = 4 • M • n = 4 • 10 • 4096 = 163840 (операций);

• двухэтапный поиск на основе kd-дерева:

N = N + N2 = (N1 ' + N ' ' ) + n2

где N1 ' - количество операций при поиске одного ближайшего по НЭМ вектора в словаре на основе kd-дерева; N1 ' ' - количество операций во время поиска дополнительно 1К-11 векторов в словаре по kd-дереву;

N2 = (4 • M + 2) • ICI, ICI = ICjl + IC2I - количество операций при выборе ближайшего по ВЭМ вектора из словаря среди |С| кандидатов.

ВЫВОДЫ

Предложенная в статье двухэтапная стратегия поиска векторов в словарях больших размеров позволяет совместить преимущества метода быстрого поиска ближайшего соседа на основе кУ-дерева с применением взвешенной евклидовой метрики. Для вероятности выбора ближайшего соседа р* = 0,95 количество операций уменьшается в 45,5 раз по сравнению с полным перебором, что позволяет реализовать данный метод на процессорах с ограниченной производительностью.

54

ЛИТЕРАТУРА

1. AgrellE. Spectral coding by fast vector quantization / E. Agrell // Proc. IEEE Workshop

on Speech Coding for Telecommunications. - Sainte-Adèle, Québec, Canada, 1993. - P. 61 - 62.

2. Arya S. Algorithms for fast vector quantization / S. Arya and D. M. Mount // In J. A.

Storer and M. Cohn, editors, Proc. of DCC '93: Data Compression Conference, IEEE Press. - 1993. - P. 381-390. - ISBN:0-89871-329-3.

3. Zhou J., Shoham Y, Akansu A. Simple Fast Vector Quantization of the Line Spectral

Frequencies // Image Compression and Encryption Technologies. - 2001. - Vol. 4551. - Р. 274-282.

4. Paliwal K.K. Efficient vector quantization of LPC parameters at 24 bits/frame / K.

K. Paliwal, B. S. Atal. // IEEE Transaction on Speech and Audio Processing. -1993. - No. 2, vol. 1. - Р. 3-14.

5. Ткаченко О.М. Двоетапна стратепя пошуку в векторних кодових книгах для

ущтьнення мовлення / О.М. Ткаченко, О.Ф. Грмо Тукало // Вюник ВЫницького полтехычного Ыституту. - ВЫниця: ВНТУ, 2011. - №3. - С.194-201. - ISSN 1997-9266.

6. Ткаченко О.М. Пошук вектсрв у кодових книгах при ущтьнены мовлення на основ1

бЫарного дерева / О.М. Ткаченко, О.Ф. Грмо Тукало // 1нформацмж технологи та комп'ютерна iнженерiя. - 2011. - №1. - С.38-44. - ISSN 1999-9941.

7. Arya S. Algorithms for fast vector quantization / S. Arya and D.M. Mount // In J.A. Stor-

er and M. Cohn, editors, Proc. of DCC '93: Data Compression Conference, IEEE Press. - 1993. - P. 381-390. - ISBN:0-89871-329-3.

8. Chu W. C. Speech Coding Algorithms: Foundation and Evolution of Standardized

Coders / Wai C. Chu // NY.: John Wiley & Sons, Inc. - 2003 - 558 p. - ISBN 0-471-37312-5.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

9. Hai Le Vu. Efficient Distance Measure for Quantization of LSF and Its Karhunen-

Loeve Transformed Parameters / Hai Le Vu and Laszlo Lois // IEEE Transactions on speech and audio processing. — Nov. 2000. — No. 6, vol. 8.

Сведения об авторах:

Ткаченко Александр Николаевич,

кандидат технических наук, доцент, Винницкий национальный технический университет (ВНТУ), кафедра вычислительной техники (Украина, г. Винница). Область научных интересов: обработка речевых сигналов, системы сжатия речи, низкоскоростное кодирование речи. E-mail: alextk1960@gmail.com

Грийо Тукало Оксана Франсисковна,

аспирантка, ВНТУ, кафедра вычислительной техники (Украина, г. Винница. ). Область научных интересов: обработка речевых и аудиоданных, быстрый поиск (поиск музыкальных фрагментов в базах данных мультимедиа), программирование. E-mail: xxmargoxx@gmail.com

55

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ткаченко Александр Николаевич, Грийо Тукало Оксана Франсисковна

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ткаченко Александр Николаевич, Грийо Тукало Оксана Франсисковна

RESEARCHING THE NEAREST NEIGHBOR WITH DISTANCE CALCULATION THROUGH THE WEIGHTED EUCLIDEAN METRIC IN THE TASKS OF COMPASSING THE SPEECH SIGNALS

Текст научной работы на тему «ПОИСК БЛИЖАЙШЕГО СОСЕДА С ВЫЧИСЛЕНИЕМ РАССТОЯНИЯ ПО ВЗВЕШЕННОЙ ЭВКЛИДОВОЙ МЕТРИКЕ В ЗАДАЧАХ СЖАТИЯ РЕЧЕВЫХ СИГНАЛОВ»