Научная статья на тему 'Поддержка насыщенной звуковой среды в виртуальных пространствах'

Поддержка насыщенной звуковой среды в виртуальных пространствах Текст научной статьи по специальности «Математика»

CC BY
153
68
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НАСЫЩЕННАЯ ЗВУКОВАЯ СРЕДА / ВИРТУАЛЬНЫЕ ПРОСТРАНСТВА / ЗВУКОВОЕ ПРОСТРАНСТВО / ЗВУКОВАЯ ТЕКСТУРА / ПРОСТРАНСТВЕННЫЙ ЗВУК / RICH ACOUSTIC ENVIRONMENT / VIRTUAL SPACES / SOUND FIELD / SOUND TEXTURE / SPATIAL SOUND

Аннотация научной статьи по математике, автор научной работы — Хованский Владимир Павлович

показана актуальность создания насыщенной звуковой среды в виртуальных пространствах. Разработана формальная модель насыщенной звуковой среды мультимедийных виртуальных многопользовательских систем. На основе данной модели разработаны алгоритмы и реализованы программные средства поддержки насыщенной звуковой среды в виртуальных пространствах.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Хованский Владимир Павлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

the urgency of creation of the rich acoustic environment in the virtual spaces is shown. The formal model of the rich acoustic environment of multimedia virtual multi-user systems is developed. On the basis of the given model algorithms we developed software of support of the rich acoustic environment in the virtual spaces.

Текст научной работы на тему «Поддержка насыщенной звуковой среды в виртуальных пространствах»

В.П. Хованский

ПОДДЕРЖКА НАСЫЩЕННОЙ ЗВУКОВОЙ СРЕДЫ В ВИРТУАЛЬНЫХ

ПРОСТРАНСТВАХ

V.P. Khovansky

SERVICE OF SUPPORT OF RICH ACOUSTIC ENVIRONMENT IN VIRTUAL

SPACES

Ключевые слова: насыщенная звуковая среда, виртуальные пространства, звуковое пространство, звуковая текстура, пространственный звук.

Keywords: rich acoustic environment, virtual spaces, sound field, sound texture, spatial sound.

Аннотация: показана актуальность создания насыщенной звуковой среды в виртуальных пространствах. Разработана формальная модель насыщенной звуковой среды мультимедийных виртуальных многопользовательских систем. На основе данной модели разработаны алгоритмы и реализованы программные средства поддержки насыщенной звуковой среды в виртуальных пространствах.

Abstract: the urgency of creation of the rich acoustic environment in the virtual spaces is shown. The formal model of the rich acoustic environment of multimedia virtual multi-user systems is developed. On the basis of the given model algorithms we developed software of support of the rich acoustic environment in the virtual spaces.

Введение

В настоящее время все большую популярность приобретают виртуальные системы, которые активно используются во многих сферах жизни, в том числе и в бизнесе, образовании, индустрии развлечений. Почти во всех виртуальных системах основной акцент делается на визуальную среду и недостаточно внимания уделяется звуковой среде системы. Но создание реалистичной звуковой среды для виртуальных приложений является важным средством поддержки чувства присутствия и погружения для пользователя. Виртуальная трехмерная или пространственная аудиосистема позволяет пользователю определить положение источника звука в трехмерном пространстве на основе звука, поступающего от постоянного количества неподвижных громкоговорителей или пары наушников [1]. Технология формирования пространственного звука выходит далеко за рамки традиционного стереозвука, обеспечивая источнику звука такие характеристики, как перемещение влево-вправо, вперед-назад и вверх-вниз. Включение пространственной акустической информации в виртуальные приложения представляется полезным по целому ряду причин. Пространственные акустические сигналы могут способствовать усилению чувства присутствия или погружения, компенсировать некачественные визуальные объекты (графику) и, наконец, повысить качество симуляции [2, 3]. Несмотря на указанные возможности и, вопреки тому, что пространственный звук является важнейшим признаком нашего восприятия окружающей среды, ему часто не уделяют должного внимания в виртуальных приложениях, где исторически акцент падает на визуальные ощущения.

Также для создания насыщенной звуковой виртуальной среды требуются сотни звуков и их вариаций. Получение этой очень большой библиотеки цифровых звуков нецелесообразно. Во-первых, из-за ограничений памяти количество образцов ограничено, что приводит к повторяющимся аудио. Следовательно, возникают ситуации, в которых происходит расхождение между моделируемым визуальным объектом и сопровождающим его звуковым треком. Альтернативной использования предварительно оцифрованных звуков является использование цифровых моделей, так называемых звуковых текстур, которые позволяют генерировать различные состояния звуковой среды в зависимости от ситуации и местоположения пользователя, что создает условия для усиления ощущения движения и присутствия в виртуальном пространстве [4, 5, 6].

Таким образом, формирование насыщенной звуковой среды (rich acoustic environment), включающей широкую совокупность аудиокомпонент: голоса, сигналов действия, фоновых звуков, звуковых текстур, и их взаимодействия в условиях ограничений виртуальной многопользовательской среды является актуальной задачей.

Цель работы

Основной целью данного исследования является разработка сервиса поддержки насыщенной звуковой среды в виртуальных многопользовательских системах.

Решаемые задачи

1. Разработка формальной модели насыщенной звуковой среды мультимедийных виртуальных многопользовательских систем, включающей модель пространственного преобразования звука и модель синтеза звука.

2. Разработка инструментальных средств поддержки звуковой среды в виртуальных системах на основе предложенной модели.

Модель насыщенной звуковой среды

Для разработки алгоритмов и программной реализации инструментальных средств была создана формальная модель насыщенной звуковой среды. Разработанная модель включает основные компоненты: 1) модель пространственного преобразования звука; 2) модель синтеза звуков.

Модель пространственного преобразования звука. Цель построения модели -формирование звука, путем преобразования монозвука от отдельных источников в пространственный звук. При построении данной модели используется функция HRTF (Head Related Transfer Function - функция передачи звука относительно головы). В основу функции HRTF принято предположение, что слушатель находится в центре сферы, а на поверхности сферы расположены источники звука. Функция HRTF имеет четыре переменные: три сферические координаты и частоту. При использовании сферических координат для определения расстояния до источников звука большего, чем один метр, считается, что источники звука находятся в дальнем поле (far field) и значение функции HRTF уменьшается обратно пропорционально расстоянию. Большинство вычислений значения функции HRTF производится именно в дальнем поле, что существенным образом упрощает HRTF до функции трех переменных: азимута, высоты и частоты (рис. 1).

Использование функции HRTF позволяет создать достоверное пространственное звучание для двух звуковых каналов. Если известно значение HRTF для каждого уха, то можно точно синтезировать бинауральные сигналы от монофонического источника звука. Набор HRTF фильтров определяется только для заранее определенных положений источников звука в азимутальной системе координат [7].

Фронтальная

плоскость

Ч>

Азимут

Горизонтальная

плоскость

Рис. 1. Азимутальная система координат относительно слушателя

Для движущихся источников звука требуется большой набор фильтров HRTF, чтобы не происходило заметного разрыва в воспроизведении звука вдоль пути движения источника. Разработанная модель позволяет найти значение функции HRTF в положении источника звука, например в точке Р сферы (рис. 2), по трем положениям (точки А, В, С), в которых известны значения HRTF. С этой целью используется следующая формула:

ЖТТр = ^ + ^1РТРА,В + ^1РТРА,С) (1)

где IPTFA,B В HRTFA / HRTFB, ШП^с В HRTFA / HRTFC (2), HRTFP - функция HRTF

в точке Р, HRTFA - известное значение функции HRTF в точке A, HRTFв - известное значение

функции HRTF в точке В, HRTFc - известное значение функции HRTF в точке С (рис. 2).

Рис. 2. Сферическая поверхность: точки A, В, С и D имеют известные функции HRTF, Р - позиция, требующая интерполяционную аппроксимацию

Параметры wA wg и w^ рассчитываются по следующим формулам:

wc =

A f

A f grid

A0

Wr

A0

grid

wA + wB + wC = 1

где А ф фР фA - высотное угловое расстояние между точками Р и A (рис. 3), A = ФР ФA азимутальное угловое расстояние между точками PиA, ^AC = Ф С Ф A - угловое

расстояние между точками A и C, точками A и B, A f grid f c f A

a q = a q, ——a e AC A Af 8„Л AC

азимутальное угловое расстояние между

- высотное угловое расстояние между точками A и B,

Линия BC на рис. 3 разделяет четырехугольник ABCD на два треугольника ABC и BCD. Точка P принадлежит треугольнику ABC, следовательно, используются известные значения функции HRTF в точках A, B, и C.

Рис. 3. Сферическая поверхность: угловые расстояния, используемые для получения

параметров WA, wg, и wc

Формула (2) подходит для медленно движущихся (или неподвижных) источников звука относительно слушателя. Поэтому для быстро движущихся источников звука рассмотрим представление пространства состояний функции IPTF: х^ + 1) = Ах^) + ЬиОО

У(0 = + ^(0 (3)

где А, Ь, с, ^ - матрица перехода, входной вектор, выходной вектор, и коэффициент прямой связи, соответственно. Вектор (1) является вектором состояния в момент^ ии^) иу(^ являются входными и выходными сигналами в моментвремени ^ соответственно.

Определим матрицу обзорности

= йс АТс ... (АТ) 'с ...Щ и матрицу управления

Wc = иь АЬ ^ л

АЪ ...щ

для ' = 1,2,3,.... Соответственно матрицы Грама обзорности и управления [8] равны Р = ШсШсТ О = и'оХ

Согласно [9, 10], если ранг матрицы А равен J, то Ганкелевая матрицы с рангом J

й Ц ^ —щ

н = W0WC = к h2

ъ

ъ

- ы

может быть построена, где

hi = сТА1- !Ь, і = 1,2,3,

Ь - выборки системной импульсной

характеристики звукового сигнала.

Так как квадраты каждого особого значения ?

Ь

і

; матрицы Н вдоль первых J позиции

главной диагонали равны соответственно собственным значениям произведения матриц Р и

1 = 1,2,3,...,

тогда матрицы

РЬ

и

Qb

желаемой

О [10, 11], обозначаемые как ', для

сбалансированной системы определяются:

рь = Оь = ¥ = d'ag (л/^.^чДТ) = ^ (о 1,..., 0 J ) (4)

Трансформация, которая поворачивает оригинальную систему (А, Ь, с и d) в

сбалансированную форму (Аь, Ьь, % и dь) через формулы: ^ ь

является Т = S ^ ¥ , где S вытекает из разложения матрицы О в фо]

Матрицы ^ и ¥ могут быть вычислены следующим разложением:

АЬ = Т- 1АТ ЬЬ = Т- 1Ь сЬ = Ттс

SPST = 0 ¥ 20 Т,

Т

где 0 0 = 1единицная матрица

1 Дс

чТ с-пгч с- 1

SPS1 = SP0S-1

Отметим, что ^ имеет те же самые собственные значения, что и матрица РО.

Считаем, что значения : < J достаточно для описания функции IPTF. Тогда матрица ¥ может быть записана в форме

(5)

¥ , = (о],...,о :) ¥ 2 = Над(о>,...,о т)

где 0 - нулевые матрицы, ' :' и ' : ' .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Следовательно, мы получаем матрицы пространства состояний:

а = й Аи А12 щ ь = й ь1 щ = й с1 щ

Аь = к А ’ А ’ ъ ьь = к ь ъ сь = к с ъ

л а2,1 а2,2 ы л ь2 ы л с2 Ы (6)

/■ А11 ь ст Н ч ~

где ( 1,1, 1, 1 и и ) - матрицы пространства состояний подсистемы порядка :, которая

точно аппроксимирует оригинальную функцию IPTF.

Таким образом, разработанная модель позволяет более точно формировать звуковое

пространство при меньших вычислительных мощностях.

Модель синтеза звука. Цель этой модели - генерация различных состояний звуковой среды

в зависимости от ситуации и местоположения пользователя и создание условий

для обеспечения ощущений движения и присутствия в виртуальном пространстве. В

принятом подходе синтез различных, но похожих звуков производится из одного

оригинального звука.

Для создания гибких звуковых моделей используются методы моделирования звуков на стохастической основе. Процесс генерации звуковой модели осуществляется с помощью трех фаз: фазы анализа, фазы параметризации, фазы синтеза.

На фазе анализа оригинальный цифровой звук обрабатывается при помощи дискретного вейвлет-преобразования (ДВП). ДВП декомпозирует сигнал в вейвлет-коэффициенты через

серию операций фильтрации, определяемых по формулам:

Г

У1сж[п] = е х[к] №п - к]

к=- Г - низкочастотный фильтр,

Г

Уь^ьМ = е х[к] ^[2п - к]

к =- Г - высокочастотный фильтр,

где х - звуковой сигнал, g - фильтр с импульсным откликом.

Для синтеза звука используются свойства вейвлетов: ортонормируемость и компактный носитель. Такие вейвлеты называются вейвлетами Добеши [12].

В процессе синтеза звука вейвлет сравнивается с участком входного сигнала. Мера адекватности между вейвлетом и входным сигналом определяется вейвлет-коэффициентами. Далее, вейвлет смещается во времени и операция сравнения повторяется, в результате чего находятся другие вейвлет-коэффициенты. Этот процесс смещения и сравнения повторяется на всей длине входного сигнала. Все коэффициенты вейвлета рассчитываются на одном уровне. Масштабирование вейвлета и повторяющиеся серии операций сравнения и смещения создают последующие уровни коэффициентов вейвлета. Учитывая, что исходный сигнал имеет длину N ДВП состоит не более чем из log2N этапов. В результате получается

множество вейвлет-коэффициентов (именуемых коэффициентами детализации и аппроксимации), которое полностью описывает входной сигнал. Коэффициенты становятся параметрами, контролирующими синтез звука.

Пусть функция ^ с компактным носителем порождает ортогональный базис вейвлета,

тогда коэффициенты в масштабирующей функции:

ф (х) =Л е hnФ (2х - п)

пО Z

могут быть вычислены по формуле:

Г

hn = 2 у ф (х)ф (2х - n)dx

- Ґ

где Ьп - коэффициенты масштабирования, ф - функция масштабирования Восстановление функции ф по ее полиному т° определяется:

і ґ

фЛ(и) = ~гтХ то(2-ки)

Л/2р к= 1

где полином т° определяется по формуле:

то(й):

2^ ^ і 2N и

ж Ю ц * ж 1 - ^ ю ц ж. ю ц Т^ж 1 + cos Ю ц4

з с°^ ч з р0 з—2— ч + з ч я з—2— ч Ч

2 ш и и 2 ШИ 2 Ш И 2 шЩ

где Ро - тригонометрический полином, определяемый по формуле Тейлора:

Р0(Х) = (1 - X)- Ы (1 - ХЫРо(1 - X))= Є ( ^) хк

к = 0

R - произвольный нечетный полином.

На фазе параметризации происходит изменение значений полученных коэффициентов вейвлетов. Манипуляция параметрами модели дает разнообразие цифровых звуков на основе оригинального звука.

Фаза синтеза использует обратное дискретное вейвлет-преобразование (ОДВП). ОДВП на основе модифицированных коэффициентов вейвлета, полученных на предыдущем этапе, строит сигнал путем инвертирования шагов декомпозиции. Первый шаг свертывает векторы коэффициентов самого низкого уровня с ВЧ и НЧ фильтрами, являющимися зеркальными отражениями фильтров декомпозиции. Векторы более высокого уровня последовательно восстанавливаются путем рекурсивной итерации над одним и тем же процессом. Этот процесс продолжается до тех пор, пока не будут получены все векторы коэффициентов. В результате новый сигнал будет содержать синтезированный звук.

Таким образом, создана единая модель звуковой среды, которая использует новые принципы построения систем звуковых сред, позволяющая эффективнее разрабатывать алгоритмы и программные средства поддержки звуковой среды в виртуальных многопользовательских системах.

Разработка программных средств.

Для формирования насыщенной виртуальной звуковой среды используется комплекс разработанных инструментальных средств, который включает:

• модуль распознавания и воспроизведения речи участника, описанный в статье [13];

• модуль синтеза звука, созданный на основе разработанной во второй главе модели;

• модуль пространственного воспроизведения звука.

Алгоритм работы программного модуля синтеза звука заключается в следующем: входные данные (идентификатор модели и ее коэффициенты) поступают на вход блока «Анализ параметров моделей», который отправляет запрос в блок «База данных параметров моделей» (рис. 4).

Рис. 4. Схема синтеза звука

База данных параметров моделей содержит записи параметров моделей: идентификатор модели, коэффициенты модели оригинального звука, коэффициенты параметризации. Если в базе данных есть запись, то вычисляются коэффициенты модели для синтеза звука (блок «Расчет коэффициентов для звука»). Иначе, сохраняются входные данные в базе данных, выполняется анализ оригинального звука (блоки «Набор звуковых файлов» и «Анализ звука»), далее осуществляется расчет коэффициентов для звука. В блоке «Синтез звука» по рассчитанным коэффициентам синтезируется звук, и затем звук отправляется в модуль пространственного воспроизведения звука (рис. 5).

В блоке «Анализ расположения источника звука и слушателя» определяются положение и ориентация источника звука в виртуальном пространстве. Если положение и ориентация источника звука и аватара слушателя (аватар - представление пользователя в виртуальном пространстве в виде человекоподобных виртуальных объектов) не изменились и определено значение HRTF-функции, то осуществляется переход к блоку «Пространственное преобразование звука». Иначе осуществляется переход в блок «Изменение параметров пространственного звука», в котором определяются параметры пространственного звука (рис. 6) по формуле (1).

звук

Рис. 5. Схема пространственного воспроизведения звука

Рис. 6. Схема расчета параметров пространственного звука. Верхние индексы в функциях HRTF, IPTF: L и R, соответственно означают левый и правый канал

Таким образом, представленные выше разработанные алгоритмы и инструментальные средства позволяют создать насыщенную звуковую среду в виртуальных многопользовательских системах.

Выводы

Разработана формальная модель насыщенной звуковой среды, включающая модель пространственного преобразования звука и модель синтеза звука. Разработанная модель пространственного преобразования звука позволяет более точно формировать звуковое пространство при меньших вычислительных мощностях. Модель синтеза звука позволяет генерировать различные состояния звуковой среды в зависимости от ситуации и местоположения пользователя, что значительно улучшает аудио интерфейсы в виртуальном пространстве. На основе разработанных моделей и алгоритмов созданы инструментальные средства поддержки звуковой среды в виртуальных многопользовательских системах.

Библиографический список

1. Klein E. Dirt-Cheap 3-D Spatial Audio. / E. Klein, G. S. Schmidt, E. B. Tomlin, D.G. Brown // Linux Journal, pages 78-87, October 2005.

2. Blauert J. Spatial Hearing. The psychophysics of human sound localization / J. Blauert // The MIT Press, Cambridge, MA, 1997

3. Lentz T. Binaural technology for virtual reality. / T. Lentz // PhD thesis, RWTH Aachen University, Germany, 2007.

4. Rath M. The sounding object, chapitre High-level models: bouncing, breaking, rolling, crumpling, pouring. / M. Rath, F. Fontana // pages 173-204. Mondo Estremo, Firenze, Italy, 2003.

5. Avanzini F. Interactive Simulation of Rigid Body Interaction With Friction-Induced Sound Generation. / F. Avanzini, S. Serafin, D. Rocchesso // Speech and Audio Processing, IEEE Transactions on, vol. 13, no. 5, pages 1073-1081, Sept. 2005.

6. Avanzini F. Interactive sound, chapitre 3, pages 83-140. Logos Verlag Berlin GmbH, Berlin, 2008.

7. Gardner B. HRTF Measurements of a KEMAR Dummy-Head Microphone. / B. Gardner, K. Martin // Tech. Rep. 280, MIT Media Lab., Cambridge, MA (1994 May).

8. Долгарев А. И. Краткий курс Евклидовой дифференциальной геометрии. Учебное пособие. - Пенза, 2005.

9. Mackenzie J. Low-Order Modeling of Head-Related Transfer Functions Using Balanced Model Truncation. / J. Mackenzie, J. Huopaniemi, V. Va'lima'ki, I. Kale // IEEE Signal Process. Letts., vol. 4, pp. 39-41 (1997 Feb.).

10. Beliczynsky B. Approximation of FIR by IIR Digital Filters: An Algorithm Based on Balanced Model Reduction. / B. Beliczynsky, I. Kale, G. D. Cain // IEEE Trans. Signal Process., vol. 40, pp. 532-542 (1992 Mar.).

11. K. Glover. All Optimal Hankel-Norm Approximation of Linear Multivariable Systems and

Their L -Error Bounds. / K. Glover // Int. J. Cont., vol. 39, pp. 1115-1117 (1984).

12. Воробьев В.И. Теория и практика вейвлет преобразования. / В.И. Воробьев, В.Г. Грибунин // ВУС, 1999.

13. Хованский В.П. Программная реализация 3D-звукового сервиса в виртуальных пространствах / В.П. Хованский, А.В. Герасимов, М.Н. Морозов // Информационные технологии в профессиональной деятельности и научной работе: сборник материалов Всероссийской научно-практической конференции с международным участием. Часть 2. -Йошкар-Ола: МарГТУ, 2010. С. 143-147.

i Надоели баннеры? Вы всегда можете отключить рекламу.