Научная статья на тему 'The method of psychoacoustic model adaptation to wavelet domain based on quantization matrix'

The method of psychoacoustic model adaptation to wavelet domain based on quantization matrix Текст научной статьи по специальности «Строительство и архитектура»

CC BY
158
26
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЦИФРОВАЯ КОМПРЕССИЯ ЗВУКА С ПОТЕРЯМИ / ВЕЙВЛЕТЫ / КВАНТОВАНИЕ / ПСИХОАКУСТИЧЕСКАЯ МОДЕЛЬ

Аннотация научной статьи по строительству и архитектуре, автор научной работы — Rogozinsky G.G., Fadeyev D.R., Fadeyev A.A., Smirnov A.V., Ivanova Yu.I.

The paper presents the authors' recent research in adaptation of the psychoacoustic model of ISO MPEG AAC to the Discrete Wavelet Packet algorithm of lossy audio coding. Wavelet Transform-based digital audio compression possesses several advances in the context of compact representation of transients and non-harmonic components. Meanwhile, one of the well-known issues of application of wavelets for the audio compression is poor accuracy of existing psychoacoustic models obtained for wavelet domain. The authors discovered the complex distribution of wavelet coefficients quantization noise across the spectrum due to significant cross-band aliasing between wavelet decomposition tree subbands. The authors also obtained the wavelet quantization noise function related to the analysis bands of MPEG AAC Psychoacoustic Model. The described approach provided the method of quantization matrix calculation, which is useful for exact estimation of masking threshold during lossy wavelet coefficients coding. The obtained results allow increasing the accuracy of existing compression models based on wavelet transform, therefore gaining the efficiency of digital audio compression with reviewed transforms.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Метод адаптации психоакустической модели к вейвлетному пространству на основе матрицы шумов квантования

Приводятся результаты исследований авторов в области адаптации психоакустической модели ISO MPEG AAC к алгоритму цифровой компрессии звука с потерями на основе кодирования вейвлетных коэффициентов. Компрессия на основе вейвлетного преобразования обладает рядом преимуществ в части компактного представления транзиентных и негармонических компонент звуковых сигналов, однако одной из проблем использования вейвлетов для сжатия звука является неточность существующих психоакустических моделей, полученных для вейвлетного пространства. Авторы обнаружили сложный характер распределения шумов квантования коэффициентов преобразования, вызванный особенностями вейвлетного субполосного кодирования и значительного элайзинга между полосами. Авторы также получили метод расчет распределения вейвлетных шумов квантования от полос психоакустической модели ISO MPEG AAC. Описанный метод позволяет вычислить матрицу шумов квантования вейвлетных коэффициентов, с целью ее использования для оценки порога маскировки при цифровой компрессии звука на основе кодирования коэффициентов вейвлетного преобразования.

Текст научной работы на тему «The method of psychoacoustic model adaptation to wavelet domain based on quantization matrix»



THE METHOD OF PSYCHOACOUSTIC MODEL ADAPTATION TO WAVELET DOMAIN BASED ON QUANTIZATION MATRIX

Gleb G. Rogozinsky,

The Bonch-Bruevich St.Petersburg State University of Telecommunications, St.Petersburg, Russia, [email protected]

Daniel R. Fadeyev,

The Bonch-Bruevich St.Petersburg State University of Telecommunications, St.Petersburg, Russia, [email protected]

Alexander A. Fadeyev,

The Bonch-Bruevich St.Petersburg State University of Telecommunications, St.Petersburg, Russia, [email protected]

Anton V. Smirnov,

Saint-Petersburg State Institute of Film and Television, St.Petersburg, Russia, [email protected]

Yulia I. Ivanova,

The Bonch-Bruevich St.Petersburg State University of Telecommunications, St.Petersburg, Russia,

[email protected]

DOI 10.24411/2072-8735-2018-10263

Keywords: Lossy audio coding; wavelets, quantization, psychoacoustic model.

The paper presents the authors' recent research in adaptation of the psychoacoustic model of ISO MPEG AAC to the Discrete Wavelet Packet algorithm of lossy audio coding. Wavelet Transform-based digital audio compression possesses several advances in the context of compact representation of transients and non-harmonic components. Meanwhile, one of the well-known issues of application of wavelets for the audio compression is poor accuracy of existing psychoacoustic models obtained for wavelet domain. The authors discovered the complex distribution of wavelet coefficients quantization noise across the spectrum due to significant cross-band aliasing between wavelet decomposition tree subbands. The authors also obtained the wavelet quantization noise function related to the analysis bands of MPEG AAC Psychoacoustic Model. The described approach provided the method of quantization matrix calculation, which is useful for exact estimation of masking threshold during lossy wavelet coefficients coding. The obtained results allow increasing the accuracy of existing compression models based on wavelet transform, therefore gaining the efficiency of digital audio compression with reviewed transforms.

Information about authors:

Gleb G. Rogozinsky, Medialabs, The Bonch-Bruevich St.Petersburg State University of Telecommunications, St.Petersburg, Russia

Daniel R. Fadeyev, Department of Radiocommunications and Broadcasting, The Bonch-Bruevich St.Petersburg State University of

Telecommunications, St.Petersburg, Russia

Alexander A. Fadeyev, Department of Radiocommunications and Broadcasting, The Bonch-Bruevich St.Petersburg State University of Telecommunications, St.Petersburg, Russia

Anton V. Smirnov, Department of Sound Production, Saint-Petersburg State Institute of Film and Television, St.Petersburg, Russia

Yulia I. Ivanova, Department of Radiocommunications and Broadcasting, The Bonch-Bruevich St.Petersburg State University of Telecommunications

St.Petersburg, Russia

Для цитирования:

Рогозинский Г.Г., Фадеев Д.Р., Фадеев А.А., Смирнов А.В., Метод адаптации психоакустической модели к вейвлетному пространству на основе матрицы шумов квантования // T-Comm: Телекоммуникации и транспорт. 2019. Том 13. №4. С. 64-69.

For citation:

Rogozinsky G.G., Fadeyev D.R., Fadeyev A.A., Smirnov A.V., Ivanova Yu.A. (2019). The method of psychoacoustic model adaptation to wavelet domain based on quantization matrix. T-Comm, vol. 13, no.4, pр. 64-69.

T-Comm 1ом 13. #4-2019

Introduction

Although the main purpose of lossy audio coding seems to be exhausted due to the essential growth of data storage and data rates, the impetuous development of post-NGN technologies and the BigData create new applications for lossy audio. Typical roadmap includes the demands for low and ultra low rale algorithms for loT world, audio sensor data storage, and new classes of poly modal liu man-machine interfaces. Moreover, the mobile networks of developing countries and regions are still in the great need for significant compression rates of multimedia. Such factors explain the necessity of further developments in the field of lossy audio compression.

Wavelets have a real triumphal history in the still picture and video coding (JPEG2000), though for the audio domain the results of their application are rather controversial. The wavelet-based experimental codecs have been developing since early 90s, but despite of few optimistic results, none of them was actually implemented in some commercial solution. Nevertheless, (he wavelet coding should provide more compact form for noise and/or transient components of the signal, comparing to any Fourier related coding. While the wavelet-only (with the psyehoa-coustic analysis carried completely into wavelet domain) audio coding still remains unwarranted, the hybrid solutions have a serious reason to exist.

Of the most significant research directions in the field of digital audio compression the most remarkable are modification and/or development of new psychoacoustic models, optimization of ambiguity cancelation algorithms, and increasing of high-efficiency coding methods.

The Problems of Wavelet-based Audio Compression

Algorithms

The existing audio codecs based on processing of wavelet coefficients fall into two categories. The first one operates completely in a wavelet domain, i.e. both coefficient coding and psychoacoustic analysis are processed in a wavelet domain [2]. The second one uses psychoacoustic analysis carried in Fourier domain |7], then translates it to the domain of coding, i.e. into a Wavelet domain.

The direct implementation of psychoacoustic analysis in a wavelet domain has several advances, since it decreases the calculation complexity due to only one domain of processing. Meanwhile, such approach causes well-known aliasing issues, since both Discrete Wavelet Transform (DWT) and Discrete Packet Wavelet Transform (DPWT), traditionally used in digital processing applications, do not provide the compact representation for tonal signals.

The Fig. I shows the distribution of energy levels S{k) of wavelet coefficients over 28 wavelet bands for a 10 kMz sine. The authors used Daubeehies 4 wavelet {solid line on picture) and Daubeehies 20 wavelet {dotted line on picture).

Thus since magnitude responses of each of the wavelet band is actually a product of several filter magnitude responses (see Fig. 2), the input tonal signal typically causes significant values of wavelet coefficients in several non-adjacent bauds [1].

The thick line corresponds to the actual magnitude response of a single wavelet band. As it can be seen, the right-most side lobe is rather high. The usage of wavelets of higher order, or designing new wavelets with increased selectivity does not really affect much on the aliasing cancellation, though leads to some

better results, i.e. even Daubeehies 10 (with Filter length of 20) still not able to completely cancel the aliasing effects, as it can be seen on Figure 1 for the dotted line. The leftmost peak for Daubeehies 10 in the 1011' band of Fig.l was reduced, as well as the energy spread near 2Pl band, but the last subband remains almost at the same high level, causing erroneous estimation of masking threshold in psychoacoustic analysis and increased bit allocation to the corresponding bands.

CO

"O -X

pi _ k_ -4

<H c

- ■ i i

--

1 ■ t ! !

I—1 rtn i : i ) n_ ■

n-fi i L i t— i-j--

1*" n_P

—1 • ] ■ i i ■ ■

Wavelet Subbatids

Figure I. Wavelet energy distribution lor 10 kHz sine over 28 bands. Solid line - Daubeehies 4. dotted line - Daubeehies 10

Finn i-t- 2. Magnitude Responses of Wave lei Filter Bank.

12-band tree structure

The Wavelet Coefficients Quantization Noise

The authors discovered an alternative approach to bypass the issue described above. The main concept leads to translation of the results of a Fourier based psychoacoustic analysis into the wavelet domain. The magnitude responses of DWT bands are actually determined by the sequence of several band pass filters, or on the other hand, the coefficients of a single DWT band will affect several non-adjacent areas in a Fourier domain. Thus, the wavelet quantization noise will be non-equally spread across the whole frequency spectrum. Therefore, the areas of significant level in frequency domain should be considered while performing the psychoacoustic analysis for precise estimation of masking threshold.

Figures 3 and 4 show the results of wavelet reconstruction of a single band quantization noise pattern.

T-Comm Tом 13. #4-2019

_

for digital audio compression algorithms. The second group consisted of students of The Boinch-Bruevich Si.Petersburg University of Telecommunications, none of them specially acquainted ofcoding artifacts. Fach group included 12 people (6 males and 6 females) within the age of 17 and 23.

The test was performed according to ITU-R BS.I 116 recommendation [4]. None of attending experts was able to detect the artifacts oflossy audio coding with A = 0 bit. Up to 90% of listeners were not able to detect the artifacts with A = 1 bit. 86% of listeners were able to detect the coding artifacts with A = 2 bit.

Table 1

Daubechies 10 results at A=0 bit

Genre Mean Min Max St. Dev

Choir 8521 464 12976 1902

Electronic Dance 1 1139 296 14056 1457

Cham ber 8073 0 12600 2513

Orchestral 9449 4496 12680 1565

Pop/Jazz 10895 4064 14024 1411

Rock/Metal 10567 3056 13688 1722

Table 2

Daubechies 10 results at A=1 bit

Genre Mean Min Max St. Dev

Choir 5358 336 10416 t466

Electronic Dance 8562 160 11976 1492

Chamber 4876 0 9560 1942

Orchestral 6374 2160 10120 1143

Pop/Jazz 8230 3224 11976 1316

Rock/Metal 7827 2160 11640 1772

During the series of experiments we have been using the fixed 28-band tree structure of wavelet analysis and synthesis described above. The wavelet types used for the tests were Daubechies 4 (filter length of 8 coefficients) and Daubechies 10 (filter length of 20 coefficients). The obtained method can be applied the same way to any other wavelet and any other tree

structure used for the DWT. Moreover, the same approach of quantization noise modeling can be used for any filter band for the accurate estimation of quantization noise spread. The results of A coefficient estimation for two different wavelets are given in Tabic 1 and 2, depending on various music genres. Numbers in tables' cells are the overall bit number per each frame (mean, min, max and standard deviation).

Conclusion

Our further research will be focused on formalization of wavelet quantization matrices. The matrix visualization given on Figures 8 and 9 reveals certain structure pattern, as like as Figures 3-5 do. Therefore, it can be possible to find certain mathematical formalization for describing the quantization noise spread depending on selected DWT tree and wavelet type, li should help to simplify the calculation algorithms and increase the coding efficiency.

References

1. Rogozinsky G.G. An Application of Wavelet Optimization Method in Perceptual Audio Coding. Radiotekhnika, vol. 5, pp. 94-97, 2010. (in Russian)

2. Rogozinsky G.G. Perceptual Audio Compression based on Wavelet Packets, Russian PhD Thesis, St.Petersburg Slate Institute of Film and Television, 2010. (in Russian)

3. Fadeyev D.K.. Kovalgin Y.A. On Control of Quantization Errors in Wavelet Domain Audio Coding. Electrosvyaz, vol. 8, pp. 55-60, 2016. (iin Russian)

4. Fadeyev D.R., Kovalgin Y.A, An Estimation of Quality and Efficiency of Wavelet Domain Audio Codec. Systemy Upravleniya and Informatsionnye Tekhnologii, vol. 64, №2, pp. 58-62, 2016. (in Russian)

5. Fadeyev D.R., Kovalgin Y.A. On Research of Psychoacoustic Models of Codecs with Audio Compression. Sovremenmya Nauka: Aktualny Problemy Theorii e Praktiki, vol. 7, pp. 29-39, 2016. (in Russian)

6. Rogozinsky G.G., Fadeyev D.R., Podolsky D.A. Method of Adaptation of Psychoacoustic Analysis Results to Wavelet Domain in Lossy Audio Compression. Sinkhroinfo, 2017, vol. 8, no. 3, pp. 60-65.

7. Sinha D., Tewtlk A. Low bit rate transparent audio compression using adapted wavelets. IEEE Trans. Signal Processing, vol.41, no.12, pp. 3463-3479, December 1993.

МЕТОД АДАПТАЦИИ ПСИХОАКУСТИЧЕСКОЙ МОДЕЛИ К ВЕЙВЛЕТНОМУ ПРОСТРАНСТВУ

НА ОСНОВЕ МАТРИЦЫ ШУМОВ КВАНТОВАНИЯ

Рогозинский Глеб Гендрихович, Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича, Санкт-Петербург, Россия, [email protected]

Фадеев Даниил Романович, Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича, Санкт-Петербург, Россия, [email protected]

Фадеев Александр Альфонсович, Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича, Санкт-Петербург, Россия, [email protected]

Смирнов Антон Викторович, Санкт-Петербургский государственный институт кино и телевидения,

Санкт-Петербург, Россия, [email protected]

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Иванова Юлия Игоревна, Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича, Санкт-Петербург, Россия, [email protected]

Аннотация

Приводятся результаты исследований авторов в области адаптации психоакустической модели ISO MPEG AAC к алгоритму цифровой компрессии звука с потерями на основе кодирования вейвлетных коэффициентов. Компрессия на основе вейвлетного преобразования обладает рядом преимуществ в части компактного представления транзиентных и негармонических компонент звуковых сигналов, однако одной из проблем использования вейвлетов для сжатия звука является неточность существующих психоакустических моделей, полученных для вейвлетного пространства. Авторы обнаружили сложный характер распределения шумов квантования коэффициентов преобразования, вызванный особенностями вейвлетного субполосного кодирования и значительного элайзинга между полосами. Авторы также получили метод расчет распределения вейвлетных шумов квантования от полос психоакустической модели ISO MPEG AAC. Описанный метод позволяет вычислить матрицу шумов квантования вейвлетных коэффициентов, с целью ее использования для оценки порога маскировки при цифровой компрессии звука на основе кодирования коэффициентов вейвлетного преобразования.

Ключевые слова: цифровая компрессия звука с потерями, вейвлеты, квантование, психоакустическая модель. Литература

1. Рогозинский Г.Г. Применение метода оптимизации вейвлетов в перцепционном кодирования звуковых сигналов // Радиотехника. 2010. №5. С. 94-97.

2. Рогозинский Г.Г. Перцепционное сжатие звука с использованием вейвлетных пакетов. Дисс. на соиск. уч. ст. канд. техн. наук/ СПбГУКиТ. Санкт-Петербург, 2010.

3. Ковалгин Ю.А., Фадеев Д.Р. Контроль искажений квантования при работе кодека в вейвлетном пространстве // Электросвязь. 2016. №9. С. 68-73.

4. Ковалгин Ю.А., Фадеев Д.Р. Оценка качества и эффективности работы кодека в вейвлетном пространстве // Системы управления и информационные технологии. 2016. Т. 64. № 2. С. 58-62.

5. Ковалгин Ю.А., Фадеев Д.Р. Исследование психоакустических моделей кодеков с компрессией цифровых аудиоданных // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и технические науки. 2016. №7. С. 29-38.

6. Рогозинский Г.Г., Фадеев Д.Р., Подольский Д.А. Метод адаптации результатов психоакустического анализа к вейвлетному домену при сжатии звука с потерями // Системы синхронизации, формирования и обработки сигналов. 2017. Т. 8. № 3. С. 60-65.

7. Sinha D. and Tewfik A. Low bit rate transparent audio compression using adapted wavelets // IEEE Trans. Signal Processing, vol. 41, no.12, pp. 3463-3479, December 1993.

Информация об авторах:

Рогозинский Глеб Гендрихович, доцент каф. радиосвязи и вещания, Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича, Санкт-Петербург, Россия,

Фадеев Даниил Романович, доцент каф. радиосвязи и вещания, Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича, Санкт-Петербург, Россия,

Фадеев Александр Альфонсович, доцент каф. радиосвязи и вещания, Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича, Санкт-Петербург, Россия,

Смирнов Антон Викторович, зам. зав. кафедрой звукорежиссуры, Санкт-Петербургский государственный институт кино и телевидения, Санкт-Петербург, Россия,

Иванова Юлия Игоревна, специалист НОЦ "Медиацентр", Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича, Санкт-Петербург, Россия,

i Надоели баннеры? Вы всегда можете отключить рекламу.