Научная статья на тему 'АППРОКСИМАЦИЯ КРИВОЙ МАСКИРОВКИ ВО ВРЕМЕННОЙ ОБЛАСТИ ДЛЯ ЭФФЕКТИВНОГО СЖАТИЯ АУДИОДАННЫХ'

АППРОКСИМАЦИЯ КРИВОЙ МАСКИРОВКИ ВО ВРЕМЕННОЙ ОБЛАСТИ ДЛЯ ЭФФЕКТИВНОГО СЖАТИЯ АУДИОДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
31
5
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОМПРЕССИЯ АУДИОДАННЫХ / ВРЕМЕННАЯ МАСКИРОВКА / COMPRESSION OF AUDIO DATA / TEMPORARY MASKING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Стефанова Ирина Алексеевна, Павлов Константин Витальевич

Вопросы сжатия аудиоданных являются весьма актуальными в наше время. В статье рассматривается математическая модель одного из свойств слуха - маскировки во временной области, позволяющая при ее использовании повысить эффективность сжатия аудиоданных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

АППРОКСИМАЦИЯ КРИВОЙ МАСКИРОВКИ ВО ВРЕМЕННОЙ ОБЛАСТИ ДЛЯ ЭФФЕКТИВНОГО СЖАТИЯ АУДИОДАННЫХ

The issues of audio data compression are very relevant nowadays. The article deals with the mathematical model of one of the hearing properties - masking in the time domain, which allows using it to increase the efficiency of audio data compression.

Текст научной работы на тему «АППРОКСИМАЦИЯ КРИВОЙ МАСКИРОВКИ ВО ВРЕМЕННОЙ ОБЛАСТИ ДЛЯ ЭФФЕКТИВНОГО СЖАТИЯ АУДИОДАННЫХ»

Прикаспийский журнал: управление и высокие технологии. 2012. №4 (20). С. 51-54.

5. Клейнен Дж. Статистические методы в имитационном моделировании / Дж. Клейнен. - М.: «Статистика», 1978.

6. Трахтенгерц Э.А. Программное обеспечение автоматизированных систем управления. - М.: «Статистика», 1974.

7. Лобейко В.И. Современные подходы к организации испытаний сложных систем / В.И. Лобейко. - Асрахань: Издательский дом «Астраханский университет», 2006. - 332 с.

АППРОКСИМАЦИЯ КРИВОИ МАСКИРОВКИ ВО ВРЕМЕННОЙ _ОБЛАСТИ ДЛЯ ЭФФЕКТИВНОГО СЖАТИЯ АУДИОДАННЫХ_

Стефанова Ирина Алексеевна

кандидат тех. наук, доцент Поволжского государственного университета телекоммуникаций и информатики,

г. Самара, РФ, Павлов Константин Витальевич

магистрант Поволжского государственного университета телекоммуникаций и информатики, _г. Самара, РФ,

APPROXIMATION OF THE MASKING CURVE IN THE TIME DOMAIN FOR EFFICIENT _COMPRESSION OF AUDIO DATA_

Iran Stefanova

candidate of Science, assistant professor of Volga Region State University of Telecommunications and Informatics, Samara, Russia

Constantin Pavlov

MSc student of Volga Region State University of Telecommunications and

Informatics, Samara, Russia

Аннотация

Вопросы сжатия аудиоданных являются весьма актуальными в наше время. В статье рассматривается математическая модель одного из свойств слуха - маскировки во временной области, позволяющая при ее использовании повысить эффективность сжатия аудиоданных.

Abstract

The issues of audio data compression are very relevant nowadays. The article deals with the mathematical model of one of the hearing properties - masking in the time domain, which allows using it to increase the efficiency of audio data compression.

Ключевые слова: компрессия аудиоданных, временная маскировка.

Keywords: compression of audio data, temporary masking.

В течении последних лет наблюдается большая тенденция роста использования Internet и мобильных устройств. Как правило, большую часть трафика при этом занимает просмотр и прослушивание мультимедиа. В связи с этим не теряют своей актуальности исследования направленные на оптимизацию методов обработки цифровых данных. Большое влияние на это могут оказать исследования по получению большей эффективности методов сжатия звуковой информации.

Большое влияние на развитие сжатия аудиоданных оказали авторы монографии [3], которые исследовали большое количество свойств слуха человека и представили рекомендации по их применению. На базе их исследований стали бурными темпами развиваться алгоритмы сжатия аудиоданных с использованием психоакустических свойств человека.

Несмотря на большое число созданных и распространенных алгоритмов сжатия, ряд из них

имеют недостатки. К их числу можно отнести применение далеко не всех известных [3] в психоакустике свойств слуха человека, либо использование их упрощенных математических моделей [2, с. 189].

С этой точки зрения наиболее эффективно рассматривать методы сжатия с применением других, менее изученных, свойств слуха человека. Во-первых, потому, что не все известные на текущий момент свойства [3] применяются на практике, во-вторых, для используемых в известных стандартах MPEG, Dolby^4С-3 были получены упрощенные математические модели на основе экспериментальных данных основанных на субъективной оценке процесса восприятия участников экспериментов.

При воздействии на барабанную перепонку уха некоторого времени звука большой интенсивности воспринимая громкость постепенно уменьшается. Это значит, что во времени действия длительного громкого звука падает чувствительность

уха. После прекращения действия звука чувствительность постепенно восстанавливается. Это явление называется адаптацией слуха.

Из-за явления адаптации слуха возникают ситуации, когда достаточно громкие звуки маскируют, делают практически неслышимыми звуки, следующие за ними. В некоторых случаях маскируются предшествующие звуки.

Такой вид маскировки, когда звуки не перекрываются по времени, называется временной маскировкой [2, с. 36], которая разделяется на предмас-кировку и постмаскировку. В данной работе рассматривается временная постмаскировка. Это

свойство заключается в изменении порога слышимости после сигнала высокого уровня, при этом более слабый сигнал становится неслышимым в течении времени продолжительностью до 200 мс после его включения, если его уровень лежит ниже измененного порога слышимости исследуемого сигнала.

На рис. 1 изображена суть эксперимента, который проводился авторами [3] для исследования данного свойства: сначала включался маскер - более громкий звук, а за ним маскируемый сигнал. Как видно, при постмаскировке рассматривается ситуация, когда маскируемый сигнал (с) находится после маскерующего (м).

м -► с

Рис.1. Последовательность включения маскера и маскируемого сигнала

Само описанное свойство постмаскировки представлено графически на рис. 2.

Рис.2. Зависимость изменения порога слышимости маскируемого сигнала от величины временного

интервала между сигналом и маскером

Для того, чтобы применить это явление в алгоритмах сжатия при цифровой обработке аудиоданных необходимо в явном виде получить математическое описание кривой порога слышимости при

F(f,K,,K2,...,Kn) = К, • F(f) + K2 • F2(f) + ...Kn • Fn(f),

постмаскировке основываясь на полученных в результате эксперимента данных [3].

Для получения математической модели кривой, представленной на рис. 2 будем использовать линейную регрессию общего вида [1].

(1)

где Fl(f), Р^О, ..., Рп (/) - некоторые функции (возможно и нелинейные);

К1, К2, ..., Кп- коэффициенты, соответствующие этим функциям.

При этом в качестве критерия точности приближения Р(К1, К2, ..., Кп) к экспериментальным точкам данных используется коэффициент детерминации:

>2

Н F. - F)'

R2 = --

m -

X (^ - F )2

i=1

где m - общее число исследуемых точек данных;

F и F - соответственно, расчётное и экспериментальное значения данных;

F - усреднённое по m значение экспериментальных данных.

Причем чем ближе R2 стремится к единице, тем точнее приближение. Моделирование проводилось с помощью математического пакета Mathcad-15 (Pro).

Оказалось, что с высокой степенью точности (R2 = 0,999) порог слышимости при постмаскировке описываются соответствующей функцией:

¿(0 = 1.81 • 10-4 • £2 - 0.443 • £ - 0.159 • Ш+Ь(Ст) (3)

где L(tm) - уровень маскируемого звука, равный 60 дБ.

На рис. 3 точками показаны экспериментальные данные взятые из графика рис.2 при L(tm) = 60 дБ, а сплошной линией - зависимость, рассчитанная в соответствии с функцией (3). В результате

Рис.3. Аппроксимация кривой постмаскировки

проведенного регрессионного анализа можно констатировать, что полученная зависимость в достаточной степени согласуются с характером распределения экспериментальных данных и, в соответствии с этим, их можно использовать для анализа и оценки степени сжатия аудиоданных при устранении психоакустической избыточности.

В ходе проделанной работы удалось получить аналитическое описание для кривой постмаскировки. Эмпирическое выражение можно будет использовать как в цифровых кодеках с цифровой компрессией аудиоданных, так и при создании компьютерных моделей, с использованием которых появится возможность получить оценки степени сжатия аудиоданных с использованием психоакустических свойств слуха человека.

Список литературы

1. Воскобойников Ю. Регрессионный анализ данных в пакете Mathcad. М: Лань, 2011 - 224 с.

2. Ковалгин Ю. А., Вологдин Э.И. Цифровая обработка звуковых сигналов. - СПб.: КОРОНА-принт, 2004 - 240 с.

3. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации / пер. с немецкого, под ред. Б. Г. Белкин. М.: Связь, 1971 - 255 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.