Информационный подход к описанию звукового сигнала

Гай В.Е.

УДК 534.4

В. Е. Гай

Нижегородский государственный технический университет им. P.E. Алексеева

Информационный подход к описанию звукового

сигнала

Рассматривается подход к решению задачи раскрытия априорной неопределённости звукового сигнала. Предлагаемый подход основан на последовательном применении к сигналу операций интегрирования и дифференцирования. Это позволяет избавиться от некорректности, возникающей при предварительной обработке сигнала. Метод идентификации звуковых записей, предлагаемый в работе, основан на использовании данного подхода.

Ключевые слова: цифровая обработка сигналов, звуковой сигнал, активное восприятие, идентификация звуковых сигналов.

Введение

Следуя теории активного восприятия [1], введём понятие звукового сигнала. Звуковым сигналом называется множество М, каждый элемент которого в фиксированный момент времени £ есть неотрицательная действительная функция действительного аргумента:

М Г /(¿), если £ е Т с К,

\ 0 — в противном случае,

определённо на конечном множестве точек замкнутого одномерного интервала Т, суммируемая: / (£) М < ж и квадратично интегрируемая: ^ ^ / (¿)2 М < ж.

Разработка оптимальных методов цифровой обработки звуковых сигналов невозможна без создания подхода к описанию сигнала. Звуковой сигнал представляет собой физический процесс, принадлежащий окружающему миру, вследствие этого он обладает свойствами и законами окружающего мира. К таким свойствам относятся упорядоченность и структурированность. Условие упорядоченности обеспечивает существование бинарного отношения частичного порядка типа

( < Ь) /а< ^ — строгий порядок, ^ а = Ь — тождество.

Условие структурированности, с учётом упорядоченности, указывает на наличие для любых пар элементов (а, Ь) существование границ - максимальной и минимальной. Учитывая, что о наблюдаемом звуковом сигнале в заданном интервале отсутствуют какие-либо априорные данные, последующая обработка такого сигнала выполняется в условиях априорной неопределённости. Рассматривая звуковой сигнал как системное образование, задача раскрытия априорной неопределённости сигнала заключается в выделении структурных элементов сигнала и определении связей между ними.

1. Предварительная обработка сигнала

Система обработки данных (СОД) с точки зрения системного анализа выполняет три этапа обработки данных (см. рис. 1): подготовку и анализ данных, принятие решения. Система распознавания образов является одним из примеров СОД.

На этапе создания исходного описания в классических системах распознавания решается задача предварительной обработки анализируемого сигнала, которая заключается в

фильтрации сигнала. Данную операцию можно описать уравнением Фредгольма первого рода:

К (x,t) f (t) dt,

g (x)= j К (x,t) f (t).

гет

где д (ж) - наблюдаемая функция, / (Ь) - неизвестная функция (априори неизвестное изменение во времени амплитуды регистрируемого сигнала на входе устройства), К (х,Ь) -ядро преобразования.

Фильтрация сигнала выполняется с целью компенсации помех, которые искажают сигнал в процессе его передачи от источника к приемнику.

Рис. 1. Этапы обработки информации

Учитывая, что незначительные изменения в наблюдаемом сигнале / (Ь) могут привести к недопустимо большим изменениям в решении, результат, получаемый после выполнения фильтрации, в рамках использования уравнения Фредгольма является некорректным. Таким образом, сама задача предварительной обработки, описываемая с помощью уравнения Фредгольма, также некорректна [2|. Следовательно, основной задачей на шаге предварительной обработки является избавление от некорректности, возникающей в результате вычисления преобразования Фредгольма.

2. [/-преобразование

Методам решения некорректных задач посвящено большое количество работ. К численным методам решения некорректных задач относятся методы подбора и методы регуляризации, к формализованным метод Галеркина и проекционные методы [2|. Один из способов приведения некорректной задачи к корректной описан в Теории активного восприятия (TAB) [1|.

В данной теории этап формирования исходного описания сигнала соответствует Q-преобразованию. Q-преобразование выполняется в соответствии с уравнением Фредгольма и в качестве ядра преобразования К (t, х) использует единичную весовую матрицу. В результате уравнение Фредгольма приводится к следующему виду:

g (х) = j f (t) dt.

ter

Уравнение данного вида является корректным, вследствие того, что из него исключена операция дифференцирования, а операция интегрирования является корректной [3].

Применение операции интегрирования к сигналу f (t):

т

(Т) = J f (t)

dt

teT

позволяет получить представление о сигнале в целом:

1) если результат интегрирования (т (Т)) отличен от нуля, то рассматриваемый сигнал содержит информацию и можно продолжить исследование структуры сигнала;

2) если результат интегрирования равен нулю, дальнейший анализ сигнала не имеет смысла.

С позиций физики ^-преобразование выявляет массу в области определения, для которой f (£) - это плотность вещества. Таким образом, ^-преобразование за одно измерение позволяет получить об анализируемом сигнале один бит информации и выявить структурный элемент сигнала.

Поскольку все отсчеты сигнала находятся в отношении эквивалентности, то множество отсчетов можно разбить на любое число подобластей без пересечения этих областей между собой. Последовательное применение операции дихотомии и ^-преобразования к сигналу позволяет сгенерировать пирамидальную структуру (см. рис. 2).

Рис. 2. Пирамида описания сигнала

Результатом формирования пирамидального описания сигнала является множество структурных точек {т^ }, где г - уровень анализа, j - помер подобласти сигнала. Для выявления бинарных отношений (связей) на множестве структурных элементов необходима и достаточна операция вычитания. Таким образом, в рамках теории активного восприятия звуковой сигнал рассматривается как системное образование. Для обнаружения системных элементов используется интегральное преобразование, а для выявления связей между элементами пространственное дифференцирование. Результатом выявления дифференциальной структуры является спектральное описание сигнала. Преобразования интегрирования и дифференцирования образуют композицию, которая называется {/-преобразованием:

U = d ■ J .

3. Формирование описания сигнала

Рассмотрим задачу определения необходимого и достаточного числа дихотомий наблюдаемого звукового сигнала с учетом построенной пирамиды исходных описаний, начиная с ее вершины (см. рис. 2):

1) при пуле дихотомий вычисляется масса по всей области определения тоо (Т), если она не равна нулю (тоо (Т) = 0), то имеем достоверное событие наличия сигнала на интервале наблюдения;

2) дихотомия интервала пополам позволяет выполнить локализацию положения экстремума на анализируемом интервале относительно центра: слева либо справа. Каждой половине интервала соответствует масса тц, т12(см. рис. За) [4]. Отношение между этими массами имеет следующий вид: ц = тц — т^. Рассмотрим возможные варианты значения у:

а) у = 0: сигнал симметричен относительно центра, следовательно, на данном уровне локализовать положение экстремума нельзя и следует перейти на следующий (более точный) уровень;

б) у < 0: экстремум расположен слева от центра интервала;

в) ^ > 0: экстремум расположен справа от центра интервала;

таким образом, дихотомия интервала пополам позволяет проверить гипотезу об однородности (симметрии) сигнала;

3) дихотомия отрезка на четыре равных интервала (уточнение положения экстремума, см. рис. 36), поставим в соответствие каждому из интервалов массу: т21, т22, ш23, ш24. Отношение между массами имеет следующий вид: у1 = (т22 + т2з) — (Ш21 + т24) и

= (Ш21 + ш2з) — (т22 + т24). Анализ значений ^ и позволяет определить положение экстремума: в трех случаях получаем, что на сигнале находилось два экстремума (т. с. один экстремум на нулевом уровне разделился на два экстремума на втором уровне), в одном случае (два шарика по центру) получаем, что для локализации экстремума требуется переместиться на уровень ниже (выполнить более тонкий анализ).

Рис. 3. Дихотомия отрезка: а) пополам: б) на четыре части

Таким образом, получаем четыре базисных одномерных фильтра-покрытия (/о, ^з), которые позволяют выделить отношения между парой масс (см. рис. 4).

Рис. 4. Базисные функции

Исследования показали, что для целей анализа звукового сигнала необходимо использование 16 фильтров, которые можно построить по аналогии с четырьмя фильтрами. Результатом имеем систему базисных одномерных булевых функций, которая внешне похожа на систему базисных функций Уолша системы Хармута. Специфика использования данной системы заключается в том, что она применяется после реализации (^-преобразования и сразу по всей области определения.

4. Алгебра групп

Теория активного восприятия не ограничивается только формированием спектрального представления сигнала [1]. В TAB входит раздел «Алгебра групп», посвященный анализу зависимостей между спектральными коэффициентами разложения. Обнаруженные зависимости допускают свое использование на этапах принятия решения и понимания анализируемого звукового сигнала.

Примем для множества фильтров что (+1 ^ 1) и (-1 ^ 0). Получим множество

бинарных операторов {Vi}. Для этих операторов допустимы теоретико-множественные операции объединения (сложения) и пересечения (умножения). Результатом имеем алгебру Ay = {{Vi} : +, х) [1]. В алгебре Ау существуют алгебраические группы:

1) Рпг - группы на трёх элементах (названы полными), образованы на тройках операторов ( У, У, Ук), для которых справедливы соотношения: У + + Ук = ~ единица; У1У^Ук - образ, формируемый с помощью операции умножения и описание группы РПг;

2) Р31 — группы на четырёх элементах (названы замкнутыми), образованы на четвёрке операторов (У, у, Уп, Ут),где (У,, У), Ук) е РПг, (Уп, Ут, Ук) е РПз, с описанием УУ + УпУт и единицей - У + +Уп + Ут =

Алгебра групп используется для формирования описания звукового сигнала. С помощью замкнутых и полных групп выполняется спектрально-корреляционный анализ. Полные группы позволяют выявить корреляционные связи между операторами. Замкнутые - корреляционные связи между полными группами.

5. Идентификация звукового сигнала

Количество музыкальных композиций, хранящихся в настоящее время в сети Интернет, велико (например, сервис Яндекс.Музыка хранит около пяти миллионов записей, сервис БЬагат - пять миллиардов). Очевидно, что в такой ситуации актуальна задача быстрого и точного поиска по имеющимся музыкальным записям. Рассмотрим алгоритмы, предлагаемые для формирования цифрового отпечатка звукового сигнала и для поиска сигнала в базе данных.

5.1. Формирование отпечатка сигнала

Пусть f (t) - звуковой сигнал, наблюдаемый на конечном отрезке времени. Результат применения ^-преобразования к сигналу f - многоуровневое спектральное представление D = {dij}, i = 1, K, j £ 1,Mi, где K - число уровней разложения, Mi - количество сегментов сигнала на г-м уровне разложения, dy - спектр, включающий L спектральных коэффициентов (число используемых фильтров), dij {к} - к-й спектральный коэффициент (к = 1, L), fij - сегмент сигнала f, по которому вычислен спектр dij.

Рассмотрим алгоритм формирования отпечатка звукового сигнала:

1) построение на основе ^-преобразования спектрального представления D сигнала f (при построении разложения сегменты fij не перекрываются); в предлагаемом алгоритме вычисляется только один уровень ^-преобразования, в связи с этим значение индекса i для краткости записи не приводится;

2) формирование огрубленного представления С = {Cj} спектрального представления D = {dj} (степень огрубления - параметр к) [5];

У j £ 1M, У t £ 1jL,

если |Cj (i)| ^ кили |Cj (i)| ^ I (к < I), то Kf .data [j] = fj; Kf .shif t[j] = (j - 1) -If, I + 1,

где Kf - набор ключевых сегментов сигнала f, |fj| - количество отсчётов в сегменте fj, Kf .shif t [j] - смещение j-ro сегмента относительно начала сигнала.

Ключевой сегмент соответствует участку сигнала, на котором максимален отклик небольшого количества операторов (одного-двух). Это означает, что сегмент сигнала подходит под образ операторов, давших максимальные отклики;

4) вычисление по каждому ключевому сегменту замкнутых групп и отбор из полученного набора первых N по массе групп:

У j £ 1Щ,

Wf .groups [j] = GRP [Kf [j]];

Wf .dif f [j] = MAX [Wf .groups [j]] - MIN [Wf .groups [j]];

Wf .shift [j] = Kf [j] .shift,

где |Kf | - мощность множества Kf, GRP [•] - оператор, который вычисляет замкнутые группы по сегменту сигнала, max [•] (min[^]) - оператор для поиска среди групп набора, Wf .groups [j] - группы с максимальной (минимальной) массой, j - помер ключевого сегмента, Wf - предварительное описание сигнала /, Wf .diff [j] - разница между максимальным и минимальным значением масс групп в Wf .groups [j ], Wf .shift [j ] - смещение j-го ключевого сегмента относительно начала сигнала;

5) отбор устойчивых сегментов сигнала (эксперименты показали, что устойчивость сегмента сигнала к искажениям тем лучше, чем больше разница между максимальной и минимальной массами групп, входящих в описание сигнала):

V j е 1\Щ,

если Mf .diff [j] ^ Т, Mf .groups [k] = Wf .groups [j]; Mf .shift [k] = Wf .shift [j ]; k = k + 1,

где Mf - описание сиг пала /, содержащее только устойчивые сегменты сигнала, Т - значение порога.

5.2. Поиск отрывка звукового сигнала в базе данных

Допустим, с помощью алгоритма, приведённого в пункте 5.1, сформирована база данных описаний звуковых сигналов. Рассмотрим алгоритм поиска звукового сигнала в базе данных:

1) формирование отпечатка Ms искомого сигнала s (в отличие от алгоритма, описанного в пункте 5.1, шаг отбора устойчивых сегментов сигнала пропускается, сегменты, на которые разбивается сигнал, перекрываются);

2) поиск отпечатка Ms в базе данных заключается в сравнении пар элементов в описании г-го сигнала базы данных и сигнала s, которые находятся на одинаковых расстояниях: в случае, если такие пары найдены, вычисляется расстояние между их описаниями:

d\ = CMP [Mf,i.groups [к], Ms.groups [m]], d2 = CMP [Mf,i.groups [¿] , Ms.groups [n]] ,

где CMP [•] - оператор сравнения, который вычисляет количество одинаковых групп, в сравниваемых наборах групп (к < I, m <п)\

3) если d\ > Т и Т - порог, то в массив R сохраняется абсолютное значение расстояния между элементами Mf ^.groups [к] и Ms.groups [m]:

R [р] = \Mf,i.shift [к] - l\.

После окончания сравнения описаний г-го из базы данных и искомого сигнала s по массиву R формируется гистограмма. Гистограмма сигнала, который включает искомый сигнал s, будет иметь ярко выраженный максимум [6].

Заключение

В работе рассматривается информационный подход к описанию звукового сигнала, вводится понятие звукового сигнала как системного образования, описывается метод обработки сигнала в условиях априорной неопределённости. Данный метод заключается в последовательном применении к анализируемому сигналу операций интегрирования и дифференцирования, что позволяет выделить структурные элементы сигнала и определить связи между ними. Достоинствами рассматриваемого метода формирования описания сигнала

является низкая вычислительная сложность и простота реализации. В качестве примера описанного подхода к обработке звуковых сигналов рассматривается решение задачи идентификации звуковых записей.

Работа выполнена при поддержке Министерства образования и науки РФ в рамках договора № 02.G25.31.0061 от 12 февраля 2013 года (в соответствии с Постановлением Правительства Российской Федерации от 9 апреля 2010 г. № 218).

Работа, отраженная в данной статье, признана лучшей на Всероссийском конкурсе научных и инновационных проектов студентов, аспирантов и молодых ученых (МФТИ-2012).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Литература

1. Утробин В.А. Физические интерпретации элементов алгебры изображения // Успехи физических наук. - 2004. - Т. 174, № 10. - С. 1089-1104.

2. Бертеро М., Поджо Т.А., Торре В. Некорректные задачи в предварительной обработке визуальной информации // ТИИЭР. - 1988. - Т. 76, № 8. - С. 17-40.

3. Кабанихин С.И. Обратные и некорректные задачи. - Новосибирск: Сибирское научное издательство, 2009.

4. Вир С. Кибернетика и управление производством. - М.: Наука, 1965.

5. Gai V.E. Signal comparison algorithm in terms of a priory uncertainty // Proceedings of 8th Open German-Russian Workshop «Pattern recognition and Image understanding». -2011. - P. 75-78.

6. Wang A. The Shazam music recognition service // Communications of the ACM. - 2006. -V. 49, N. 8. - P. 44-48.

Поступила в редакцию 10.04-2013.

Информационный подход к описанию звукового сигнала Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Гай В.Е.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Гай В.Е.

Текст научной работы на тему «Информационный подход к описанию звукового сигнала»