Научная статья на тему 'Методы идентификация звуковых плат по создаваемым звуковым данным'

Методы идентификация звуковых плат по создаваемым звуковым данным Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
28
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИДЕНТИФИКАЦИЯ ЦИФРОВЫХ УСТРОЙСТВ ЗАПИСИ / СПЕКТРОГРАММА / КОЭФФИЦИЕНТЫ ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ / КЕПСТР / НЕЙРОННЫЕ СЕТИ / ГАУССОВСКИЕ СМЕШАННЫЕ МОДЕЛИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Федоров Владимир Михайлович, Макаревич Олег Борисович, Рублев Дмитрий Павлович, Чумаченко Анатолий Борисович

Рассматриваются методы идентификации звуковых плат по создаваемым ими звуковым файлам на основе неоднородностей, вносимых аппаратной частью плат. Рассмотрены два метода идентификации: с использованием гауссовских смешанных моделей и нейронных сетей. Показана работоспособность обоих методов, однако точность идентификации с использованием нейронных сетей выше, чем при использовании метода гауссовских смешанных моделей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Федоров Владимир Михайлович, Макаревич Олег Борисович, Рублев Дмитрий Павлович, Чумаченко Анатолий Борисович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Методы идентификация звуковых плат по создаваемым звуковым данным»

Библиографический список:

1. Лукацкий, А. В. Системы обнаружения атак / А. В. Лукацкий // Банковские технологии. -1999. - № 2.

2. Лукацкий, А. В. Средства анализа защищенности - сделайте правильный выбор / А.В. Лукацкий // PCWEEK. - 2003. - № 46.

3. Панасенко, Е. Российский рынок ИБ растет быстрее ИТ / Е. Панасенко. - Режим доступа: http://www.cnews.ru, свободный. - Заглавие с экрана. - Яз. рус.

4. Соколова, А. А. Оценка экономической эффективности внедрения VPN-решений / А. А. Соколова, И. А. Филиппова // Information Security / Информационная безопасность. - 2007. - № 1. - C. 44-45.

УДК 681.3.067

МЕТОДЫ ИДЕНТИФИКАЦИЯ ЗВУКОВЫХ ПЛАТ ПО СОЗДАВАЕМЫМ ЗВУКОВЫМ ДАННЫМ*

В.М. Федоров, О.Б. Макаревич, Д.П. Рублев, А.Б. Чумаченко

Рассматриваются методы идентификации звуковых плат по создаваемым ими звуковым файлам на основе неоднородностей, вносимых аппаратной частью плат. Рассмотрены два метода идентификации: с использованием гауссовских смешанных моделей и нейронных сетей. Показана работоспособность обоих методов, однако точность идентификации с использованием нейронных сетей выше, чем при использовании метода гауссовских смешанных моделей.

Ключевые слова: идентификация цифровых устройств записи, спектрограмма, коэффициенты линейного предсказания, кепстр, нейронные сети, гауссовские смешанные модели.

Key words: digital recording devices identification, spectrogram, linear prediction coefficients, cepstrum, artificial neural networks, Gaussian mixed models.

За последние десятилетия вместе с массовым вытеснением аналоговых средств звуко- и видеозаписывающей техники компактными цифровыми устройствами стала актуальной задача их идентификации, а также подтверждения подлинности получаемых с их помощью образов. Как известно, аналоговые и цифровые образы, полученные при помощи любого устройства записи, несут в себе набор особенностей, сформированных различными узлами тракта записи, что позволяет (при наличии предполагаемого устройства записи) во многих случаях однозначно установить принадлежность ему образа.

В данной работе рассматривается возможность идентификации звуковых карт, подключаемых при помощи USB-интерфейса, а также звуковых карт на основе кодека AC'97, встроенных в материнскую плату ПЭВМ. При записи в записанных файлах создаются устойчивые особенности, характерные исключительно для данных звуковых плат. Таким образом, признаки аппаратной части - это устойчивые во времени отклонения характеристик сенсора и последующих блоков обработки, включая АЦП как отдельного устройства. Для устройств аудиозаписи к таковым относятся отклонения от средней АЧХ, внутренние наводки на аналоговую часть, отклонения характеристик АЦП, нестабильность генераторов тактовой частоты и т.д. Упрощённая схема обработки сигнала в цифровой звуковой карте приведена на рис.

* Работа выполнена при поддержке грантов РФФИ 08-07-00253-а и 09-07-00242-а.

В данной работе исследуются вносимые трактом записи данных звуковых карт как отличительные особенности. При этом моделировалась ситуация идентификации звукозаписывающего оборудования по записи речи диктора. Для этого был использован внешний источник звукового сигнала (цифровой диктофон), воспроизводящий оцифрованную речь дикторов со следующими параметрами сигнала: частота дискретизации - 11,025 кГц, разрядность отсчёта 16 бит. Для воспроизведения речи использовалась стерео мультимедиа-система с одним отключенным каналом. Во всех экспериментах использовался один и тот же диктофон с целью устранения влияния тракта воспроизведения диктофона на достоверность эксперимента.

Перед проведением экспериментов было установлено отсутствие паразитных гармонических колебаний при воспроизведении звукового файла с нулевыми отсчётами на заданном расстоянии микрофона от головки громкоговорителя.

Шина

Н1-II-

Цифровой участок

Аналоговый участок

Аналоговый участок

Рис. Обработка сигнала в цифровой звуковой карте

При получении спектрограмм были использованы следующие параметры: базис - Фурье, длина окна - 8192 отсчёта, коэффициент перекрытия окон - 0,875, весовое окно - Гаусса.

В работе исследовалась возможность идентификации звуковых плат двумя методами: методом двумерной корреляции между матрицами признаков, с помощью гауссовских смешанных моделей и с использованием искусственных нейронных сетей.

Идентификация, основанная на гауссовских смешанных моделях. Основанием для рассмотрения данного метода к решению задачи явились две причины.

Первой причиной является интуитивное предположение, что отдельные компоненты модели могут моделировать некоторое множество акустических признаков/событий.

Второй причиной использования моделей гауссовых смесей является возможность очень точной аппроксимации с их помощью произвольных распределений, причем модели очень удобны для моделирования не только статистических характеристик голоса диктора, но и окружающей среды, канала звукозаписи [1, с. 95-103].

При применении такой модели предполагается, что для входных данных х известно число гуссовских смесей, для определенности можно предположить, что их число равно М, тогда распределение Гаусса для ьой смеси запишется:

/(х 1 о=—д/21 ,1/2 ехр(- х - ^ У Е-1 (х - ^ »

Здесь х - это М-мерный вектор случайных величин, D - размерность входных векторов

Е

ковариационная матрица

данных х, цд - математическое ожидание компоненты ^ компоненты ь

Можно предположить, что модель одной звуковой платы описывается вектором математических ожиданий и формой распределения (ковариационной матрицы) составляющих векторов модели. Для описания смешанной гауссовской модели необходимо определить следующие параметры: математическое ожидание, ковариационную матрицу и веса смесей

для каждой компоненты, которые совместно записываются следующим образом: 5 = 'Х- ,hi = 1, ... M.

Таким образом, модель гауссовых смесей представляет собой взвешенную сумму M, компонент и может быть записана выражением зависимости условной вероятности от компонент модели:

м

p( х|5)Х hf

i = 1

?

где pi - вектор математического ожидания и Ei - ковариационная матрица. Веса смеси удов-

Xм h = 1

летворяют выражению: ^¿=1 - .

При реализации данной модели возникает две проблемы: выбор числа компонент вектора обучения и инициализация начальных параметров модели. Модель обучается с помощью EM-алгоритма (Expectation Maximization), который начинается с оценки начальной модели, и затем вычисляются новые параметры модели ^ , такие, что p(x 1 ^ ) ~ p(x 1 . Новая модель затем становится начальной моделью для следующей итерации, и процесс переоценки параметров повторяется, пока не будет достигнут некоторый порог сходимости. Этот алгоритм требует выбор начальных параметров. Инициализация параметров с помощью случайного выбора не гарантирует обнаружение глобального минимума и, кроме того, приводит к замедлению процесса обучения, поэтому обычно используют предварительное разбиение на классы с помощью алгоритма k-средних. В качестве меры отклонения в данном алгоритме используется среднеквадратичное отклонение:

Di = M X d (^ У)

1 N |2 d(XУ) = тгХ1 xk -Ук\

N k=1

При обучении модели с помощью ЕМ-алгоритма в блоке оценки правдоподобия вычисляются новые параметры модели. Процесс обучения требует порядка 10 итераций для нахождения эффективных значений параметров модели. В режиме тестирования высказывания оценка правдоподобия попадает в блок принятия решения, где сравнивается с пороговым значением. Если оценка больше значения порога, то считается, что данный звуковой сигнал сформирован данной звуковой платой.

Экспериментальная оценка. Был проведен ряд экспериментов для выбора оптимального числа компонент векторов признаков и длины анализируемых аудиоданных.

Для определения числа компонент для анализа были выбраны аудиоданные с временем звучания порядка 10 сек. Были исследованы данные представленные виде кепстра различной длины и кепстр + дельта-кепстра.

При выборе математического представления акустических данных, получаемых при их записи с помощью звуковых плат, были выбраны кепстральные коэффициенты, получаемые на основе коэффициентов линейного предсказания. Кепстральные коэффициенты обеспечивают как наименьшее перекрытие с другими звуковыми картами, так и менее чувствительны к посторонним помехам при записи акустических данных.

Использование дельта-кепстра повышает устойчивость системы распознавания к аддитивному шуму и уменьшает величину ошибок распознавания в среднем в два раза [5, с. 97]. В табл. 1 представлены ошибки распознавания.

Для построения систем распознавания модели гауссовых смесей хорошо себя зарекомендовали в качестве стохастической модели. Во-первых, модели очень удобны для моделирования не только статистических характеристик голоса диктора, но и окружающей сре-

ды, канала звукозаписи. Во-вторых, смеси гауссовых моделей представляют собой удобный способ представления и интерпретации акустических событий речевого сигнала.

Альтернативной моделью является использование нейронных сетей. Преимуществом данного метода распознавания является их гибкость в настройке для данного типа звуковой платы, при этом позволяют в автоматическом режиме формировать разделяющие гиперплоскости; благодаря использованию нелинейных активационных функций и при наличии достаточного количества скрытых слоев они позволяют формировать области решений более сложной формы, чем при использовании методов гауссовских смешанных моделей.

Таблица 1

Ошибки идентификации первого и второго рода

№ плат 1 2 3 4 5 6 7

Ошибки первого рода (ошибочный пропуск платы)

0,137 0,185 0,2034 0,011 0,17380 0,112 0,0916

Ошибки второго рода (ошибочная идентификация платы)

1 - 0,0375 0,0250 0 0,0500 0 0,0125

2 0,0375 - 0,0375 0,1375 0,2000 0 0,4625

3 0,2875 0,0875 - 0 0,0750 0,0370 0,0125

4 0,1282 0,364 0 - 0,1538 0,0238 0,4625

5 0,0864 0,2716 0,0247 0 - 0,0612 0,2963

6 0,2143 0,1429 0,1905 0 0,1190 - 0,0952

7 0,0185 0,560 0 0 0,3304 0,532 -

Модель, основанная на нейронных сетях. Для моделирования распознавания звуковых плат по их цифровому образу были использованы нейронные сети, а именно многослойные персептроны [1, с. 170; 4, с. 245]. Такой выбор обусловлен их универсальностью и высокой эффективностью при вычислениях. Персептроны решают, как и гауссовские смешанные модели, задачу аппроксимации многомерных функций, т.е. производят отображение F: х^у для заданного набора векторов [х\ у1 }. В зависимости от задачи аппроксимация функций может принимать вид или классификации, или регрессии.

Так, нейронные сети успешно применяют в задачах речевой обработки, в частности идентификации диктора [2, с. 134-145; 3, с. 200-201].

При разработке модели системы идентификации звуковой платы нейронная сеть после обучения хранит параметры данной звуковой платы, являясь, таким образом, ее моделью.

Использование персептронов позволяет разделить точки в многомерном пространстве на классы с помощью гиперплоскостей. Для создания нейронной сети использовался пакет МаАаЬ, позволяющий легко осуществить выбор архитектуры нейронной сети. Данный пакет позволяет производить выбор не только архитектуры сети, но и выбирать функции активации нейронов, а также методов обучения сети. Предварительно, до обучения сети, необходимо произвести обычную в таких случаях предобработку входных данных, заключающуюся в нормировке входных данных с использованием операций, входящих в состав пакета. Основной проблемой является выбор числа нейронов в скрытых слоях персептрона. Согласно эмпирическим правилам, число нейронов в скрытых слоях сети должно быть соизмеримо с длиной входных векторов. Однако оптимальное число нейронов подбирается экспериментально. Проведенные с нейронной сетью эксперименты показали, что наилучшие результаты могут быть достигнуты при двух скрытых слоях с 50 нейронами в каждом слое. Выбор числа нейронов связан с тем обстоятельством, что при небольшом количестве нейронов ошибка обучения может быть недопустимо большой, а при чрезмерном количестве нейронов может наступить переобучение сети. Результатом такого переобучения может оказаться неспособность сети к обобщениям, т.е. при подаче на сеть векторов, не участвовавших в обучении, сеть их воспримет как ошибочные. Для эффективного распознавания было проведено экспериментальное исследование выбора оптимальной функции активации и функции обучения.

Как уже было показано выше, не установлено влияние индивидуальных особенностей анализируемых звуковых данных при формировании цифрового образа. Если в случае идентификации диктора индивидуальные особенностях говорящего несут в себе только участки речи, а паузы, как правило, удаляются, то в данном случае особенности записи шума и собственно шумы звуковой платы могут влиять на качество идентификации.

В качестве входных данных использовался вектор, представляющий сумму кепстра и дельта-кепстра, составленные из 25 кепстральных коэффициентов и 25 коэффициентами производных кепстра (дельта-кепстр):

АС„ (0 = с1р (0 - с1р (I -1).

Для оптимальной идентификации экспериментально находилась длина интервала, на котором вычислялись кепстральные коэффициенты.

В таблице 2 приведены усредненные ответы нейронной сети для идентификации одной из плат при подаче признаков для разных звуковых плат и длин интервала.

Таблица 2

Ответы нейронной сети при идентификации

Длина интервала Усредненные ответы нейронной сети

Плата 1 Плата 2 Плата 3 Плата 4 Плата 5

1000 0,7479 0,0678 0,3395 0,0315 0,1235

2000 0,7538 0,0439 0,3938 0,0176 0,1629

4000 0,8 0,0561 0,4603 0,0197 0,2634

Анализ показал, что наилучшим образом идентифицируется плата при длительности интервала 2000 точек звуковых данных.

В таблице 3 приведены усредненные ответы нейронной сети при идентификации одной платы из 7 при подаче признаков для разных звуковых плат.

Таблица 3

Ответы нейронной сети при идентификации 7 звуковых плат

№ плат 1 2 3 4 5 6 7

1 0,713 0,078 0,256 0,0314 0,1918 0,2355 0,1059

2 0,1495 0,6940 0,2068 0,1151 0,4724 0,2351 0,2794

3 0,0962 0,0379 0,4647 0,0348 0,0820 0,1595 0,0204

4 0,0376 0,1305 0,0405 0,7231 0,2145 0,2292 0,6717

5 0,1845 0,2467 0,1647 0,4169 0,7017 0,2533 0,4610

6 0,0217 0,0975 0,0110 0,3924 0,0969 0,8902 0,5364

7 0,1495 0,6940 0,2068 0,1151 0,4724 0,2351 0,5773

Таблица 4 Таблица ошибок нейронной сети при идентификации 7 звуковых плат

№ плат 1 2 3 4 5 6 7

Ошибки первого рода (ошибочный пропуск платы)

0,0125 0,1825 0,0452 0,0101 0,07470 0,0304 0,025

Ошибки второго рода (ошибочная иденти шкация платы)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 - 0 0,0135 0 0 0,1429 0,0556

2 0 - 0 0 0,1481 0 0,037

3 0 0 - 0 0,0238 0 0

4 0 0 0,051 - 0 0,0238 0,0625

5 0 0 0 0,0513 - 0,0612 0,0747

6 0 0 0 0,0128 0 - 0,1667

7 0 0,510 0 0 0,0134 0,0256 -

Кроме того, ответы системы, построенной на основе гауссовских смешанных моделей, дают менее достоверные результаты при тестировании и требуют большего числа контрпримеров, чем системы на основе нейронных сетей, что важно при небольшом количестве экспериментальных данных. При анализе результатов можно сделать следующие выводы.

1. Как показали результаты тестирования, величина анализа участков аудиоданных, используемых для вычисления векторов признаков, слабо влияет на точность идентификации звуковых плат. Заметное снижение точности результатов наблюдается при длине анализируемого участка менее 25 мс.

2. Длительность собственно звучания аудиоданных не должна быть меньше 7,5 с.

Таким образом, на основе полученных экспериментальных данных можно сделать заключение, что наилучшая идентификация звуковых плат может быть достигнута при величине анализируемого участка равном 25-100 мс и длительности звучания аудиосигнала не менее 10 с. При этом средняя величина ошибки первого рода составила ~ 1,4 %, а второго рода — 5 %. Следует отметить полное отсутствие в открытой печати данных по идентификации звуковых плат.

Библиографический список

1. Ежов, А. А. Нейрокомпьютинг и его приложения в экономике и бизнесе / А. А. Ежов, C. А. Шумский // Лекции Экономико-аналитического института МИФИ. - М. : МИФИ, 1998. - 222 с.

2. Макаревич, О. Б. Применение рекуррентных нейронных сетей для текстонезависимой идентификации диктора / О. Б. Макаревич, П. Ю. Юрков, В. М. Федоров // Информационная безопасность : сб. тр. - Таганрог, 2002. - С. 200-201.

3. Макаревич, О. Б. Текстонезависимая аутентификация / идентификация по голосу в системах управления доступом / О. Б. Макаревич, Л. К. Бабенко, В. М. Федоров, П. Ю. Юрков // Проблемы информационной безопасности в системе высшей школы : мат-лы X Всероссийской научно-практической конференции. - М. : МИФИ, 2003. - С. 28-29.

4. Осовский, С. Нейронные сети для обработки информации / С. Осовский. - М. : Финансы и статистика, 2002. - 344 с.

5. Садыхов, Р. Х. Модели гауссовых смесей для верификации диктора по произвольной речи / Р. Х. Садыхов, В. В. Ракуш // Доклады БГУИР. - Минск, 2003. - № 4. - С. 95-103.

6. Tebelskis, J. Speech Recognition using Neural Networks. Ph. D. Thesis. - Pittsburg : Cranegie Mellon University, 1995. - 180 p.

7. Tebelskis, J. Speech Recognition using Neural Networks. Ph. D. / J. Tebelskis. - Pittsburg : Cranegie Mellon University, 1995. - 180 p.

ТЕХНОЛОГИЯ ПРОИЗВОДСТВА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ

УДК 004.428.4

ПРОГРАММНЫЙ КОМПЛЕКС ДЛЯ ОБРАБОТКИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ

М.О. Смирнова

В статье представлен программный продукт, который демонстрирует основные этапы применения многофункциональных критериев, в частности - углового преобразования Фишера (критерий ф*) и биномиального критерия (критерий m). Дано описание основных компонентов программного продукта и возможностей использования при изучении статистических критериев.

Ключевые слова: статистический анализ, демонстрационная программа, критерий Стьюдента, программный код.

Key words: statistical analysis, of the démonstration program, the Student's criterion, the program code.

Для обработки количественных данных, полученных в ходе анкетирования, тестирования, ранжирования, регистрации, социометрии, интервью, беседы, наблюдений и педагогического, физического и других видов эксперимента применяются математические методы исследования с использованием компьютера [2, 4, 6, 7, 8, 9].

Рассматриваемое в данной работе программное средство для расчета многофункциональных критериев позволяет наглядно представить использование многофункциональных критериев, в частности - углового преобразования Фишера (критерий ф*) и биномиального критерия (критерий m) [1, 3, 5]. Программа может применяться для решения задач экспериментальной обработки данных и изучения многофункциональных критериев.

Несмотря на то, что существует возможность использования этих критериев в других программах, таких как Statistica, Microsoft Excel и т.п., в них существуют определенные ограничения на применение критериев. Так, в программе Microsoft Excel, входящей в пакет Microsoft Office, критерий ф* можно применить лишь к единичному числу, и нет возможности проанализировать группу людей без самостоятельной предварительной обработки результатов исследования.

Разработанный программный продукт содержит мощную справочную систему и электронный учебник, в котором не только раскрываются основные понятия, но и обозначены все нюансы использования данных критериев.

Интерфейс и компоненты программы. При запуске программы предоставляется возможность выбрать, с какого критерия следует начинать выполнение программы (рис. 1). После выбора открывается окно соответствующего критерия.

i Надоели баннеры? Вы всегда можете отключить рекламу.