Научная статья на тему 'ПРОТИВОДЕЙСТВИЕ СПУФИНГ АТАКАМ НА ГОЛОСОВЫЕ БИОМЕТРИЧЕСКИЕ СИСТЕМЫ'

ПРОТИВОДЕЙСТВИЕ СПУФИНГ АТАКАМ НА ГОЛОСОВЫЕ БИОМЕТРИЧЕСКИЕ СИСТЕМЫ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
68
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СПУФИНГ / АНТИСПУФИНГ / РАСПОЗНАВАНИЕ ДИКТОРА / СПЕКТРАЛЬНО-ФАЗОВЫЕ ПРИЗНАКИ / ВЕЙВЛЕТ ПРЕОБРАЗОВАНИЕ / TV-JFA / SVM / DBN / SPOOFING / ANTI-SPOOFING / SPEAKER RECOGNITION / PHASE SPECTRUM / WAVELET TRANSFORM

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Новосёлов Сергей Александрович, Козлов Александр Викторович, Лаврентьева Галина Михайловна, Симончик Константин Константинович, Щемелинин Вадим Леонидович

В данной статье рассматриваются системы, представленные ООО «ЦРТ» на первом международном конкурсе «Automatic Speaker Verification Spoofing and Countermeasures (ASVspoof) Challenge 2015». В ходе подготовки к конкурсу были изучены различные признаковые пространства для определения надежных и устойчивых методов детектирования спуфинг атак на голосовые биометрические системы. Для вероятностного моделирования в системах противодействия атакам был использован стандартный TV-JFA подход, используемый в системах голосовой верификации. В дополнение к известным мелкепстральным коэффициентам (MFCC) была изучена применимость акустических признаков на основе фазового спектра и вейвлет-преобразования. Эксперименты, проведённые на тестовых и конкурсных базах ASVspoof Challenge 2015, показывают, что использование фазовых и вейвлет-признаков вносит значимый вклад в итоговую эффективность системы автоматического детектирования спуфинг атак. Дополнительно к этому проведено сравнение эффективности систем детектирования атак на базе линейного (SVM) и нелинейного (DBN) классификаторов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Новосёлов Сергей Александрович, Козлов Александр Викторович, Лаврентьева Галина Михайловна, Симончик Константин Константинович, Щемелинин Вадим Леонидович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STC ANTI-SPOOFING SYSTEMS FOR THE ASVSPOOF 2015 CHALLENGE

This paper presents the Speech Technology Center (STC) systems submitted to Automatic Speaker Verification Spoofing and Countermeasures (ASVspoof) Challenge 2015. In this work we investigate different acoustic feature spaces to determine reliable and robust countermeasures against spoofing attacks. In addition to the commonly used front-end MFCC features we explored features derived from phase spectrum and features based on applying the wavelet transform. Similar to state-of-the-art ASV systems, we used the standard TV-JFA approach for probability modeling in spoofing detection systems. Experiments performed on the development and evaluation datasets of the Challenge demonstrate that the use of phase-related and wavelet-based features provides a substantial input into the efficiency of the resulting systems. In our research we also focused on the comparison of the linear (SVM) and nonlinear (DBN) classifiers.

Текст научной работы на тему «ПРОТИВОДЕЙСТВИЕ СПУФИНГ АТАКАМ НА ГОЛОСОВЫЕ БИОМЕТРИЧЕСКИЕ СИСТЕМЫ»

22

Противодействие спуфинг атакам на голосовые биометрические системы

С.А. Новосёлов, А.В. Козлов, Г.М. Лаврентьева, К.К. Симончик, В.Л. Щемелинин

В данной статье рассматриваются системы, представленные ООО «ЦрТ» на первом международном конкурсе "Automatic Speaker Verification Spoofing and Countermeasures (ASVspoof) Challenge 2015". В ходе подготовки к конкурсу были изучены различные признаковые пространства для определения надежных и устойчивых методов детектирования спуфинг атак на голосовые биометрические системы. Для вероятностного моделирования в системах противодействия атакам был использован стандартный TV-JFA подход, используемый в системах голосовой верификации. В дополнение к известным мел-кепстральным коэффициентам (MFCC) была изучена применимость акустических признаков на основе фазового спектра и вейвлет-пре-образования. Эксперименты, проведённые на тестовых и конкурсных базах ASVspoof Challenge 2015, показывают, что использование фазовых и вейвлет-признаков вносит значимый вклад в итоговую эффективность системы автоматического детектирования спуфинг атак. Дополнительно к этому проведено сравнение эффективности систем детектирования атак на базе линейного (SVM) и нелинейного (DBN) классификаторов.

• спуфинг • анти-спуфинг • распознавание диктора • спектрально-фазовые признаки • вейвлет преобразование • TV-JFA • SVM • DBN

ВВЕДЕНИЕ

Речевые технологии играют всё большую роль в повседневной жизни человека. Для доступа к информационным ресурсам различного уровня разрабатываются новые более надёжные методы аутентификации, одним из которых является голосовая биометрия. Автоматические методы верификации человека по голосу уже применяются в системах домашнего банкинга, контроля доступа, контакт-центрах и др. [1].

В последние годы значительно улучшилось качество работы базовых методов голосовой биометрии. Например, результаты последних обзоров показывают, что равновероятная ошибка автоматической верификации уменьшилась до 1,5-2% для текстонезависимых [2] и до 1% для текстозависимых [3] систем. Вместе с ростом доверия к данным методам возрастает и ценность защищаемой информации. Следовательно, усиливаются требования к надёжности работы биометрических систем, в том числе к противодействию различным видам атак с целью получения доступа обманным путем - спуфингу [4].

В современной научной литературе представлен ряд различных методов спу-финга голосовых систем верификации дикторов. Так, в работе [5] описываются методы, основанные на воспроизведении парольной фразы, синтезе речи и иных преобразованиях речевого сигнала. [6].

Исследования устойчивости голосовых биометрических систем к спуфинг атакам [5, 7, 8] показывают, что необходима разработка алгоритмов их детектирования. Большая часть существующих алгоритмов противодействия спуфинг атакам обучена на защиту от атак конкретного типа, в то время как реальные атаки будут основаны на неизвестных методах фальсификации индивидуальных голосовых характеристик человека. По этой причине был организован конкурс Automatic Speaker Verification Spoofing and Countermea-sures (ASVspoof) Challenge 2015 [9], в котором соревновались алгоритмы детектирования известных и неизвестных типов спуфинга.

В ходе наших исследований были разработаны несколько детекторов спуфинг атак, которые были отправлены на конкурс ASVspoof Challenge 2015.

При реализации таких детекторов мы использовали совместный факторный анализ в пространстве полной изменчивости (Total Variability Joint Factor Analysis, TV-JFA) для статистического моделирования акустических особенностей речевых сигналов [2]. В качестве классификаторов применялся метод опорных векторов (Support Vector Machine, SVM) и, альтернативно, нейронная сеть глубокого обучения (Deep Belief Network, DBN) [14].

В своей работе мы фокусировались на выборе наиболее подходящих акустических признаков для систем детектирования спуфинга. В частности, исследовали признаки, вычисляемые с использованием фазового спектра и вейвлет-преобразования [10]. Целью работы являлось нахождение наиболее надёжного метода детектирования спуфинг атак.

1. Общее описание системы

Все представленные системы автоматического детектирования спуфинг атак состоят из 3х компонентов (рис. 1):

• модуль извлечения информативных акустических признаков из аудиозаписи;

• модуль формирования i-векторов в пространстве полной изменчивости (Total Variability, TV);

• классификатор.

В рамках проведения экспериментов на обучающей базе конкурса ASVspoof Challenge 2015 мы пришли к выводу о необходимости применения предетектора как предварительного шага при детектировании атак. Предетектор проверяет входной сигнал на наличие нулевых значений кратковременной энергии, и в случае обнаружения таковых принимается решение о том, что входной сигнал является спуфинг атакой. В противном случае (а также при работе с системой без предетектора) сигнал поступает далее на входы модулей извлечения акустических признаков.

Модули извлечения акустических признаков из речевого сигнала, использованные в построенных системах, ориентированы на одновременное применения нескольких различных параметров речи.

Полученные акустических признаков подаются на вход модуля формирования i-векторов для каждого типа акустических признаков. Они, в свою очередь, объединяются в один общий i-вектор, после чего он центрируется и нормируется по длине. Финальным модулем является классификатор, который вычисляет результирующую оценку принадлежности речевого сигнала к спуфингу или подлинной речи.

24

Рисунок 1 - Общая схема системы детектирования спуфинг атак

Для моделирования вероятностного пространства акустических признаков был использован стандартный TV-JFA подход, являющийся одним из наиболее эффективных в области голосовой верификации [3, 4, 11]. Модель голоса в данном подходе имеет следующий вид:

M = m + Ux + Vy + Dz, (1)

где M - супервектор параметров смеси гауссовских распределений (GMM-модели) голоса диктора, m - супервектор параметров универсальной фоновой модели (Universal Background Model, UBM), U, V, D - матрицы собственных каналов (Eigen Channel), собственных голосов (Eigen Voice) и остаточной изменчивости соответственно.

В пространстве полной изменчивости i-вектор извлекается посредством применения факторного анализа, определенного на средних супервекторах UBM-модели и T-матрицы полной изменчивости. Модель голоса в этом случае описывается соотношением:

M = m + Tw, (2)

где w - низкоразмерный вектор в пространстве признаков.

В наших системах UBM была представлена смесью гауссовых моделей описанных признаков. Для обучения T-матрицы и UBM использовались признаки, полученные на обучающей базе конкурса. Диагональная ковариационная матрица UBM была обучена с помощью EM-алгоритма (Expectation-Maximization) [12].

В исследованиях использовался SVM классификатор с линейным ядром. Разделяющая гиперплоскость была построена в нормализованном пространстве /-векторов обучающей базы конкурса ASVspoof Challenge 2015 для детектирования спуфинг атак. Для обучения SVM использовалась библиотека LIBLINEAR [13], обеспечившая необходимую точность и вычислительную скорость.

В качестве альтернативного подхода использовался DBN-классификатор с softmax выходным слоем и стохастическими бинарными скрытыми слоями [14]. DBN принимает на вход нормированные общие i-вектора, полученные от модуля извлечения /-векторов. Мы использовали послойное предварительное обучение слоев ограниченными машинами Больцмана (Restricted Boltzmann Machines, RBM) [14], после чего применяли метод обратного распространения для обучения DBN с учителем для детектирования речи и спу-финг атак.

2. Используемые акустические признаки

В данном исследовании было рассмотрено несколько различных акустических признаков, которые являлись наиболее информативными и, как следствие, эффективными при решении задачи для конкурса ASVspoof Challenge 2015.

1) Мел-кепстральные признаки

В качестве кратковременных спектральных акустических признаков были выбраны мел-кепстральные коэффициенты [15], полученные двумя способами: с помощью дискретного косинусного преобразования (далее - MFCC), и с помощью метода главных компонент (далее Mel Frequency Principal Coefficients, MFPC). Эти признаки являются представлением кратковременного спектра сигнала и хорошо отображают общие характеристики голосового тракта.

Рисунок 2 - Модуль извлечения МЕСС признаков

Были использованы первые 12 коэффициентов вместе с их первыми и вторыми производными как наиболее информативные признаки, таким образом, получился вектор признаков длиной 36 элементов.

МРРС-коэффициенты в соответствии с схемой, показанной на рис. 3.

Рисунок 3 - Модуль извлечения MFPC признаков 2) Фазовые признаки

При добавлении фазовой информации речевого сигнала были использованы фазовые признаки CosPhase, подробно описанные в [16]. Эти признаки были выделены из фазового спектра следующим способом:

• фазовый спектр сглаживался для получения непрерывной функции от частоты;

• сглаженный фазовый спектр был нормирован функцией косинуса для ограничения области его значений в интервале [-1; 1];

• с целью понижения размерности использовался метод главных компонент, базис которого был вычислен заранее на обучающем множестве.

Аналогично признакам, выделенным из кратковременного спектра, были оставлены первые 12 коэффициентов с их первыми и вторыми производными, которые образовали результирующий вектор косинусно-фазовых главных коэффициентов (CosPhase Principal Coeffiсients, CosPhasePC). Схема извлечения этих признаков показана на рисунке 4.

Новосёлов С.А., Козлов А.В., Лаврентьева Г.М., Симончик К.К., Щемелинин В.Л.

Противодействие спуфинг атакам на голосовые биометрические системы

Речевой сигнал

вектор CosPhasePC признаков

применение оконной функции

Быстрое

преобразование Фазовый спектр

Фурье

Метод главных компонент Дискретное

— Л', Л" косинусное преобразование

Корректировка фазовых углов

Рисунок 4 - Модуль извлечения СовРЬавеРС признаков 3) Вейвлет-признаки

С целью детального частотно-временного анализа речевых сигналов использовались акустические признаки на основе вейвлет-преобразования [10], адаптированного к мел-шкале (Рисунок 5). Вместо обычной энергии сигнала в полосах частот вычислялась энергия Тегера-Кайзера (ТКЕ), которая обладает большей информативностью и является помехоустойчивым параметром для речевых сигналов [17]. Использовалась следующая формула для расчета ТКЕ:

V(s(t,f)) = s(t, f) - s(t - 1, f)s(t +1,f), где s(t) - временной отсчет речевого сигнала в полосе частот

Речевой сигнал

•цШ*—-

(3)

Применение оконной функции Мел-Вейвлет-пакетное преобразование

вектор MWPC ^ признаков

Л', й"

Метод

главных

компонент

Lag

Рисунок 5 - Вейвлет-пакетное преобразование

Рисунок 6 - Модуль извлечения MWPC признаков

Для декорреляции полученных признаков последовательно применялся метод главных компонент и получались 12 коэффициентов, а затем их первые и вторые производные (Рисунок 6). Эти признаки для краткости были названы мел-частотными вейвлет-пакетными коэффициентами (Mel Wavelet Packet Coefficients, MWPC). При их выислении использовали оконную функцию Хэмминга длиной 256 и 50 % перекрытием.

26

3. Оценка информативности акустических признаков

Исследования были проведены при обучении всех параметров системы анти-спуфинга на обучающем множестве, а тестирование производилось на тестовом множестве данных конкурса ASVspoof Challenge 2015. По условиям конкурса в обучающем и тестовом множествах были представлены 5 вариантов спуфинг атак S1-S5 [9]: S1, S2, S5 - варианты, основанные на алгоритмах преобразования речи, S3, S4 - варианты, основанные на адаптированном под диктора HMM методе синтеза речи.

В качестве примера на рис. 8 представлены LDA проекции части /'-векторов MWPC признаков, полученных на тестовом множестве, на первые три главные компоненты P1, P2, P3, которые были вычислены на обучающем множестве. Для вейвлет разложения в данной работе использовалась вейвлет функция Добеши 4.

Рисунок 7 - 1йЛ проекции М№РО ¡-векторов на оси главных компонент Р1, Р2, Р3

На рис. 7 видно, что класс естественной речи хорошо отделим от классов спу-финга. Это дает основания предполагать, что использование методов линейного разделения классов типа SVM является эффективным для решения задачи детектирования спуфинг-атак в этом пространстве. Заметим, что в этом пространстве признаков также хорошо дискриминируются три группы вариантов спуфинга: G1 - группа спуфинга на основе НММ синтеза речи (S3+S4); G2 - группа методов простого преобразования речи (S1+S2); G3 представляет Festvox [18] метод преобразования речи.

В табл. 1 представлены результаты оценки равновероятностной ошибки EER (%) на тестовом множестве ASVspoof СИаНепде 2015 для систем верификации на основе TV-SVM метода при использовании различных акустических признаков, описанных выше. Данные результаты получены с применением иВМ с 256 компонентами ^векторов размерностью 200.

Таблица 1

Оценки ЕЕИ (%)для ТУ-БУМ систем при различных спуфинг атаках

Признаки Вариант спуфинг атаки

S1 S2 S3 S4 S5 Все

MFCC 0,38 2,13 0,36 0,39 1,48 1,14

MFPC 0,13 0,29 0,09 0,09 0,37 0,23

CosPhasePC 0,13 0,20 0,04 0,05 0,23 0,15

MWPC 0,03 0,11 0,00 0,00 0,08 0,05

Результаты показывают, что М^СС-коэффициенты уступают остальным рассматриваемым признакам. Следует отметить, что замена дискретно-косинусного преобразования в М^СС на декоррелирующий базис главных компонент и переход к М^РС демонстрирует существенное снижение ошибки ЕЕЯ для всех вариантов спуфинга. Использование фазовых признаков CosPhasePC дает небольшие уменьшение ЕЕЯ по сравнению с 1^РС. Наилучший ре-

зультат демонстрируют признаки на основе вейвлет-преобразования, достигая ЕЕЯ = 0,05% для всех анализируемых методов атак. Отметим, что в ходе экспериментов было выявлено, что применение оператора ТКЕ в М^РС демонстрирует немного лучший результат по сравнению с обычной энергией.

В работе проведено также исследование систем детектирования спуфинга на основе совместного использования различных акустических признаков в пространстве ^векторов. Результаты исследований показали, что для всех комбинаций признаков и анализируемых видов атак ЕЕЯ близка к 0%. Заметим, что нулевую ошибку детектирования спуфинга на тестовом множестве удалось получить только с применением CosPhasePC и М^РС признаков.

Эксперименты на тестовой базе, проведенные для TV систем, основанных на SVM или ОВЫ классификаторах, показали, что при совместном использовании 1^СС, М^С и CosPhasePC признаков система на SVM классификаторе обеспечивает ЕЕЯ = 0,03%, что несколько лучше, чем система на ОВЫ классификаторе, для которой ЕЕЯ = 0,04%.

4. Выбор систем детектирования

Основываясь на результатах проведенных экспериментов, были предложены три системы автоматического детектирования спуфинг атак.

Основная система, согласно рисунку 1, содержала предетектор и модули выделения М^СС, М^С и CosPhasePC признаков. иВМбыла представлена смесью 1024 гауссовских моделей этих признаков, а размерность

пространства полной изменчивости была равна 400. Для классификации использовался классификатор SVM.

В первой альтернативной системе не использовался предетектор, а М^С признаки были заменены MWPC.

Вторая альтернативная система также не использовала предетектор, а для классификации использовала нелинейный ОВЫ-классификатор. С целью снижения переобучения количество компонент иВМ было понижено до 256 для всех акустических признаков, а размерность пространства полной изменчивости - до 200.

Дополнительно к известным 5 типам атак конкурсная база содержала спуфинг атаки неизвестных методов S6-S10 [19]. Полученные оценки ЕЕЯ на конкурсной базе представлены в таблице 2.

Таблица 2

Оценки ЕЕИ(%) для разных систем

Система Известные атаки Неизвестные атаки Все

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Основная 0,008 3,922 1,965

Альтернативная 1 0,009 4,891 2,450

Альтернативная 2 0,017 6,162 3,090

Основная (без предетектора) 0,008 5,151 2,579

28

Несмотря на хорошие результаты на известных видах атак, результаты для неизвестных видов спуфинга оказались заметно хуже: даже лучшая основная система позволила достичь только ЕЕЯ=3,92 %. Эта оценка подтверждает необходимость улучшения мер противодействия спуфинг атакам неизвестных типов.

Основная система показала наилучший результат, в частности, за счет применения предетектора по энергии, что подтверждают результаты сравнения EER основной системы с предетектором и без него. Описанный предетектор, однако, не будет работать в условиях искажений речи в канале передачи и воздействия аддитивных шумов.

Первая альтернативная система показала относительные хорошую эффективность по результатам конкурса, причину которой мы видим в использовании ММРС признаков. В основе этих признаков лежит вевлет-разложение, позволяющее проводить детальный мультиразрешающий анализ сигналов, что дает дополнительный выигрыш в решении задачи анти-спуфинга.

Результат второй альтернативной системы оказался наихудшим. Возможно, здесь не удалось избежать эффектов более сильного переобучения ОВЫ-классификатора на обучающем множестве, по сравнению с SVM. На основании этих выводов можно заключить, что в предложенной системе анти-спуфинга целесообразнее использовать линейный SVM классификатор.

В табл. 3 представлены полученные оценки ЕЕЯ для каждого из 10 вариантов спуфинг атаки. Результаты всех трех предложенных систем на известных S1-S5 и неизвестных типах атак S6-S9 сравнимы. Однако для спуфинг атаки типа S10 предложенные системы показали значительное увеличение равновероятной ошибки.

Таблица 3

Оценки ЕЕИ (%) для различных типов спуфинг атак

Тип спуфинг атаки ERR, %

Основная Альтернативная 1 Альтернативная 2

S1 0,004 0,005 0,000

S2 0,022 0,022 0,058

S3 0,000 0,000 0,000

S4 0,000 0,000 0,000

S5 0,013 0,020 0,029

S6 0,019 0,024 0,046

S7 0,000 0,007 0,000

S8 0,015 0,014 0,124

S9 0,004 0,006 0,005

Б10 19,571 24,401 30,636

Заключение

В данной статье проведены результаты комплексного исследования пространства акустических признаков и эффективности различных классификаторов для задачи автоматического детектирования спуфинг атак на голосовые биометрические системы. Предложенные системы были основаны на TV-моделировании в пространстве различных признаков и использовании линейного SVM- или нелинейного ОВЫ- классификатора.

Протестированы варианты объединения различных акустических признаков для повышения устойчивости системе к спуфинг атакам. Эксперименты, проведенные на базах конкурса ASVspoof СИаПепде 2015, показали, что предложенные варианты систем способны достаточно эффективно противостоять большинству ^1^9) типов атак. И лишь для спуфинг атаки типа S10 предложенные системы показали значительное увеличение равновероятной ошибки, что определяет актуальность проведения дальнейших исследований по рассматриваемой теме.

30

ЛИТЕРАТУРА

1. Матвеев Ю.Н. Технологии биометрической идентификации личности по голосу

и другим модальностям // Вестник МГТУ им. Н.Э. Баумана. Сер. "Приборостроение". 2012. № 3(3). С. 46-61.

2. Козлов А.В., Кудашев О.Ю., Пеховский Т.С., СимончикК.К., Шулипа А.К. Си-

стема идентификации дикторов по голосу для конкурса NISTSRE 2012 // Труды СПИИРАН. 2013. Вып. 24. С. 350-370.

3. Novoselov S., Pekhovsky T., Simonchik K. STC Speaker Recognition System for

the NIST i-Vector Challenge // Proc. Odyssey 2014 - The Speaker and Language Recognition Workshop.

4. Wu Z., Evans N., Kinnunen T., Yamagishi J., Alegre F., Li H. Spoofing and

countermeasures for speaker verification // Speech Communication 2015, V. 66. Pp.130-153.

5. Villalba E., Lleida E. Speaker verification performance degradation against spoofing

and tampering attacks // Proc. FALA 2010 Workshop. Pp. 131-134.

6. Chistikov P., Zakharov D. and Talanov A. Improving Speech Synthesis Quality For

Voices Created From an Audio book Database. // SPECOM 2014, LNAI 8773. Pp. 276-283.

7. Shchemelinin V., Topchina M., Simonchik K. Vulnerability of Voice Verification

Systems to Spoofing Attacks with TTS Voices Based on Automatically Labeled Telephone Speech // Lecture Notes in Computer Science 2014, V. 8773, LNAI. Pp. 475-481.

8. Sébastien M., Mark S., Nixon S., Z. Li, Handbook of Biometric Anti-spoofing: Trusted

Biometrics Under Spoofing Attacks // Springer, 2014.

9. Wu Z., Evans N., Kinnunen T., Yamagishi J. ASVspoof 2015: Automatic Speaker

Verification Spoofing and Countermeasures Challenge Evaluation Plan [Электронный ресурс] - URL: http://www.spoofingchallenge.org (дата обращения 19.12.2014).

10. Stéphane M. A Wavelet Tour of Signal. Proc. 3rd ed. Academic Press, 2008.

11. N. Dehak. Support Vector Machines versus Fast Scoring in the Low-Dimensional Total

Variability Space for Speaker Verification // Proc. Interspeech, 2009. Pp. 1559-1562.

12. Hastie Trevor, Tibshirani Robert, Friedman Jerome, The EM algorithm, The Elements

of Statistical Learning. // Springer, 2001. Pp. 236-243.

13. LIBLINEAR: A Library for Large Linear Classification. URL: http://www.csie.ntu.edu.

tw/~cjlin/liblinear (дата обращения 03.02.2015).

14. Hinton G. E., Osindero S., Teh Y. A fast learning algorithm for deep belief nets //

Neural Computation, 2006. Vol. 18. Pp. 1527-1554.

15. T. Ganchev, N. Fakotakis, and G. Kokkinakis, Comparative evaluation of various

MFCC implementations on the speaker verification task. // SPECOM 2005, Vol. 1, Pp. 191-194.

16. Wu Z., SiongChng E., Li H. Detecting Converted Speech and Natural Speech for anti-

Spoofing Attack in Speaker Recognition // Proc. Interspeech, 2012.

17. Ying G. S., Mitchell C.D., and Jamison L.H. Endpoint detection of isolated utterances

based on modified teager energy measure // ICASSP, 1993. Pp. 732-735.

18. Проект Festvox, Carnegie Mellon University. URL: http://www.festvox.org (дата об-

ращения 03.02.2015).

19. Wu Z., Evans N, Kinnunen T, Yamagishi J., Hanilc CSahidullah M., Sizov A. ASVspoof 2015: the First Automatic Speaker Verification Spoofing and Countermeasures Challenge. URL: http://www.spoofingchallenge.org (дата обращения 03.02.2015).

СВЕДЕНИЯ ОБ АВТОРАХ Новосёлов Сергей Александрович,

старший научный сотрудник ООО «ЦРТ», инженер кафедры РИС Университета ИТМО, кандидат технических наук, г. Санкт-Петербург, Российская Федерация. С 2008 г. профессионально занимается системами распознавания речи, голосовыми биометрическими системами. Автор более 25 научных публикаций в области речевых технологий. Основные научные интересы связаны с системами обработки речевых сигналов, системами распознавания диктора. E-mail: novoselov@speechpro.com

Козлов Александр Викторович,

ведущий программист ООО «ЦРТ», г. Санкт-Петербург, Российская Федерация. С 2008 г. профессионально занимается голосовыми биометрическими системами. Основные научные интересы связаны с алгоритмами обработки сигнала, эффективными методами распознавания диктора. E-mail: kozlov-a@speechpro.com

Лаврентьева Галина Михайловна,

программист ООО «ЦРТ», аспирант кафедры РИС Университета ИТМО, г. Санкт-Петербург, Российская Федерация.

С 2014 г. профессионально занимается системами идентификации диктора. Основные научные интересы связаны с системами противодействия спуфинг атакам на голосовые биометрические системы. E-mail: lavrentyeva@speechpro.com

Симончик Константин Константинович,

заместитель директора департамента ООО «ЦРТ», доцент кафедры РИС Университета ИТМО, кандидат технических наук, г. Санкт-Петербург, Российская Федерация.

С 2008 г. профессионально занимается системами идентификации и верификации человека по голосу и лицу. Автор более 30 научных публикаций в области речевых технологий. Основные научные интересы связаны с обработкой и анализом речевого сигнала, голосовыми биометрическими системами. E-mail: simonchik@speechpro.com

Щемелинин Вадим Леонидович,

руководитель группы ООО «ЦРТ», инженер кафедры РИС Университета ИТМО, кандидат технических наук, г. Санкт-Петербург, Российская Федерация. С 2011 г. профессионально занимается оценкой эффективности биометрических систем. Автор более 10 научных публикаций в области речевых технологий. Основные научные интересы связаны с моделированием спуфинг атак на голосовые биометрические системы. E-mail: shchemelinin@speechpro.com

Novosyolov S.A., Kozlov A.V., Lavrentyeva G.M., Simontchik K.K., Chemelin V.L.

STC ANTI-SPOOFING SYSTEMS FOR THE ASVSPOOF 2015 CHALLENGE

This paper presents the Speech Technology Center (STC) systems submitted to Automatic Speaker Verification Spoofing and Countermeasures (ASVspoof) Challenge 2015. In this work we investigate different acoustic feature spaces to determine reliable and robust countermeasures against spoofing attacks. In addition to the commonly used front-end MFCC features we explored features derived from phase spectrum and features based on applying the wavelet transform. Similar to state-of-the-art ASV systems, we used the standard TV-JFA approach for probability modeling in spoofing detection systems. Experiments performed on the development and evaluation datasets of the Challenge demonstrate that the use of phase-related and wavelet-based features provides a substantial input into the efficiency of the resulting systems. In our research we also focused on the comparison of the linear (SVM) and nonlinear (DBN) classifiers.

• spoofing • anti-spoofing • speaker recognition • phase spectrum • wavelet transform • TV-JFA • SVM • DBN

REFERENCES

32

1. Matveev YU.N. Tekhnologii biometricheskoj identifikacii lichnosti po golosu i drugim

modal'nostyam //Vestnik MGTU im. N.EH. Baumana. Ser. "Priborostroenie". 2012. № 3(3).S. 46-61.

2. Kozlov A.V., Kudashev O.YU, Pekhovskij T.S., Simonchik K.K., SHulipa A.K.

Sistema identifikacii diktorov po golosu dlya konkursa NISTSRE 2012 // Trudy SPIIRAN. 2013. Vyp. 24. S. 350-370.

3. Novoselov S., Pekhovsky T., Simonchik K. STC Speaker Recognition System for

the NIST i-Vector Challenge // Proc. Odyssey 2014 - The Speaker and Language Recognition Workshop.

4. Wu Z., Evans N., Kinnunen T., Yamagishi J., Alegre F., Li H. Spoofing and

countermeasures for speaker verification // Speech Communication 2015, V. 66, N 0, P.130-153.

5. Villalba E., Lleida E. Speaker verification performance degradation against spoofing

and tampering attacks // Proc. FALA 2010 Workshop, pp. 131-134, 2010.

6. Chistikov P., Zakharov D. and Talanov A. Improving Speech Synthesis Quality For

Voices Created From an Audio book Database. // SPECOM 2014, LNAI 8773, P. 276-283, 2014.

7. Shchemelinin V., Topchina M., Simonchik K. Vulnerability of Voice Verification

Systems to Spoofing Attacks with TTS Voices Based on Automatically Labeled Telephone Speech // Lecture Notes in Computer Science 2014, V. 8773, N. LNAI, P. 475-481.

8. Sébastien M., Mark S., Nixon S., Z. Li, Handbook of Biometric Anti-spoofing: Trusted

Biometrics Under Spoofing Attacks // Springer, 2014.

9. Wu Z., Evans N., Kinnunen T., Yamagishi J. ASVspoof 2015: Automatic Speaker

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Verification Spoofing and Countermeasures Challenge Evaluation Plan [Internet resource] -http://www.spoofingchallenge.org.

10. Stéphane M. A Wavelet Tour of Signal // Proc. 3rd ed., Academic Press, Dec. 2008.

11. N. Dehak. Support Vector Machines versus Fast Scoring in the Low-Dimensional Total

Variability Space for Speaker Verification // Proc. Interspeech, 2009, pp. 1559-1562.

12. Hastie Trevor, Tibshirani Robert, Friedman Jerome, The EM algorithm, The Elements

of Statistical Learning. // Springer, 2001,P. 236-243.

13. LIBLINEAR: A Library for Large Linear Classification. [Электронный ресурс] - Режим

доступа:http://www.csie.ntu.edu.tw/~cjlin/liblinear/, свободный. Яз. Англ. (дата обращения 03.02.2015).

14. Hinton G, E., Osindero S., Teh Y. A fast learning algorithm for deep belief nets //

Neural Computation, Vol. 18, pp. 1527-1554, Jul. 2006.

15. T. Ganchev, N. Fakotakis, and G. Kokkinakis, Comparative evaluation of various

MFCC implementations on the speaker verification task.//SPECOM 2005, Vol. 1, P. 191-194

16. Wu Z., SiongChng E., Li H. Detecting Converted Speech and Natural Speech for anti-

Spoofing Attack in Speaker Recognition // Proc. Interspeech, 2012.

17. Ying G. S., Mitchell C.D., and Jamison L.H. Endpoint detection of isolated utterances

based on modified teager energy measure // ICASSP, 1993, pp. 732-735.

18. Проект Festvox, Carnegie Mellon University, [Internet resource] -http://www.

festvox.org/.

19. Wu Z., Evans N., Kinnunen T., Yamagishi J., Hanilc C., Sahidullah M., Sizov A..

ASVspoof 2015: the First Automatic Speaker Verification Spoofing and Countermeasures Challenge, [Internet resource] - http://www.spoofingchallenge.org/.

i Надоели баннеры? Вы всегда можете отключить рекламу.