Научная статья на тему 'Применение методов анализа многомерных данных к задаче идентификации личности по голосу'

Применение методов анализа многомерных данных к задаче идентификации личности по голосу Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
450
108
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИДЕНТИФИКАЦИЯ ДИКТОРА / АНАЛИЗ МНОГОМЕРНЫХ ДАННЫХ / БИОМЕТРИЯ / SPEAKER IDENTIFICATION / MULTIVARIATE DATA ANALYSIS / BIOMETRY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Малинин Петр Владимирович, Поляков Виктор Владимирович

Предложен метод классификации голосовых сигналов, основанный на комбинации кепстрального представления этих сигналов и проекционных методов анализа многомерных данных. На основе компьютерной обработки речи группы дикторов для предварительного анализа голосовых данных, показана возможность разделения голосов дикторов с помощью метода проекций на латентные структуры. Полученные результаты свидетельствуют о перспективности предложенного подхода для идентификации личности по голосу.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Малинин Петр Владимирович, Поляков Виктор Владимирович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The Application of Multivariate Data Analysis Methods for Voice Person Identifi cation Task

In this article suggested classifi cation method of voice signals what based on representation cepstr combination these signals and projection methods of multivariate data analysis. A show of possibility division speakers voices with help projection latent structure method based on compute speech processing of speakers for preliminary analysis of voice data. Suggested approach is perspective for voice person identification influence get results.

Текст научной работы на тему «Применение методов анализа многомерных данных к задаче идентификации личности по голосу»

УДК 681.3.07

П. В. Малинин, В. В. Поляков

Применение методов анализа многомерных данных к задаче идентификации личности по голосу

Ключевые слова: идентификация диктора, анализ

многомерных данных, биометрия.

Key words: speaker identification, multivariate data

analysis, biometry.

Введение. Системы идентификации личности на основе биометрии более надежны и удобны по сравнению с обычными методами идентификации, поскольку биометрические показатели сложнее подделать и они проще подвергаются автоматизации. Одна из распространенных биометрических характеристик человека - голос, обладающий набором индивидуальных особенностей. В то же время идентификация по голосовым данным обладает серьезными недостатками, именно: низкой различающей способностью и значительным процентом ошибок [1]. Дальнейшее развитие систем голосовой идентификации, прежде всего основанных на применении микропроцессорных технологий, требует привлечения дополнительных методов обработки больших массивов экспериментальных голосовых данных и эффективных методов их анализа и классификации. Это вызывает потребность в создании новых математических методов обработки биометрических данных, обеспечивающих необходимую надежность и достоверность при идентификации личности. В настоящей работе предложен подход к обработке голосовых сигналов, основанный на использовании проекционных методов анализа многомерных данных [2].

1. Метод анализа и классификации голосовых данных. Исследование особенностей голосовых данных проводилось с помощью метода главных компонент и метода проекций на латентные структуры, показавших высокую эффективность для решения задач, связанных с выявлением закономерностей в больших объемах данных [3].

Идея применения проекционных методов заключается в замене характеристик исходных голосовых данных (как правило, искаженных случайными факторами и зашумленных) их геометрической проекцией на подпространство, которое ориентируется таким образом, чтобы выявить исследуемое свойство (в нашем случае - принадлежность речевого сигнала тому или иному диктору). В методе главных компонент первый вектор, определяющий ориентацию подпространства, направлен вдоль наибольшей вариации исходных данных X в исходном пространстве, второй ориентирован вдоль следующего по значению направления вариации данных и т. д. Этот метод может использоваться для предварительного выявления в общем объеме голо-

совых данных латентные закономерности, проявляющиеся в виде их разделений на группы. Для более надежного установления зависимостей между исходными голосовыми данными и их принадлежностью определенному диктору более предпочтителен метод проекций на латентные структуры. В этом методе, кроме исходных данных X, учитываются данные о предсказываемых переменных У (в нашем случае - априорные данные о принадлежности речевого сигнала конкретному диктору).

В обоих проекционных методах необходимо определенное представление речевого сигнала, т.е. представление информативных характеристик, характеризующих необходимые свойства этого сигнала для идентификации по голосу. Именно эти характеристики (признаки) используются далее в качестве обрабатываемых данных для соотнесения с идентифицируемой личностью. Возможны представления речевого сигнала, основанные на Фурье-преобразова-нии, кепстральном преобразовании, вейвлет-преобразовании и некоторых других. При этом в качестве признаков звукового сигнала используются коэффициенты соответствующих разложений.

Для выбора конкретного преобразования необходимо оценить применимость представления речевого сигнала для задачи идентификации, поскольку речевой сигнал содержит как полезную информацию, так и искажающий ее шум. Как показано в [4], наилучшие результаты по применимости представления речевого сигнала обеспечивает использование коэффициентов кепстрального преобразования. Это связано с тем, что при кепстральном преобразовании амплитудный спектр голосового сигнала заменяется его логарифмом. В силу специфики этого сигнала такая замена обеспечивает более полное выделение информативных параметров (коэффициентов разложения) по сравнению с традиционным фурье-анализом или вейвлет-разложением [5].

Для исходного сигнала 5 () с амплитудным

спектром £ (w) (где Ж - частота) спектральной плотностью энергии £2 (w) кепстр вводится как [6]

С5 (д) = | 1п [£ (л>)]2

-ОТ

здесь величина С5 (д) имеет смысл энергетического спектра функции 1п [£ ^)]2, а величина д - кеп-

стральное время. Кепстр имеет нелинейную зависимость коэффициентов разложения от частоты и не учитывает фазовую составляющую спектра.

Применение методов анализа многомерных данных к задаче идентификации личности..

В настоящей работе апробация предложенного подхода проводилась путем обработки конкретных голосовых сигналов, произнесенных различными дикторами, при этом в качестве таких сигналов использовались отдельные фонемы и их сочетания. Запись речи дикторов производилась с помощью микрофона на звуковую карту компьютера в формате PCM, частота дискретизации - 8000 Гц, разрядность - 16 бит. Исходная запись разбивалась на отдельные речевые фрагменты, соответствовавшие словам или словосочетаниям, которые затем подвергались анализу.

Анализ речевых сигналов производился по следующей схеме. Вначале с помощью специально составленной программы рассчитывались массивы коэффициентов кепстрального разложения для выделенных фрагментов. Эти массивы использовались в качестве признаков в методах главных компонент и проекций на латентные структуры. Далее производился расчет и анализ графиков счетов.

2. Результаты анализа речевого сигнала методом главных компонент. Предварительный анализ голосовых данных осуществлялся с помощью метода главных компонент. В формировавшемся массиве исходных данных X строки массива соответствовали различным дикторам, а столбцы - значениям кепстральных коэффициентов.

Произносившиеся дикторами фонемы могут обладать разной информативностью. Для количественного изучения информативности произносимых слов анализировались записи отдельных дикторов, каждый из которых произносил короткие слова с различными фонемами, именно, цифры от одного до пяти (повторявшиеся по пять раз). Рассчитанные на основе описанного подхода результаты для одного из дикторов, являющиеся типичными, представлены на рисунке 1 в виде графика счетов. Здесь РС1 и РС2 - первые главные компоненты, для удобства интерпретации цифры от 1 до 5 обозначают соответствующее слово, произносившееся диктором.

Как видно из рисунка 1, наблюдается значительный разброс точек, при этом области, отвечающие одному слову, перекрываются с областями, соответствующими другим словам. Этот разброс данных свидетельствует о том, что идентификация дикторов по отдельным фонемам сопряжена со значительными трудностями и не обеспечит надежного различения.

Рисунок также показывает, что отдельные фонемы обладают с позиций идентификации личности существенно разной информативностью. Наибольшей информативностью отличаются фонемы, составляющие слова, для которых точки с одним и тем же номером на графиках близки. Как следует из рисунка, этому условию отвечает слово «пять». Отметим, что этот результат соответствует данным, полученным существенно иными способами [7]. Таким образом, использованный подход оказался эффективным на этапе предварительного анализа информативности отдельных словосочетаний.

Для рассмотрения возможности разделения голосовых данных различных дикторов рассчитывались графики счетов для пяти дикторов, произносивших одно и то же слово. При анализе использовалось слово «пять», показавшее наибольшую информативность и произносившееся каждым диктором пять раз. Соответствующие результаты приведены на рисунке 2 (цифры от 1 до 5 обозначают различных дикторов). Точки, соответствующие одному и тому же диктору, группируются в компактные области, однако эти области близки друг к другу и не поддаются надежному разделению.

Рис. 1. График счетов записей речи одного диктора, произносившего цифры от 1 до 5, полученный с помощью метода главных компонент. Цифра обозначает произносимое слово, каждая точка соответствует одному слову.

Рис. 2. График счетов записей речи пяти дикторов, произносивших слово «пять», полученный с помощью метода главных компонент.

Цифра обозначает номер диктора, каждая точка соответствует одному слову.

Естественно считать, что надежность разделения голосовых данных дикторов возрастает, если увеличивается число обрабатываемых фонем или, другими словами, при анализе речи используются достаточно сложные словосочетания. Для количественной проверки этого предположения была проведена обработка словосочетания «один два три четыре пять», произносившегося каждым диктором по десять раз и анализировавшегося как целое. Результаты расчета

дикторов, произносивших словосочетание «один два три четыре пять», полученный с помощью метода главных компонент.

Цифра обозначает номер диктора, каждая точка соответствует одному словосочетанию.

графика счетов представлены на рисунке 3 (здесь цифры от 1 до 5 обозначают дикторов), откуда следует, что разделение областей, по сравнению с предыдущим случаем, несколько улучшилось.

3. Результаты анализа речевого сигнала методом проекций на латентные структуры. Для повышения надежности идентификации более предпочтительным, как было указано в подразделе 1, является метод проекций на латентные структуры. В задаче идентификации личности по голосу в качестве дополнительно привлекаемой информации выступает тестовый набор данных, для которых точно известно, какому диктору принадлежат анализируемые голосовые сигналы. При формировании массива исходных данных X строки массива соответствовали, как и ранее, дикторам, а столбцы - значениям кеп-стральных коэффициентов. Эти данные дополнялись вариациями переменных У, которые представляли собой массив, состоящий из столбцов, в каждом из которых для данного диктора были выставлены единичные значения, а для всех других - нулевые.

При исследовании для сопоставления использовались те же речевые данные, что и в подразделе 2, причем в качестве векторов признаков привлекались те же самые кепстральные коэффициенты разложения. В соответствии с результатами обрабатывались произносимые разными дикторами словосочетания «один два три четыре пять». Результаты

Рис. 4. График счетов записей речи пяти дикторов, произносивших словосочетание «один два три четыре пять», полученный с помощью метода проекций на латентные структуры.

Цифра обозначает номер диктора, каждая точка соответствует одному словосочетанию.

расчетов в виде графика счетов приведены на рисунке 4.

Как видно из рисунка, все рассмотренные случаи линейно разделимы. Две первых главных компоненты описывают свыше 90% от всей вариации данных. Приведенные на рисунке результаты означают, что комбинация кепстрального разложения голосового сигнала и метода проекций на латентные структуры позволяет выявить такие особенности этого сигнала, которые дискриминируют речь различных дикторов. Это дает возможность идентифицировать, какому диктору принадлежит произнесенная фраза.

Заключение. В работе представлен подход к анализу голосовых сигналов, основанный на методах обработки, представляющих собой комбинацию кепстрального представления этих сигналов и проекционных методов анализа многомерных данных.

На примере исследования произнесенных группой дикторов отдельных фонем и составленных из них словосочетаний рассмотрено применение для предварительного анализа голосовых данных метода главных компонент. Показана эффективность разделения записей речи дикторов с помощью метода проекций на латентные структуры. Полученные результаты свидетельствуют о перспективности предложенного подхода для анализа голосовых данных и последующей идентификации личности по голосу.

Библиографический список

1. Левковская, Т.В. Текстозависимая верификация диктора по голосу на основе коллектива решающих правил / Т.В. Левковская // Речевые технологии. - СПб., 2008. - №4.

2. Эсбенсен, К. Анализ многомерных данных. Избранные главы / К. Эсбенсен; пер. с англ. С.В. Кучерявского; под ред. О.Е. Родионовой. - Черноголовка, 2005.

3. Кучерявский, С.В. Применение методов анализа многомерных данных к исследованию структуры материалов / С.В. Кучерявский, В.В. Поляков // Заводская лаборатория. Диагностика материалов. - 2007. - Т. 73, №8.

4. Малинин, П.В. Применение методов анализа многомерных данных в задаче идентификации личности /

П.В. Малинин // Проблемы информационной безопасности государства, общества и личности, безопасность нанотехнологий. - Томск, 2009.

5. Штарк, Г.-Г. Применение вейвлет для ЦОС / Г.-Г. Штарк; пер. с англ. Н.И. Смирновой; под ред. А.Г. Кюркчана // Техносфера. - М., 2007.

6. Рабинер, Л.Р. Цифровая обработка речевых сигналов / Л.Р. Рабинер, Р.В. Шафер; пер. с англ.; под ред. М.В. Назарова, Ю. Н. Прохорова // Радио и связь. - М., 1981.

7. Рамишвили, Г.С. Автоматическое опознавание говорящего по голосу / Г.С. Рамишвили // Радио и связь. -М., 1981.

i Надоели баннеры? Вы всегда можете отключить рекламу.