Научная статья на тему 'Структура системы верификации дикторов с нормализацией расстояний'

Структура системы верификации дикторов с нормализацией расстояний Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
72
37
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Первушин Е. А.

В данной работе рассматривается система распознавания по голосу, основанная на методе векторного квантования. В традиционную схему вводится дополнительный этап нормализации расстояний. Основное внимание уделено вопросам построения структуры такой системы. Приводятся результаты экспериментов по верификации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Структура системы верификации дикторов с нормализацией расстояний»

ния статистических характеристик; для нахождения спектральных свойств выходного сигнала по известным спектральным свойствам входного сигнала и наоборот; для понимания характера протекания переходных процессов и оценок времени запаздывания, а также времени окончания переходных процессов по различным каналам нелинейной системы обслуживания с приоритетами. В последнем из рассматриваемых приложений в систему обслуживания поступает несколько независимых в совокупности пуассоновских потоков потребления электроэнергии, где заявки к-го потока последовательно проходят обслуживание по к-й цепочке. У каждого из датчиков допускается ожидание; в каждый момент обслуживание происходит не более, чем на одном канале; прерывание обслуживания не допускается. Оптимальный порядок обслуживания (минимизирующий средние стоимостные потери в единицу времени в стационарном режиме) можно вычислить, используя методику, изложенную в монографии [4]. Аналогичные соображения для расчета оптимального порядка обслуживания и последующего контроля потребленной электроэнергии для систем с прерыванием (отказами) приведены в монографии [5].

Список литературы:

1. Рыжиков Ю.И. Теория очередей и управление запасами. - СПб.: Питер, 2001. - 384 с.

2. Фетисов В.Г., Сапронов А.А., Медведев Д.В. Аналитические методы в нелинейных динамических системах контроля и учета электроэнергии // Математические методы в технике и технологиях: сб. тр. XVI Междунар. науч. конф.: в 10 т. Т.8. Секция 12. Под общ. ред. В.С. Балакирева. - Рос-тов-н/Д: РГАСМ ГОУ 2003. - С. 52-54.

3. Фетисов В.Г. Диссертация на соискание уч. степени доктора физ.-мат. наук / Ин-т матем. им. С.Л. Соболева Сиб.отд. РАН. - 1996. - 280 с.

4. Климов Г.П., Мишкой Г.К. Приоритетные системы обслуживания с ориентацией. - Изд-во МГУ, 1979. - 222 с.

5. Иванов В.В. Методы алгоритмизации непрерывных производственных процессов. - М.: Физматгиз, 1975. - 400 с.

СТРУКТУРА СИСТЕМЫ ВЕРИФИКАЦИИ ДИКТОРОВ С НОРМАЛИЗАЦИЕЙ РАССТОЯНИЙ

© Первушин Е.А.*

Омский государственный университет им. Ф.М. Достоевского, г. Омск

В данной работе рассматривается система распознавания по голосу, основанная на методе векторного квантования. В традиционную схему

* Инженер, ассистент кафедры Компьютерных технологий и сетей.

вводится дополнительный этап нормализации расстояний. Основное внимание уделено вопросам построения структуры такой системы. Приводятся результаты экспериментов по верификации.

За последние несколько десятилетий для решения задачи распознавания дикторов предложено множество методов. Традиционно, методы, применяемые для решения задач распознавания, делят на три компонента [1]: извлечение признаков, сравнение образцов и классификация. Рассмотрим более детально распределение функций разрабатываемой системы верификации по выделенным компонентам.

Основные компоненты системы

Работа систем распознавания содержит два основных процесса: регистрация пользователей в системе и сам процесс распознавания (попытка идентификации или верификации). Пользователи предварительно регистрируются в системе, записав свои голоса. Образец голоса каждого диктора обрабатывается с целью извлечения признаков, которые могут быть использованы для распознавания. На основе извлеченных признаков строятся модели (в некоторых случаях более подходящим термином является «шаблон») пользователей. Модель представляет собой некоторую структуру, позволяющую при данных признаках оценить степень подобия либо сразу принять решение.

В случае верификации пользователь пытается войти в систему, предъявляя идентификатор и образец голоса. Признаки, извлеченные из предъявленного образца, сравниваются с соответствующей моделью, сохраненной в базе, а также, возможно, с референтной моделью, представляющей множество всех пользователей, либо наиболее близких к данному голосу. Результат сравнивается с заданным порогом и выдается положительное или отрицательное решение о допуске.

Во время процесса идентификации также происходит извлечение признаков из предъявленного образца, которые затем сравниваются с моделями всех зарегистрированных в системе пользователей либо предварительно отобранных.

Таким образом, общая схема системы распознавания реализуется с помощью следующих основных этапов или уровней.

1. Уровень обработки сигналов. На данном уровне сигнал обрабатывается с целью выделить признаки, существенные для задачи распознавания. Речевой сигнал представляется с помощью последовательности векторов признаков. Сигнал произвольной длительности разбивается на короткие участки, которые используются для вычисления наборов признаков. Обычно речевой сигнал разбивается на участки фиксированной длины порядка 10-30 мс так, что попадающий в данный отрезок сигнал в большинстве случаев не содержит значи-

тельных изменений параметров. Поэтому можно считать, что данный уровень предназначен для обработки коротких стационарных участков сигнала. Извлекаемые векторы обычно имеют фиксированную длину. Количество извлеченных векторов зависит от продолжительности представленной записи.

2. Уровень моделей. На данном уровне осуществляется создание, хранение и сравнение моделей пользователей. При регистрации пользователя данный уровень использует полученную от уровня обработки сигналов последовательность векторов признаков для построения модели диктора. Моделирование может заключаться как в простом копировании векторов признаков, так и в построении вероятностных моделей или других структур. После чего становится возможным при данных признаках вычислить степень подобия между признаками и сохраненной моделью. При использовании векторного квантования в качестве алгоритма обработки извлеченных векторов признаков на данном уровне происходят следующие вычисления. При регистрации пользователя набор извлеченных векторов обрабатывается каким-либо из алгоритмов кластеризации, результатом которого является множество векторов, представляющих центры кластеров, найденных в данных. Во время попытки идентификации или верификации кластеризации не происходит, сравнение осуществляется для каждого из векторов, извлеченных из распознаваемого образца. Пусть в процессе обработки сигнала получена последовательность векторов уь ..., уЬ. В результате сравнения каждого из векторов с векторами хранимых шаблонов и поиска кратчайшего расстояния должны быть получены Ь х N расстояний, где N - количество пользователей, с которыми производилось сравнение. В данной работе полученные расстояния передаются для дальнейшей обработки на следующий уровень.

3. Уровень принятия решений. На данном уровне происходит принятие окончательного решения. Функции принятия решений традиционно выделяют в отдельный уровень, хотя он может выполнять тривиальные функции или отсутствовать, если на уровне моделей вычисляются конечные решения. Для принятия решений используются степени подобия, вычисленные на уровне моделей, и, если необходимо, заданные пороги. В традиционных системах, основанных на вычислении расстояний, используется среднее по векторам распознаваемого образца расстояние, полученное от предыдущего уровня. В данной работе расстояния, получаемые при сравнении каждого вектора распознаваемого образца, подвергаются нормализации относительно расстояний, найденных для нескольких шаблонов. Таким образом данный уровень приобретает функции моделирования пространства дикторов.

Получение степеней подобия

Пусть найдены кратчайшие расстояния от каждого из векторов распознаваемого образца до требуемых шаблонов. В случае верификации вычисляются расстояния до шаблона, соответствующего заявленному иден-

тификатору, а также до шаблонов референтных («когортных») дикторов. Исследовалось несколько способов получения степеней подобия:

- метод голосования: шаблон, являющийся ближайшим к текущему вектору, получает «голос»; количество набранных «голосов» становится степенью подобия;

- суммирование расстояний: расстояния до диктора суммируются, для получения степени подобия вычисленная сумма умножается на -1;

- нормализация по «когорте»: степени подобия для каждого вектора вычисляются по следующей формуле:

рс а) ч

ас - аj

а; - а;

а) < а'с

о, а) > а;

где 4 - расстояние от текущего вектора до шаблона

а- = 1, ..., N - те же расстояния, упорядоченные по неубыванию.

Полученные для каждого вектора степени подобия суммируются.

Пусть одним из способов получены: - степень подобия относительно шаблона заявленного пользователя, а также Б- - степени подобия относительно шаблонов «когортных» дикторов. Теперь требуется сформировать единое значение степени подобия по результатам сравнения с «ко-гортными» шаблонами. Такая величина вычисляется как среднее по полученным значениям Б-. На этом этапе может быть осуществлен выбор подходящих для сравнения шаблонов: могут быть выбраны несколько средних или наиболее схожих шаблонов. Получение «когортной» степени подобия может быть выражено в виде:

1 N

Б '=-

1 N

1-X Б'

«2 - N +1 Ы

где 1 <« <« <N, Б[<...<Б;<Б'м <... <Б'„ - массив отсортированных значений степеней подобия; N - количество «когортных» шаблонов. В проведенных экспери-

2

ментах использовались значения N = — N, N = N, N=15.

1 3

Тогда решение о верификации может быть принято на основе сравнения отношения полученных степеней подобия с заданным порогом:

т^т > Т ^ допуск

Б; у

1—г < Т ^ недопуск

Вычисление модуля здесь введено для возможности использования отрицательных степеней подобия.

Проведение экспериментов

Эксперименты по верификации проведены на базе, состоящей из 43 пользователей (все пользователи мужского пола), количество референтных пользователей - 15. Фраза для произнесения является одинаковой для всех пользователей. Все записи созданы с использованием одного микрофона. Записи каждого пользователя, используемые для создания моделей и попыток подлинных лиц, сделаны в разные дни.

Алгоритм построения оценок вероятностей приведен в соответствие к описанному в [2, с. 47]. Для сравнения алгоритмов удобным является способ, при котором для определения точности работы системы используют уровень равной вероятности ошибок (equal error rate, EER). При найденных значениях вероятностей ложного совпадения (ВЛС) и вероятностей ложного несовпадения (ВЛНС) определим вычисление данного уровня следующим образом:

Ет_ВЛС (l) + ВЛНС(1) 2

где l = arg min|ВЛС(j) - ВЛНС( j)\.

В качестве индивидуальных признаков использовались кепстральные коэффициенты, получаемые на основе коэффициентов линейного предсказания (LPCC). Размер кодовых книг после квантования составляет 96 векторов.

Результаты эксперимента приведены в табл. 1. Испытание проводилось одновременно для нескольких методов получения степеней подобия.

Таблица 1

Результаты экспериментов по верификации дикторов

Метод получения степеней подобия EER, %

Метод голосования 3,38

Суммирование расстояний 4,68

F3 2,82

F4 2,33

F5 2,93

F6 3,35

* * *

Рассмотренная структура системы распознавания дикторов обладает повышенной точностью по сравнению с аналогичными системами. Точность достигается благодаря введению этапа нормализации расстояний (по-

лучения степеней подобия). Поскольку данный этап выполняется на заключительном уровне работы алгоритма распознавания, то без значительных вычислительных расходов могут быть использованы одновременно несколько способов получения степеней подобия, среди которых после испытательных экспериментов выбирается обладающий наибольшей для конкретных условий точностью.

Список литературы:

1. Campbell J.P. Speaker Recognition: A Tutorial // Proceedings of the IEEE. - 1997. - Vol. 85. - № 9. - P. 1437-1462.

2. ГОСТ Р ИСО/МЭК 19795-1-2007 - Автоматическая идентификация. Идентификация биометрическая. Эксплуатационные испытания и протоколы испытаний в биометрии. Ч. 1. Принципы и структура.

РАЗРАБОТКА МЕТОДИКИ КОНСТРУИРОВАНИЯ ГРУНТОРАЗРУШАЮЩЕЙ ЧАСТИ ИНСТРУМЕНТА

© Тимофеев Н.Г.*

Северо-Восточный федеральный университет им. М.К. Аммосова,

г. Якутск

Одной из важнейших задач обеспечения эффективного разрушения мёрзлых грунтов на забое скважины является разработка рациональной конструкции грунторазрушающей части режущего бурового инструмента, для бурения скважин различного назначения.

Бурение скважин большого диаметра выполняется в различных горногеологических условиях. В настоящее время для интенсификации процесса бурения проводятся специальные исследования, направленные на изыскания наиболее рациональных режимов бурения скважин большого диаметра в различных горно-геологических условиях. Положительное решение этой задачи связано с разработкой схемы расстановки режущих элементов на траверсах корпуса бура. При этом должны быть определены рациональная ориентация режущих кромок резцов относительно оси вращения бура, взаимное расположение отдельных режущих кромок и продольных осей резцов в пространстве забоя скважины, что позволит уменьшить действующие нагрузки при разрушении одинаковых объёмов мёрзлых грунтов и обеспечить снижение энергоёмкости процесса бурения, а также способствует эффективной очистке забоя скважины от буровой мелочи [1].

* Заведующий лабораторией кафедры Технологии и техники разведки месторождений полезных ископаемых, аспирант.

i Надоели баннеры? Вы всегда можете отключить рекламу.