Научная статья на тему 'Сравнение методов локализации пользователя многомодальной системы по его речи'

Сравнение методов локализации пользователя многомодальной системы по его речи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
339
122
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИСТАНЦИОННОЕ РАСПОЗНАВАНИЕ РЕЧИ / DISTANT SPEECH RECOGNITION / МАССИВ МИКРОФОНОВ / MICROPHONE ARRAY / МНОГОМОДАЛЬНЫЙ ИНТЕРФЕЙС / MULTIMODAL INTERFACE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ронжин Андрей Леонидович, Карпов Алексей Анатольевич

Рассматривается проблема дистанционной записи и распознавания речи для задачи голосового взаимодействия с автоматической информационно-справочной системой в условиях акустических шумов. Благодаря пространственной локализации источников звука система воспринимает и анализирует звуки, исходящие из узкой области пространства в рабочей зоне. Приведены результаты тестирования трех методов определения направления к источнику звука с использованием различных схем массивов микрофонов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ронжин Андрей Леонидович, Карпов Алексей Анатольевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Comparison of Methods for Localisation of Multimodal System User by His Speech

The problem of distant recording and recognition of speech for the task of voice interaction with automatic inquiry system in noisy environment is considered. The system perceives and analyses sounds arising from limited subspace due to spatial localization of sound sources. The test results of three methods for determination of direction to the sound source with using several microphone array schemes are presented.

Текст научной работы на тему «Сравнение методов локализации пользователя многомодальной системы по его речи»

МЕТОДЫ И СРЕДСТВА ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА

УДК 004.93

А. Л. Ронжин, А. А. Карпов

СРАВНЕНИЕ МЕТОДОВ ЛОКАЛИЗАЦИИ ПОЛЬЗОВАТЕЛЯ МНОГОМОДАЛЬНОЙ СИСТЕМЫ ПО ЕГО РЕЧИ

Рассматривается проблема дистанционной записи и распознавания речи для задачи голосового взаимодействия с автоматической информационно-справочной системой в условиях акустических шумов. Благодаря пространственной локализации источников звука система воспринимает и анализирует звуки, исходящие из узкой области пространства в рабочей зоне. Приведены результаты тестирования трех методов определения направления к источнику звука с использованием различных схем массивов микрофонов.

Ключевые слова: дистанционное распознавание речи, массив микрофонов, многомодальный интерфейс.

Введение. Реализация долгосрочной цели — создания всепроникающей компьютерной технологии (Ubiquitous Computing) — требует также решений в области многоканального акустического анализа и создания робастных методов локализации пользователя в пространстве, слежения за его перемещением, определения речевой активности и дистанционного распознавания речи [1]. Сложность последней проблемы заключается, прежде всего, в том, что необходимо автоматически осуществлять мониторинг за источником полезного сигнала (речь пользователя) и источниками шумов в реальных реверберационных условиях без ограничений на число одновременно функционирующих источников звука [2].

За последние десятилетия были достигнуты значительные результаты в области дистанционного распознавания речи, тем не менее высокая производительность систем распознавания обеспечивается только для небольших словарей, при одинаковых окружающих акустических условиях, в которых производится обучение и тестирование, а положение пользователя, ориентация головы и стиль речи остаются неизменными в течение диалога [3]. В таких приложениях применение одного или нескольких массивов микрофонов становится особенно эффективным благодаря их способности оценивать пространственное положение источников звука. Эффективность массива микрофонов существенно зависит от его геометрии и алгоритмов формирования луча, которые используются для комбинирования сигналов, поступающих с нескольких микрофонов, а также от других методов подавления и фильтрации шумов, включенных в полную схему цифровой обработки многомерного сигнала.

Существующие методы определения положения источника звука можно разделить на две группы: параметрические и непараметрические. Параметрические подходы, основанные на формировании луча (beamforming) или вероятностных методах (maximum likelihood approaches), определяют пространственную функцию вероятности для каждой точки

пространства [4]. Такая функция может иметь несколько локальных максимумов. Анализ пространства для всех локальных максимумов этой функции является длительным процессом.

Непараметрические методы, также известные как методы анализа сигналов подпространства с высокой разрешающей способностью или методы анализа собственных чисел (eigen analysis), не зависят от подобной функции. Например, хорошо известные алгоритмы MUSIC [5] и ESPRIT [6], не использующие параметрические методы, обеспечивают высокую разрешающую способность.

В простых приложениях определение положения пользователя в пространстве осуществляются путем измерения времени задержки между сигналами, записанными двумя или более микрофонами. В большинстве приложений используются методы обобщенной функции взаимной корреляции (General Cross Correlation — GCC) [7] или обработки фазы сигналов [8, 9] для оценивания задержки прихода звуковой волны. В таких методиках положение пользователя определяется с помощью набора оценок задержек, вычисленных путем сравнения сигналов, записанных с разных микрофонов. Основной недостаток перечисленных методов проявляется в условиях высокой реверберации, когда происходит множественное отражение звуковых волн от стен помещения, и основной сигнал перемешивается с его отраженными копиями. Также следует отметить, что проблема локализации нескольких источников звука стала исследоваться совсем недавно, хотя такая ситуация наиболее свойственна для реальных условий.

Методы оценки времени задержки сигналов. Для моделирования сигнала, излучаемого удаленным источником в условиях шумов и записанного несколькими разнесенными в пространстве микрофонами, обычно используется следующее выражение [7]:

xi(n) = аis(n -Ti) + (n), (1) где Xi (n) — сигнал, записанный i-м микрофоном; аг- — коэффициент ослабления сигнала при распространении в воздухе; т, — время прохождения звуковой волны от источника s(n) до i-го микрофона; bt (n) — аддитивный шум i-го микрофона.

Предполагается, что s(n), bt (n) — независимые случайные гауссовские процессы. Тогда относительная задержка между сигналами, записанными двумя микрофонами, определяется как разность между временем прохождения волны от источника до первого и второго микрофонов: Ti2 = Ti - Т2.

Такая модель является идеальной, и если записать выражение (1) в частотной области:

X ( f ) = atS (f )e~ j 2nf T + Bt ( f ), затем вычислить знак (комплексный) взаимного спектра Gx^ (f ) между Xi (f ) и X2 (f )

sgn[Gxix2 (f )] = sgn[E{Xi ( f )X2(f )}] = e-jf, (2)

где sgn(z) = z / | z |, E{.} — математическое ожидание, (•) обозначает комплексно-сопряженное число, то легко увидеть, что обратное преобразование Фурье от выражения (2) даст явный максимум в точке, соответствующей задержке Т12 между сигналами.

К сожалению, для реальных акустических условий, когда необходимо учитывать эффект реверберации, различие в характеристиках микрофонов и направленность шумов, идеальная модель сигнала не всегда подходит. В этом случае применяют более сложные модели, учитывающие импульсные характеристики между источником и микрофоном [10].

Более эффективным способом оценки задержки является метод обобщенной функции взаимной корреляции GCC, который определяется следующим выражением [7]:

N-1 j 2nnk

TGCC = arg max Z vg (k)Gx1x2 (k> N ,

где (к) = X (к)X2 (к) — взаимный спектр, (к) — некоторая весовая функция, N —

длина анализируемого сегмента сигнала.

Метод ОСС является более робастным по сравнению с простой автокорреляционной функцией, поскольку основан на предварительной фильтрации входных сигналов в некотором конечном окне, что позволяет избежать смешивания сигналов от различных источников и устранить влияние реверберации [1]. Недостаток данного метода заключается в том, что функция взаимной корреляции обычно имеет довольно размытый максимум, в результате невозможно достичь высокой точности в оценке задержки.

Для повышения производительности метода вСС применяют различные весовые функции, которые позволяют найти некоторый компромисс между разрешающей способностью алгоритма и его чувствительностью к шумам. Например, если требуется выделить в сигнале частоты, имеющие наибольшее соотношение сигнал/шум, то весовую функцию у б (к) следует выбрать таким

образом, чтобы она зависела от спектра шума и полезного сигнала. Такая функция может быть построена заранее с учетом априорных знаний или вычислена в процессе обработки сигнала, что обеспечивает адаптивность метода [7]. Примеры весовых функций, которые чаще всего применяются при оценке задержки, представлены в табл. 1. Более сложные функции используют статистические методы оценки соотношения сигнал/шум и требуют значительных вычислительных ресурсов, что пока сдерживает их применение в задачах управления в реальном времени [11].

Таблица 1

Функция Формула

Импульсная характеристика Рофа (Roth impulse response) 1GVi(k)

Сглаженная функция когерентности (Smoothed Coherence Transform — SCOT) l/V % Xi(k )GX2 X2(Jc)

Преобразование фазы (Phase Transform — PHAT) 1 |GXA(k )

Среди непараметрических методов определения положения источника звука можно выделить алгоритм адаптивной декомпозиции собственных комплексных чисел (Adaptive Eigenvalue Decomposition — AED) [10]. Оценка задержки вычисляется путем анализа импульсных характеристик между источником и микрофонами. Точное вычисление собственных векторов не является тривиальным вследствие нестационарности речи, фонового шума и неизвестной длины импульсной характеристики, поэтому на практике применяются упрощенные алгоритмы, основанные на итеративном поиске максимальных или минимальных значений собственных чисел. Наиболее простой алгоритм основан на оценке среднеквадратической ошибки по методу LMS [10].

При проведении экспериментов для локализации пользователя, взаимодействующего с информационной системой — интеллектуальным многомодальным киоском, были применены три алгоритма: GCC-SCOT (Smoothed Coherence Transform — сглаженная функция когерентности), GCC-PHAT (Phase Transform — метод преобразования фазы) и LMS (Lest Mean Squares — метод наименьшей среднеквадратической ошибки). Далее приведены результаты экспериментов по оценке направления источника звука с использованием разработанного авторами массива микрофонов [12].

Эксперименты. Для дистанционного распознавания речи в разработанном киоске использовался массив микрофонов, спроектированный с учетом обеспечения эргономичных условий взаимодействия и минимизации влияния работы динамиков на микрофоны. В состав аппаратной части массива входят четыре микрофона „Октава МК-012" и звуковая плата „PreSonus Firepod". Для задачи локализации источника звука использовались два микрофона, расположенные горизонтально на одной линии.

При проведении экспериментов изменялись следующие параметры: 1) расстояние между микрофонами; 2) расстояние от источника звука до микрофона; 3) отклонение источника звука от линии массива микрофонов. Чтобы оценить, насколько точно работает каждый из

трех методов (ОСС-БСОТ, ОСС-РНЛТ и ЬМБ), в качестве источника звука использовался один динамик, через который проигрывалась предварительно записанная фраза, произнесенная мужским голосом. Источник речевого сигнала последовательно находился в 33 положениях согласно схеме, приведенной на рис. 1.

Рис. 1. Схема положений источника речи относительно массива микрофонов

Во всех экспериментах сигнал записывался синхронно двумя микрофонами с частотой дискретизации 16 кГц. Комплексное преобразование Фурье вычислялось для сегмента сигнала размером 512 отсчетов с шагом 128 отсчетов. Оценка угла а производилась только для сегментов, максимальное значение функции взаимной корреляции которых превышало заданный порог. Длительность тестовой фразы составляла 2,3 с. Усредненная оценка угла вычислялась для сегментов записанного сигнала в диапазоне 0,5—1,8 с.

В табл. 2 приводится сравнение методов локализации в зависимости от расстояния (Ь) между микрофонами. Следует отметить, что с увеличением расстояния ошибка локализации, обозначенная как А и представляющая собой разность между реальным углом а и углом в, вычисленным с помощью массива микрофонов, уменьшается при использовании каждого из методов. При переходе от Ь = 3 см к Ь = 12,5 см ошибка уменьшилась более чем в два раза. Однако при Ь = 37,5 см ошибка снизилась менее чем на 1°, поэтому дальнейшее увеличение расстояния не проводилось. Для рассматриваемой задачи ошибка в 5° является вполне приемлемой, так как при взаимодействии пользователя с киоском рабочий сектор составляет более 20°. Кроме того, дальнейшее увеличение расстояния между микрофонами нецелесообразно, поскольку это приведет к увеличению размеров киоска.

Таблица2

Ь, см А,

ЬМБ БСОТ РНЛТ

3,0 14,12 17,91 14,91

12,5 6,05 6,06 5,92

37,5 5,85 5,78 5,81

Затем было проанализировано, как ошибка локализации зависит от степени отклонения источника звука от нормали (90°) массива микрофонов. Как видно из рис. 2, с увеличением

отклонения от нормали ошибка локализации возрастает. Метод ЬМБ „работает" более точно, но несколько проигрывает при малых отклонениях двум другим методам. На рисунке показаны абсолютные значения ошибки, на самом же деле при а = 15...750 ошибка стабильно принимала положительные значения, а при а = 105.165° — отрицательные. Это связано с тем, что во всех использованных методах принимается следующее допущение: от источника звука к микрофонам приходит плоская волна, а не сферическая. С увеличением расстояния от источника до микрофонов данная погрешность снижается, и, как показано на рис. 3, ошибка локализации источника звука, находящегося на расстоянии 150 см от массива при а = 30.150°, не превышает 5°. д, ...

30 25 20 15 10 5 0

-♦---LMS, L = 3,0 см -»--LMS, L = 12,5 см -4--LMS, L = 37,5 см -Х--- SCOT, L = 3,0 см ■ - Х- - - SCOT, L = 12,5 см ■-•--- SCOT, L = 37,5 см

—I-PHAT, L = 3,0 см

-PHAT, L = 12,5 см

---PHAT, L = 37,5 см

15

150 а,

Рис. 2. Зависимость ошибки локализации от угла а и расстояния Ь между микрофонами

Д,

20

15

10

- - + - - LMS, R = 50 см

LMS, R = 100 см -■t-- LMS, R = 150 см ---х--- SCOT, R = 50 см ■ ■ ■ ¡к- ■ ■ SCOT, R = 100 см ------- SCOT, R = 150 см

—I-PHAT, R = 50 см

-PHAT, R = 100 см

___---PHAT, R = 150 см

15 30 45 60 75 90 105 120 135 150 а,

Рис. 3. Зависимость ошибки локализации от угла а и расстояния R до источника звука

Необходимо также учесть влияние инструментальных ошибок на постановку и проведение эксперимента. В частности, возможна некоторая погрешность, возникшая при установке массива микрофонов и динамика, что могло повлиять на точность работы методов. Например, для L = 3 см (см. рис. 2) минимальная ошибка наблюдается при а = 90°, а для L = 12,5 см и L = 37,5 см минимум ошибки смещен в сторону 105°. Данное несовпадение минимумов функций можно объяснить смещением микрофонов относительно центра массива. Тем не менее

о

точность протестированных методов в целом является удовлетворительной для задачи локализации пользователя при взаимодействии с многомодальным киоском.

Заключение. К настоящему времени разработан прототип интеллектуального многомодального киоска, позволяющий в ходе натурных экспериментов создать наиболее удобный для пользователя способ общения с автоматической справочной системой. При организации взаимодействия пользователя с многомодальным киоском для начала диалога система, в первую очередь, должна определить присутствие пользователя в рабочей зоне перед киоском. Кроме того, эффективность автоматического распознавания речи существенно зависит от точности определения границ голосовой команды в записанном звуковом сигнале. Подавление сигналов, поступающих от источников, находящихся вне рабочей зоны киоска, значительно снижает вероятность появления неречевых сигналов на входе системы распознавания речи.

Рассмотренные в настоящей статье методы определения задержки прихода звуковой волны от источника изначально были разработаны в области радиолокации и адаптированы для задачи дистанционного распознавания речи. Методы LMS, GCC-SCOT и GCC-PHAT были применены авторами в разработанном массиве микрофонов, что позволило на практике оценить влияние расположения микрофонов на точность локализации, а также определить погрешность, связанную с допущением о распространении от источника плоской волны, а не сферической.

Анализ влияния уровня шума, направления звуковой волны шума, громкости речи и других факторов на работу алгоритмов предполагается произвести в последующих экспериментах. Кроме того, планируется совместить модули обработки видео- и аудиопотоков для создания бимодальной системы локализации пользователя, что позволит существенно понизить влияние шумов на определение его положения и повысить точность системы дистанционного распознавания речи в многомодальном интеллектуальном киоске.

Работа выполнена при поддержке Российского фонда фундаментальных исследований, грант № 07-07-00073-а „Исследование многомодального взаимодействия на базе информационного киоска".

СПИСОК ЛИТЕРАТУРЫ

1. Yiteng Huang, Benesty J. Audio Signal Processing for Next-Generation Multimedia Communication Systems. Norwell, MA: Kluwer Academic Publishers, 2004.

2. Macho D., Padrell J., Abad A. et al. Automatic speech activity detection, source localization and speech recognition on the CHIL seminar corpus // Proc. of IEEE Intern. Conf. on Multimedia and Expo. Amsterdam, Netherlands. 2005. P. 876—879.

3. Microphone Arrays /Eds.: M. Brandstein, D. Ward. Berlin: Springer Verlag, 2001.

4. Krim H., Viberg M. Two decades of array signal processing research: The parametric approach // IEEE SP Magazine. 1996. Vol. 13, July. P. 67—94.

5. Schmidt R. Multiple emitter location and signal parameter estimation // IEEE Transact. on Antennas and Propagation. 1986. Vol. AP-34, March. P. 276—280.

6. Roy R., Kailath K. ESPRIT — estimation of signal parameters via rotational invariance techniques // IEEE Transact. on ASSP. 1989. Vol. 37, N 7. P. 984—995.

7. Knapp C. H., Carter G. C. The generalized correlation method for estimation of time delay // IEEE Trans. Acoustics Speech Signal Proc. 1979. Vol. 24. P. 320—327.

8. Omologo M., Svaizer P. Acoustic event localization using a crosspower-spectrum phase based technique // Proc. of ICASSP. Adelaide, Australia. 1994.

9. Lathoud G., McCowan I. A. A sector-based approach for localization of multiple speakers with microphone arrays // Proc. of SAPA-2004, Korea. 2004.

10. Benesty J. Adaptive eigenvalue decomposition algorithm for passive acoustic source localization // J. Acoust. Soc. Amer. 2000. Vol. 107. P. 384—391.

Автоматический синтаксический анализ русских текстов

47

11. Trifa V., Koene A., Moren J., Cheng G. Real-time acoustic source localization in noisy environments for humanrobot multimodal interaction // Proc. of RO-MAN 2007, Korea. 2007.

12. Ронжин А. Л., Карпов А. А., Леонтьева Ан. Б., Костюченко Б. Е. Разработка многомодального информационного киоска. // Тр. СПИИРАН. СПб.: Наука, 2007. Вып. 5, т. 1. С. 227—245.

Сведения об авторах

Андрей Леонидович Ронжин — СПИИРАН, лаборатория речевых и многомодальных интерфейсов;

E-mail: [email protected]

Алексей Анатольевич Карпов — СПИИРАН, лаборатория речевых и многомодальных интерфейсов;

E-mail: [email protected]

Поступила в редакцию 06.05.08 г.

УДК 004.8

И. А. Кагиров, Ан. Б. Леонтьева

АВТОМАТИЧЕСКИЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ РУССКИХ ТЕКСТОВ НА ОСНОВЕ ГРАММАТИКИ СОСТАВЛЯЮЩИХ

Представлены концепция и пути реализации программного модуля синтаксического анализа для литературного русского языка. Основным инструментом исследования является так называемая „грамматика непосредственных составляющих", используемая для формального представления синтаксических структур. Сформулировано теоретическое обоснование процесса выделения множества синтаксических структур, существенных для формального представления текстов на русском языке.

Ключевые слова: непосредственные составляющие, синтаксические структуры, автоматический анализ текста.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Введение. Создание автоматического модуля синтаксического анализа (МСА) является одной из актуальных задач в компьютерной лингвистике, решение которой позволит достичь высокого уровня формализации языковых структур в различных прикладных задачах — от создания систем автоматического распознавания речи до поисковых систем в сети Интернет.

Однако создание МСА для русского языка связано с большими трудностями вследствие недостаточно разработанной теоретической базы в общем и прикладном языкознании; кроме того, структуры языка отличаются разнообразием и зачастую высоким уровнем сложности, предусмотреть который чрезвычайно трудно. В связи с этим в настоящей статье предлагается структура МСА, работающего с простыми синтаксическими структурами; создание такого модуля, способного обрабатывать тексты на русском языке любой сложности, представляется на настоящем этапе невозможным.

Теоретическая база: грамматика зависимостей и непосредственные составляющие. Под синтаксисом понимается такой уровень языка, наибольшими и основными единицами которого являются предложения, а наименьшими — грамматические слова (словоформы). Далее предложением называется грамматически связная цепочка слов, выражающая некоторое суждение. Грамматически связная цепочка — такая цепочка, в которой словоформы находятся в определенных грамматических отношениях между собой. В свою очередь, словоформа — это слово в одной из своих грамматических форм (характеризующейся определенными для каждого языка грамматическими признаками; так, для существительного в русском

i Надоели баннеры? Вы всегда можете отключить рекламу.