Научная статья на тему 'Информационная теория восприятия речи'

Информационная теория восприятия речи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
188
45
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЬ / SPEECH / РЕЧЕВОЙ МЕХАНИЗМ / SPEECH MECHANISM / РАСПОЗНАВАНИЕ РЕЧИ / SPEECH RECOGNITION / ТЕОРЕТИКО-ИНФОРМАЦИОННЫЙ ПОДХОД / THEORETICAL INFORMATION APPROACH

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Савченко В. В.

Приведены базовые элементы информационной теории восприятия речи. Введено понятие информационного центра-эталона речевого образа в метрике Кульбака–Лейблера. Дано обоснование критерия минимума информационного рассогласования в задаче автоматического распознавания речи; обсуждены вопросы его практической реализации и применения.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The information theory of speech perception

Base elements of the information theory of speech perception are stated. The concept of the information center-standard of a speech image on Kulbak–Leibler metric is entered. The substantiation of criterion of the minimal information mismatch for automatic speech recognition is given. Questions of its practical realization and application are discussed.

Текст научной работы на тему «Информационная теория восприятия речи»

Системы телекоммуникации, устройства передачи, приема и обработки сигналов

УДК 621.372:519.72

В. В. Савченко

Нижегородский государственный лингвистический университет

1

Информационная теория восприятия речи

Приведены базовые элементы информационной теории восприятия речи. Введено понятие информационного центра-эталона речевого образа в метрике Кульбака-Лейблера. Дано обоснование критерия минимума информационного рассогласования в задаче автоматического распознавания речи; обсуждены вопросы его практической реализации и применения.

Речь, речевой механизм, распознавание речи, теоретико-информационный подход

Речевая функция является продуктом высшей нервной деятельности человеческого организма и служит непременным условием абстрактного, или образного мышления. Образ каждого явления в сознании человека сопровождается соответствующей речевой "меткой". По ней данный образ определяется (опознается) в процессе межличностных речевых коммуникаций. Именно в этом и состоит главное назначение речи.

Опознавание образов осуществляется одновременно по двум противоположным направлениям. В режиме речеобразования решается обратная задача подбора последовательности речевых "меток" под определенный набор образов в сознании человека, а в режиме восприятия речи происходит прямое опознавание образов, но только по "меткам" другого человека - собеседника. Именно здесь возникают основные проблемы с изучением речевого механизма. Первостепенная из них - проблема вариативности речи. Один и тот же образ в восприятии разных людей имеет разные (на слух) речевые "метки". В какой степени разные, и где предел допустимых различий одноименных речевых "меток" при речевых коммуникациях - это ключевые вопросы в теории восприятия речи. Ответы на них на основе теоретико-информационного подхода и критерия минимума информационного рассогласования [1] и составляют главное содержание настоящей статьи.

Базовые понятия. Несмотря на существующие различия в одноименных речевых метках все они воспринимаются человеком как нечто общее, иначе речь утратила бы свою информативность. Поэтому можно утверждать, что одноименные "метки"-реализации

хг j, ] = 1, Jr, Jr >> 1, в сознании человека группируются в соответствующие классы или речевые образы Хг = {хг j}, г = 1, Я [2]. Каждый такой класс имеет четко очерченные

границы вокруг некоторого центра - эталонной "метки" данного образа [3]. В информационной теории восприятия речи указанные эталоны определяются в строгом теоретико-

1 Работа выполнена при поддержке гранта РФФИ 07-07-12042-офи. © Савченко В. В., 2007

информационном смысле [4]: речевая метка х* с Хг образует информационный центр-эталон г-го речевого образа, если в пределах множества Хг она характеризуется минимальной суммой информационных рассогласований по Кульбаку-Лейблеру относительно

всех других его меток-реализаций xr j, j = 1, Jr . В какой-то степени это аналог понятия

центра массы физического тела.

Благодаря понятию информационного центра речевого образа становится очевидным механизм восприятия речи. Анализируемый (слышимый) речевой сигнал x в пределах конечного множества речевых образов {Xr} отождествляется с тем из них Xv, которому отвечает минимум информационного рассогласования между вектором x и соответствующим эталоном x^, v < R . Это известная формулировка [1] критерия минимума информационного рассогласования (МИР) в задаче автоматического распознавания речи (АРР).

Критерий минимума информационного рассогласования. В терминах теоретико-информационного подхода задача в общем случае формулируется как R-альтернатив-ная проверка гипотез Pr, r = 1, R, о законе распределения вектора речевого сигнала. Следуя критерию МИР, приходим к решающему правилу вида

x е Xv : pv (x) = min pr (x), (1)

где pr ( x) 4 f. f^ P (dx ) - величина информационного рассогласования [5] выборочно-dPp ( x)

го закона распределения P (x) относительно его r-й альтернативы Pr (x), r = 1, R (= - символ

равенства по определению). В [6] показано, что в случае дискретных распределений критерий МИР (1) строго эквивалентен общесистемному критерию максимального правдоподобия (МП), т. е. является оптимальным в байесовском смысле. В таком случае задача состоит лишь в правильном задании множества альтернатив {Pr}.

Ее решение существенно упрощается, если воспользоваться гауссовской аппроксимацией закона распределения речевого сигнала Pr = N (Kr ), где Kr - его автокорреляционная матрица (АКМ) с размерами n х n, n > 1. Как следует из [7], свойство оптимальности критерия МИР в этом случае сохраняется, а соответствующий набор оптимальных решающих статистик из (1) записывается следующим образом:

pr (x) = 1 [tr (KK-1) - log |KK-1! - n], r = 1R, (2)

где K - выборочная оценка АКМ анализируемого сигнала х; "tr" - обозначение трека матрицы. Теперь задача сведена к определению множества альтернативных АКМ {Kr} на заданном R-множестве речевых образов {Xr}, т. е. к стандартной задаче статистического анализа.

Принципы анализа. Используемый статистический подход в задаче АРР, по-видимому, не имеет альтернатив ввиду отмеченной ранее проблемы вариативности речи. Однако сама идея статистического (по ансамблю реализаций) усреднения сигналов в рас-

4

сматриваемой задаче наталкивается на ряд принципиальных препятствий. Прежде всего, это особенности речеобразующего механизма человека. У разных людей он сильно разнится по параметрам, например по частотным характеристикам своей модели "акустической трубы" [8]. Как результат, одноименные речевые "метки", даже элементарные речевые единицы типа отдельных фонем, имеют существенно разные автокорреляционные свойства. Какое-либо усреднение таких сигналов между собой в принципе не обоснованно. Иными словами, понятие речевого образа оказывается не эквивалентным понятию статистического класса выборок с однородными распределениями [9]. Единственный в таком случае вариант анализа - это замена статистического усреднения на усреднение по времени в пределах длительности эталонных "меток"-реализаций х* для каждого речевого образа Хг, г = 1, Я. Решение задачи АРР при этом разделяется на два этапа: настройки набора оптимальных решающих статистик (2) под соответствующий набор эталонов хг, г = 1, Я (обучения), и обработки сигналов по критерию МИР (1).

Синтез алгоритма обучения. Предположим, что каждый речевой образ Хг = {хг ^} представлен конечным множеством (объема Jr) своих отдельных векторов-реализаций

x r j , j = 1, Jr , составленных из L последовательных отсчетов одноименного речевого сигнала {xr j (l)}, взятых с периодом T = 1/(2F) = const, где F - верхняя граница частотного

диапазона речевого тракта. Рассматривая каждую такую реализацию в режиме "скользящего окна" длиной n отсчетов (n « L), будем иметь (L - n) векторов (столбцов) данных {xr j г}

размерностью n = const каждый. Используя формулу среднего арифметического, определим по ним выборочную оценку для АКМ гипотетического гауссовского распределения:

~ д — 1L—n t -

Kr, j = (L - n) £ xr, j,ixr, j,i, j = 1 Jr , (3)

i=1

где Т - символ транспонирования вектора. При этом учитывается центрированность сигналов на выходе речевого тракта [8].

Подставив систему оценок (3) в выражение (2), получим в пределах образа Хг матрицу

с размерами (Jr х Jr) информационных рассогласований между одноименными "метками":

р(r) А 1

Рj,k А 2

tr (Kr, jKrj ) - ln

K K—1

лг , j^r ,k

-n

, j, k = 1, Jr . (4)

После суммирования элементов этой матрицы по столбцам

J„

'r Лr) д (r)

ZPjk = PV, k = 1 Jr (5)

j=l J

найдем информационный центр-эталон r-го речевого образа:

x* = xr 0 = arg min pkr^, r = 1, R. (6)

k

Его выборочная АКМ Кг д из (3) при у = 9 и определяет в конечном итоге оптимальную г-ю решающую статистику в выражении (2). Отметим, что в зависимости от состава множества Хг положение (значение) эталона (6) будет, разумеется, меняться. Чем больше объем Jr множества Хг , тем устойчивее и, следовательно, точнее определяется

соответствующий эталон [10].

Таким образом, в форме системы выражений (1)-(6) получен оптимальный по критерию МИР алгоритм АРР с обучением на заданном множестве речевых образов {Хг}.

Предложенный алгоритм имеет множество разнообразных модификаций главным образом за счет применения рекуррентных вычислительных процедур корреляционно-спектрального анализа [11]. Среди них наибольший интерес представляет метод обеляющего фильтра [7], основанный на авторегрессионной модели речевого сигнала [12].

Метод обеляющего фильтра. Авторегрессионная модель (АР-модель) г-го речевого сигнала

xr (/) = £ arixr (/-i) + n(/), / = 1, 2, ... (7)

i=1

однозначно определяется своим вектором АР-коэффициентов ar = {ar j} заданного порядка p < n и дисперсией aj: = const порождающего процесса {n (/)} типа "белого" шума,

r = 1, R. С одной стороны, она органично сочетается с голосовым механизмом человека ("акустическая труба" переменного диаметра), с другой - существенно расширяет возможности программно-аппаратной реализации критерия МИР. В работах [13]-[15] показано, что в этом случае набор оптимальных решающих статистик (2) примет вид

pr (x) = 1 [ст2 (x)/ст2 + ln (^2/) -1], r = 1R, (8)

где aj: (x) - выборочная дисперсия отклика yr (/) r-го обеляющего фильтра на вектор анализируемого сигнала x = {x(/)}; a2 е {aj:} - дисперсия порождающего его процесса, причем

yr (/) = x (/) - p ar ix(/ - i), / = 1, 2, ..., L . (9)

i=1

Задача сводится к АР-анализу эталонных "меток"-реализаций (6). Подобная задача обычно решается с применением рекуррентных вычислительных процедур, например, по методу Берга-Левинсона, обладающему высокой скоростью сходимости. В результате

достигается дополнительное сжатие данных: вместо набора из R^ элементов АКМ {Kr} (см. (2)) вся информация для вычислений (8) сосредоточена в наборе из R (p +1) АР-параметров {ar;о^} (причем p < n). На практике значение порядкар в АР-моделях речевых сигналов не превышает 20.. .30 [12].

Главное достоинство АР-модели (7) в задачах АРР - возможность дополнительной

Применительно к сигналам типа элементарных речевых единиц такая нормировка продиктована физическими особенностями голосового механизма человека: воздушный поток на входе "акустической трубы" имеет приблизительно одну и ту же интенсивность

Решение здесь принимается в пользу у-го речевого образа по признаку минимальной дисперсии отклика соответствующего обеляющего фильтра (9). Это классическая формулировка метода обеляющего фильтра (МОФ) [7].

Метод особенно продуктивен в задачах автоматического распознавания сложных речевых единиц типа отдельных слов или фраз. В таком случае каждое слово-эталон сначала разбивается на короткие стационарные отрезки (сегменты) данных и после этого кодируется соответствующей последовательностью (по числу сегментов) или системой обеляющих фильтров (9). Решение же принимается по признаку минимума суммы дисперсий откликов (10) одной из эталонных систем на входной сигнал.

Таким образом, можно утверждать, что МОФ - не только наиболее экономный, но и весьма эффективный вариант реализации критерия МИР.

Обсуждение результатов. Существует сразу несколько причин, по которым МОФ и критерий МИР в задачах АРР представляются более предпочтительными по сравнению с критерием МП, другими методами и подходами.

Во-первых, следует особо отметить метрическое свойство оптимальной решающей статистики МИР: ру (х) > 0 (с равенством нулю лишь при условии эквивалентности распределений Р = Ру [5]). Указанное свойство имеет важное практическое значение с точки зрения точности восприятия речи. Введя, например в критерий МИР (1), (10) ограничение сверху на величину минимальной решающей статистики ру (х) < р0, получим естественное правило "отбраковки" сомнительных решений и соответствующих им нечетных реализаций речевого сигнала х . Тем самым организуется обратная связь алгоритма АРР с диктором в виде запроса на повторный сигнал, что точно соответствует человеческому механизму речевых коммуникаций. Указанная возможность подробно исследована в работе [14]. Там же показана и приблизительная инвариантность порогового уровня р0 и распределения минимальной решающей статистики (10) по отношению к разным речевым сигналам на входе. Это еще один веский довод в пользу гауссовской аппроксимации речевого сигнала.

Второе важное преимущество МОФ - возможность автоматической верификации диктора в процессе распознавания речи. Ее механизм все тот же: ограничение сверху на допустимый уровень минимальной решающей статистики. Отметим, что речевой механизм человека также обладает известной способностью к верификации, но только в значительно более узких пределах.

222

нормировки речевых сигналов по дисперсиям порождающих их процессов: ar = a x = ао.

2

ао = const на интервалах длительностью в целое слово или даже фразу. При учете этого свойства предыдущий результат (8) приобретет предельно простой вид [13]:

Известия вузов России. Радиоэлектроника. 2007. Вып. 6======================================

Таким образом, благодаря критерию МИР появляются возможности не только эффективно моделировать человеческий механизм восприятия речи, но и усиливать его качественные характеристики. Предложенная теория может поэтому найти применение при решении широкого круга актуальных задач в области и теоретической, и прикладной информатики. Например, это задача разработки разнообразных речевых баз данных в пределах национального языка - как от отдельных его носителей, так и их групп, объединенных по их признакам пола, году рождения, месту жительства и т. п., - с автоматическим наполнением и непрерывным развитием (модернизацией) во времени [15]. В примере [15] наглядно реализованы все основные преимущества критерия МИР: высокая чувствительность к рассогласованию данных, способность к эффективной выборочной адаптации, минимум вычислительных затрат и требований к объему запоминающих устройств и др. Сама идея информационного центра-эталона речевого образа приобретает в нем очевидный практический смысл и дополнительное обоснование.

Библиографический список

1. Савченко В. В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. Т. 50, № 3. С. 309-314.

2. Савченко В. В., Акатьев Д. Ю. Исследование коммуникативных особенностей русского языка на основе теоретико-информационного подхода // Сб. тр. VII международной научно-практической конференции по региональной культуре / Нижегородск. гос. лингвистический у-т. Н. Новгород, 2006. С. 121-122.

3. Савченко В. В., Акатьев Д. Ю. Автотестирование качества произношения речи по принципу минимального информационного рассогласования // Современные тенденции компьютеризации процесса изучения иностранных языков: Сб. науч. тр. / Вост.-укр. нац. у-т. Луганск, 2005. Вып. 3. С. 205-206.

4. Савченко В. В., Акатьев Д. Ю., Шерстнев С. Н. Метод оптимального обучающего словаря в задаче распознавания речевых сигналов по критерию минимального информационного рассогласования // Изв. вузов. Радиоэлектроника. 2006. Вып. 5. С. 10-14.

5. Кульбак С. Теория информации и статистика. М.: Наука, 1967. 408 с.

6. Савченко В. В., Савченко А. В. Принципы минимального информационного рассогласования в задаче распознавания дискретных объектов // Изв. вузов. Радиоэлектроника. 2005. Вып. 3. С. 10-18.

7. Савченко В. В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т. 42, № 4. С. 426-431.

8. Принципы цифровой обработки сигналов / Под ред. А. В. Оппенгейма. М.: Мир, 1980. 550 с.

9. Савченко В. В. Проверка однородности выборочных данных в задачах спектрального оценивания // Радиотехника и электроника. 1999. Т. 44, № 1. С. 67-72.

10. Савченко В. В., Лукин П. Г. Метод переопределенного словаря в задачах распознавания речевых сигналов // Радиотехника и электроника. 2006. Т. 51, № 2. С. 202-206.

11. Марпл С.Л.-мл. Цифровой спектральный анализ и его приложения. М.: Мир, 1990. 584 с.

12. Akatiev D. Y., Savchenko V. V. Autoregressive model for recognition of speech signals based on theoretical information approach // VI Int. congress on math. modeling / University of N. Novgorod. N. Novgorod, 2004. P. 347.

13. Савченко В. В., Акатьев Д. Ю., Карпов Н. В. Автоматическое распознавание речевых единиц методом обеляющего фильтра // Изв. вузов. Радиоэлектроника. 2007. Вып. 4. С. 11-19.

14. Савченко В. В., Акатьев Д. Ю. Автоматическое распознавание случайных сигналов по критерию минимального информационного рассогласования с переспросом // Изв. вузов России. Радиоэлектроника. 2006. Вып. 1. С. 20-29.

15. Савченко В. В. Автоматическое распознавание речи методом дерева на основе информационного (R +1) -элемента // Изв. вузов России. Радиоэлектроника. 2006. Вып. 4. С. 13-22.

i Надоели баннеры? Вы всегда можете отключить рекламу.