Научная статья на тему 'Информационная теория обучения речи'

Информационная теория обучения речи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
64
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЬ / РЕЧЕВОЙ СИГНАЛ / РАСПОЗНАВАНИЕ РЕЧИ / ОБУЧЕНИЕ РЕЧИ / ТЕОРЕТИКО-ИНФОРМАЦИОННЫЙ ПОДХОД / SPEECH / SPEECH SIGNAL / SPEECH RECOGNITION / SPEECH TRAINING / THE INFORMATION APPROACH

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Савченко Владимир Васильевич

Излагаются базовые элементы информационной теории обучения речи. Вводится понятие информационного эталона произношения как "центра массы" множества однотипных речевых единиц в информационной метрике Кульбака-Лейблера. Определяется "область допустимых решений" как множество гипотетических образцов речевой единицы с ограниченной (сверху) величиной информационного рассогласования относительно эталона. При этом порог допустимого рассогласования определяется в зависимости от средней величины информационного рассогласования эталона на множестве выборочных образцов речевой единицы конечного объема.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Information theory of speech training

Base elements of the information theory of speech training are stated. The concept of the information standard of a pronunciation is entered as "weight centre" sets of the same speech units on the information Kullback-Leibler metric. The "area of allowable decisions" is defined as a set of hypothetical speech unit samples with the limited information mismatch with the model. Thus the threshold of an allowable mismatch is defined depending on average information mismatch of the model on set of speech unit samples with finite size.

Текст научной работы на тему «Информационная теория обучения речи»

Теория сигналов

УДК 621.372:519.72

В. В. Савченко

Нижегородский государственный лингвистический университет | Информационная теория обучения речи1

Излагаются базовые элементы информационной теории обучения речи. Вводится понятие информационного эталона произношения как "центра массы" множества однотипных речевых единиц в информационной метрике Кульбака-Лейблера. Определяется "область допустимых решений " как множество гипотетических образцов речевой единицы с ограниченной (сверху) величиной информационного рассогласования относительно эталона. При этом порог допустимого рассогласования р0 определяется в зависимости от средней величины информационного рассогласования эталона на множестве выборочных образцов речевой единицы конечного объема J <ж .

Речь, речевой сигнал, распознавание речи, обучение речи, теоретико-информационный подход

Речевая функция является продуктом высшей нервной деятельности человеческого мозга и служит непременным условием абстрактного или образного способа мышления. Образ каждого явления в сознании человека сопровождается соответствующей речевой меткой. По ней данный образ и определяется (опознается) в процессе межличностных речевых коммуникаций. Именно в этой функции состоит главное назначение речи. Причем опознавание образов одновременно ведется по двум противоположным направлениям. В режиме восприятия речи осуществляется прямое опознавание образов - по меткам человека-собеседника. В режиме речеобразования решается обратная задача: подбор последовательности речевых меток под определенный набор образов в памяти человека. При этом предполагается, что материал для такого подбора в памяти имеется и он достаточно представителен. Его формирование и организация с целью дальнейшего использования при коммуникациях и есть главная цель обучения речи и языкам. Именно здесь возникают основные проблемы теории и практики речевых коммуникаций. Первостепенная из них -проблема вариативности устной речи. Один и тот же образ в восприятии разных людей имеет разные (на слух) речевые метки. В какой степени разные, и где предел допустимого многообразия однотипных (одноименных) меток? Как выбрать среди указанного многообразия подходящий эталон для обучения конкретному языку? Будет ли он единственным? И по какому критерию оценивать степень близости тестируемого сигнала к эталонному произношению? Это принципиальные вопросы первого ряда с точки зрения организации процесса обучения. Ответы на них в терминах и понятиях информационной теории восприятия речи [1] и ее ключевого звена - критерия минимального информационного рассогласования (МИР) [2], [3] и составляют главное содержание настоящей статьи.

Постановка задачи. Принцип действия большинства современных систем обучения речи основывается на сопоставлении произнесенной речевой единицы (РЕ) - фонемы,

1 Работа выполнена при поддержке гранта РГНФ № 09-06-12125в. © Савченко В. В., 2009

морфемы, слова или целой фразы - с заранее подготовленным эталоном. Первой проблемой на этом пути является то, что диктор (обучаемый) в силу ряда причин, например, из-за дефектов его органов слуха, особенностей восприятия речи и т. д., в принципе не в состоянии точно повторить эталон. Выходом из такой ситуации может служить сравнение

тестируемого сигнала х одновременно с несколькими эталонами хГ-, - — 1, Jr , по каждой

г-й РЕ (г — 1, R). Диктору будет достаточно приблизить свое произношение к любому из них. Этим существенно ослабляется рассматриваемая проблема: каждый конкретный диктор в процессе своего обучения выбирает наиболее удобный, достижимый для себя вариант эталонного произношения из заданного множества альтернатив хГ-. Одновременно

становится понятным и собственно критерий "достаточной степени близости" тестируемого сигнала к эталону: он должен войти в границы Jr -множества одноименных эталонов

как полноправный, (Jr +1) -й его элемент. Задача переходит, в таком случае, в предметную плоскость: сначала по каждой из R рассматриваемых РЕ требуется сформировать множество ее эталонов |хг- | и после этого определить степень сигнала х к каждому из

Jr элементов этого множества, т. е. вычислить для него последовательность "расстояний"

р(ху/х^-), - — 1, Jr . Наиболее близкий из эталонов и есть потенциально достижимый для

данного диктора вариант произношения. Чем меньше различие между ним и входным (тестируемым) сигналом, тем выше качество произношения обучаемого.

При реализации описанной процедуры возникает проблема выбора строгого критерия качества. Как определять и какой смысл вкладывать в понятие "расстояние" р( х/х,- ) ?

Это ключевой вопрос в теории обучения речи. В рамках теоретико-информационного (вероятностного) подхода роль указанного расстояния выполняет величина информационного рассогласования (ИР) по Кульбаку-Лейблеру [4] между выборочными распределениями тестируемого сигнала Р (х) и--го эталона Р- (х) г-й РЕ.

Механизм обучения. Несмотря на существующие различия в реализациях (образцах) некоторой г-й РЕ все они воспринимаются человеком как нечто общее, иначе речь утратила бы свою информативность. Поэтому можно утверждать, что одноименные реа-

лизации хг-, - — 1, Jr , Jr »1, каждой отдельной РЕ в сознании человека группируются в соответствующие классы или речевые образы Хг — | хг-1, г — 1, R, вокруг некоторого

центра - эталонной метки данного образа [1]. В информационной теории восприятия речи указанные эталоны определяются в строгом, теоретико-информационном смысле. В соответствии с общесистемным принципом минимального информационного рассогласования

(МИР) [2] речевая метка хГу е Хг образует информационный центр-эталон хГ (ИЦ-

эталон) г-го речевого образа, если в пределах множества Хг она характеризуется мини-

мальной суммой ИР р( xrj /xrv) относительно всех других его меток-реализаций x

Л'

] =1, Jr :

J J

xr = ^ : J~ £ р ( ^ /xrv ) = min -1 ~ £ р ( ^ /xr/') = рГ .

7=1 г"'/ У=1

(1)

Именно в понятии ИЦ-эталона г-го множества одноименных реализаций Хг дается

строгое и полное описание свойств соответствующей РЕ. Одновременно становится очевидным и механизм постановки произношения по каждой отдельной РЕ изучаемого языка: тестируемый сигнал x в процессе обучения конкретного диктора должен войти в состав множества допустимых решений Хг по критерию

рГ (x) = р(x|Xrv) — Ро =(1 — 2)р

(2)

ограничения сверху на величину ИР относительно соответствующего ИЦ-эталона xr из

выражения (1). Здесь " = " - символ равенства по определению. Предложенный механизм можно проиллюстрировать следующим образом.

Отобразим отдельные реализации данной РЕ в виде точек на плоскости (рис. 1). Тогда точка с минимальной суммой расстояний выступит в роли своеобразного "центра массы" заданного множества (отмечена на рис. 1 залитым элементом). В этом и состоит физический смысл ИЦ-эталона (1). Тогда множество рассматриваемых реализаций данной РЕ - это допустимые вариации эталона с точки зрения его теоретико-информационных свойств, а пороговый уровень ро из выражения (2) - это количественные требования к допустимому уровню упомянутых вариаций. В данном механизме реализуется указанный ранее принцип МИР [1]-[3]. Его адаптивный (по выборке тестируемого сигнала) вариант реализации рассматривается далее.

Адаптивный алгоритм. Задача существенно упрощается, если перейти к последовательной, пофонемной, обработке речевого сиг- 0 нала x (^) и воспользоваться гауссовской (нормальной) аппроксимацией Pr = N (КГ) его закона

распределения на интервалах приблизительной О

стационарности длиной т = 10... 20 мс в одну элементарную речевую единицу (ЭРЕ). Здесь г - номер фонемы в звуковом строе языка, а Кг - ее автокорреляционная матрица (АКМ) с размерами п х п, п > 1. Известно [5], что в данном случае критерий МИР сохраняет свою оптимальность в байесовском смысле [2]. Задача (2) формулируется как проверка простых гипотез о законе распределения

О

Рис. 1

о

ЭРЕ, а соответствующий набор оптимальных решающих статистик может быть записан следующим образом [3]:

рГ (х ) = п"1 Г tr (КК-)- ^

кк

-1

- п

г = 1, R,

где К - выборочная оценка АКМ анализируемого сигнала х = {х (г)} в дискретном времени I = 0, 1, 2, ____Причем в задачах с априорной неопределенностью вместо неизвестных, в общем случае, АКМ фонем Кг, г = 1, R, в выражение подставляют их статистические оценки,

которые предварительно получают по классифицированным выборкам речевого сигнала (Я. -число фонем в списке). Это стандартная формулировка критерия МИР с обучением [1]. В работе [5] также показано, что в асимптотике, при п ^ да, и при условии ленточной структуры обратной АКМ Кг 1 решающая статистика МИР в (2) сводится к выражению

рГ ( х) = F-1 2

/=1

F

°х ( / )+ 1п °г ( / )

-1 ^ тт .

Ог (/) Ох (/)

Это известная формулировка критерия МИР на основе авторегрессионной (АР) модели речевого сигнала. Здесь F - верхняя граница анализируемого частотного диапазона речевого сигнала; Ох (/) - выборочная оценка спектральной плотности мощности (СПМ) входного

сигнала х (г) в функции дискретной частоты/ Ог (/ ) - СПМ эталона г-й фонемы Хг £ Хг .

Как известно [6], главное достоинство АР-модели состоит в возможности предварительной нормировки речевых сигналов по дисперсии порождающих их процессов. Применительно к сигналам типа ЭРЕ такая нормировка обусловлена физическими особенностями голосового механизма человека: воздушный поток на входе его "акустической трубы" имеет приблизительно одну и ту же интенсивность на интервалах, длительностью в целое слово или даже фразу. При учете данного свойства последнее выражение приобретает предельно простой вид [5]

рГ (х ) = F-1 2

/=1

или в терминах АР-модели речевого сигнала

F

Ох ( / ) Ог ( / ),

-1 ^ тт

(3)

F

рГ ( Х) = F-1 2

/=1

1 +2 аг (т) ехр I - j'пm

т=1

-1.

1 +2 ах ( т ) ехр I - jкm

т=1

/ F

(4)

где аг (т), ах (т) - компоненты векторов г-го ИЦ-эталона хГ и АР-коэффициентов тестируемого сигнала х соответственно. Указанные векторы имеют одинаковый размер р > 1.

Выражение в числителе определяет квадрат амплитудно-частотной характеристики г-го

обеляющего фильтра, настроенного на г-ю фонему хГ , г = 1, R. Это стандартная формули-

2

2

ровка метода обеляющего фильтра (МОФ) в частотной области. Преимуществом данной интерпретации критерия МИР является прежде всего возможность его практической реализации в адаптивном варианте на основе быстрых вычислительных процедур авторегрессионного анализа [7]. Например, это может быть рекуррентная процедура Берга-Левинсона вида

ат (г) = ат-1 (г) + стат-1 (т -г), г = 1, т;

-2 Ж _1

ст =_Ят-1 2 Лт-1 (1 )ут-1 (1 _1);

t=т

4-1 = 0.5 2 ьт_1(1 ^-1(1 -1)_|; (5)

1=т

Лт (1) = Лт-1 (1) + cmvт-1 (1 _1);

vm (1) = vm-1 (1 _1) + ст Лт-1 (1), т = 1 P, с инициализацией системой равенств Vo (1) = Ло (1 _ 1) = х (1), 1 = 1, 2, ..., Т по выборке сигнала x = { x (1)} конечного объема Т. При использовании в качестве сигнала x (1) классифицированной выборки наблюдений финальные значения рекурсий ар

(г) , г = 1, р, в верхней строке

(5) при т = р определяют векторы АР-коэффициентов р-го порядка в числителе и знаменателе выражения для решающей статистики МИР (4) в ее адаптивном варианте реализации.

Задача сводится в общем случае к многоэтапной процедуре. На первом этапе диктор обучается звуковому строю языка согласно адаптивному алгоритму (2)-(5), затем - произнесению отдельных слов, фраз и текстов как соответствующим образом структурированных последовательности разных фонем. При этом во втором случае применяется обобщенная модификация адаптивного алгоритма.

Обобщенный алгоритм. Рассмотрим сложный речевой эталон длительностью, например, в одно слово и мысленно разобьем его на некоторую последовательность фонем

{уг (1), Уг (2), .••, уг (L)} (уг (I) £ ^^}, VI < L) длительностью т каждая. Здесь L - количество фонем, входящих в слово, причем некоторые фонемы могут повторяться. Сопоставим с ним некоторый его тестируемый (учебный) вариант ^ (1), x (2), ..., x (L)} той же длины L. Для этого воспользуемся критерием МИР общего вида (2) совместно с обобщенным выражением для решающей статистики по слову целиком вида [8]

I

рГ (x) = L-1(I)/уг (I)_ . (6)

I=1

В правой части этого выражения вычисляется суммарная величина ИР по Кульбаку-Лейблеру для всех пар одноименных фонем из слова-варианта и слова-эталона. Это аналог МОФ (3), (4), но в обобщенном (интегральном) варианте его формулировки. Поэтому для него применимы все предыдущие комментарии и выводы по критерию МИР, включая его геометрическую интерпретацию на рис. 1.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таким образом, обработка речевого сигнала по критерию МИР и МОФ в задачах обучения речи реализуется в общем случае на основе многоканальной обработки, в которой

число каналов R определяется количеством слов-эталонов или объемом учебного словаря. При этом в каждом г-м канале используется набор из L обеляющих фильтров, настроенных на последовательность стационарных участков (фонем) соответствующего эталонного слова. Решение (2) о завершении (останове) процесса обучения принимается в каждом случае в момент достижения (по направлению "сверху - вниз") интегральной решающей статистикой МИР (6) порогового уровня ро. Значение последнего определяется согласно правой

части выражения (2) по величине допустимых вариаций рГ для каждого г-го слова-эталона

из учебного словаря. При вычислениях рГ на втором этапе обучения используется правило (1) совместно с матрицей интегральных значений ИР с размерами Jr х Jr

I

р(Уг; /УП ) = L"1 2Р[УГ;' (1)/уи (Я] , /,- < Jr , (7)

I=1

на заданном Jr -множестве Xr реализаций г-го эталона, г = 1, R.

Все вышеизложенное сохраняет свою справедливость и в общем случае разной длины Lj реализаций г-го слова, например, из-за разного темпа речи обучаемых и дикторов-

учителей. Во всех подобных случаях перед применением выражения (7) одноименные сигналы словаря эталонов должны быть предварительно выровнены по темпу речи. Для этого применяются стандартные вычислительные процедуры, основанные, как правило, на методе динамического программирования [9].

Наглядная геометрическая интерпретация процесса обучения речи по МОФ (1)-(7) представлена на диаграмме (рис. 2). Здесь точками на плоскости обозначено имеющееся множество эталонов рассматриваемой РЕ, а каждый кружок - это тестируемый сигнал на очередном шаге обучения диктора. "Траектория обучения" отображается направленной ломаной линией. Процесс обучения сводится к итеративному (пошаговому) приближению каждого очередного варианта сигнала х к центру "области допустимых решений", обозначенной на рисунке серым фоном. Границу области образует окружность радиусом ро относительно

Множество гипотетических реализаций

Траектория обучения (п шагов)

Рис. 2

ИЦ-эталона хГ. Принципиальное значение в данном случае имеет привязка согласно выражению (2) значения порога ро к минимальной средней величине рГ информационного рассогласования р( хГ-/ хГу) на

множестве выборочных образцов по каждой отдельной РЕ Xr = {хГ-1 конечного объема

J < да.

Именно в формулировке условия (2) и состоит главный результат проведенного исследования. Регулируя величину порога

Ро, можно изменять требования к качеству речи обучаемого. Например, при обучении диктора с врожденными дефектами механизмов слуха или речеобразования эти требования понижаются до минимума (ро = max). Наоборот, при обучении профессиональных дикторов - повышаются до максимума. При этом одновременно может меняться и используемая база эталонов |x*}: в одних случаях это будут образцы высококачественной

речи, в других - посредственный речевой материал, несущий в себе типичные черты говора жителей определенной местности, возраста, пола и т. п. Сказанным впервые даются строгие ответы на ключевые вопросы по теории и практике обучения речи относительно обоснованности, с одной стороны, и достижимости, с другой стороны, требований к качеству речи и произношения каждого отдельного обучающегося.

Обсуждение результатов. Речевые метки всех типов должны хорошо различаться между собой - это главное требование к любой членораздельной речи. Указанное требование реализуется через создание собственного (речевого) образа для каждой отдельной (их множество) речевой единицы. Поэтому в определенном смысле язык - это целая "галерея" речевых образов, связанных между собой множеством сложных отношений. В таком случае целью обучения речи и языку является выстраивание новой галереи речевых образов, причем в строгом соответствии с существующей априори галереей. Чем сложнее (многочисленнее, разнообразнее и т. п.) априорная галерея, тем сложнее происходит процесс обучения человека новому языку. В этом состоит, возможно, главная проблема обучения. Например, хорошо известно, что чем старше человек, тем сложнее в общем случае он усваивает новые языки. Напротив, дети с легкостью познают родной язык. При учете индивидуальных особенностей как речевого, так и слухового механизмов человека каждая отдельная речевая единица и галерея речевых образов в целом у разных носителей одного языка могут сильно разниться.

Каждый отдельный речевой образ включает в себя множество (вообще говоря, бесконечное) всех мыслимых реализаций соответствующей речевой единицы (устами разных людей), четко "очерченное" некоторыми границами в памяти человека. Условно говоря, человеческий мозг объединяет и запоминает как нечто целое разные образцы (произношения) каждого отдельного слова в соответствующей "сфере" своей памяти: вокруг абстрактного "центра" с заданным "радиусом". Указанные центр и радиус разные у разных людей. Именно в этих двух параметрах и проявляются, главным образом, индивидуальные особенности речи, а в их сочетаниях и взаимосвязях отражаются все основные особенности каждого языка. Анализируя указанные взаимосвязи в каждом конкретном случае, можно многое сказать, причем в строгом, теоретическом, смысле, как о качестве данной речи, так и о способах ее коррекции. Именно в этом актуальнейшем направлении исследований и создается предложенная информационная теория обучения. Ее первый и важнейший элемент - теоретико-информационная модель процесса формирования галереи речевых образов (1), (2). В рамках представленной статьи данная модель достаточно подробно раскрыта в адаптивном варианте реализации (4)-(7) с целью ее дальнейшего применения в практике обучения речи и языку.

Известия вузов России. Радиоэлектроника. 2009. Вып. 3======================================

К числу приоритетных направлений развития информационной теории относятся прежде всего проблемы обучения иностранным языкам. В частности, при учете строгого, теоретико-информационного, определения эталона (1) и его геометрической интерпретации на рис. 1 легко может быть доказано утверждение: при обучении иностранному языку одного учителя недостаточно. (Напрашивается пример обычной средней школы.) Недостаточно и двух разных учителей. Три учителя на каждого ученика (или учебную группу) -это минимум, гарантирующий приемлемое усвоение разговорного языка, особенно на начальном этапе обучения. В общем случае: чем больше учителей, тем лучше усваивается язык в условиях любого ограниченного срока обучения. (Второй очевидный пример в подтверждение сказанному - общеизвестная роль практики общения обучаемого с носителями языка в естественных условиях.) Не менее интересен вопрос и по количественному (и качественному) составу учебных групп. Здесь также имеется оптимум, причем совсем не тривиальный: один учащийся в группе - далеко не лучший вариант.

Таким образом, благодаря проведенному исследованию предложен новый, теоретико-информационный, подход к задаче обучения речи, реализованный в форме нового адаптивного алгоритма обработки речевого сигнала (2)-(7) и обладающий по сравнению с известными аналогами рядом существенных преимуществ. Среди них прежде всего преодоление сразу нескольких ключевых проблем по теории и практике обучения языку: вариативности устной речи, малых выборок, а также многокритериальности качества речи. Особое значение при этом имеют направленные свойства [1] решающей статистики МИР (2), (6), благодаря которым гарантируется [8] практическая достижимость эталонного произношения за конечное число попыток-шагов. Кроме этого, следует отметить высокую чувствительность и избирательность по частоте речевого сигнала статистики МИР согласно выражению (3). Этим фактом при учете ее направленных свойств обеспечивается сходимость итераций (см. рис. 2) не просто в область допустимых решений (отмеченную заливкой), но максимально

близко к ее "центру массы" хГ на рис. 1, т. е. к истинному эталону произношения [10].

Список литературы

1. Савченко В. В. Информационная теория восприятия речи // Изв. вузов России. Радиоэлектроника. 2007. Вып. 6. С. 3-9.

2. Савченко В. В., Савченко А. В. Принцип минимального информационного рассогласования в задаче распознавания дискретных объектов // Изв. вузов России. Радиоэлектроника. 2005. Вып. 3. С. 10-18.

3. Савченко В. В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. Т. 50, № 3. С. 309-314.

4. Кульбак С. Теория информации и статистика. М.: Наука, 1967. 408 с.

5. Савченко В. В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т. 42, № 4. С. 426-431.

6. Савченко В. В., Акатьев Д. Ю., Карпов Н. В. Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра // Изв. вузов России. Радиоэлектроника. 2007. Вып. 4. С. 11-19.

7. Марпл С. Л.-мл. Цифровой спектральный анализ и его приложения. М.: Мир, 1990. 584 с.

8. Савченко А. В. Метод направленного перебора словаря в задаче автоматического распознавания речи на основе информационной теории восприятия // Сист. упр. и инф. технол. 2009. № 1. С. 44-54.

9. Акатьев Д. Ю., Губочкин И. В., Савченко В. В. Автоматическое распознавание изолированных слов методом обеляющего фильтра с сегментированием и амплитудным ограничением сигналов переспросом // Изв. вузов России. Радиоэлектроника. 2007. Вып. 5. С. 11-18.

10. Савченко В. В. Решение проблемы малых выборок на основе информационной теории восприятия речи // Изв. вузов России. Радиоэлектроника. 2008. Вып. 5. С. 33-44.

V. V. Savchenko

Nizhny Novgorod state linguistic university Information theory of speech training

Base elements of the information theory of speech training are stated. The concept of the information standard of a pronunciation is entered as "weight centre " sets of the same speech units on the information Kullback-Leibler metric. The "area of allowable decisions" is defined as a set of hypothetical speech unit samples with the limited information mismatch with the model. Thus the threshold of an allowable mismatch ро is defined depending on average information mismatch of the model on set of speech unit samples with finite size J < ж .

Speech, speech signal, speech recognition, speech training, the information approach

Статья поступила в редакцию 15 мая 2009 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.