МЕТОДЫ МОДЕЛИРОВАНИЯ И ОБРАБОТКИ СИГНАЛОВ
УДК 519.234: 681.841.3
© 2010 г.
ПРИМЕНЕНИЕ ТЕОРЕТИКО-ИНФОРМАЦИОННОГО ПОДХОДА ДЛЯ ОБУЧЕНИЯ МНОГОСЛОЙНОГО ПЕРСЕПТРОНА В ЗАДАЧЕ РАСПОЗНАВАНИЯ ФОНЕМ
О.А. Морозов, П.Е. Овчинников, Ю.А. Сёмин, В.Р. Фидельман
Научно-исследовательский физико-технический институт Нижегородского госуниверситета им. Н.И. Лобачевского
Поступила в редакцию 27.05.2010
Предложен метод обучения, в основе которого лежит информационный критерий: энтропия в форме Реньи. Представлены результаты моделирования, показывающие, что предложенная схема позволяет повысить скорость обучения по сравнению со стандартным подходом.
Ключевые слова: нейронные сети, обучение, энтропия Реньи, распознавание фонем.
Введение
Классификация звуков - составная часть задачи распознавания речи. Одним из подходов к решению такой задачи является использование искусственной нейронной сети. Подбор параметров сети (обучение) настраивает сеть на отображение пространства признаков в пространство фонем для выбранного способа кодирования. Обучение изменяет веса и пороговые уровни нейронной сети [1].
Существуют различные структуры нейронных сетей: прямого распространения, с обратными связями, распределённые. Для задач классификации удобен многослойный персептрон. Известно, что если персептрон асимптотически обучается как 1-из-Ж-классификатор с использованием критерия среднеквадратичного отклонения, то его выходы аппроксимируют апостериорные вероятности Р(ф), где I - номер класса (выхода классификатора), х - классифицируемый образец; точность аппроксимации возрастает с увеличением обучающей выборки [2].
Традиционно используемые для обучения функционалы (суммарная квадратичная ошибка, взаимная энтропия) многоэкстремальны, что приводит к существенной зависимости результатов (эффективности классификации) от начальных условий и параметров процедуры обучения [3]. В данной работе предлагается метод обучения на основе информационного
критерия, позволяющий улучшить характеристики нейросетевого классификатора: уменьшить время обучения, повысить эффективность классификации, уменьшить влияние на результаты выбора начальных условий.
Метод обучения
Для обучения персептрона существует быстрый алгоритм обратного распространения ошибки (Ьаскргора§айоп) [4]. По сути это градиентный метод минимизации ошибки классификации для обучающей выборки. Существует несколько критериев оптимальности для обучения, наиболее популярный из них - суммарное квадратичное отклонение:
(1)
где и - номер образца для обучения, і - номер выхода персептрона, А - требуемое значение на выходе, у - значение на выходе персептрона (результат прямого прохода для данного образца). При реализации вместо общей ошибки Е в алгоритме градиентного спуска используют набор ошибок {Еи} для отдельных образцов:
Еи =-и 2
(2)
Градиент вычисляется отдельно для каждого образца.
Коррекция
весов
Конец
Рис. 1. Блок-схема метода обучения; N - число образцов для обучения, Епорог - требуемое значение суммарной ошибки, I - номер итерации
Более оптимальным в теоретико-информационном смысле является обучение с минимизацией энтропии Реньи ошибок на выходе персептрона вместо суммарной квадратичной ошибки. Энтропия Реньи порядка а для случайной величины с плотностью распределения вероятности^ задаётся выражением:
1
Hа(е)=1-а1п I(е^е. (3)
— СО
Введя аппроксимацию для плотности вероятности через ядро ^, можно показать, что для оптимизации энтропии достаточно оптимизировать информационный потенциал, определяемый следующим выражением:
1 ( V-1
^(е) = —7Х X ^(ет - еп) . (4)
N
m
V п у
Можно показать [5], что глобальный минимум функция энтропии достигает при е1 =... = eN = 0.
При обучении настраиваются параметры (весовые коэффициенты) нелинейного отображения у = G(X, й). Ошибка отображения определяется как разница результата отображения (выхода) и требуемого выхода ек = dk - ук, а обучение проводится путём минимизации информационного потенциала (4). Традиционно настройка весовых коэффициентов проводится градиентным методом:
й (г +1)= й (г)-3^ (5)
дй
Здесь е - шаг градиентного метода, г - номер шага обучения.
Чтобы исключить трудоёмкую процедуру прямого вычисления градиента информационного потенциала, в работе предлагается изменять распределение вероятностей ошибок путём выравнивания ошибок при обучении. Блок-схема предлагаемого алгоритма представлена на рис. 1. Выравнивание предлагается делать путем использования для случайного выбора 5 распределения вероятностей, соответствующего уровням ошибки. При этом ошибки и их градиент вычисляются так же, как в методе обратного распространения ошибки с критерием (1). Ошибки Е5 всегда неотрицательны и распределение вероятностей Р(^) предлагается получать нормировкой:
Р(*) = ХГ,Е: (6)
При выборе 5 в соответствии с этим распределением «неизученные» образцы будут подаваться на вход сети чаще «изученных». Алгоритм производит коррекцию параметров сети для образцов с высоким уровнем ошибки чаще, чем для образцов с низким уровнем ошибки. В результате минимизируются разницы, входящие в информационный потенциал, т.е. неявно оптимизируется энтропия.
а б
Рис. 2. Зависимости числа затрачиваемых при обучении итераций М от начальных условий (а) и от шага (б) процедуры обучения. Стандартный метод - штриховая линия, предлагаемый в данной работе алгоритм ускорения - сплошная линия. Вертикальные интервалы - удвоенные величины стандартного отклонения в соответствующих точках
Тестовая задача, условия эксперимента
В качестве тестовой задачи рассмотрим классификацию звуков (фонем) естественной речи. В работе использовались сегментированные вручную цифровые записи фонем, для обучения и распознавания использовались непере-крывающиеся наборы записей фонем.
Для задач классификации можно применять однослойные и многослойные персептроны. Однослойный персептрон подходит только для задач с линейно разделимыми классами [6]. Показано [7], что для любой задачи, которую способен решить многослойный персептрон с сигмовидными функциями активации нейронов, достаточно персептрона с одним скрытым слоем, необходимый размер (количество нейронов) которого определяется задачей. В данной работе использовался двухслойный персептрон (с одним скрытым слоем).
Чтобы набрать статистику по скорости обучения, многократно проводился следующий эксперимент. Сеть обучалась до порогового значения общей ошибки Е классификации для обучающей выборки, и отмечалось число затраченных итераций. При обучении начальные значения параметров нейронной сети выбирались случайным образом из некоторого диапазона. Поскольку начальные значения параметров сети при заданном диапазоне были разными, вычислено среднее значение коэффициента распознавания по некоторому ансамблю начальных значений параметров. Для оценки стабильности обучения (зависимости от выбора начальных условий) использовалось стандартное отклонение (вертикальные интервалы) времени обучения.
Результаты
При использовании предложенного в данной работе метода ускорения обучения дополнительное время, затрачиваемое на вычисление распределения вероятностей и генерацию случайных чисел, соответствующих этому распределению, составляет на малых по размеру сетях (20 узлов, 2500 весовых коэффициентов) не более 5% и компенсируется более существенным сокращением числа итераций. Чем больше нейронная сеть, тем менее существенны дополнительные затраты времени по сравнению с основными вычислениями. Результаты сравнения числа затрачиваемых итераций в случаях использования обычной процедуры обучения и предложенного алгоритма представлены на рис. 2. На графиках представлено число итераций, затраченное алгоритмом для достижения сетью порогового уровня суммарной ошибки, вычисляемой по формуле (1). Видно, что экономия времени обучения за счет использования предложенного алгоритма есть при любом выборе параметров. Величина относительного выигрыша зависит от начальных условий и шага процедуры обучения. Кроме того, значительная разница в стандартном отклонении числа итераций для стандартного и предложенного методов указывает на сравнительную стабильность предложенного метода обучения.
Таким образом, предложенный метод обучения позволяет существенно уменьшить время обучения. Экономия времени зависит от начальных условий и шага. Наименьшие времена обучения для стандартного и предложенного алгоритмов различаются в 10 раз. В задачах, где время обучения ограничено, использование предложенного метода позволяет получать при прочих равных условиях более качественный классификатор.
Список литературы
1. Gupta M.M., Jin L., Homma N. Static and Dynamic Neural Networks. John Wiley & Sons, 2003.
2. Hampshire J., Pearlmutter B. Equivalence Proofs for Multi-Layer Perceptron Classifiers and the Bayesian Discriminant Function // Proc. of the 1990 Connectionist Models Summer School. Morgan Kaufmann Publishers.
3. Овчинников П.Е., Сёмин Ю.А. Влияние способа параметризации звукового сигнала на эффективность распознавания фонем персептроном // Известия вузов. Радиофизика. 2007. Том L, № 4. Стр. 350-356.
4. Rumelhart D.E., Hinton C.E., Williams R.J. Learning Internal Representations by Error Propaga-
tion // Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Vol. 1: Foundations / D.E. Rumelhart & J.L. McClelland (Eds.) MIT Press, 1986.
5. Erdogmus D., Principe J.C. Generalized Information Potential Criterion for Adaptive System Training // IEEE Transactions on Neural Networks. 2002. September. Vol. 13, no. 5. Pp. 1035-1044.
6. Freeman J.A., Skapura D.M. Neural Networks: Algorithms, Applications, and Programming Techniques. Addison-Wesley Publishing Company, 1991.
7. Cybenko G. Approximation by Superpositions of a Sigmoid Function // Mathematics of Control, Signals, and Systems. 1989. V. 2. P. 303.
APPLICATION OF THE INFORMATION-THEORETICAL APPROACH TO MULTILAYER PERCEPTRON LEARNING IN THE PHONEME RECOGNITION PROBLEM
O.A. Morozov, P.E. Ovchinnikov, Yu.A. Semin, V.R. Fidelman
A learning method based on the information theory criterion (Renyi entropy) has been proposed. Simulation results demonstrate that by using the proposed scheme the learning speed can be increased in comparison with the standard approach.
Keywords: neural networks, training, Renyi entropy, phoneme recognition.