Cloud of Science. 2017. Т. 4. №. 4 http:/ / cloudofscience.ru
Разработка алгоритма синтеза оптимальных эталонов на основе метода главных компонент1
А. В. Полиев
Московский физико-технический институт (государственный университет) 117303, Москва, ул. Керченская, 1А, корп. 1
e-mail: [email protected]
Аннотация. Работа посвящена проблеме автоматического распознавания речевых команд, используемых для аудиоинтерфейсов современных авиационных систем управления. Предлагается алгоритм оптимизации эталона, в котором существенное снижение размерности оптимизационной задачи достигается на основе применения метода главных компонент. Оптимальный эталон формируется путем разложения на главные компоненты и дальнейшей оптимизацией коэффициентов разложения на обучающей выборке с помощью метода покоординатного спуска. В работе представлено описание алгоритма вычисления главных компонент для решаемой задачи, а также алгоритм получения оптимального эталона. Приведены положительные результаты тестирования предложенного подхода на примерах распознавания слов естественного русского языка.
Ключевые слова: автоматическое распознавание речи, эталон, метод главных компонент, метод покоординатного спуска.
1. Введение
Надежная и рациональная организация человеко-машинного взаимодействия является одной из важных задач современной техники [1]. В последние годы активно повышается необходимость использования аудиоинтерфейсов во вновь разрабатываемых авиационных системах управления, так как их успешное внедрение позволит повысить безопасность полетов и снизит нагрузку на пилотов [2]. Так, на самолете Eurofighter Typhoon с 2005 г. эксплуатируется дикторозависимая система от фирмы Eurofighter GmbH, EU, основанная на сравнении с эталонами. Речевые сигналы можно использовать не только для организации человеко-машинного интерфейса в формате речевых команд, но и для оценки степени утомления оператора [3, 4] или состояния его слуха [5].
Наиболее важным требованием, предъявляемым к речевым интерфейсам авиационных систем, является высокая вероятность правильного распознавания слов
1 Работа выполнена при поддержке Российского фонда фундаментальных исследований (РФФИ), проект 15-08-06946-а.
даже в условиях сильных шумов и помех. Также при создании бортового программного комплекса важным моментом является временная сложность алгоритма.
Для речевого управления бортовым оборудованием хорошую результативность показывает способ распознавания речевых команд на основе сравнения с эталоном [6]. В данной работе предлагается новый способ получения эталона и его улучшения с помощью метода главных компонент. В экспериментальной части приводятся результаты распознавания слов с помощью новых эталонов. В заключении, рассматривается способ упрощения алгоритма с сохранением результатов с целью уменьшения времени его работы.
2. Постановка задачи
Традиционно применяемый метод автоматического распознавания речевых команд с помощью эталона использует спектрально-временное преобразование записи входного слова [7]. Вариант преобразования, используемый в данной статье, заключается в получении параметрического портрета и состоит в следующем. В начале речевой сигнал разделяется на равные интервалы — временные отрезки длиной 10-30 мс, и далее каждый из интервалов разделяется на 30-40 частотных полос [8]. После этого используются такие стандартные процедуры цифровой обработки сигналов, как усиление высокочастотных составляющих сигнала, взвешивание интервалов окном Ханна, быстрое преобразование Фурье, осреднение по частотам и логарифмирование спектральных плотностей [9].
В итоге получается, что в качестве параметров речевого сигнала рассматриваются логарифмы оценок спектральных плотностей в функции дискретных значений частоты, рассчитанные на скользящем временном интервале. Эти параметры, составленные в единую матрицу, называются параметрическим портретом слова. Столбцы этого портрета характеризуют спектральный состав речевого сигнала на каждом временном интервале.
Далее из имеющихся параметрических портретов записей речевых команд составляется эталонный параметрический портрет. Самый простой способ получения эталона — это усреднение параметрических портретов нескольких схожих записей. Затем параметрический портрет распознаваемого слова сравнивается с параметрическим портретом эталона. Это сравнение можно осуществить по критерию максимума коэффициента корреляции векторов, некоторым образом полученных из исходных матриц параметрического портрета. После сравнения распознаваемого слова со всеми эталонами выбирается тот эталон, с которым коэффициент корреляции оказался максимальным. Речевая команда, соответствующая этому эталону, признается результатом распознавания данного алгоритма.
3. Метод главных компонент
Метод главных компонент (МГК) применяется для снижения размерности пространства наблюдаемых векторов, не приводя к существенной потере информативности. Главные компоненты представляют собой ортогональную систему координат, в которой дисперсии компонент характеризуют их статистические свойства.
Пусть дан исходный набор векторов X линейного пространства Ьр. Применение метода главных компонент позволяет перейти к базису пространства I/ , (р' р) такому, что первая компонента (первый вектор базиса) соответствует направлению, вдоль которого дисперсия векторов исходного набора максимальна. Направление второй компоненты (второго вектора базиса) выбрано таким образом, чтобы дисперсия исходных векторов вдоль него была максимальной при условии ортогональности первому вектору базиса. Аналогично определяются остальные векторы базиса. В результате направления векторов базиса выбраны так, чтобы максимизировать дисперсию исходного набора вдоль первых компонент, называемых главными компонентами. Получается, что основная изменчивость векторов исходного набора векторов представлена несколькими первыми компонентами и появляется возможность, отбросив оставшиеся (менее существенные) компоненты, перейти к пространству меньшей размерности [10].
Пусть имеется многомерное случайное наблюдение X = (х(1)... х(р})Т. Задача сводится к переходу от числа признаков р к р'. Эту задачу можно решить, если определить всевозможные линейные ортогональные нормированные комбинации показателей г(1)(X) = с п(х(1) - ц(1)) + ... + с ^(х(р) - р)), где [ц(1),..., ц(р)]' — вектор средних для переменной X. В качестве меры информативности р' -мерной системы показателей (г(1)(X),..., г(р)(X)) принимается выражение /^ = ^+•••+,
где Dz — операция вычисления дисперсии случайной величины. Можно показать, что соотношения для определения всех р главных компонент матрицы X могут быть представлены в виде г = ЬХ, где 2 = (г(1),..., г(р))', X = (х(1),... , х(р))', а матрица Ь состоит из строк 7 = (7 , ... , 7 ), 1 = 1, р, являющихся собственными векторами ковариационной матрицы Е случайной величины X. Этим собственным векторам соответствуют собственные числа X , 1 = 1, р.
Основные свойства главных компонент.
1. Матрица Ь является ортогональной, т. е. ЬЬ' = Ь'Ь = /, где I — единичная матрица.
2. Ковариационная матрица вектора главных компонент:
(х, ■■■ 0 I • • -I
Х2=ЬХЬ' = | : •• ' | ■
1° - К)
3. Сумма дисперсий исходных признаков равна сумме дисперсий всех главных компонент.
Критерий информативности метода:
X, + х, +... + х ,
М2 (х ))= 7-Г",
Р X, + х, + ... +х
1 2 р
где X,Х2,... ,Х — собственные числа ковариационной матрицы Е вектораX, расположенные в порядке убывания. Такой критерий является основой при вынесении решения о том, сколько последних главных компонент можно без особого ущерба изъять из рассмотрения, сократив тем самым размерность исследуемого пространства.
4. Разработка и проверка алгоритмов разложения спектрального портрета слова на главные компоненты
Пусть имеется М параметрических портретов [11] различных реализаций одного слова {х0 (к)},к = 1, М; I = 1,М1; ] = 1, . Преобразуем для каждого к матричный
портрет в одномерный массив с числом элементов г = 1, Р, Р = N/ • N1. Итак, имеем
Мвекторов размерности Р каждый {х }, к = 1, М; г = 1,Р. В явном виде
" Х11" _ Х1 2 _ Х1 м
Х 21 , Х 2 = Х 22 х м II Х 2 М
х , _ Р1 _ х , _ Р2 _ ХрМ
(1)
Объединим эти М векторов в матрицу размерности р х М:
X =[ Х1 х 2 ... хм ] =
Вычислим матрицу корреляционных моментов векторов х , мерности М:
Х11 Х12 .•• Х1М
(2)
,Хм раз-
х
| Х1 Х1 Х1 Х 2 ••• Х1 ХМ |
Кх = ХТХ =|ХТ^Х1Х'Х2- ХТ^Хм |. (3)
! т т т !
ХМ Х1 ХМХ 2 • ХМ ХМ ]
Заметим, что в матрице Кх каждый элемент есть скалярное произведение соответствующих векторов и матрица К х симметричная. Для нее можно вычислить М собственных чисел Хг, Х2, •.. ,ХМ и соответствующих собственных векторов ^ ,/2,. .., 1М размерности М. Собственные числа можно упорядочить по убыванию
>Х 2 >• . . >Х м .
Первая главная компонента ^ определяется как линейная комбинация исходных векторов х , х2, • • •, хм , взятых с коэффициентами, равными элементам собственного вектора ¡1 = [7П /21 • . . /М1 ]:
М
г1 = ¡11 Х1 + ¡21 Х 2 +• • •+ 1М1 ХМ =Е ¡1 Х'. (4)
I = 1
Аналогично главные компоненты у = 2, М вычисляются по формуле
М
=1 1,}Х,. (5)
I=1
Согласно теории, изложенной в части 3, суммарная дисперсия главных компонент равна суммарной дисперсии исходных векторов, т. е. преобразование не изменяет энергию сигналов. Дисперсия главной компоненты г равна соответствующему собственному числу X.. Главные компоненты обладают свойством взаимной
ортогональности. Смысл применения главных компонент состоит в том, что поведение системы определяется в основном несколькими первыми главными компонентами г , ] = 1, М '. Это позволяет уменьшить размерность задачи и рассматривать М' главных компонент вместо М исходных векторов. Для оценки погрешности, вносимой при переходе от М исходных векторов к М' главных компонент, можно использовать величину
1 _ Х1 +Х 2 + ••• +Х М' (6)
р X. + X. + •.. + X
5. Разработка алгоритма синтеза оптимальных эталонов на основе метода главных компонент
В работе тестирование метода производится на примере простой задачи распознавания 3 слов: «пилотаж», «масштаб» и «навигация», которые произносятся 10 различными дикторами в условиях без шума и 4 дикторами в условиях с шумом в наушниках [12-14].
Шум в наушниках реализуется следующим образом. Диктор одевает наушники, в которые подается шум заданной громкости, при этом диктор плохо слышит свой голос, поскольку в наушниках не подключена обратная связь. Это используется для того, чтобы в экспериментальных условиях проверить степень изменения речи диктора в зависимости от уровня шума. Шум не записывается вместе с произнесенным словом, а только подается в наушники. Это сделано для того, чтобы оценить не влияние шума на процесс распознавания, а на изменение речи диктора в условиях шума.
Пусть эталоны для распознавания каждого из трех слов сформированы как усредненный параметрический портрет всех реализаций. Самая простая оценка качества этих эталонов есть количество ошибок распознавания на заданном множестве дикторов. В качестве непрерывной меры оценки качества распознавания можно рассмотреть нижнюю границу значения Z-преобразования Фишера коэффициента корреляции эталона с распознаваемым словом. Представим эталон как линейную комбинацию, например, первых 6 главных компонент и постоянной составляющей с некоторыми коэффициентами:
e = knZn + k.Z, +... + k,Z, . (7)
syn 0011 66 v/
Задача поиска оптимального эталона сводится к подбору коэффициентов к0, ..., к6, таких, которые будут удовлетворять критерию: ^ошибок ^ min, либо же, что эквивалентно, значение Z коэффициента корреляции ^ max. Выбор коэффициентов к0,..., к6 можно произвести, используя различные численные методы.
При построении 6 главных компонент используются речевой материал 10 дикторов без шума, причем это множество дикторов не пересекается с множеством 4 дикторов записей с шумом в наушниках. В качестве начального приближения коэффициентов предлагается выбрать значения коэффициентов разложения осред-ненного эталона (взятое как среднее по 10 выбранным эталонам) по полученным 6 главным компонентам. В качестве метода оптимизации Cr = f (k0,..., k6) будет использоваться метод покоординатного спуска [15].
Закон изменения коэффициентов разложения при k > 0.001: k х = kj + lAk ,
Ak. = 0.011 k. l = 0, + 1, + 2, + 3, + 5, + 10, + 15, + 25, + 50, + 100, + 200. Если
j I j i,
к < 0.001, то используется закон изменения с постоянным шагом:
к. , = к. + 0.001А к., А к. = 0, + 1, + 2, + 3,... , + 10.
j+1 j j' j ' ' ' ' '
Критерий остановки:
I Cr+1 - Cr. |<s, s= 0.02 |Cr|. (8)
Подбор коэффициентов производится для каждого слова в отдельности, при этом коэффициенты разложения двух других слов остаются неизменными и равными начальному приближению.
В ходе оптимизации методом покоординатного спуска вычисление осреднен-ного значения нижней границы Z коэффициента корреляции проводится с использованием обучающей выборки — реализациях слов диктора Н-в с шумом в наушниках 80 дБ, в то время как исходное разложение на главные компоненты было получено по записям без шума.
6. Результаты
Для проверки работоспособности оптимизированного эталона было проведено распознавание для всех 4 дикторов с различными уровнями шума в наушниках: 80 дБ и 90 дБ. Результаты применения оптимизированного на тестовой выборке эталона показывают улучшение при распознавании реализаций не только для слов диктора Н-в, но также и для других дикторов, не входящих в обучающую выборку. Общее количество ошибок для 3 слов до оптимизации равнялось 3.15%, а после оптимизации уменьшилось до 0.89%. Результаты представлены в табл. 1 и 2.
Таблица 1. Результаты распознавания записей с шумом в наушниках 80 дБ на обычном (1) и
оптимизированном (2) эталонах.
Диктор Слово Ошибки 1 Ошибки 2
пилотаж 6 0
Бурлак масштаб 0 0
навигация 0 8
пилотаж 3 0
Габдрахманов масштаб 0 0
навигация 0 0
пилотаж 8 0
Набатчиков масштаб 0 0
навигация 0 0
пилотаж 9 0
Финаев масштаб 0 0
навигация 0 0
Таблица 2. Результаты распознавания записей с шумом в наушниках 90 дБ на обычном (1) и
оптимизированном (2) эталонах.
Диктор Слово Ошибки 1 Ошибки 2
пилотаж 7 0
Бурлак масштаб 0 0
навигация 0 1
пилотаж 3 0
Габдрахманов масштаб 0 0
навигация 0 2
пилотаж 12 0
Набатчиков масштаб 0 0
навигация 0 0
пилотаж 4 0
Финаев масштаб 0 0
навигация 8 4
Также было протестировано использование ограниченного числа реализаций слов, используемых при построении оптимального эталона. Кроме того, была проверена возможность использования заранее заданного количества итераций оптимизации эталона вместо использования критерия остановки (8). Эксперимент проводился для одного из дикторов на обоих вариантах шума в наушниках. Результаты данных экспериментов приведены в табл. 3.
Таблица 3. Результаты распознавания записей с шумом в наушниках для различного числа используемых реализаций слова и итераций при оптимизации для 3 слов
(пилотаж-масштаб-навигация)
Реализации Итерации Финаев 80 дБ Финаев 90 дБ
0 6-0-0 1-0-2
1 3-0-0 1-0-2
1 3 2-0-0 0-0-2
10 3-0-0 0-0-0
30 3-0-0 0-0-0
0 6-0-0 1-0-2
1 3-0-0 1-0-2
3 3 2-0-0 0-0-2
10 3-0-0 0-0-0
30 3-0-0 0-0-0
0 6-0-0 1-0-2
1 3-0-0 1-0-2
10 3 2-0-0 0-0-2
10 3-0-0 0-0-0
30 3-0-0 0-0-0
Из результатов эксперимента можно сделать вывод, что для процедуры получения оптимального эталона достаточно 1 реализации слова. Использование большего числа реализаций не приводит к улучшению результатов, часто достаточно
провести всего 10 итераций оптимизации для получения устойчивых результатов. Важно отметить что использование большего числа реализация слов при получении оптимального эталона линейно увеличивает время работы алгоритма, поэтому полученный вывод очень значим для сокращения времени оптимизации.
7. Заключение
Эталон, полученный с помощью оптимизации коэффициентов при главных компонентах, показал значительно меньшее число ошибок при распознавании большинства записей. Этот метод оказался эффективным способом улучшения результатов распознавания слов [8] наряду с использованием разбиения слов на однородные части [16], которые также дают улучшение результатов для данной задачи. В отдельных случаях возросшее количество ошибок, вероятнее всего, связано с тем, что алгоритм покоординатного спуска попадает в локальный экстремум вместо глобального, поэтому целесообразно перейти к более эффективному алгоритму численной оптимизации. Также был получен вывод о том, что для получения приемлемых результатов достаточно использовать только одну реализацию слова и проводить всего 10 итераций при получении оптимального эталона, что заметно сокращает время работы программы.
Литература
[1] Себряков Г. Г. Проблемы проектирования полуавтоматических систем наведения летательных аппаратов // Вестн. компьютерных и информационных технологий. 2007. № 10. С. 2-7.
[2] Бондарос Ю. Г., Маковкин К. А., Чучупал В. Я. Система распознавания команд речевого интерфейса пилота для интегрированной модульной авионики // Вестн. компьютерных и информационных технологий. 2007. № 4. С. 2-13.
[3] Бондарос Ю. Г., Иванов А. И., Тищенко А. А. Определение степени утомления оператора по экспоненте Ляпунова для его речи // Вестн. компьютерных и информационных технологий. 2010. № 6. С. 22-30.
[4] Иванов А. И. и др. Исследование характеристик речи дикторов-пилотов с нарушениями слуха в интересах создания системы речевого управления летательным аппаратом //
Медицина труда и промышленная экология. 2014. № 11. С. 40-45.
[5] Иванов А. И. и др. Экспериментальное исследование взаимосвязи характеристик речи и состояния слуха у летного состава с нейросенсорной тугоухостью: пилотное исследование //Медицина труда и промышленная экология. 2017. № 5. С. 58-62.
[6] Корсун О. Н., Габдрахманов А. Ш., Михайлов Е. И., Нахаев М. З., Тулекбаева А. К. Алгоритм автоматического распознавания речевых команд, инвариантный к изменению языка //Мехатроника, автоматизация, управление. 2015. № 9. С. 599-604.
[7] Rabiner L., Juang B.H. Fundamentals of Speech Recognition. — Englewood Cliffs, New Jersey : Prentice-Hall International, Inc. 1993. 507 p.
[8] Колоколов А. С., Любинский И. А. Сравнительное исследование нескольких способов кратковременного частотного анализа речевого сигнала // Автоматика и телемеханика. 2015. № 10. С. 144-151.
[9] Колоколов А. С. Обработка сигнала в частотной области при распознавании речи //
Проблемы управления. 2006. № 3. С. 13-18.
[10] Айвазян С. А., Бухтштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Классификация и снижение размерности; под ред. С .А. Айвазяна. — М. : Финансы и статистика, 1989. 607 с.
[11] Савченко Л. В. Алгоритм пофонемного распознавания устной речи на основе метода нечеткого фонетического кодирования-декодирования слов // Информационно-управляющие системы. 2014. № 1. С. 23-31.
[12] Корсун О. Н., Габдрахманов А. Ш. Помехозащищенный алгоритм речевого управления бортовым оборудованием самолета // Вестн. компьютерных и информационных технологий. 2012. № 4. С. 3-7.
[13] Корсун О. Н., Иванов А. И., Филатов В. Н., Красавин И. В., Чучупал В. Я. Методика экспериментального исследования влияния пилотажной перегрузки на характеристики речи в целях создания речевого интерфейса бортового оборудования самолетов // Вестн. компьютерных и информационных технологий. 2012. № 5. С. 3-7.
[14] Schmidt-Nielsen A., Marsh E., Tardeli J., Gatewood P., Kreamer E., Tremain T., Cieri C., Wright J. Speech in Noisy Environments (SPINE) Evaluation Audio. — Linguistic Data Consortium, 2000
[15] Алексеева Е. В., Кутненко О. А., Плясунов А. В. Численные методы оптимизации : учеб. пособие. — Новосибирск : Новосиб. ун-т, 2008.
[16] Корсун О. Н., Полиев А. В. Разработка метода анализа фонетически однородных частей слов естественного языка // В Сб. тр. конф.: Человеческий фактор в сложных технических системах и средах. — СПб. : Межрегиональная эргономическая ассоциация, 2016. С. 370-377.
Автор:
Александр Владимирович Полиев — аспирант кафедры управляющих и информационных систем, Московский физико-технический институт (государственный университет)
Principal component analysis in the problem of an optimal word pattern synthesis
A. V. Poliyev
Moscow Institute of Physics and Technology Kerchenskaya str., 1A, building 1, Moscow, Russia, 117303
e-mail: [email protected]
Abstract. The speech recognition techniques that are currently used have a significant number of errors, especially for samples with noise. The algorithm for creating an optimal pattern, which increases the probability of correct recognition, is developed and presented in this work. An optimal pattern is formed by the decomposition of a usual pattern to principal components. The coefficients of the first principal components are used in the further optimization on the training set with the coordinate descent method. Applied mathematical methods will be also described. The paper has a description of the pattern to principal components decomposition algorithm and the algorithm of generating of an optimal pattern. In the end of the work the results of word recognition for natural language Russian and conclusion describing the outcomes of this research are presented.
Key words: speech recognition, pattern, principal component analysis, coordinate descent algorithm
References
[1] Sebryakov G. G. (2007) Vestn. komp'yuternykh i informatsionnykh tekhnologiy, 10:2-7.
[2] Bondaros Y. G., Makovkin K. A., Chuchupal V. Y. (2007) Vestn. komp'yuternykh i informatsionnykh tekhnologiy, 4:2-13.
[3] Bondaros Y. G., Ivanov A. I., Tishchenko A. A. (2010) Vestn. komp'yuternykh i informatsionnykh tekhnologiy, 6:22-30.
[4] Ivanov A. I. (2014) Meditsina truda i promyshlennaya ekologiya, 11:40-45.
[5] Ivanov A. I. (2017) Meditsina truda ipromyshlennaya ekologiya, 5:58-62.
[6] Korsun O. N., Gabdrakhmanov A. S. et al. (2015) Mekhatronika, avtomatizatsiya, upravleni-ye, 9:599-604.
[7] Rabiner L., Juang B. H. (1993) Fundamentals of Speech Recognition. Englewood Cliffs, New Jersey: Prentice Hall International, Inc.
[8] Kolokolov A. S., Lyubinskiy I. A. (2015) Automation and Remote Control, 76(10):1828-1833.
[9] Kolokolov A. S. (2006) Problemy upravleniya, 3:13-18.
[10]Ayvazyan S. A., Bukhtshtaber V. M., Yenyukov I. S., Meshalkin L. D. (1989) Prikladnaya statistika: Klassifikatsiya i snizheniye razmernosti; S.A. Ayvazyan (Eds.). Moscow, Finansy i statistika, 1989.
[11] Savchenko L. V. (2014) Informatsionno-upravlyayushchiye sistemy, 1:23-31.
[12] Korsun O. N., Gabdrakhmanov A. S. (2012) Vestn. komp'yuternykh i informatsionnykh tekhnologiy, 4:3-7.
[13] Korsun O. N., Ivanov A. I., Filatov V. N., Krasavin I. V., Chuchupal V. Y. (2012) Vestn. komp'yuternykh i informatsionnykh tekhnologiy, 5:3-7.
[14] Schmidt-Nielsen A., Marsh E., Tardeli J. et al. (2000) Speech in Noisy Environments (SPINE) Evaluation Audio. Linguistic Data Consor-tium.
[15]Alekseyeva Ye. V., Kutnenko O. A., Plyasunov A. V. (2008) Chislennyye metody optimizatsii: Novosibirsk, Novosib. un-t.
[16] Korsun O. N., Poliyev A. V. (2016) Razrabotka metoda analiza foneticheski odnorodnykh chastey slov yestestvennogo yazyka. In Proc. Conf. Chelovecheskiy faktor v slozhnykh tekhnicheskikh sistemakh i sredakh, p. 370-377.