Научная статья на тему 'Разработка системы идентификации речевого сигнала'

Разработка системы идентификации речевого сигнала Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
333
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЕВОЙ СИГНАЛ / СИСТЕМА РАСПОЗНАВАНИЯ РЕЧИ / БЫСТРОЕ ПРЕОБРАЗОВАНИЕ ФУРЬЕ / ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЕ / СПЕКТРОГРАММА / СЕГМЕНТАЦИИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Хеин Мин Зо, Кудинов В.А.

В работе представлены подходы к созданию системы идентификации речевых сигналов с использованием специализированных методов, работающих с различным частотно-временным представлением сигнала. Рассмотрены методы выделения фрагментов с речью, детекторы «тон/шум», методы получения частотного представления сигнала и методы сегментации речевого сигнала на звуки. Для учета свойств речевого сигнала используется метод получения его частотно-временного представления с разным разрешением по частоте и по времени. Описан процесс получения спектрального представления речевого сигнала в признаковом пространстве в виде спектрограмм. В качестве такого преобразования представления предложено использовать пакетное вейвлет-преобразование, реализующее основанный на фильтрации итерационный алгоритм, предполагающий рекурсивное применение процедуры декомпозиции сигнала без явного вычисления аппроксимирующих и детализирующих коэффициентов. Отмечено, что пакетное вейвлет-преобразование выполняется путем пропускания сигнала через каскадно соединенные двухканальные схемы декомпозиции. При этом каскадирование производится только по низкочастотной области. Предложено для анализа быстрых изменений в речевых сигналах, требующих хорошего временного разрешения, использовать информацию с первых уровней пакетного вейвлет-преобразования.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Хеин Мин Зо, Кудинов В.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Разработка системы идентификации речевого сигнала»

УДК 621.319

РАЗРАБОТКА СИСТЕМЫ ИДЕНТИФИКАЦИИ РЕЧЕВОГО СИГНАЛА © 2019 Хеин Мин Зо1, В. А. Кудинов2

1 аспирант кафедры программного обеспечения и администрирования информационных систем, е-mail: hemmmnzawl3@,gmaiLcom

Курский государственный университет

2докт. пед. наук, профессор e-mail: kudinovva@yandex. ru

Курская государственная сельскохозяйственная академия имени проф. И.И. Иванова

В работе представлены подходы к созданию системы идентификации речевых сигналов с использованием специализированных методов, работающих с различным частотно-временным представлением сигнала. Рассмотрены методы выделения фрагментов с речью, детекторы «тон/шум», методы получения частотного представления сигнала и методы сегментации речевого сигнала на звуки. Для учета свойств речевого сигнала используется метод получения его частотно-временного представления с разным разрешением по частоте и по времени. Описан процесс получения спектрального представления речевого сигнала в признаковом пространстве в виде спектрограмм. В качестве такого преобразования представления предложено использовать пакетное вейвлет-преобразование, реализующее основанный на фильтрации итерационный алгоритм, предполагающий рекурсивное применение процедуры декомпозиции сигнала без явного вычисления аппроксимирующих и детализирующих коэффициентов. Отмечено, что пакетное вейвлет-преобразование выполняется путем пропускания сигнала через каскадно соединенные двухканальные схемы декомпозиции. При этом каскадирование производится только по низкочастотной области. Предложено для анализа быстрых изменений в речевых сигналах, требующих хорошего временного разрешения, использовать информацию с первых уровней пакетного вейвлет-преобразования.

Ключевые слова: речевой сигнал, система распознавания речи, быстрое преобразование Фурье, вейвлет-преобразование, спектрограмма, сегментации

Речевые технологии прочно входят в жизнь современного человека и делают её проще. Такие технологии открывают возможность для общения человека и компьютера с помощью речи, убирая посредника (клавиатуру), что наиболее привычно и удобно для человека. Речевые технологии дают возможность переложить часть функций операторов на компьютер. С помощью речевых технологий уже сегодня можно читать книги, смс-сообщения, озвучивать документы и целые веб-сайты, создавать интеллектуальные системы обучения, которые могут помогать в изучении языков [7].

Несмотря на несомненные успехи, сделанные разработчиками подобных автоматических систем восприятия речевого сигнала (РС), тем не менее следует отметить во многом эмпирический подход, который используется разработчиками при создании систем речераспознавания. Проблема состоит в том, что до сих пор остается много неясного в механизме восприятия речи человеком, поэтому именно на этих механизмах сосредоточено внимание многих исследователей в области автоматического распознавания речи.

РС представляет собой чередование быстро и медленно протекающих процессов. Быстро протекающие процессы - это фрагменты сигнала, соответствующие моментам перехода между двумя звуками речи, а также фрагменты, содержащие взрывные звуки речи. Медленно протекающие процессы - это фрагменты РС, содержащие гласные звуки, протяженные согласные, как вокализованные, так и фрикативные. Поэтому при построении системы распознавания речи следует учитывать свойства самого РС и его характеристики, которые необходимы для анализа и распознавания звукового сигнала.

Продолжительность быстро протекающих процессов, например взрывных звуков, составляет приблизительно 0,03 с, в течение которых свойства РС, например мощность и спектральный состав, сильно изменяются во времени. Продолжительность медленно протекающих процессов, например длительность гласных, сильно зависит от темпа речи и составляет приблизительно 0,15 с. На протяжении всего процесса спектральные характеристики продолжительного звука остаются постоянными, изменяется в основном мощность сигнала. Во многих системах распознавания речи (например, при использовании скрытых Марковских моделей), медленно изменяющиеся процессы, в силу указанных выше свойств, называются состояниями, а быстротекущие вообще игнорируются и считаются переходами [3].

При анализе быстротекущих процессов необходимо высокое временное разрешение, а при анализе медленно текущих процессов достаточно низкого временного разрешения. При этом характеристики продолжительных звуков сконцентрированы в основном в частотной области, и для их анализа и сравнения необходимо высокочастотное разрешение.

Для анализа и распознавания РС необходимо иметь разнородную информацию, получаемую с использованием специализированных методов, работающих с различным частотно-временным представлением сигнала, в том числе информацию о границах фрагмента сигнала, в котором содержится речь. Кроме того, необходимо иметь информацию о том, к какому типу сигнала относится данный фрагмент:

1) тон, то есть вокализованный фрагмент (с голосом);

2) шум - фрагмент с фрикативным (шипящим) согласным звуком;

3) частотный состав звуков речи.

Для получения данной информации применяются методы выделения фрагментов с речью, детекторы «тон/шум», методы получения частотного представления сигнала. Кроме того, необходимо применение методов сегментации РС на звуки, а также методов выравнивания динамического диапазона звукового сигнала [1; 5].

Для эффективной работы каждого метода необходимо свое частотно-временное представление сигнала; например, в самом простейшем случае детектор «тон/шум» может работать с использованием пары фильтров низкой (НЧ) и высокой (ВЧ) частоты. Если же необходимо выявить частотную структуру звука речи, то необходимо вычислить его энергетический спектр с большой точностью. В этом случае необходимо получить представление сигнала с большим разрешением по частоте, однако временное разрешение здесь не играет роли. Причем, в силу принципа неопределенности, не представляется возможным одновременно высокое временное и высокочастотное разрешения [9].

Для сегментации речи на звуки важно как частотное разрешение - для того, чтобы можно было отличать друг от друга звуки по их частотному составу, так и временное - чтобы можно было точно указать начало и конец каждого звука, хотя в определенных случаях имеет место эффект коартикуляции (взаимопроникновения звуков) [8]. При анализе РС необходим метод получения его частотно-временного представления с разным разрешением как по частоте, так и по времени, для того чтобы учесть как свойства самого сигнала, так и особенности методов его анализа (см. рис. 1).

МП

АГ»А1

Рис. 1. Анализ быстро протекающих (БП) и медленно протекающих (МП) процессов в РС при различных частотно-временных масштабах

При распознавании РС для получения параметров оцифрованного сигнала, как правило, применяются методы преобразования его временного представления в частотное. Для этого можно использовать спектры мощности, полученные с помощью быстрого преобразования Фурье (БПФ), дискретного косинусного преобразования, линейного предсказания речи, различных банков фильтров, кепстрального анализа и пр. [1; 3; 5; 8; 9]. Данные методы применяются для того, чтобы получить отображение дискретной функции одной переменной, описывающей изменение мощности РС во времени, в многомерном пространстве признаков. При этом для сегментов с одинаковыми звуками речи необходимо получить наиболее похожие векторы признаков, а влияние временных изменений в сигнале на протяжении одного звука было бы как можно сильнее нивелировано. Для этого полученное многомерное представление может подвергаться дополнительной статистической обработке. По полученным векторам можно в дальнейшем распознавать РС.

На рисунке 2 представлен процесс получения спектрального представления РС в признаковом пространстве в виде спектрограмм, полученных путем вычисления абсолютного значения коэффициентов одного из указанных выше преобразований. Процесс получения таких спектрограмм осуществляется по следующему алгоритму:

1. Нарезание сигнала на окна - перекрывающиеся сегменты одинаковой длины N (рис. 2 а).

2.Представление одномерного сигнала в виде матрицы X К-мерных векторов (рис. 2 б).

3. Преобразование матрицы Х ортогональным преобразованием Т (например, БПФ): У=Т*Х (рис. 2 в).

У полученных векторов из матрицы У в задаче распознавания РС анализируется только амплитудная составляющая, а фазовая отбрасывается. В случае применения БПФ вычисляется модуль комплексных чисел - координат вектора признаков, размерность вектора при этом можно сократить в два раза.

а)

б)

в)

ООО ООО ООО ООО ООО ООО ООО

Рис. 2. Процесс получения спектрального представления РС

Если в качестве преобразования Т используется какой-либо банк фильтров, то координатами векторов матрицы У становятся значения энергии с выходов каждого из фильтров.

Ортогональное преобразование Т - это вращение матрицы векторов X с целью получения представления РС в наиболее удобной для его анализа форме. При этом компоненты векторов признаков должны получаться как можно более некоррелированными. Оптимальным с этой точки зрения является выбор в качестве ортогонального преобразования Т - преобразование Карунена-Лоэва, для которого, однако, отсутствуют быстрые алгоритмы вычисления, поэтому применяются указанные выше преобразования.

Для параметризации РС важен не только вид преобразования Т, но и размер окна N и шаг его смещения к. Эти два параметра выбираются таким образом, чтобы в пределах одного окна характеристики сигнала оставались в среднем постоянными, а при переходах от одного окна к другому, то есть от вектора Хг к хг+7 происходило бы несильное изменение сигнала, для учета слабых его изменений. На основании экспериментальных данных [6] принято, что РС можно считать постоянным на протяжении приблизительно 20-30 мс, а шаг смещения принято выбирать в пределах трети этого интервала, то есть около 7-10 мс. В соответствии с этим в зависимости от частоты дискретизации выбирается размер окна N и шаг смещения к в отсчетах. Например, для РС, оцифрованного с частотой 16 кГц, N = 256-480 отсчетов. Если в качестве Т применяется БПФ, для вычисления коэффициентов которого, как правило, применяются алгоритмы, в которых размер окна данных должен быть равен степени числа 2, N=512, тогда к=170. В этом случае имеется 512/2=256 частотных полос в энергетическом спектре сигнала, тогда частотное разрешение (ширина одной полосы) 8000/256=31 Гц.

Если требуется повысить частотное разрешение, то необходимо повысить размер окна, например, до 1024 отсчетов. В этом случае получается 512 частотных полос и разрешение по частоте ~16Гц (при той же частоте оцифровки 16кГц). В этом случае размер окна по времени ~63мс, получается хорошее частотное представление медленно текущих процессов, например, гласных [1]. Однако быстротекущие процессы будут менее заметны, так как уменьшение шага смещения окна будет приводить к захватыванию части предыдущего или следующего звука. Например, помимо рассматриваемого в данный момент взрывного звука, в окно будет попадать часть соседнего или предыдущего.

Для параметризации РС необходимо иметь хотя бы два масштаба построения спектрограмм. Первый масштаб должен иметь хорошее временное разрешение, второй - хорошее частотное. Однако, ввиду принципа неопределенности, невозможно получить хорошее разрешение одновременно и по частоте, и по времени, так как для получения хорошего частотного разрешения необходимо увеличить размер окна, а для сохранения высокого разрешения по времени необходимо уменьшить размер окна, что приведет к уменьшению количества частотных полос.

В случае применения кратковременного Фурье-анализа необходимо построить две спектрограммы: первую - с малым размером окна и шага его смещения, вторую -с большим размером окна и шагом смещения. В то же время с вычислительной точки зрения повторять два вычисления неэффективно, так как могут потребоваться дополнительные масштабы, например для решения задачи детектирования «тон/шум». В этом случае значительно проще использовать преобразование, коэффициенты одного частотно-временного масштаба которого вычисляются на основе предыдущего масштаба. Тогда с вычислительной точки зрения преобразование будет гораздо эффективнее и для построения каждого масштаба не потребуется пересчитывать все преобразование заново. В качестве такого преобразования можно использовать пакетное вейвлет-преобразование, являющееся дальнейшим развитием вейвлет-преобразования [7].

Быстрое вейвлет-преобразование реализует основанный на фильтрации итерационный алгоритм, который предполагает рекурсивное применение процедуры декомпозиции сигнала без явного вычисления аппроксимирующих и детализирующих коэффициентов.

Коэффициенты фильтров при этом соответствуют следующим обозначениям:

Ьо_Б и - ПЧ и ВЧ фильтры декомпозиции,

Ьо_Я и Н1_Я - НЧ и ВЧ фильтры реконструкции сигнала.

Первый шаг используемого алгоритма поясняется следующей диаграммой вейвлет-декомпозиции сигнала:

(коэффициенты аппроксимации уровня 1) (детализирующие коэффициенты уровня 1).

Сигнал подается на фильтры декомпозиции низких и высоких частот, после чего с помощью операции децимации ¿2 (уменьшения числа частотных составляющих вдвое) можно получить коэффициенты аппроксимации на выходе фильтра НЧ и детализирующие коэффициенты на выходе фильтра ВЧ. Далее этот алгоритм может быть продолжен по схеме:

(коэффициенты аппроксимации уровня 7+1) (детализирующие коэффициенты уровня 7+7).

В результате получен полный набор аппроксимирующих и детализирующих коэффициентов, вплоть до уровня декомпозиции 7+7. Это и есть вейвлет-декомпозиция сигнала. По данному набору коэффициентов можно построить вейвлет-спектрограмму сигнала для оценки его особенностей.

Аналогично, но в обратном порядке можно построить диаграмму быстрой вейвлет-реконструкции сигнала, используя операцию, обратную децимации, |2 (увеличение числа вдвое составляющих путем добавления нулевых компонентов вперемежку с имеющимися компонентами).

С точки зрения сжатия и распознавания речи оптимально выбирать переменный размер окна, равный протяженности текущего сегмента речи, на котором характеристики сигнала остаются постоянными. В простейшем случае сегмент может

соответствовать звуку речи. Шаг смещения необходимо выбирать таким образом, чтобы в следующий момент времени окно переместилось на начало следующего сегмента с постоянными параметрами. Тогда на один сегмент (звук) будет приходиться по одному вектору признаков. Однако это невозможно из-за того, что заранее не известен звуковой состав РС. К тому же на протяжении одного звука речи, сигнал все же изменяется, хотя и не так сильно, как при переходе между звуками. На естественность РС сильно влияют сегменты, относящиеся к переходам между звуками речи. Поэтому требуется сегментация РС на сегменты с относительно устойчивыми характеристиками - сегменты, соответствующие медленно протекающим процессам, причем эти сегменты могут не всегда совпадать с реальными звуками речи. В этом случае требуется метод детектирования переходов между звуками речи [3]. Такой метод позволит определить сегменты сигнала с быстро протекающими процессами, для описания которых требуется высокое временное разрешение, и сегменты с медленно протекающими процессами, для описания которых необходимо частотное разрешение.

Пакетное вейвлет-преобразование сигнала выполняется путем его пропускания через каскадно соединенные двухканальные схемы декомпозиции (см. рис. 3). При этом каскадирование производится только по НЧ области. Причина этого в неявном предположении, что эта область содержит больше информации об исходном сигнале. В результате получается «однобокое» дерево. Данное предположение оправданно для многих реальных сигналов. В самом деле, оно означает, что сигнал является НЧ на большом интервале времени, а ВЧ составляющие появляются на коротком интервале.

Однако для анализа РС необходимо детальное представление сигнала как в НЧ, так и в ВЧ области. Поэтому следует применять пакетное вейвлет-преобразование, которое является обобщением вейвлет-преобразования и заключается в применении пирамидальной схемы не только к аппроксимирующим коэффициентам, но и к детализирующим [2; 4; 10].

вч

нч

аппроксимирующие коэффициенты

Рис. 3. Структура ПВП (декомпозиции сигнала)

В результате получено полное дерево вейвлет-коэффициентов. Это дерево можно представить в виде уровней - масштабов. На низких уровнях (после двух, трех применений НЧ и ВЧ фильтров), ввиду свойств вейвлетов, получается грубое разрешение в частотной области. Например, на третьем уровне имеется банк из 8 фильтров, но зато здесь еще сохраняется хорошее временное разрешение сигнала. На более высоких уровнях (после восьми, девяти применений НЧ и ВЧ фильтров) получено детальное разрешение в частотной области. Так, на девятом уровне получен сигнал с выхода банка из фильтров, который имеет очень низкое разрешение по времени.

Исходя из вышесказанного предлагается использовать информацию с первых уровней ПВП для анализа быстрых изменений в РС, которые требуют хорошего временного разрешения, а последующие уровни - для получения информации о частотном составе звуков речи, имеющих большую протяженность.

Идентификация РС является одной из наиболее интегрированных областей машинного интеллекта, так как люди ежедневно распознают речь. Данный факт оказывает технологическое воздействие на общество и привлекает исследователей данного вопроса во всем мире. Процесс распознавания речи включает в себя извлечение признаков, типы подходов к распознаванию РС и методы классификации. Каждый метод имеет различную скорость распознавания с измененным процессом классификации. Рассмотренный аппарат ПВП может использоваться для получения спектрального представления РС сразу на нескольких масштабах, а метод сегментации для получения дополнительной информации о временной структуре РС - для повышения качества работы системы идентификации, которая даст возможность разработать эффективную систему распознавания речи для людей с неограниченной точностью.

Библиографический список

1. Гаршина В.В. Разработка системы анализа тональности текстовой информации / В.В. Гаршина [и др.] // Вестник ВГУ, серия: Системный анализ и информационные технологии. 2017. №3. С. 185-194.

2. Гонсалес Р., Вудс Р. Цифровая обработка изображений. М.: Техносфера, 2006.

1072 с.

3. Морозов П. Д., Михеев В.С. Применение метода инструментальных переменных для параметрической идентификации распределенной динамической системы // Вестник ВГУ, серия: Системный анализ и информационные технологии. 2015. №1. С. 130-138.

4. Уэлстид С. Фракталы и вейвлеты для сжатия изображений в действии. М.: Триумф, 2003. 320 с.

5. Четкин А.С., Запрягаев С.А. Программная оболочка распознавания команд в режиме реального времени // Вестник ВГУ, серия: Системный анализ и информационные технологии. 2016. №2. С. 111-121.

6. Хеин Мин Зо. Анализ речевого сигнала для алгоритма вокализованной и невокализованной классификации // Актуальные проблемы и современной науке и пути их решения: сб. ст. XXXXV междунар. науч.-практ. конф. Евразийский союз ученых. 2017. № 12(45). C. 43-46.

7. Хеин Мин Зо. Основные преимущества использования вейвлет - анализа в процессе обработки речевых сигналов и изображений // Физико-математические и технические науки как постиндустриальный фундамент эволюции информационного общества: сб. ст. междунар. науч.-практ. конф. Уфа: АЭТЕРНА, 2017. С. 214-218.

8. Хеин Мин Зо. Современное состояние проблемы анализа речевых сигналов // Воздействие научно-технической революции на характер связи науки с производством: сб. ст. междунар. науч.-практ. конф. Уфа: АЭТЕРНА, 2017. С. 99-102.

9. Хорев А.А., Царев Н.В. Способ и алгоритм формирования речеподобной помехи // Вестник ВГУ, серия: Системный анализ и информационные технологии. 2017. №1. С. 51-67.

10. Wickerhauser M.V. "INRIA lectures on wavelet packet algorithms // Proceedings ondelettes et paquets d'ondes, Rocquencourt (France), 1991. Р. 31-99.

i Надоели баннеры? Вы всегда можете отключить рекламу.