Научная статья на тему 'Основные методы обработки речевых сообщений'

Основные методы обработки речевых сообщений Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1233
190
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Муратов Н.А.

Данная статья посвящена обзору подходов и методов, применяемых для обработки и распознавания речевых сообщений. Речь состоит из различных составляющих, которые входят друг в друга. Для распознавания этих элементов речевого сообщения сначала необходимо подвергнуть ряду процедур. Каждая из них может быть выполнена с разных подходов. Это обусловлено, прежде всего, вычислительными возможностями, а, следовательно, и оперативностью принятия решения. Методы, в которых подразумевается обучение по выборке, как правило, используются для распознавания элементов речи. В работе представлен обзор основных подходов и методов по распознаванию речи

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Муратов Н.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Основные методы обработки речевых сообщений»

Основные методы обработки речевых сообщений

Муратов Н.А., ФГКВОУ ВО Академия ФСО России muratovnikita@mail.ru

Аннотация

Данная статья посвящена обзору подходов и методов, применяемых для обработки и распознавания речевых сообщений. Речь состоит из различных составляющих, которые входят друг в друга. Для распознавания этих элементов речевого сообщения сначала необходимо подвергнуть ряду процедур. Каждая из них может быть выполнена с разных подходов. Это обусловлено, прежде всего, вычислительными возможностями, а, следовательно, и оперативностью принятия решения. Методы, в которых подразумевается обучение по выборке, как правило, используются для распознавания элементов речи. В работе представлен обзор основных подходов и методов по распознаванию речи

1 Введение

В настоящее время ведется большое количество работ по решению задач обработки речевых сообщений. При реализации всех этих систем используются одни и те же основные подходы. Выделяют три основные задачи, решаемые при обработке речи и три подзадачи распознавания речевых сообщений (см. рис. 1) [Первушин, 2011].

Рис. 10. Задачи обработки речи

Каждое из направлений использует схожие методы с незначительным изменением алгоритмов или комбинацию нескольких методов.

2 Основы речеобразования и информативные параметры речевых сообщений

Речь - это средство коммуникации человека. Ее можно охарактеризовать несколькими способами. С позиции информативности речь рассматривается на основе теории информа-

ции К. Шеннона. С другой стороны, речь представляется в виде речевого сообщения (акустического колебания).

Несмотря на то, что мы воспринимаем речь непрерывно (для нас она слитна), все же можно говорить о дискретности этих речевых сообщений. Дискретность речи заключается в наличии в ней различных составляющих.

Согласно схеме, представленной на рисунке 2, атомарной единицей в речи является фонема.

Рис. 2. Задачи обработки речи

Эти звуки получаются в ходе прохождения воздуха по голосовому тракту. Упрощенная схема речеобразования представлена на рисунке 3.

Основной тон с гармониками

Прерыватель

Резонансы

Рис. 3. Схема речеобразования

Люди произносят звуки по-разному. Это обусловлено тем, что голосовой тракт у каждого человека индивидуален. При образовании звуков участвуют следующие функциональные узлы речевого тракта [Тампель, 2016]:

• небная занавеска;

• носовая полость;

• излучения носового тракта;

• излучения рта;

• ротовая полость;

• поднятая часть языка;

• гортанная трубка;

• трахея и бронхи;

• мускульная сила;

• объем легких;

• голосовые связки.

В голосовом тракте импульсы воздуха поступают периодически. Период повторения импульсов называют периодом основного тона голоса То. Обратная величина 1/То называется частотой основного тона. Для разных возрастных групп, полов, при заболеваниях этот параметр может изменяться. В основном значения основного тона лежит в пределах от 80 до 400 Гц [Ахмад, 2007; Жиляков, 2012].

В процессе произнесения разных звуков струя воздуха встречает на своем пути преграды и полости. Поэтому основной тон представляет собой череду максимумов и минимумов. Максимумы называют формантами, а минимумы антиформантами.

Еще одной особенностью является частотный диапазон речи, его значения лежат в пределах 70-7 000 Гц.

3 Подходы к исследованию речевых сообщений

С точки зрения лингвистики в речевом сообщении отражаются фонетические и просодические аспекты речи, с точки зрения акустики - акустические характеристики фонем и просодем, а информационная структура содержит дополнительную информацию о речевом сообщении, включающую его смысловое содержание, а также индивидуальные характеристики личности говорящего и передающей среды (см. рис. 4).

Рис. 4. Способы описания речевых сообщений для решения задач их обработки

Лексика - это активный словарь, с которым работает естественно-языковая система. Например, системы, проверяющие орфографические ошибки с учётом знаний о словообразовании, работают с 1-2 млн. словоформ русского языка. Системы распознавания речи работают с меньшими словарями - это десятки, сотни, максимум тысячи слов.

Морфология - это раздел лингвистики, изучающий части речи и правила словообразования, в которых используются морфемы: приставки (префиксы), суффиксы, окончания и т. д. С использованием знаний морфологии, в частности, строятся морфологические таблицы с перечислением всех окончаний, суффиксов, парадигм, спряжений, склонений и т. д.

Фонетика - это раздел лингвистики, занимающийся изучением звукового строя естественного языка. Предметом рассмотрения фонетики являются звуки (фонемы) речи.

Синтаксис - это набор правил образования предложений, с помощью которых осуществляется построение фраз естественного языка.

Семантика занимается вопросами изучения смысла, заключенного в естественноязыковом высказывании. Это особый раздел лингвистики, который имеет тесные связи с искусственным интеллектом и проблемой формализации знаний [Лютова, 2010].

4 Предобработка речевого сообщения

Первым этапом в обработке речевых сообщений является предобработка. В свою очередь предобработка разделяется на нескольких шагов:

• фильтрация и подавление шума [Ко-выршин, 2016];

• выделение информативных участков речевого сообщения [Ковыршин, 2015].

Фильтрация и подавление шума

Фильтрация играет большую роль в дальнейшей работе с речевым сообщением. Это обусловлено тем, что в случаях, когда шум имеет значительную интенсивность, его наличие может существенно исказить результаты обработки, анализа или распознавания речи.

Методы, используемые для борьбы с помехами в речевых сообщениях [Чучупал, 1998]:

• методы адаптивной компенсации помех;

• методы, основанные на использовании математических моделей речевых сообщений во временной области (например, авторегресионная модель речевого сообщения и рекуррентные алгоритмы оценки параметров и речевого сообщения);

• методы, основанные на использовании математических моделей речевых сообщений в частотной области (оценивание минимальной среднеквадратиче-

ской ошибки, марковские модели речевого сообщения и шума);

• методы, основанные на использовании спектральных характеристик шума (вычитание амплитудных спектров, Виннеровская фильтрация);

• методы, основанные на использовании моделей искусственных нейронных сетей;

• методы, основанные на моделях восприятия речи человеком.

Выделение информативных участков речевого сообщения

В настоящее время наиболее популярными моделями речевых сообщений, используемые для построения систем распознавания речи являются:

• акустическая;

• языковая.

Акустическая модель служит для распознавания сегментов речи на звуковом уровне. Для нее необходимо наличие статистической модели,которая будет являться характерной для заданного языка.

Языковая модель служит для определения наиболее вероятных словесных связок. Для нее также необходима изначальная модель языка. Можно сказать, что для разных языков (особенностей построения предложений) она разная. Например, для английского языка, достаточно использовать статистические модели, а для высокофлективных языков (языков, в которых существует много форм одного и того же слова) языковые модели, построенные на статистике, дают не такой хороший результат. Это происходит, потому что необходимо слишком много данных, чтобы достоверно оценить статистические связи между словами. Поэтому применяют гибридные языковые модели, использующие правила языка, информацию о части речи и форме слова и классическую статистическую модель.

С учетом вышесказанного существует возможность уточнения этапов распознавания.

Обработка речи начинается с оценки качества речевого сообщения. На этом этапе определяется уровень помех и искажений.

Результат оценки поступает в модуль акустической адаптации, который управляет модулем расчета параметров речи, необходимых для распознавания.

В речевом сообщении выделяются участки, содержащие речь, и происходит оценка параметров речи. Происходит выделение фонети-

ческих и просодических вероятностных характеристик для синтаксического, семантического и прагматического анализа. (Оценка информации о части речи, форме слова и статистические связи между словами).

5 Подходы к решению задачи по распознаванию речи

На данный момент разработан ряд достаточно эффективных способов распознавания речи [Сорокин, 2012].

Распознавание отдельных команд - раздельное произнесение и последующее распознавание слова или словосочетания из небольшого заранее заданного словаря. Точность распознавания ограничена объемом заданного словаря.

Распознавание по грамматике - распознавание фраз, соответствующих определенным правилам.

Поиск ключевых слов в потоке слитной речи - распознавание отдельных участков речи. Речь может быть, как спонтанной, так и соответствующей определённым правилам. Произнесенная речь не полностью преобразуется в текст - в ней автоматически находятся те участки, которые содержат заданные слова или словосочетания.

Распознавание слитной речи на большом словаре - все, что сказано, дословно преобразуется в текст. Достоверность распознавания достаточно высока.

Распознавание речи с помощью нейронных систем. На базе нейронных сетей можно создавать обучаемые и самообучающиеся системы, что является важной предпосылкой для их применения в системах распознавания (и синтеза) речи.

6 Области речевых сообщений для проведения анализа

Выделяют три основных области речевого сообщения, которые подвергаются процедуре обработки:

• временная;

• частотная;

• частотно-временная.

При обработке во временной области используются характерные точки речевого сообщения (например, максимумы и минимумы речевого сообщения). Минусом является неоднозначность обнаружения этих точек.

Обработка в частотной области отличается тем, что теперь во внимание берутся все от-

счеты речевого сообщения. В данном случае исследование производится в спектральной области. Главными недостатками являются вычислительная сложность и частотное разрешение.

Третья область - комбинация первых двух. Их совместное использование позволяет устранить многие недостатки, при этом сохранив достоинства.

7 Существующие методы анализа речевых сообщений

Обзор отечественной и зарубежной научной литературы позволил выделить основные методы преобразования и анализа речевых сообщений для решения задачи их обработки и распознавания [Первушин, 2011]:

• с использованием преобразования Фурье (ПФ);

• с использованием вейвлет-преобразования (ВП);

• с использованием декомпозиции на эмпирические моды (ЭМ) и преобразования Гильберта Хуанга (ПГХ);

• с использованием кепстра (кепстраль-ный анализ КА);

• с использованием линейного предсказания (ЛП);

• с использованием корреляционной функции (корреляционный анализ КрА);

• с использованием нейронных сетей (НС);

• с использованием скрытых марковских моделей (СММ);

• с использованием динамического трансформирования времени (ДТВ).

Анализ с использованием преобразования Фурье (ПФ)

ПФ используется во многих областях, где необходимо разложить речевое сообщение в спектр. При ПФ осуществляется преобразование речевого сообщения из временной области в частотную область. Таким образом, мы можем разложить речевое сообщение на частотные составляющие.

Так как речь в компьютере представлена в виде набора отсчетов, то для анализа применяют дискретное преобразование Фурье [Ахмад, 2007].

Прямое преобразование:

Хк = ^ хпе~^Гш {к = 0.....N — 1)

Обратное преобразование:

Н-1 1 V' 2т

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Xl'=Nl,X*e (n=0,...,N-l) к =0

Плюсы данного метода очевидны - мы можем посмотреть частотные составляющие речевого сообщения.

Главным минусом является то, что невозможно детально анализировать кратковременные локальные особенности. Для решения этой проблемы используют различные окна. Смысл заключается в том, что мы берем часть речевого сообщения и производим над ней ДПФ, далее делаем сдвиг и снова берем ДПФ от речевого сообщения уже в другом окне. Длина окна выбирается как 2-4 периода основного тона.

ПФ относится к частотной области обработки речевого сообщения.

Анализ с использованием вейвлет-преобразования (ВП)

Вейвлеты и ДПФ представляют собой похожие преобразования над речевым сообщением. Но главным отличием вейвлетов является то, что у них есть возможность использования разных базисных функций. Также у вейвлетов есть две основные операции: сдвиг (перемещение области локализации во времени) и масштабирование (растяжение или сжатие, т.е. перемещение области его локализации по частоте) [Первушин, 2011].

Так как речевое сообщение на входе дискретное, то на практике применяют дискретное вейвлет-преобразование (ДВП).

Сначала речевое сообщение пропускается через низкочастотный (low-pass) фильтр с импульсным откликом g, и получается свертка:

ОО

Л'^оо

Одновременно речевое сообщение раскладывается с помощью высокочастотного (highpass) фильтра h. В результате получаются детализирующие коэффициенты (после ВЧ-фильтра) и коэффициенты аппроксимации (после НЧ-фильтра).

Так как половина частотного диапазона речевого сообщения была отфильтрована, то, согласно теореме Котельникова, отсчёты речевого сообщения можно проредить в 2 раза:

ОТ

На рисунке 5 представлена обобщенная схема ДВП для получения коэффициентов одного уровня преобразования

Рис. 5. Схема дискретного вейвлет-преобразования речевых сообщений

Главным достоинством ВП является то, что возможно применения разных базисов вейвлет, т. е. использование функций, которые максимально подходят для решения определенной задачи. Данный факт повышает универсальность анализа с использованием ВП. Еще одним безусловным плюсом является то, что мы можем проанализировать речевое сообщение на разных масштабах и тем самым определять характерные особенность речевого сообщения во времени.

Выигрыш от применения ВП по сравнению с ПФ является анализ кратковременных, локальных особенностей речевых сообщений, но, в то же время, ВП проигрывает ПФ в сложности вычисления и необходимости наличия априорной информации об используемом вейвлете.

ВП относится к частотно-временной области обработки речевого сообщения.

Анализ с использованием декомпозиции на эмпирические моды (ЭМ) и преобразования Гильберта Хуанга (ПГХ)

Для решения проблемы поиска вейвлета для ВП был предложен метод, основанный на ПГХ.

В данном методе реализован следующий принцип: сначала получают базисную функцию на основе исследуемого речевого сообщения, а затем получают спектр Гильберта.

Разложение речевого сообщения на компоненты:

где - эмпирические моды (ЭМ); т)(?)

остаток разложения; 1=1,2, ...,1 - номер ЭМ.

Эмпирическая мода - это функция, обладающая следующими свойствами:

1) количество экстремумов (и максимумов и минимумов) и количество пересечений нуля не должны отличаться более чем на единицу;

2) среднее значение, которое определяется по двум огибающим - верхней и нижней, должно быть равно нулю.

Для вычисления ЭМ необходимо построить две огибающих речевого сообщения: верхнюю и нижнюю. Далее вычисляется среднее значение и разность между речевым сообщением и его средним значением. Если полученная разность удовлетворяет определению эмпирической моды, то процесс останавливается. В этом случае полученное среднее значение и будет эмпирической модой. В противном случае, необходимо повторить предыдущие операции уже для полученной разности. После определения моды получится остаток равный разности речевого сообщения и функции, являющейся ЭМ.

Формирование спектра Гильберта: т

ННТ{£) =

'¡=1

где = + - модуль

мгновенного значения амплитуды речевого сообщения каждой ЭМ; (С) - ЭМ речевого сообщения; = ^/ ' ¿т - сопряжен-

ный по Гильберту речевое сообщение ЭМ; т -временной сдвиг, пропорциональный фазе речевого сообщения; ю(?) - циклические частоты каждой ЭМ;

Главной особенностью ПГХ является представление речевого сообщения в частотно-энергетически-временной области. Данный факт позволяет выявить скрытые модуляции и области концентрации энергии, которые позволяют анализировать как глобальные, так и локальные особенности речевых сообщений.

ПГХ относится к частотно-временной области обработки речевого сообщения.

Анализ с использованием кепстра. Кеп-стральный анализ (КА)

Особенность данного анализа заключается в том, что информация о речевом сообщении формируется в сжатом виде. Прежде всего, учитываются особенности восприятия звуков человеком (мел-шкала) и речевое сообщение представляется в логарифмическом масштабе.

Для получения мел-кепстральных коэффициентов, использующихся в КА, необходимо спектр речевого сообщения перемножить с гребенкой фильтров. Как видно из рисунка 6, в области низких частот значения берутся чаще, чем в высокой составляющей. Это объясняется особенностями восприятия звука человеком. Информативность низких состав-

ляющих речевого сообщения для нас больше чем высоких.

Рис. 6. Банк фильтров

Далее необходимо выполнить еще одно ПФ или применить дискретное косинусное преобразование:

+ 0,5'

Со б

/т{т +

V )

1тг=0

I = 1г ...,№МрСС

Коэффициент С0 не используется, так как представляет энергию речевого сообщения. Количество коэффициентов КМБСС на практике выбирают от 12 до 30 [Иванов, 2015].

КА относится к частотной области обработки речевого сообщения.

Анализ с использованием линейного предсказания (ЛП)

Идея применения ЛП для анализа речевых сообщений очень проста. Она заключается в том, что по некоторому числу отсчетов (линейную комбинацию) мы можем оценить любой другой отсчет речевого сообщения. Это

приводит к следующему выражению: р

где а1, а2,...,а - коэффициенты предсказания; О - коэффициент усиления; |::: = ,:= | : - | : - ошибка предсказания. Таким образом, нам необходимо подобрать коэффициенты так, чтобы минимизировать и(п) [Агашин, 2012; Алимурадов, 2015].

ЛП относится к частотно-временной области обработки речевого сообщения.

Анализ с использованием корреляционной функции (корреляционный анализ КрА)

Изначально корреляционный анализ предполагает выявление взаимосвязи двух или нескольких величин. Для анализа речевых сообщений используют автокорреляционную и взаимную корреляционную функцию:

-[

+00

■от +«

Применение КрА обусловлено простотой математического аппарата и относительной легкостью вычисления.

КрА относится к временной области обработки речевого сообщения.

Анализ с использованием нейронных сетей (НС)

Нейронная сеть состоит из отдельных элементов (нейронов) которые имеют между собой связи (синапсы - входные связи, а аксоны - выходные). Нейроны могут находиться в двух состояниях: возбуждения, торможения (см. рис. 7).

Входы Синапсы

Рис. 7. Упрощенная схема нейрона

На вход нейросети (см. рис. 8) можно подавать, как характеристики речевого сообщения, так и его части целиком. В этом плане нейронные сети очень гибкие. Можно построить сеть под конкретную задачу обработки. Очень часто используют сети встречного распространения Кохонена-Гроссерга [Тас-сов, 2013]. Общая схема НС изображена на рисунке ниже.

а-

Рис. 8. Обобщенная схема нейронной сети

Анализ с использованием скрытых марковских моделей (СММ)

СММ - это статистическая модель, имитирующая работу процесса, который похож на марковский процесс с неизвестными параметрами. Главной задачей данного метода

является определение неизвестных параметров на основе наблюдаемых.

Модель представляет собой ряд состояний, переходы между которым происходят с определенными вероятностями. В каждый момент времени вырабатывается вектор наблюдений. Комбинация этих векторов может использоваться для распознавания образов.

Анализ с использованием динамического трансформирования времени

Речевые сообщения могут отличаться от эталонной своей длительности, присутствием ошибок (наличием посторонних звуков, таких как произношение не свойственных букв). Данный метод способен рассчитывать Евклидово расстояние между входным речевым сообщением и шаблоном, хранящемся в памяти. Евклидово расстояние высчитывается по следующей формуле:

где х1, у1 - сравниваемые фрагменты; 1 - номер фрагмента; N - количество сравниваемых фрагментов [Алимурадов, 2015].

8 Заключение

На основе проведенного анализа современного состояния исследований в области обработки речи, можно утверждать следующее:

• решение задач обработки речи является на сегодняшний день актуальными направлением исследований, в том числе и в силу их сложности, а также многообразия применяемого математического аппарата;

• существующие системы распознавания речи учитывают индивидуальные характеристики речевых сообщений, получаемые за счет уникальности тракта речеобразования;

• речь может рассматриваться как комбинация различных ее составляющих, начиная от высказываний и заканчивая фонемами;

• методы обработки характеризуются анализируемой с их помощью областью речевого сообщения - временной, частотной и частотно-временной;

• при решении задачи распознавания речи в основном используются системы с обучением.

Список литературы

Первушин Е.А. 2011. Обзор основных методов распознавания дикторов. / Е. А. Первушин // Математические структуры и моделирование. -вып. 24. - С. 41-54.

Тампель И.Б. 2016. Автоматическое распознавание речи: учебное пособие. / И. Б. Тампель, А. А. Карпов; - СПб: Университет ИТМО. -138 с.

Ахмад Х.М. 2007. Введение в цифровую обработку речевых сигналов: учебное пособие. / Х.М. Ахмад, В.Ф. Жирков; Владим. гос. ун-т. -Владимир: Изд-во Владим. гос. ун-та. - 192 с. -ISBN 5-89368-751-5.

Жиляков Е.Г. 2012. Алгоритмы обнаружения основного тона речевых сигналов / Е.Г. Жи-ляков, А. А. Фирсова, Н.А. Чеканов // Научные ведомости Белгородского государственного университета. Серия: Экономика. Информатика. - №1(120).

Лютова Д.А. 2010. Основные задачи и методы технологий распознавания говорящего по голосу / Д. А. Лютова // Вестник Московского государственного лингвистического университета. - №13(592). - С. 131-147.

Ковыршин И.О. 2016. Параметры для определения зашумленных речевых сообщений / И.О. Ковыршин, А.В. Скурнович // Новые информационные технологии в автоматизированных системах: материалы девятнадцатого научно-практического семинара - Москва : ИМП им. М.В. Келдыша. - С. 127-131.

Ковыршин И.О. 2015. Предварительная обработка речевых сообщений / И.О. Ковыршин,

A.В. Скурнович // Новые информационные технологии в автоматизированных системах: материалы восемнадцатого научно-практического семинара - Москва : ИМП им. М.В. Келдыша. -С. 591-599.

Чучупал В.Я. 1998. Цифровая фильтрация зашумленных сигналов: научное издание / В.Я. Чучупал, А.С. Чичагов, К.А. Маковкин // Сообщения по программному обеспечению ЭВМ. - Москва: Вычислительный центр РАН. - 52 с.

Сорокин В.Н. 2012.Распознавание личности по голосу: аналитический обзор. /

B.Н. Сорокин, В.В. Вьюгин, А.А. Тананыкин // Информационные процессы. - №1. - С. 1-30.

Иванов И.И. 2015. Анализ метода мел-частотных кепстральных коэффициентов применительно к процедуре голосовой

аутентификации. / И.И. Иванов // Северокавказский федеральный ун-т.

Агашин О.С. 2012. Методы цифровой обработки речевых сигналов в задаче распознавания изолированных слов с применением сигнальных процессоров. / О.С. Агашин, О.Н. Корелин // Труды Нижегородского государственного технического университета им. Р.Е. Алексеева. - № 4(97). - С. 32-44.

Алимурадов А.К. 2015. Обзор и классификация методов обработки речевых сигналов в системах распознавания речи / А.К. Алимурадов, П.П. Чураков // Измерение. Мониторинг. Управление. Контроль. - № 2 (12). - С. 27-35.

Тассов К.Л. 2013. Метод идентификации человека по голосу. / К.Л. Тассов, Р.А. Дятлов // Инженерный журнал: наука и инновации. -вып.6. - С. 1-6.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.