Научная статья на тему 'Методы распознавания речи и их классификация'

Методы распознавания речи и их классификация Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
3773
482
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ РЕЧИ / ГОЛОСОВОЕ УПРАВЛЕНИЕ / МЕТОДЫ РАСПОЗНАВАНИЯ РЕЧИ / КЛАССИФИКАЦИЯ МЕТОДОВ РАСПОЗНАВАНИЯ РЕЧИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гаврилович Н.В., Сейтвелиева С.Н.

В статье рассмотрены принципы построения систем распознавания речи, приведена классификация методов распознавания речи.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Методы распознавания речи и их классификация»

УДК: 004.934

Гаврилович Н. В.

магистрант, н/п «Прикладная информатика»

ГБОУВО РК «КИПУ»

Научный руководитель: Сейтвелиева С.Н.

старший преподаватель

МЕТОДЫ РАСПОЗНАВАНИЯ РЕЧИ И ИХ КЛАССИФИКАЦИЯ

В статье рассмотрены принципы построения систем распознавания речи, приведена классификация методов распознавания речи.

Ключевые слова: распознавание речи, голосовое управление, методы распознавания речи, классификация методов распознавания речи.

Методы распознавания речи

Основу создания систем распознавания речи составляют методы, которые разделяют и описывают классы образов. Образ в данном контексте — это описание элемента как представителя соответствующего класса образов. Если класс можно охарактеризовать списком входящих в него членов, то система распознавания может базироваться на принципе принадлежности к этому списку. Если класс описывается некими общими свойствами, свойственными всем его членам — система базируется на принципе общности свойств. И наконец если при анализе класса обнаруживается тенденция к формированию кластеров (конечную группу объектов, которые образуют компактную область в пространстве описания) в пространстве образов, система может основываться на принципе кластеризации [1].

1. Принцип перечисления членов класса. Перечисление членов класса, находящихся в его составе, предполагает выполнение автоматического распознавания речи на основе сопоставления с образцом. Множество образов, принадлежащих одному классу, помещается в память системы распознавания. При предоставлении системе новых образов, система поочередно сопоставляет их с образами, хранящимися в ее памяти. К примеру, в случае если в памяти системы распознавания звуки разных букв, тогда данный подход, основанный на перечислении членов класса, позволяет распознать соответствующие буквы, однако только в тех случаях, когда входные данные не искажены посторонним шумом, произношением и т.п. Это относительно несложный метод, но дает возможность синтезировать дешевые системы распознавания в отдельных прикладных сферах вполне справляющиеся со своими задачами. Метод перечисления членов класса работает приемлемо, если выборка образов близка к эталонной [2, 3].

2. Принцип общности свойств. Реализация процесса распознавания путем выделения схожих признаков подразумевает разделение образов по классам, общих для членов, входящих в его состав. Основным предположением в этом методе является то, что образы, обладающие рядом общих свойств или признаков, принадлежат тому же классу. Данные совместные свойства можно ввести в память системы. Если системе во входных данных предоставляется неклассифицированный образ, происходит выделение набора, описывающих признаки, а затем сравнение с признаками, находящимся в памяти системы. Далее система зачислит проверяемый образ в класс, который характеризуется системой признаков, подобных признаков этого образа. Таким образом при использовании описанного метода главная задача стоит в выделении общих признаков по выборке образов, принадлежность которых к искомому классу известна. Таким образом описанная концепция распознавания превосходит распознавание по памяти, по сравнению с хранением объектов,

входящих в класс. Поскольку свойства, описывающие класс в целом, являются константами, принцип сопоставления свойств разрешает различие свойств отдельных образов. Метод основанный на сравнении с эталоном, с другой стороны, не позволяет существенных вариаций характеристик отдельных образов. Как упоминалось ранее, очень трудно найти полный набор признаков, различий для класса. Следовательно, использование данного принципа распознавания, тесно связано с развитием методов выборки оптимальных свойств [2; 4].

3. Принцип кластеризации. Класс образов можно рассматривать как кластер и выделять свойства класса в пространстве образов кластера можно тогда, когда образы класса представляют собой векторы, компоненты которого являются действительными числами. Системы распознавания, основанные на принципе кластеризации, определяется взаимным пространственным расположением отдельных кластеров. Если расположении кластеров друг от друга достаточно далеко, можно использовать более простыми методами распознавания. Если же кластеры перекрываются, необходимо использовать более сложные методы разбиения пространства образов. Описанные перекрытия кластеров — результат неполноценности информации и искажений результатов измерения [2; 4].

Классификация методов распознавания образов

Разные авторы (Барабаш Ю. Л., Васильев В. И., Горелик А. Л., Скрипкин В.А., Дуда Р., Харт П., Кузин Л. Т. и др.) описывают разную классификацию методов распознавания речи [2-6]. Часть авторов разделяют методы на параметрические, непараметрические и эвристические, другие используют выделение методов исходя из исторически появившихся школ и направлений в данной области. К примеру, работа Темникова Ф. Е. [8], предоставляет прекрасный обзор методов распознавания, используется следующая типология методов распознавание образов:

• методы, основанные на принципе разделения;

• статистические методы;

• методы, построенные на основе "потенциальных функций";

• методы вычисления оценок (голосования);

• методы, основанные на исчислении высказываний, в частности на аппарате алгебры логики.

Д. А. Поспелов определяет два способа представления знаний [9]:

1. Интенсиональное представление (схема связей между атрибутами, признаками).

2. Екстенциональное представления (конкретные факты, объекты, примеры).

Интенсиональное представление закрепляет закономерности и связи, которыми

объясняется структура данных. Применительно к диагностическим задачам такая фиксация заключается в определении операций над атрибутами (признаками) объектов, что приводят к необходимому диагностическому результату. Интенсиональные представления реализуются посредством операций над значениями атрибутов и не предполагают выполнение операций над конкретными информационными фактами (объектами).

В свою очередь, екстенциональное представление знаний связаны с описанием и фиксацией конкретных объектов из предметной области и реализуются в операциях, элементами которых служат объекты как целостные системы.

Описанные выше два основных способа представления знаний дают возможность предложить следующую классификацию методов распознавания образов:

1. Интенсиональные методы распознавания образов — методы, основанные на операциях с признаками.

2. Екстенциональные методы распознавания образов — методы, основанные на операциях с объектами.

К первой группе методов относятся такие методы, как:

• методы, основанные на оценках плотностей распределения значений признаков (или сходства и различия объектов);

• методы, основанные на предположениях о классе решающих функций;

• логические методы;

• структурные (лингвистические) методы.

Ко второй группе можно отнести следующие:

• метод сравнения с прототипом;

• метод к-ближайших соседей;

• алгоритмы вычисления оценок (голосования);

• коллективы решающих правил.

Другая классификация базируется на реализации рассмотренных выше основных принципов построения автоматических систем распознавания образов. Существуют три основных типа методологии:

• эвристическая;

• математическая;

• лингвистическая (синтаксическая).

Нередко системы распознавания создаются на основе комбинации этих методов.

Эвристические методы

Основой эвристического подхода является интуиция и полученный опыт; в нем используются основы перечисления членов класса и общности свойств. Безусловно системы, построенные такими методами, содержат набор своеобразных процедур, созданных согласно конкретных задач распознавания. Пример подобного подхода в связан с задачей распознавания букв, слогов, в которой классификация образа (буква, слога) проводилась на основе выделения отдельных признаков, в частности таких, как количество, последовательность и расположение специфических пиков аудио потока. Хотя эвристический подход играет большую роль в построении систем распознавания образов, не много может быть сказано относительно общих принципов синтеза, потому что развязка каждой конкретной задачи требует использования специфических приемов разработки системы. Это означает, следовательно, что структура и качество эвристической системы в значительной степени определяются одаренностью и опытом разработчиков.

Математические методы

В основу математического подхода положены правила классификации, которые формулируются и выводятся в рамках определенного математического формализма с помощью принципов общности свойств и кластеризации. Этим данный подход отличается от эвристического, в котором развязки определяются с помощью правил, тесно связанных с характером решаемой задачи.

Математические методы построения систем распознавания можно разделить на два класса: детерминистские и статистические.

Детерминистский подход основывается на математическом аппарате, который не применяет в явном виде статистические свойства исследуемых классов образов.

Статистический подход базируется на математических правилах классификации, которые формулируются и выводятся в терминах математической статистики. Построение статистического классификатора в общем случае предполагает применение байесовского классификационного правила и его разновидностей. Это правило обеспечивает получение оптимального классификатора в тех случаях, когда известны плотности распределения для всех совокупностей образов и вероятности появления образов каждого класса.

Для работ данного направления характерным является следующее. Предполагается, что задано некоторое множество образов, каждый из которых принадлежит одному из классов w. Способ разделения на классы достоверно неизвестен, но заданные конечные выборки образов, для которых заранее известна принадлежность некоторого класса. Задача

заключается в том, чтобы классифицировать любой новый образ. Для этого выбирают решение правило. Основой для такого выбора является теория статистических решений Истинные вероятности характеристик классов обычно неизвестную. Поэтому практически используются оценки, полученные по известным примерам классов. Эту обычную в статистике процедуру оценки по выборке вероятностных характеристик генеральной совокупности интерпретируют как здесь обучения [10].

Решающие правила фактически не зависят от специфики объектов, распознаются, поскольку они имеют дело не с самими объектами, а с некоторыми числовыми характеристиками. Вследствие этого эти правила имеют известную всеобщность.

Методы статистических решений ведут к решающих процедур, оптимально удовлетворяя наперед заданному критерию и наилучшим образом используют известные параметры. Критерием оптимальности является требование, чтобы общая вероятность неправильного распознавания, была минимальной. Этот критерий равносилен критерию Байеса, если апостериорные вероятности классов равны между собой, цены ошибочных классификаций равные между собой, а результирующая граница решений является контуром, на котором функции плотности для пары классов имеют одно и то же значение.

Как уже говорилось, в качестве одного из возможных критериев статистической проверки гипотез может быть принят критерий Байеса. Именно он был избранный Е. И. Соколовым в его вероятностной модели восприятия [10], которая была представленная на докладе на Первом съезде Общества психологов в Москве в 1959 году.

Среди возможных оптимальных решающих функций наиболее подробно рассмотрены ее линейные приближения, то есть линейные решающие функции. Линейность здесь означает, что пары обобщенных образов дихотомически разделяется в пространстве образов одной и только одной гиперплоскостью вида

где, Хг — координаты пространства образов. К преимуществам таких решающих функций следует отнести то, что их можно эмпирически конструировать, не делая никаких предположений относительно измерений, проведенных при восприятии образа, что ориентируется, и априорных вероятностей появления классов образов при условии, что есть в наличии источник образов. Кроме того, как уже говорилось выше, реализация линейных решающих функций очень проста, и для технического исполнения системы, которая распознает, не нужно больших затрат [11].

Использование линейных решающих функций хорошо зарекомендовало себя при решении ряда задач распознавания. Здесь алгоритм распознавания строится как метод последовательного многоальтернативного анализа. За основу процесса распознавания образов принято перераспределение исходных вероятностей {рг}=р1,р2,рз,^,рк взаимоисключающих, и таких что представляют полную группу классов к

которым может быть отнесен распознаваемый образ, то есть

и кроме того

(рО^ е 5^)} = рСя.е^ХрСя,е 52),...,р0гх е 5^.), (1.3) для которых выполняется условие нормирования

= (1.4)

Принадлежность Sx к одному из классов устанавливается при условии, что множество вероятностей принадлежности Sx к классам удовлетворяет требованиям,

которые вызваны необходимой достоверностью ответов и заключаются, например, в том, что

для некоторого значения / выполняется все неравенства

/ = 1,2,3, ,../нг.

где Лу — некоторое положительное число.

Иначе говоря, подразумевается, что за основу процесса распознавания берут процесс перераспределения выходных вероятностей с помощью анализа совокупности полученных реализаций случайного процесса, представляет собой образ, что распознается, и получение за счет этого необходимой информации [11].

Необходимо специально отметить, что все опубликованные статистические модели распознавания образов, использующих фактически разные статистики (отношение подобия, дискриминантные функции и другие), дают очень хорошие результаты распознавания в различных задачах.

Структурные (лингвистические) методы

Данные методы базируются на использовании специальных грамматик производящих языков, с помощью которых можно описывать совокупность свойств объектов, которые распознаются [12]. Для разных классов объектов выделяются непроизводные (атомарные) элементы (подобразы, признаки) и вероятные отношения между ними. Грамматика производящего языка — это правила построения объектов из этих непроизводных элементов. В таком случае, любой объект является совокупностью непроизводных элементов «объединенных» между собой теми или иными способами или, другими словами «предложением» некоторого «языка». При этом важна информация, описывающая структуру каждого объекта, а от процедуры распознавания требуется, чтобы она давала возможность не только отнести объект к определенному классу, но и описать те свойства объекта, которые делают невозможным отнесение его к другому классу. Типичным примером является распознавания речи. Объекты, рассматриваемые в данном классе задач есть сложными и число необходимых признаков, является большим. Это приводит к тому, чтобы использовать описание сложного объекта в виде иерархической структуры более простых подобразов. Например, изображение на рисунке 1 может быть описано с помощью иерархических структур, показанных на рисунке 2.

слово А слово В

Рисунок 1 — Фраза F

Рисунок 2 — Иерархичное описание фразы F

Процесс распознавания выполняется уже после идентификации в объекте непроизводных элементов и составлении описания объекта. Распознавание состоит из синтаксического анализа, или грамматического разбора, «предложения», что описывает данный объект. Данная процедура определяет, является ли это предложение синтаксически правильным по отношению к заданной грамматики. Параллельно синтаксический анализ дает некоторое структурное описание предложения (обычно в виде древовидной структуры)

[13].

Различные отношения, определенные между подобразами, или операции композиции, конечно могут быть выражены логическими и (или) математическими операциями. Примером подобного отношения может быть операция конкатенации.

Предложение может быть представлено с помощью древовидной структуры или графа отношений.

На рисунке 3 изображен граф отношений для фразы F (см. рисунок 1).

Рисунок 3 — Граф отношений фразы F

Применение графа связей дает возможность увеличить класс допустимых отношений и включить в состав класса любое отношение, которое удобно формируется из образа. Но применение древовидных структур дает возможность непосредственно применить методы теории формальных языков к задаче компактного представления и анализа образов, которые имеют структурный смысл. Система синтаксического распознавания образов в основном состоит из трех основных частей, а именно: из блока предварительной обработки, блока описания или представления объекта и блока синтаксического анализа. Блок предварительной обработки выполняет, во-первых, функции кодирования и аппроксимации и, во-вторых, функции фильтрации, восстановления и улучшения объекта. Каждый подвергнут предварительной обработке объект в дальнейшем представляют в виде

структуры языкового блока. Этот процесс представления объекта состоит, во-первых, с сегментации и, во-вторых, из выделения непроизводных элементов (признаков). Для того чтобы получить грамматику, которая описывает структурную информацию класса образов, необходимое устройство вывода грамматики, что позволяет восстановить ее по заданной множестве объектов в виде, подобном языковом. Функции этого устройства аналогичны процессу "обучения" в дискриминантных системах распознавания образов. В результате обучения на примерах объектов рассматриваемого класса формируется структурное описание этого класса. Затем полученное в виде грамматики описание используется для описания образов и синтаксического анализа.

Очевидно, для нахождения наилучшего множества непроизводных элементов и соответствующего структурного описания класса рассматриваемых образов необходимое обучение более общего вида.

Вывод: таким образом, на современном этапе развития информационных технологий, системы автоматического распознавания речи остаются основными элементами голосового интерфейса, создание которых начинается, прежде всего, с выбора алгоритма для автоматического распознавания речи. На основании проведенного исследования методов и алгоритмов обработки речевых сигналов становится возможным выбор наиболее эффективного метода для автоматического распознавания речи, который послужит основой для разработки голосового интерфейса.

Литература

1. Гонсалес Р., Дж. Ту Принципы распознавания образов. — М.: Мир, 1978. — 411 с.

2. Барабаш Ю. Л., Зиновьев Б. В Вопросы статической теории распознавания. — М.: Сов. радио, 1967. — 400 с.

3. Васильев В. И. Распознающие системы. Справочник. — К.: Наукова думка, 1983.

— 422 с.

4. Горелик О. Л., Скрипкин В. А. Методы распознавания. — 2 изд. — М.: Высшая школа, 1986. — 208 с.

5. Дуда Р., Харт П. Распознавание образов и анализ сцен. — М.: Мир, 1976. — 521 с.

6. Кузин Л. Т. Основы кибернетики: В 2-х томах. — М: Энергия, 1979. — 576 с.

7. Перегудов Ф. И., Тарасенко Ф. П. Введение в системный анализ. — М: Высшая школа, 1989. — 367 с.

8. Темников Ф. Е., Афонин В. А., Дмитриев В. И. Теоретические основы информационной техники. — М: Энергия, 1971. — 424 с.

9. Захаров В. Н., Поспелов Д. А., Хазацкий В. Е. Системы управления. Задания. Проектирование. Реализация. — М.: Энергия, 1977. — 422 с.

10. Соколов Е. И. Вероятностная модель восприятия. Вопросы психологии. — 2 изд.

— М., 1960.

11. Линейное предсказание речи: Пер. с англ. / Маркел Дж. Д., Грэй А. X. — Под ред. Ю. Н. Прохорова и В. С. Звездина. — М.: Радио и связь, 1980. — 308 с.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

12. Фу К., Гонсалес Р., Ли К. Робототехника. — Пер. с англ. изд. — М.: Мир, 1989. —

624 с.

13. Ципкин Я. З. Основы теории обучающихся систем. — М.: Наука, 1977. — 560 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.