Научная статья на тему 'Интеграция систем распознавания речи с системой распознавания лиц'

Интеграция систем распознавания речи с системой распознавания лиц Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
240
51
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ / SPEECH RECOGNITION SYSTEMS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Карцан Р.В., Карцан И.Н.

Системы распознавания человеческой речи достаточно перспективное направление развития человечества. Различные методы повышения точности распознавания лишь способствуют этому.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE INTEGRATION OF SPEECH RECOGNITION SYSTEM WITH FACIAL RECOGNITION

Human speech recognition system is quite promising area of human development. Various methods to improve the accuracy of recognition only contribute to this.

Текст научной работы на тему «Интеграция систем распознавания речи с системой распознавания лиц»

Программные редктва и информационные технологии

УДК 004.932

ИНТЕГРАЦИЯ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ С СИСТЕМОЙ РАСПОЗНАВАНИЯ ЛИЦ

Р. В. Карцан, И. Н. Карцан

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Россия, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 E-mail: kartsan2003@mail.ru

Системы распознавания человеческой речи - достаточно перспективное направление развития человечества. Различные методы повышения точности распознавания лишь способствуют этому.

Ключевые слова: системы распознавания речи.

THE INTEGRATION OF SPEECH RECOGNITION SYSTEM WITH FACIAL RECOGNITION

R. V. Kartsan, I. N. Kartsan

Siberian State Aerospace University named after academician M. F. Reshetnev 31, "Krasnoyarsky Rabochy" Av., Krasnoyarsk, 660014, Russia. E-mail: kartsan2003@mail.ru

Human speech recognition system is quite promising area of human development. Various methods to improve the accuracy of recognition only contribute to this.

Keywords: speech recognition systems.

Технология распознавания речи появилась относительно недавно, в частности, в 1952 г. появилось устройство, которое понимало только цифры. Затем последовал сильный рост развития технологии распознавания речи, быстро закончившийся в 1999 г. После этого уровень распознавания, даже у современных систем, не превышает 80 % в сравнении с человеком, у которого этот показатель примерно 97 %. Потенциал подобных систем достаточно высок, к примеру, подобные системы могли бы снизить нагрузку на операторов контакт-центров, секретарей и т. д. [1].

В настоящее время существует огромная классификация систем распознавания речи, и связанно это напрямую с тем, что создать универсальную систему очень тяжело, а с решением конкретных задач вполне справится конкретная система. По сути классификация системы есть описание её аспектов, таких как:

1. Размер словаря. Чем больше размер словаря, тем больше частота появления ошибок. Для сравнения можно привести словарь, состоящий только из цифр - распознавание идет практически безошибочно, но со словарем, содержащим примерно 100 тысяч слов, вероятность ошибки возрастает до 45 %. Также вероятность ошибки повышают похожие слова, и чем сильнее похожи слова, тем выше вероятность ошибки.

2. Зависимость от диктора. Дикторозависимая система рассчитана на работу только с одним пользователем, в частности с тем, кто обучал систему. Более универсальный вариант - дикторонезависимая система имеет внушительный недостаток, это вероятность ошибок в разы больше в сравнении с дикторозависи-мой системой. Да и создание подобных систем требует больших затрат времени и ресурсов.

3. Тип речи. Данный аспект показывает возможность системы распознавать предложения или слова,

разделенные конкретной паузой. Сложность распознавания предложений заключается в отсутствии четких границ.

4. Алгоритм распознавания. Существуют 4 алгоритма распознавания: динамическое программирование, нейронные сети, скрытые Марковские модели и методы дискриминантного анализа. Наибольшую популярность получил алгоритм скрытых Марковских методов с динамическим программированием. Несмотря на это, наибольшим потенциалом обладают нейронные сети, в частности, их способность к накоплению знаний в рабочей области, следовательно, повышение процента безошибочного распознавания и автономность работы [2].

5. Тип структурной единицы. Структурными единицами могут быть аллофоны, дифоны, фонемы и т. д. Системы, основанные на использовании лексических элементов, таких как фонемы, дифоны, аллофоны, как правило, не зависят от диктора. Основная сложность таких систем - это выделение лексических элементов.

6. Принцип выделения структурных элементов. В современных системах распознавания выделяются 2 основных метода: один из них основан на преобразовании Фурье (самый распространенный), и вейвлет-преобразование.

Одним из аспектов систем распознавания речи так же является шумоочистка и отделение полезного сигнала. Шумоочистка использует два механизма: использование нескольких способов выделения одних и тех же элементов речевого сигнала параллельно и независимое использование сегментного и целостного восприятия слов в потоке речи.

Проанализировав все аспекты системы, можно построить систему распознавания речи, имеющую такие

Решетневскуе чтения. 2013

же показатели распознавания, как у человека, однако с такой системой невозможно бы было работать: настройка системы под каждого работающего пользователя, низкий темп разговора, ограниченность словаря и т. д. Человек по своей специфике распознает речь не только акустически, но еще и визуально. Данная особенность человека называется эффектом Мак-Гурка-Мак-Дональда. Основная суть в том, что при разговоре человек неявно для себя начинает читать по губам, повышая показатель распознавания.

Интегрируя в системы распознавания речи системы распознавания лиц, в частности рта, т. е создание дополнительного параметра для повышения точности, снизит влияние шума на распознавание. Существующие системы получат, возможно, такие же параметры распознавания, как у человека.

Системы распознавания речи являются довольно значимым направлением для человека. Подобные системы способны помочь людям в разных сферах жизни, от медицины до космонавтики. Системы распознавания речи продолжают развиваться, при доста-

точном уровне развития нейросетей появится возможность вести диалог машины с пользователем, а добавление элементов распознавания лица, в частности губ, позволит увеличить точность распознавания, дав возможность сделать переход на полностью голосовое управление.

Библиографические ссылки

1. Davies K. H., Biddulph R., Balashek, S. Automatic Speech Recognition of Spoken Digits, J. Acoust. Soc. 1952. №. 24 (6). P. 637-642

2. McGurk H., MacDonald J. "Hearing lips and seeing voices // Nature. 1976. № 264 (5588). Р. 746-8.

References

1. Davies K. H., Biddulph R. and Balashek S. (1952) Automatic Speech Recognition of Spoken Digits, J. Acoust. Soc. Am. 24 (6). pp. 637-642

2. McGurk H., MacDonald J. (1976). "Hearing lips and seeing voices // Nature 264 (5588), р. 746-8.

© Карцан Р. В., Карцан И. Н., 2013

УДК 025.4.03

МОДЕЛЬ ЗАПРОСОВ ЛПР В СРЕДЕ РАСПРЕДЕЛЕННЫХ ИНФОРМАЦИОННЫХ РЕСУРСОВ ИУС

Е. В. Каюков, В. В. Храпунова, Г. А. Сидорова, К. К. Бахмарева, П. В. Зеленков

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Россия, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 E - mail:zelenkow@rambler.ru

В настоящее время существует несколько подходов к построению модели лица, принимающего решение (ЛПР). Приведено концептуальное описание модели запросов ЛПР, а также профиля ЛПР. Необходимо отметить, что применение данных моделей имеет существенное значение при учете производственных факторов, влияющих на процесс принятия решения.

Ключевые слова: поисковые системы, модель запросов пользователя.

DMP QUERY MODEL IN DISTRIBUTED INFORMATION MIS RESOURCES

E. V. Kayukov, V. V. Khrapunov, G. A. Sidorova, K. K. Bahmareva, P. V. Zelenkov

Siberian State Aerospace University named after academician M. F. Reshetnev 31, "Krasnoyarsky Rabochy" Av., Krasnoyarsk, 660014, Russia. E-mail:zelenkow@rambler.ru

Currently, there are several approaches to the construction of a decision maker (DM) model. A conceptual description of the DM query model and DM profile is given. It should be noted that the use of these models is essential taking into account production factors influencing the decision-making process.

Keywords: search engines, model user queries.

Применение того или иного подхода к реализации профиля ЛПР отражается на выборе рациональной стратегии поведения в сложных производственных ситуациях. Необходимо отметить, что выбор категории или профиля ЛПР зачастую определяется набором типовых ситуаций, которые возникают в системе управления только в том виде, в котором он был за-

фиксирован на практике. При формировании профиля ЛПР учитывается ряд атрибутов, характеризующий различные производственные ситуации, возникающие в процессе функционирования промышленного предприятия:

- наименование ситуации;

- описание причин ее возникновения;

i Надоели баннеры? Вы всегда можете отключить рекламу.