DOI 10.36622/VSTU.2022.18.1.005 УДК 004.5
СРАВНИТЕЛЬНЫЙ АНАЛИЗ СРЕДСТВ ГОЛОСОВОГО ИНТЕРФЕЙСА И ТЕХНОЛОГИЙ РАСПОЗНАВАНИЯ РЕЧИ
В.А. Малиновкин1, Н.В. Валуйских1, Н.Н. Шведов1, С.Л. Кенин2, Н.И. Гребенникова1
воронежский государственный технический университет, г. Воронеж, Россия 2ООО "Атос Айти Солюшенс Энд Сервисез", г. Воронеж, Россия
Аннотация: задача распознавания речи - одна из самых сложных и востребованных задач в настоящее время. Голосовые помощники, реализованные с помощью голосовых интерфейсов, заметно упрощают управление различными системами в ограниченных условиях. Такие интерфейсы должны обладать интуитивно понятным интерфейсом для комфортного пользования людьми с различного рода ограничениями. При разработке системы выполнение этого критерия является одной из главных задач при создании современных технических систем. В настоящее время мировой рынок распознавания речи имеет огромный объём и высокую динамику развития, в то время как рынок систем распознавания речи в России невелик, но имеет перспективы к развитию. Рассмотрены наиболее известные голосовые помощники: Google Assistant, Amazon Alexa, Microsoft Cortana, Siri, Яндекс Алиса, произведено сравнение по общим показателям. Были выявлены как положительные стороны, так и отрицательные. Преимущества обусловлены такими параметрами, как наличие высокого уровня «человечности», способность к самообучению, автоматическое воспроизведение операций. Среди недостатков наиболее критичны такие моменты, как несоответствие качества по времени отклика и предоставленным функционалом, отсутствие быстрой интеграции с другими системами и универсальной принадлежности
Ключевые слова: средства голосового интерфейса, технологии распознавания речи, обеспечение комфортных условий для пользователей современных технических систем
Введение
В настоящее время трудно представить создание какой-либо системы без интерфейсов, которые реализуются с использованием различных средств и методов. При разработке такой системы необходимо учитывать ее восприятие. Получение на выходе интуитивно понятного и естественного интерфейса является одной из главных задач при создании современных технических систем [6].
Для создания более комфортных условий управления технической системой часто используется голосовой интерфейс. Такое средство упрощает управление для людей с разного рода ограничениями в движении. Голосовые интерфейсы используют для управления такими системами, как «Умный дом», звонками, поиском информации в интернете.
Согласно сведениям «Рынок приложений автоматического распознавания речи 20102013», мировой рынок речевых технологий сегодня оценивается примерно в 900 миллионов долларов. Также наблюдается рост примерно на 28% в год. Такая ситуация на рынке определяет стремительное развитие голосовых технологий и широкий охват сферы повседневной жизни.
© Малиновкин В.А., Валуйских Н.В.. Кенин С.Л., Гребенникова Н.И., 2022
Шведов Н.Н.,
В современном мире рынок систем распознавания речи в России мал. По оценкам Stela -Computer Systems, объем этого рынка составляет около 10 миллионов долларов, а динамика порядка 15-30%. Поэтому в настоящее время существует проблема создания систем, обеспечивающих голосовой интерфейс для специалистов и обычных пользователей, а также существует необходимость интеграции таких систем с существующими. На практике решить такую задачу нетривиально.
Обзор функциональных возможностей голосовых помощников
Google Assistant
Google был одним из первых поставщиков голосовых помощников [7]. Google Assistant -это обновленная версия программы, которая работает на Android, iOS и браузере Chrome. Он способен понимать разговорный язык, поддерживать простейшие диалоги, постепенно осваивать функции, которые нужны пользователю. Например, функция звонка, бронирования билетов и мест в различных сервисах и ожидания ответа оператора. В программе есть функция прослушивания всех звонков на автоответчике и уведомления пользователя, когда кто-то поднимает трубку. [1].
Рассмотрим функции системы голосового помощника по основным параметрам:
- система позиционируется как помощник для поиска информации;
- система предназначена для управления умными девайсами, осуществлять информационный поиск и получать справочную информацию;
- система может понимать голосовые команды и реагировать на произвольную речь;
- система применима на следующих мобильных ОС: Android, IOS;
- система насчитывает использование порядка 30 языков.
Основные минусы системы: слишком инициативна, показывает уведомления, на которые вы не подписывались; крайне низкий уровень «человечности», не может поддержать беседу [2].
Яндекс Алиса
Яндекс Алиса - лучшее изобретение российского рынка, ничем не уступающее программам Amazon и Microsoft. У этой системы много преимуществ, так как функциональность рассчитана на российского пользователя. У Алисы есть функция воспроизведения информации о погоде и последних новостей, включения музыки, запуска программ и облегчения беседы. Работает в браузере Яндекс для мобильных устройств, на Android и iOS. Ассистент может идентифицировать товары на картинках и находить их на «Яндекс.Маркет».
Основные параметры:
- система позиционируется как средство воспроизведения музыки;
- система предназначена для обработки голосовых запросов;
- реализовано управление медиа системами;
- реализована возможность интегрирования системы с социальными сетями и некоторыми сервисами;
- возможность распознавания команд и отзыв на произвольную речь;
- система может использоваться на следующих мобильных ОС: Android, IOS.
Среди недостатков можно выделить чрезмерную человечность.
Amazon Alexa
Amazon Alexa появился в колонке производителя и постепенно переходит на мобильные устройства. Это часть «Умного дома», контролирующая работу большого количества технических устройств. Например, поддерживает
функцию открывания жалюзи и дверей гаража, включения света и телевизора, настройки термостата и систему кондиционирования. Искусственный интеллект является обучаемым, Amazon регулярно выпускает обновления. На данный момент голосовой помощник - один из лучших систем в мире [9].
Основные параметры:
- платформа позиционируется для управления сервисом «Умный дом»;
- система предназначена для управления умными девайсами, взаимодействия с товарами и сервисами Amazon, заказа товаров и просмотра справочных материалов;
- система может использоваться на следующих мобильных ОС: Android, IOS;
- система может работать на 6 языках.
Основные недостатки заключаются в следующем: система пытается перевести все ответы с целью приобретения товара; использование ограничено домом.
Microsoft Cortana
Microsoft Cortana в первую очередь имела реализацию на персональный компьютер и ноутбуках этого производителя. Со временем голосовой помощник появился на Android-смартфонах, что позволяет выполнять задачи на ходу и тратить меньше времени. В отличие от программ от Google и Apple, использующих браузер Chrome, Cortana использовала разработку Microsoft Bing. Ассистент добавлен в умную колонку Harmon Kardon Invoke и консоль Xbox One [10]. Основные параметры:
- система позиционируется как помощник для поиска информации;
- система предназначена для управления сервисами Microsoft, способна выполнять уникальные функции, принимать голосовые команды;
- система может использоваться на следующих мобильных ОС: Android, IOS;
- система обладает «человечностью».
Основные недостатки заключаются в
недоработанной реализации уникальных функций.
Siri
Siri проста в использовании и может выполнять короткие команды. Искусственный интеллект подстраивается за несколько недель под человека, начинает лучше реагировать на пользователя, что помогает улучшить распознавание речи. Существует возможность корректировки произношения Siri. Также есть поддержка русского языка [8].
Рассмотрим функционал голосового помощника по основным параметрам:
- система позиционируется как средство воспроизведения музыки;
- система имеет реализацию управления умными девайсами;
- способность осуществления поиска информации в интернете;
- система способна к интеграции к различным социальным сетям;
- система может использоваться на следующих мобильных ОС: Android, IOS;
- система может работать на 21 языке, включая диалекты.
Основные недостатки заключаются в медленной работе, низком уровне «человечности», в недоступности для многих приложений и сервисов.
Сравнительные Google Assistant Яндекс Алиса Amazon Alexa Microsoft Cortana Siri
особенности
Компания- Google Яндекс Amazon Microsoft Apple
производитель
Активационная фраза «О'кей, Google» «Привет, Алиса» «Alexa» нет «Привет, Siri»
Позиционирование Поисковик Музыкальная колонка Управление умным домом Поисковик Музыкальная колонка
Решаемые задачи Управление Обработка Управление Получать сведения Управление
умными голосового умными о ближайших умными
устройствами; запроса; устройствами; собраниях; устройствами;
поиск управление взаимодействие с поиск информации поиск
информации в медиа товарами и в интернете; информации в
интернете; справочная сервисами Amazon; управление умными интернете; цифровая няня
информация дозаказ новых продуктов; справочная информация устройствами; создание уникальных функций
Интеграция с умными Да Да Да Да Да
устройствами
Интеграция с Нет Да Нет Да Нет
социальными сетями
и почтовыми
сервисами
«Человечно сть» Может Может Нет Нет Может
(нестандартность поддержать поддержать поддержать
ответов на самые простые разговор, самые простые
нестандартные диалоги рассказывать диалоги
вопросы) сказки или шутить
Понимает команды и Да Да Да Да Зависит от
произвольную речь голосовых команд
Мобильное Android, iOS, Android, iOS, Android, iOS Android, iOS Android, iOS
приложение браузер Chrome браузер Яндекс
Язык Порядка 30 русский английский; английский; 21 язык,
языков французский; немецкий; японский; испанский; хинди французский; немецкий; японский; испанский; португальский; китайский включая диалекты
Сравнительные характеристики функциональных возможностей голосовых помощников
Вывод
Исходя из проведенного анализа вышеупомянутых систем, можно сделать вывод, что рассмотренные системы обладают искусственным интеллектом. Они способны распознавать речь, давать ответы, выполнять команды. Рассмотренные системы имеют ряд преимуществ, таких как наличие высокого уровня «человечности», способность к самообучению, автоматически воспроизводить операции, но также есть и недостатки. Данные платформы не соответствуют качеству по соответствию времени отклика и предоставленным функционалом, отсутствует быстрая интеграция с другими системами и универсальной принадлежности. В дальнейшем будет представлена платформа, решающая поставленные задачи.
Литература
1. Применение распознавания речи в автоматизированных системах массового обслуживания / В.А. Жожи-
кашвили и др. // Автоматизация и современные технологии. 2003. № 11. С. 23-29.
2. Краткое описание индивидуальных особенностей электронных помощников. URL: https://markakachestva.ru/rating-of/4006-luchshie-golosovye-pomoschniki.html.
3. Основные характеристики популярных электронных помощников. URL: https://blog.dti.team/voice-assistants-1/.
4. Бабин Д.Н., Мазуренко И.Л., Холоденко А.Б. О перспективах создания системы автоматического распознавания слитной устной русской речи // Интеллектуальные системы. 2003. Т. 6. Вып. 1-4. С. 5 - 24.
5. Baker J.K. Stochastic modeling for automatic speech understanding // Speech Recognition / ed. D.R. Reddy. New York: Academic Press, 1975. P. 521-542.
6. Раскин Д. Интерфейс: новые направления в проектировании компьютерных систем. М.: Символ, 2019.
7. Деангелис О., Деангелис Д. Google. М.: ИД Комсомольская правда, 2020.
8. Каммингс Д.Д. Apple. М.: ИД Комсомольская правда, 2020.
9. Шеннон М. Amazon. М.: ИД Комсомольская правда, 2020.
10. Лора Л. Microsoft. М.: ИД Комсомольская правда,
2020.
Поступила 30.11.2021; принята к публикации 17.02.2021 Информация об авторах
Малиновкин Владислав Алексеевич - магистрант, Воронежский государственный технический университет (394006, Россия, г. Воронеж, ул. 20-летия Октября, 84), e-mail: [email protected]
Валуйских Никита Владимирович - бакалавр, Воронежский государственный технический университет (394006, Россия, г. Воронеж, ул. 20-летия Октября, 84), e-mail: [email protected]
Шведов Николай Николаевич - бакалавр, Воронежский государственный технический университет (394006, Россия, г. Воронеж, ул. 20-летия Октября, 84), e-mail: [email protected]
Кенин Сергей Леонидович - канд. техн. наук, руководитель проектов, филиал в г. Воронеж ООО "Атос Айти Солюшенс Энд Сервисез" (394026, Россия, г. Воронеж, проспект Труда, 65), e-mail: [email protected]
Гребенникова Наталия Ивановна - канд. техн. наук, доцент, Воронежский государственный технический университет (394006, Россия, г. Воронеж, ул. 20-летия Октября, 84), e-mail: [email protected]
OVERVIEW OF VOICE INTERFACE TOOLS AND SPEECH RECOGNITION TECHNOLOGIES
V.A. Malinovkin1, N.V. Valuyskikh1, N.N. Shvedov1, S.L. Kenin2, N.I. Grebennikova1
Voronezh State Technical University, Voronezh, Russia 2LLC "Atos IT Solutions and Services", Voronezh, Russia
Abstract: speech recognition task is one of the most difficult and demanded tasks at the present time. Voice assistants implemented using voice interfaces greatly simplify the management of various systems in limited conditions. Such interfaces should have an intuitive interface for comfortable use by people with various kinds of limitations. When developing a system, the fulfillment of this criterion is one of the main tasks in creating modern technical systems. Currently, the global speech recognition market is of huge volume and high dynamics of development, while the market for speech recognition systems in Russia is small but has prospects for development. This article reviewed the most advanced voice assistants: Goodle Assistand, Amazon Alexa, Microsoft Cortana, Siri, Yandex Alice. We made a comparison in terms of general indicators. Both positive and negative aspects were identified. The advantages are due to such parameters as: the presence of a high level of "humanity", the ability to self-learn, automatically reproduce operations. Among the drawbacks, the most critical are such moments as: mismatch in quality in terms of compliance with the response time and the provided functionality, the lack of quick integration with other systems and universal accessory
Key words: voice interface tools, speech recognition technologies, providing comfortable conditions for users of modern technical systems
References
1. Jozhikashvili V.A. et al. "Application of speech recognition in automated queuing systems", Automation and Modern Technologies (Avtomatizatsiya I sovremennye tekhnologii), 2003, no. 11, pp. 23-29.
2. A brief description of the individual characteristics of electronic assistants, available at: https://markakachestva.ru/rating-of/4006-luchshie-golosovye-pomoschniki.html.
3. The main characteristics of popular electronic assistants, available at: https://blog.dti.team/voice-assistants-1 /.
4. Babin D.N., Mazurenko I.L., Kholodenko A.B. "On the prospects of creating a system of automatic recognition of the continuous speech in Russian", Intellectual Systems (Intelektual'nye sistemy), 2003, vol. 6, no. 1-4, pp. 5-24.
5. Baker J.K. "Stochastic modeling for automatic speech understanding", Speech Recognition, ed. D.R. Reddy, New York: Academic Press, 1975, pp. 521-542.
6. Raskin D. "Interface: new directions in the design of computer systems", 2019
7. De Angelis O., De Angelis D. "Google", 2020
8. Cammings J.D. "Apple", 2020
9. Shennon M. "Amazon", 2020
10. Lora L. "Microsoft", 2020
Submitted 30.11.2021; revised 17.02.2021 Information about the authors
Vladislav A. Malinovkin, MA, Voronezh State Technical University (84 20-letiya Oktyabrya str., Voronezh 394006, Russia), e-mail: [email protected]
Nikita V. Valuyskikh, bachelor, Voronezh State Technical University (84 20-letiya Oktyabrya str., Voronezh 394006, Russia), e-mail:[email protected]
Nikolay N. Shvedov, bachelor, Voronezh State Technical University (84 20-letiya Oktyabrya str., Voronezh 394006, Russia), e-mail:nik. [email protected]
Sergey L. Kenin, Cand. Sc. (Technical), ATOS (Voronezh) (65 Truda ave., Voronezh 394026, Russia), e-mail: [email protected]
Nataliya I Grebennikova, Cand. Sc. (Technical), Associate Professor, Voronezh State Technical University (84 20-letiya Oktyabrya str., Voronezh 394006, Russia), e-mail: [email protected]