Исследование надежности распознавания речи системой Google Voice Search

Бобкин Д.В.; Жигалов К.Ю.

Электронный журнал Cloud of Science. 2015. T. 2. № 3

http:/ / cloudofscience.ru ISSN 2409-031X

Исследование надежности распознавания речи системой Google Voice Search

Д. В. Бобкин*, К. Ю. Жигалов**

Московский технологический институт, 119334, Москва, Ленинский проспект, 38а

"Институт проблем управления имени В. А. Трапезникова РАН 117997, Москва, ул. Профсоюзная, 65

e-mail: bobkindaniel@gmail.com, kshakalov@mail.ru

Аннотация. В настоящее время продолжаются попытки создания систем распознавания речи. Google, Apple и Dragon Systems являются одним из самых успешных разработчиков подобных программ. Программа Google Voice Search поддерживает русский языык с 2010 г. Данное расширение браузера Google Chrome позволяет осуществлять поиск различных сведений в Интернете с помощью устной речи. Так же Google Voice Search встроен в Google Maps для телефонов и планшетов. Политика Google — вставлять функцию распознавания речи в любой из их продуктов, есть функция поиска информации.

Целью исследования является определить реальные возможности данной системы, ее сильные и слабые стороны, определить, на что данная система в первую очередь нацелена — на выдачу результатов, которые будут в первую очередь опираться на статистику, или на выдачу результатов, которые будут совпадать по фонемам и по буквам со словом, которое быыло сказано в запросе. Так как Google Voice Search имеет закрыытый код, проверить надежность этой системы можно только экспериментальным путем.

Ключевые слова: распознавание речи, Google Voice Search, системы распознавания речи, алгоритм распознавания.

Основные понятия

В рамках создания естественноязыковых интерфейсов средств вычислительной техники многие годы решается задача автоматического распознования человеческой речи [ 1-7]. Приведем основные понятия и соответсвтующие классификационные признаки в системах рапознования речи.

Размер словаря. Частота ошибок в распознавании устной речи в письменную пропорционально зависит от размера словаря. Если словарь состоит только из цифр, то система с большей вероятностью будет их распознавать. В случае если словарь большой, то и частота появления ошибок распознавания становится большой [3].

Дикторозависимость. Системы распознавания речи делятся на дикторозави-симые и дикторонезависимые. В дикторозависимых системах распознается речь только одного человека, в отличие от дикторонезависимых систем, с которыми может работать любой человек. В дикторонезависимых системах процент ошибок больше, чем в дикторозависимых [5].

Раздельная или слитная речь. Системы распознавания речи могут распознавать слитную речь, естественно произнесенные предложения. Распознавание слитной речи представляет собой трудную задачу для любых систем. Раздельная речь — это та, в которой слова разделяются паузой или промежутком тишины [5, 7].

Структурные единицы. В качестве структурных единиц речи для ее автоматического распознавания могут выступать: фразы; слова; фонемы; дифоны; аллофоны.

Систему, распознающую речь на базе выделения вышеперечисленных лексических элементов создать намного легче, чем систему распознавания речи по шаблону. Как правило, системами распознавания речи по шаблону называют такие системы, которые для распознавания используют целые слова и фразы. Такие системы обычно дикторозависимы [6].

Выделение признаков. Существуют определенные подходы выделения структурных единиц. Один из таких подходов для выделения структурных единиц из потока речи основан на преобразовании Фурье. Также пытаются использовать вейвлет-анализ. В вейвлет-анализе входной сигнал раскладывается в базис функций, характеризующих как частоту, так и время. Помимо Фурье-анализа и вейвлет-анализа используется кепстральный анализ [5].

Назначение. Назначение системы определяет необходимый уровень абстракции, на котором будет происходить распознавание речи [1].

Выделяют три назначения системы распознавания речи:

- голосовые командные системы;

- системы устной диктовки (Речь-Текст);

- системы распознавания (Речь-Речь).

Пример командной системы — голосовой набор в мобильном телефоне. Такие системы довольствуются неточным распознаванием, в отличие от систем диктовки и систем распознавания, где распознавание ведется на базе выделения лексических элементов [5].

Базовые подходы к распознаванию речи

Завершающим этапом распознавания речи является вывод слов в символьном виде, которые система распознавания речи выявила. Существует несколько базовых алгоритмов или подходов к выявлению этих слов:

- скрытые марковские модели;

- искусственные нейронные сети;

- динамическое программирование;

- другие методы [3].

Динамическое программирование является довольно старым подходом и постепенно вытесняется новыми алгоритмами. Наиболее перспективный подход — искусственные нейронные сети, однако наиболее популярный метод — скрытые марковские модели.

Скрытые марковские модели. Наиболее популярный подход для автоматического распознавания речи — скрытые марковские модели. Они довольно содержательны в своей математической структуре и поэтому широко используются не только для исследования речи [3].

Скрытые марковские модели позволяют решать задачи распознавания речи, улучшать качество сигнала и многое другое [3].

Динамическое программирование. Динамическое программирование долгое время пользовалось популярностью среди подходов к распознаванию речи. Данный подход позволяет производить сравнение речевого фрагмента с созданными заранее эталоном слова. У систем распознавания речи одинаковые базовые принципы алгоритмов, отличается вычислительная сложность, объем памяти и сложность реализации [3].

Искусственные нейронные сети. Данный подход — попытка использования процессов, происходящих в нервных системах биологических организмов [3]. Искусственные нейронные сети являются самым перспективным методом. На базе нейронных систем создаются обучаемые и самообучающиеся системы распознавания речи [5].

Исследование Google Voice Search

Приведем пример эксперимента на проверку утверждения, что Google Voice Search уделяет большее внимание буквенной составляющей слова, чем фонемной составляющей.

В ходе исследования было выявлено, что Google Voice Search распознал фонемы и буквы у словосочетаний и слитной речи одинаково в 16 случаях из 33, что составляет 48,48485% от всех распознанных аудиофайлов. Google Voice Search распо-

Д. В. Бобкин,

К. Ю. Жигалов

Исследование надежности распознавания

речи системой Google Voice Search

знал фонемы лучше, чем буквы у словосочетаний и слитной речи в 5 случаях из 33, что составляет 15,15152% от всех распознанных аудиофайлов. Google Voice Search распознал буквы лучше, чем фонемы у словосочетаний и слитной речи в 11 случаях из 33, что составляет 33,33333% от всех распознанных аудиофайлов. Рис. 1 иллюстрирует распознавание фонем и букв Google Voice Search по отношению к словосочетаниям и слитной речи.

Рисунок 1. Распознавание фонем и букв Google Voice Search по отношению к словосочетаниям и слитной речи

В отношении изолированных слов Google Voice Search распознал фонемы и буквы в 40 случаях из 48, что составляет 93,75% от всех распознанных аудиофайлов. Google Voice Search распознал фонемы лучше, чем буквы у словосочетаний и слитной речи в 3 случаях из 33, что составляет 6,25% от всех распознанных аудиофайлов. Google Voice Search распознал буквы у словосочетаний и слитной речи лучше, чем фонемы в 0 случаях из 33, что составляет 0% от всех распознанных аудиофайлов. Рис. 2 показывает распознавание фонем и букв Google Voice Search по отношению к изолированным словам.

Получается, что Google Voice Search распознает буквенную составляющую лучше, чем фонемную составляющую в 10,70076% всех случаев. Google Voice Search распознает фонемы лучше, чем буквы в 16,6667% всех случаев. Рис. 3 показывает процентное соотношение того, насколько Google Voice Search распознает лучше буквы, чем фонемы по отношению ко всем аудиофайлам.

ПАКЕТЫ

ПРИКЛАДНЫХ

ПРОГРАММ

Рисунок 2. Распознавание фонем и букв Google Voice Search по отношению

к изолированным словам

Распознавание фонем и букв Google Voice Search по отношению ко всем аудиофайлам

□ распознанных фонем больше, чем распознанных букв

□ распознанных букв больше, чем распознанных фонем

Рисунок 3. Распознавание фонем и букв Google Voice Search по отношению

ко всем аудиофайлам

Из рис. 3 следует, что у Google Voice Search на выходе распознанных фонем больше, чем распознанных букв на 39%, а распознанных букв больше, чем распознанных фонем на 61%.

В результате вышеприведенных выводов можно считать, что утверждение о том, что Google Voice Search уделяет большее внимание буквенной составляющей слова, чем фонемной составляющей, является истинным.

Проведенные эксперименты были направлены на выявление плюсов и минусов в системе распознавании речи Google Voice Search и на поиск факторов, которые влияют на распознавание слов, словосочетаний и слитной речи данной системой. Так как система Google Voice Search является закрытой системой, выводы можно сделать только по результатам проведенных экспериментов.

Заключение

К плюсам Google Voice Search можно отнести:

- справляется с распознаванием русской речи;

- хорошо распознает изолированные слова;

- правильно распознает изолированные слова с разным темпом речи;

- нормализует аудиофайлы по громкости.

К минусам данной системы можно отнести:

- плохо распознает словосочетания и слитную речь;

- данная система предлагает английские слова вместо русских;

- уделяет большее внимание буквенной составляющей слова, чем фонемной составляющей слова;

- плохо распознает глухие согласные.

Факторы, которые влияют на распознавание слов, словосочетаний и слитную речь системой Google Voice Search:

- учитывает статистику (найденные ответы);

- обращает внимание на ударение в словах;

- не распознает слово, в котором механически или вживую вырезать букву;

- распознает слева направо;

- окружающие слова влияют на распознавание.

Эксперименты, которые помогли понять, насколько хорошо данная система распознает русскую речь, с какими трудностями сталкивается данная система. Благодаря данным экспериментам появилась возможность найти пути решения проблем распознавания речи, улучшить качество распознавания. Выявленные минусы данной системы и ошибки, которые допускает система, распознавая русскую речь, показывают, что у разработчиков Google Voice Search еще есть много над чем работать.

Следует, однако, подчеркнуть, что приведенные выше результаты являются предварительными. Например, в данных экспериментах не было аудиофайлов с женским голосом, поэтому оценка результатов данных экспериментов должна пониматься как субъективная.

Разработка систем распознавания речи сегодня вызывает большой интерес у программистов, потому что существует огромный спрос на данные системы [1, 2]. Результаты данных экспериментов могут быть интересны разработчикам данных систем. Программисты пользуются в основном одними и теми же алгоритмами распознавания речи и системы распознавания речи очень похожи друг на друга. Такие системы требуют доработки. Данные эксперименты показали области, в которых в системах распознавания речи можно что-то улучшать и совершенствовать.

Литература

[1] История развития систем распознавания речи: как мы пришли к Siri [Электронный ресурс] URL: http://geektimes.ru/post/131945/

[2] Ли У. А. Методы автоматического распознавания речи. — М. : Мир, 1983.

[3] Михайлов В. Г., Златоустова Л. В. Измерение параметров речи. — М. : Радио и связь, 1987.

[4] Распознавание речи. Часть 1. Классификация систем распознавания речи [Электронный ресурс] URL: http://geektimes.ru/post/64572/

[5] Реформатский А. А. Введение в языковедение. — М. : Аспект Пресс, 1967.

[6] Juang B. H., Rabiner L. R. Automatic Speech Recognition. A Brief History of the Technology Development. — USCB, 2012.

[7] Roebuck K. Speech Recognition: High-impact Emerging Technology — What You need to Know: Definitions, Adoptions, Impacts, Benefits, Maturity, Vendors. — Emereo Pty Limited, 2011.

Авторы:

Данила Васильевич Бобкин — студент кафедры информатики и автоматизации, Московский технологический институт

Кирилл Юрьевич Жигалов — кандидат технических наук, старший научный сотрудник лаборатории 22, Институт проблем управления имени В. А. Трапезникова РАН; доцент кафедры информатики и автоматизации, Московский технологический институт

Research on the Modern Speech Recognition System Google Voice Search

Danila Bobkin*, Kirill Yu. Zhigalov**

*Moscow Technological Institute, 38A, Leninckiy pr., Moscow, Russia, 119334

**V. A. Trapeznikov Institute of Control Sciences of Russian Academy of Sciences, 65, Profsoyuznaya st., Moscow, Russia, 117997

e-mail: bobkindaniel@gmail.com, kshakalov@mail.ru

Abstract. Nowadays, efforts to create a speech recognition systems continues. Google, Apple, and Dragon Systems are one of the most successful developers in this sphere.

Google Voice Search supports the Russian language from 2010. This program is an extension in the Google Chrome browser. This extension allows you to search a variety of information on the Internet with the help of speech. Also, Google Voice Search is built into Google Maps for mobile phones and tablets. Google's policy is to insert the voice recognition function in any of their products. The aim of this study is to determine the real possibilities of this system, its strengths and weaknesses, to determine what the system is primarily aimed — for the issuance of the results that will primarily rely on statistics or Google Voice Search relies on spelling of the words that were said in the request. Since Google Voice Search has a closed code, we can check the reliability of the system only experimentally. The accuracy in recognition will show us if we can trust this system.

Key words: speech recognition, Google Voice Search, speech recognition systems recognition algorithm.

Reference

[1] http://geektimes.ru/post/131945/

[2] Li U. A. (1983) Metody avtomaticheskogo raspoznavanija rechi. Moscow. (In Rus)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[3] Mihajlov V. G., Zlatoustova L. V. (1987) Izmerenie parametrov rechi. Moscow (In Rus)

[4] http://geektimes.ru/post/64572/

[5] Reformatskij A. A. (1967) Vvedenie v jazykovedenie. Moscow. (In Rus)

[6] Juang B. H., Rabiner L. R. (2012) Automatic Speech Recognition. A Brief History of the Technology Development. USCB.

[7] Roebuck K. (2011) Speech Recognition: High-impact Emerging Technology — What You need to Know: Definitions, Adoptions, Impacts, Benefits, Maturity, Vendors. Emereo Pty Limited.

Исследование надежности распознавания речи системой Google Voice Search Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бобкин Д.В., Жигалов К.Ю.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бобкин Д.В., Жигалов К.Ю.

Research on the Modern Speech Recognition System Google Voice Search

Текст научной работы на тему «Исследование надежности распознавания речи системой Google Voice Search»