Научная статья на тему 'Исследование сервиса компании Google inc.. По распознаванию русской речи'

Исследование сервиса компании Google inc.. По распознаванию русской речи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
676
89
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЬ / РАСПОЗНАВАНИЕ РЕЧИ / РЕЧЕВЫЕ СООБЩЕНИЯ / GOOGLE / GOOGLE API

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Жиляков Е. Г., Бабаринов С. Л., Чадюк П. В.

В работе проводится исследование особенностей системы распознавания речи компании Google, анализируются результаты поисковых запросов выданных в ответ на заданные лексические единицы. Необходимо производить оценку эффективности современных систем распознавания речи для разработки методов, которые позволять улучшить или создать новые системы распознавания речи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Жиляков Е. Г., Бабаринов С. Л., Чадюк П. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Исследование сервиса компании Google inc.. По распознаванию русской речи»

Серия История. Политология. Экономика. Информатика. 2013. №15 (158). Выпуск 27/1

УДК 004.522

исследование сервиса компании google inc. по распознаванию русской речи

Е.Г. ЖИЛЯКОВ СЛ. БАБАРИНОВ П.В. ЧАДЮК

Белгородский

государственный

национальный

исследовательский

университет

e-mail:

zhilyakov@bsu.edu.ru

babarinov@bsu.edu.ru

В работе проводится исследование особенностей системы распознавания речи компании Google, анализируются результаты поисковых запросов выданных в ответ на заданные лексические единицы. Необходимо производить оценку эффективности современных систем распознавания речи для разработки методов, которые позволять улучшить или создать новые системы распознавания речи.

Ключевые слова: речь, распознавание речи, речевые сообщения, google, google api.

В настоящее время наблюдается рост интереса к системам распознавания речи, это обусловлено, в первую очередь, повсеместным распространением мобильных устройств, управление которыми естественно осуществлять при помощи голоса, в виду ограниченности интерфейсов ручного ввода [1,2]. Существующие технологии распознавания зачастую не имею широкого распространения в виду их ограниченности по одному или нескольким параметрам. Так, например, системы позволяющие распознать большинство пользовательских запросов требуют подключения к сети Интернет (к удаленным серверам, на которых происходит обработка запросов), в виду недостаточной вычислительной мощности и ограниченности выделенной под словарь памяти. Размер рынка систем распознавания речи оценивается в 1 миллиард долларов США (по состоянию на 2012 год) и планируется его рост. Основными драйверами рынка выступают спрос в области голосовой биометрии в судебно-медицинских и военных целях.

В данной работе рассмотрены особенности сервиса распознавания речи Google Inc., Google API - интерфейса прикладного программирования, которое представляет собой набор определенных (неизвестных) процедур, функций и констант для распознавания речи и автоматического ее преобразования в текст. Сервис распознавания речи от Google представляет собой сложную структуру, использующую систему распределенных вычислений для обработки запросов, благодаря большим вычислительным мощностям и ресурсам памяти, доступным компании. Поисковая машина собирает и индексирует все поступившие на нее запросы, таким образом, формируется некоторая база данных, которая позволяет с определенной вероятностью предсказывать запрос по некоторым начальным данным.

Система распознавания ориентирована в первую очередь на выполнение поисковых запросов, в результате чего время активного распознавания ограничено примерно 32 словами. Модуль распознавания голоса встроен в некоторые программные продукты компании Google и ее партнеров такие как: браузер Google Chrome, операционную систему Android и т.д. Для каждого языка, системой распознавания, предусмотрена своя база данных речевых сигналов, а также словарь, составленный с использованием проиндексированных поисковых запросов. Google API работает с аудио-файлами кодированными без потерь в формате "flac" (Free Lossless Audio Codec) с частотой дискретизации 16 кГц и глубиной дискретизации 16 бит.

Цель проведения исследования - изучить особенности сервиса распознавания речи Google Inc. и дать оценку ее применимости. Для достижения поставленной цели были проведены следующие эксперименты:

Запись речевого материала производилась с помощью персонального компьютера, оборудованного звуковой картой и микрофоном, и следующим программным обеспече-

нием: операционная система Linux и командная оболочка Bash, в тихом помещении, изолированном от посторонних акустических шумов. Чтение речевого материала производилось ровным голосом, уровень громкости голоса поддерживался на протяжении всей записи. Запись производилась последовательно тремя дикторами: двумя мужчинами 23 и 22 лет и женщиной 18 лет, не имеющих дефектов речи и слуха. Зачитанный речевой материал подвергался кодированию средствами ЭВМ и пересылался с помощью каналов Интернет на сервер Google API, который располагается по адресу: "http://www.google.com/speech-api/vi/recognize?lang=ru-RU&client=chromium".

После обработки данных, сервер давал ответ на заданный запрос в виде распознанного текста, а также значения достоверности, с которой текст был распознан, данный параметр сервер определяет автоматически исходя из запрограммированных в него алгоритмов. Эксперименты проводились с разными лексическими единицами, для каждого отдельного случая число повторений составляло от 25 до 50 повторений (в случае фраз -каждый результат рассматривался отдельно), полученные при этом значения усреднялись сначала для каждого диктора, затем и для группы дикторов. Все результаты заносились в таблицы.

Эксперимент 1. Исследование распознавания звуков русской речи.

В ходе данного эксперимента проводилось исследование возможности распознавания системой звуков русской речи. В русском языке 43 основных звука (6 гласных и 37 согласных), количество гласных букв в алфавите составляет 10, а согласных 21, что создает некоторую сложность из-за того, что сервер предоставляет ответ на запрос не в виде транскрипции, а в виде текста. Следовательно, невозможно судить об эффективности определения отдельных звуков.

Эксперимент 2. Исследование распознавания слогов русской речи.

В ходе следующего эксперимента проводилось исследование возможности распознавания системой слогов русской речи. В русском языке около 1000 основных слогов, для чистоты эксперимента были выбраны слоги, по большей части не содержащие смысловую нагрузку, что позволит выявить особенности работы системы распознавания. Результаты этого эксперимента представлены в табл. 1.

Таблица1

Протокол эксперимента 2

Диктор А B С Среднее

№ Слоги Распознано верно, % Достоверность, % 1 ft ю 8 \° Я ох И 0 (0 д 0 * § рц Достоверность, % 1 ft ю 8 \° Я ох И 0 (0 д 0 * § рц ,ь сть о н р е% в о сто о Д Распознано верно, % ,ь сть о н р е% в о сто о Д

1 вабь 0 0 0 0 0 0 0,00 0,00

2 зуть 0 0 0 0 0 0 0,00 0,00

3 свон 0 0 0 0 0 0 0,00 0,00

4 жас 0 0 0 0 0 0 0,00 0,00

5 нак 0 0 0 0 0 0 0,00 0,00

6 сун 0 0 0 0 0 0 0,00 0,00

7 трек 0 0 0 0 0 0 0,00 0,00

8 мим 0 0 0 0 0 0 0,00 0,00

9 думь 0 0 0 0 0 0 0,00 0,00

10 приш 0 0 0 0 0 0 0,00 0,00

11 ель 72 65 80 67 70 60 74,00 64,00

12 хась 0 0 0 0 0 0 0,00 0,00

13 тыч 0 0 0 0 0 0 0,00 0,00

14 куф 0 0 0 0 0 0 0,00 0,00

15 лей 68 45 72 55 64 48 68,00 49,33

Продолжение табл. 1

16 тух 0 0 0 0 0 0 0,00 0,00

17 выщ 0 0 0 0 0 0 0,00 0,00

18 гер 0 0 0 0 0 0 0,00 0,00

19 силь 0 0 0 0 0 0 0,00 0,00

20 тем 0 0 0 0 0 0 0,00 0,00

Всего повторений для каждого эксперимента: 5°

Можно сделать вывод о том, что распознаванию поддаются только слоги, имеющие выраженную смысловую нагрузку, которые могут быть использованы в качестве самостоятельных слов.

Эксперимент 3. Исследование распознавания слов (имен существительных) русской речи.

В ходе третьего эксперимента проводилось исследование возможности распознавания системой слов русской речи, имен существительных. В русском языке — самостоятельная часть речи, обозначающая предмет и отвечающая на вопрос «кто?» или «что?» Существительные, в русской речи, наравне с глаголами, составляют смысловую основу языка, их изучение важно для оценки качества распознавания речи. Существительное называет предметы в широком смысле слова; это — названия вещей, лиц, веществ, живых существ и организмов, фактов, событий, явлений, географические положения, а также качеств, свойств, действий, состояний.

Слова выбраны случайно и затрагивают различные области. Результаты этого эксперимента, в сокращенной форме, представлены в табл. 2.

Таблица 2

Протокол эксперимента 3

Диктор А в С Среднее

№ Слова, существительные Распознано верно, % Достоверность, % Распознано верно, % д В 0 « ^ ч-9 Ю § ч 1 а Щ я 8 \° щ 0\ И 0 п И 0 и о й Рм д В 0 « ^ ч-9 Ю Й Распознано верно, % д В 0 « ^ ч-9 Ю §

1 Лесоповал 64 85 88 90 76 86 76,00 87,00

2 Площадь 94 90 100 92 96 92 96,67 91,33

3 Балалайка 72 94 100 90 84 91 85,33 91,67

4 Медведь 74 88 96 82 68 85 79,33 85,00

5 Осётр 96 31 56 29 66 32 72,67 30,67

6 Крыша 48 70 90 66 78 69 72,00 68,33

7 Омега 98 51 72 39 80 45 83,33 45,00

8 Пирамида 82 76 94 74 88 77 88,00 75,67

9 Журавль 78 79 96 88 84 82 86,00 83,00

10 Огнемет 66 35 44 27 52 29 54,00 30,33

11 Автомат 86 71 98 77 68 73 84,00 73,67

12 Спирт 96 21 78 27 54 22 76,00 23,33

13 Ледокол 92 84 100 77 94 80 95,33 80,33

14 Масон 8 25 18 25 20 25 15,33 25,00

15 Демократия 94 79 100 79 96 78 96,67 78,67

16 Толерантность 88 75 98 76 86 73 90,67 74,67

17 Сгущенка 100 65 78 66 82 67 86,67 66,00

18 Тетрадь 44 78 96 69 70 73 70,00 73,33

19 Твердь 0 31 0 41 0 30 0,00 34,00

20 Ярость 88 59 94 71 66 64 82,67 64,67

21 Вертолет 88 74 100 76 90 77 92,67 75,67

22 Фотон 96 49 58 55 56 53 70,00 52,33

23 Радость 78 63 90 43 62 56 76,67 54,00

Продолжение табл. 2

24 Депозит 74 53 98 49 78 51 83,33 51,00

25 Шахматы 94 86 100 73 98 80 97,33 79,67

Всего повторений для каждого эксперимента: 50

Среднее значение распознанных существительных составляет 73,88 процента. Что позволяет судить о достаточно высокой эффективности системы распознавания.

Эксперимент 4. Исследование распознавания слов (глаголов) русской речи.

В ходе четвертого эксперимента проводилось исследование возможности распознавания системой слов русской речи, глаголов. Глагол является самостоятельной частью речи, которая обозначает действие или состояние и отвечают на вопросы что делать? что сделать? что делал (а, и, о)? В русском языке глагол выражается в формах вида, лица, рода, числа, наклонения, времени, залога. Слова выбраны случайно и затрагивают различные действия и состояния. Результаты этого эксперимента, в сокращенной форме, представлены в табл. 3.

Таблицаз

Протокол эксперимента 4

Диктор А в С Среднее

№ Слова, глаголы Распознано верно, % Достоверность, % 1 а Щ я 8 \° щ 0\ и о 8 * в й Рм д в 0 « ^ 40 ю § § Распознано верно, % д в 0 « л чо ю § § Распознано верно, % в 0 « л чо ю §

1 Валить 64 42 68 39 74 44 68,67 41,67

2 Мечтать 94 68 94 68 92 66 93,33 67,33

3 Рубить 72 37 84 44 68 42 74,67 41,00

4 Пилить 0 33 0 37 0 35 0,00 35,00

5 Ненавидеть 96 72 96 78 94 76 95,33 75,33

6 Прощать 48 27 94 51 52 41 64,67 39,67

7 Разрушать 98 78 92 59 94 77 94,67 71,33

8 Летать 82 67 94 52 88 57 88,00 58,67

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

9 Читать 78 62 100 78 76 74 84,67 71,33

10 Шептать 68 51 90 69 70 67 76,00 62,33

11 Грозить 52 24 58 29 46 27 52,00 26,67

12 Уничтожать 96 81 96 72 94 76 95,33 76,33

13 Создавать 92 67 98 74 96 72 95,33 71,00

14 Творить 26 21 30 24 28 23 28,00 22,67

15 Думать 94 72 92 74 90 74 92,00 73,33

16 Примиряться 0 23 0 27 0 25 0,00 25,00

17 Бороться 100 89 24 26 58 63 60,67 59,33

18 Сдаваться 44 44 18 29 34 36 32,00 36,33

19 Раскаиваться 84 63 56 30 72 54 70,67 49,00

20 Целиться 0 27 0 57 0 39 0,00 41,00

21 Писать 88 69 94 71 90 72 90,67 70,67

22 Использовать 96 76 98 82 98 80 97,33 79,33

23 Умолять 68 31 84 67 58 61 70,00 53,00

24 Выбирать 74 51 78 49 76 48 76,00 49,33

25 Закрывать 94 67 96 76 92 71 94,00 71,33

Всего повторений для каждого эксперимента: 50

Среднее значение распознанных глаголов составляет 53,19 процента, ухудшение в количество распознаваемых слов можно объяснить тем, что отдельные глаголы редко используются в качестве самостоятельных единиц речи.

Эксперимент 5. Исследование распознавания слов (прилагательных и наречий) русской речи.

В ходе пятого эксперимента проводилось исследование возможности распознавания системой слов русской речи, имен прилагательных и наречий Имя прилагательное — самостоятельная часть речи, обозначающая признак предмета и отвечающая на вопросы «какой», «какая», «какое», «какие», «чей». В русском языке прилагательные изменяются по родам, падежам и числам, могут иметь краткую форму. В предложении прилагательное чаще всего бывает определением, но может быть и сказуемым. Наречие — часть речи, неизменяемая, обозначающая признак действия, признак признака. Слова этого класса отвечают на вопросы «как?», «где?», «куда?», «откуда?», «когда?», «зачем?», «с какой целью?», «в какой степени?» и чаще всего относятся к глаголам и обозначают признак действия. Слова выбраны случайно и затрагивают различные признаки, в том числе признаки действия и т.д. Результаты этого эксперимента в сокращенной форме представлены в табл. 4.

Таблица 4

Протокол эксперимента 5

Диктор А в С Среднее

№ Слова, прилагательные и наречия Распознано верно, % Достоверность, % Распознано верно, % о\ д В 0 в а ю § § Распознано верно, % о\ Д В 0 « а щ я § ч 0 и а Щ я 0 § ^ и п 0 и у а \Р о\ Д В 0 « а щ я §

1 Закрыто 0 32 0 34 0 28 0,00 31,33

2 Красный 94 79 90 74 94 81 92,67 78,00

3 Печальный 96 79 84 61 98 67 92,67 69,00

4 Веселый 98 81 96 63 96 78 96,67 74,00

5 Наивный 96 76 30 49 68 58 64,67 61,00

6 Медленно 94 63 78 61 86 68 86,00 64,00

7 Забывчиво 0 37 0 29 0 27 0,00 31,00

8 Зеленый 98 63 90 61 88 72 92,00 65,33

9 Сыро 0 31 0 34 0 27 0,00 30,67

10 Грязно 90 42 86 39 94 58 90,00 46,33

11 Чисто 30 37 88 43 58 42 58,67 40,67

12 Ветреный 48 27 76 58 68 48 64,00 44,33

13 Осенний 64 56 72 54 80 62 72,00 57,33

14 Поздний 16 31 38 29 28 40 27,33 33,33

15 Призрачный 78 69 82 54 82 58 80,67 60,33

16 Туманный 100 81 98 87 98 91 98,67 86,33

17 Ясный 20 34 24 39 32 40 25,33 37,67

18 Прекрасный 54 57 92 54 78 68 74,67 59,67

19 Забытый 96 71 96 66 100 81 97,33 72,67

20 Обесчещенный 0 31 0 48 0 27 0,00 35,33

21 Удаленный 98 63 100 61 98 78 98,67 67,33

22 Упоенный 98 84 98 86 100 91 98,67 87,00

23 Электрический 94 76 100 71 96 81 96,67 76,00

24 Компьютерный 92 54 94 65 98 71 94,67 63,33

25 Вариационный 72 67 96 79 88 69 85,33 71,67

Всего повторений для каждого эксперимента: 50

Среднее значение распознанных глаголов составляет 58,83 процента, данное значение находится между значениями, полученными для глаголов и существительных, что также объясняется меньшим количеством поисковых запросов основанных только на прилагательных.

Эксперимент 6. Исследование распознавания слов (популярных запросов в поисковую систему).

В ходе шестого эксперимента проводилось исследование возможности распознавания системой слов русской речи, а именно популярных запросов, обращенных к поис-

и a\/i ililiit Dir плнлптн oco Серия История. Политология. Экономика. Информатика.

252 НАУЧНЫЕ ЬсДимиС I И 252

2013. №15 (158). Выпуск 27/1

ковой машине Google. Список запросов был составлен согласно информации полученной от информационной системы Google. Данный эксперимент позволит оценить, используются ли технологии подобные Google Suggest (Технология автозаполнения строки поискового запроса на основе общей статистики самых популярных запросов, таким образом, запрос пользователя «предсказывается» после ввода уже нескольких символов, и в выпадающем списке предлагается выбор готовых слов и словосочетаний.), в системе распознавания. Результаты этого эксперимента представлены в табл.5.

Таблица 5

Протокол эксперимента 6

Диктор А B С Среднее

№ Слова, популярные запросы 0 и а Щ я 0 § ^ и m 0 В й а Достоверность, % Распознано верно, % \р % ,ь сть о н р е в осто До 0 и а Щ я 0 9 ^ и m 0 и у а % ,ь сть о н р е в осто До 0 и а Щ я 0 9 ^ и m 0 И у а \Р % ,ь сть о н р е в осто До

1 Торрент 90 69 94 47 96 57 93,33 57,67

2 Твиттер 58 36 100 36 86 66 81,33 46,00

3 Гугл 98 60 100 56 100 61 99,33 59,00

4 Скачать 96 86 98 81 88 84 94,00 83,67

5 Википедия 98 85 96 84 96 81 96,67 83,33

6 Вконтакте 98 78 82 64 88 72 89,33 71,33

7 Юмор 94 81 94 78 96 83 94,67 80,67

8 Фейсбук 96 70 100 71 98 77 98,00 72,67

9 Яндекс 100 69 100 51 100 73 100,00 64,33

10 Кино 98 82 98 76 94 78 96,67 78,67

Всего повторений для каждого эксперимента: 50

Данный эксперимент показывает существенно лучшее качество распознавания, среднее значение которого составляет 94,33%- Это говорит о том, что система изначально предназначалась для работы с поисковыми запросами и данную задачу она выполняет с максимальной эффективностью.

Эксперимент 7- Исследование распознавания словосочетаний.

В ходе этого эксперимента проводилось исследование возможности распознавания системой словосочетаний русской речи. Словосочетания представляют собой большую долю всех поисковых запросов- Результаты этого эксперимента представлены в табл. 6.

Таблица 6

Протокол эксперимента 7

Диктор А B С Среднее

№ Словосочетания Распознано верно, % Достоверность, % Распознано верно, % \Р % ,ь сть о н р е в осто ч Распознано верно, % % ,ь сть о н р е в осто Ч Распознано верно, % \Р % ,ь сть о н р е в осто Ч

1 Земная твердь 100 92 96 91 92 90 96,00 91,00

2 Метод оценок 88 56 88 54 92 61 89,33 57,00

3 Полет в космос 88 81 88 84 92 78 89,33 81,00

4 Видеть небо 100 76 100 70 96 76 98,67 74,00

5 Заглянуть в бездну 96 88 100 92 100 89 98,67 89,67

6 Чаша терпения 100 90 100 91 100 88 100,00 89,67

7 Устойчивое выражение 100 91 96 92 96 87 97,33 90,00

8 Дивный новый мир 100 91 96 88 96 88 97,33 89,00

Продолжение табл. 6

9 Математический анализ 100 94 100 92 92 92 97,33 92,67

10 На улице сыро 96 84 96 82 92 82 94,67 82,67

11 Здесь все закрыто 92 75 96 84 92 84 93,33 81,00

12 Я не хотел лгать 0 68 0 71 0 71 0,00 70,00

13 Целиться в мишень 68 75 72 78 60 81 66,67 78,00

14 Вносить поправки 72 81 84 80 76 80 77,33 80,33

15 Выглядеть забывчиво 0 31 0 29 0 29 0,00 29,67

16 Когнитивный диссонанс 88 78 96 84 100 84 94,67 82,00

17 Квантовый компьютер 92 86 88 86 88 86 89,33 86,00

18 Нечеткое множество 96 92 88 92 96 92 93,33 92,00

19 Обагренный клинок 92 82 92 84 100 83 94,67 83,00

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

20 Удаленный доступ 100 96 100 91 96 91 98,67 92,67

Всего повторений для каждого эксперимента: 25

Качество распознавания словосочетаний находится на высоком уровне и составляет в среднем 96%. Здесь необходимо отметить, что очень высокий уровень распознавания обеспечен высоким качеством языковой модели, используемой системой. Языковая модель определяет вероятность использования тех или иных слов в устойчивых сочетаниях.

Эксперимент 8. Исследование распознавания фраз.

В ходе восьмого эксперимента проводилось исследование возможности распознавания системой фраз. Данный эксперимент позволит сделать выводы, о возможности системы распознавания согласовывать лексические единицы.

Для эксперимента использовался следующий набор фраз различной тематики:

1. В наше время люди, которых называют умными, обманывают других, прикрываясь показной мудростью.

2. В основе современной биологии лежат пять фундаментальных принципов: клеточная теория, эволюция, генетика, гомеостаз и энергия.

3. Черный взгляд безумных глаз - на бедре клинок убийца не вернуть последний шанс и назад не возвратиться

4. Система использует технологию единого входа, при которой пользователь переходит от одного ресурса интрасети к другому без повторной аутентификации

5. Кто, по-вашему, этот мощный старик? Не говорите, вы не можете этого знать. Это — гигант мысли, отец русской демократии и особа, приближенная к императору.

6. Все в мире сложно и обусловливается различными факторами. Любой вопрос следует рассматривать со всех сторон, а не с одной лишь стороны.

7. Вы рветесь в рай, а я спускаюсь в ад. Для всех чужой, я не вернусь назад и вечности клинком отсалютую.

8. Весной 334 года до н. э. Александр начал легендарный поход на Восток и за семь лет полностью завоевал Персидскую империю.

9. Сам термин «антиутопия» как название литературного жанра ввели Гленн Негли и Макс Патрик в составленной ими антологии утопий «В поисках утопии».

10. Научные труды Планка посвящены термодинамике, теории теплового излучения, квантовой теории, специальной теории относительности, оптике.

Количество повторений фраз было выбрано равным пяти. После этого было рассчитано среднее количество верно принятых слов на одну фразу Эффективность распознавания оценивалась по количеству верно принятых слов. Результаты данного эксперимента представлены в табл. 7.

Протокол эксперимента S

Таблица 7

Диктор А Диктор B Диктор С Среднее

Фраза № Достоверность, % Распознано слов верно, кол-во ,ь сть о н р е% в о сто о Д Распознано слов верно, кол-во Достоверность, % Распознано слов верно, кол-во ,ь сть о н р е% в о сто о Д Распознано слов верно, кол-во Всего слов, кол-во

1 о,68 8 0,72 q 0,б5 7 о,68 8 i2

2 0,7З 10 0,74 11 0,70 q 0,72 10 i5

З 0,78 14 0,78 1З 0,82 12 0,7q 1З i6

4 0,б2 10 0,б8 8 0,71 q 0,б7 q iS

5 0,85 18 0,78 16 0,6q 15 0,77 1б 24

б 0,58 14 0,51 10 0,б0 12 0,5б 12 2i

7 0,7б 14 0,81 15 0,7б 17 0,78 15 20

8 0,80 20 0,70 1q 0,80 1б 0,77 18 22

q 0,57 10 0,54 14 0,57 14 0,5б 1З 2i

10 0,77 1З 0,75 1З 0,77 12 0,7б 1З i4

В результате экспериментов, было определено, что процент понятности фраз, распознанных системой Google фраз составляет примерно 70% от всего количества.

Эксперимент q. Исследование распознавания связанного по смыслу текста

В ходе последнего, девятого, эксперимента проводилось исследование возможности распознавания системой связанного по смыслу текста.

Однако, в ходе проведения данного эксперимента, было отмечено, что время активного распознавания ограничено 20 секундами, что в среднем соответствует З2 словам, в данный временной интервал укладывается одна фраза. На данный момент технология распознавания непрерывной речи (Google Now) доступна только на планшете компании Google -Google Nexus.

В результате исследования можно сделать вывод о том, что система распознавания Google основана на статистике. А именно статистике поисковых запросов — обработке миллионов и миллиардов реальных слов и выражений, которые люди употребляют при построении своих фраз.

База запросов формируется путем их сбора, через поисковую строку Google, т.е. распознаванию поддается все, что когда-либо люди писали в поисковой строке. Это называется распознавание по общей языковой модели, т.е. разговор обо всем сразу на любую тему и использование стандартных разговорных слов и выражений.

Невозможность распознать некоторые слова и словосочетания объясняется ограниченным объемом словаря, который, тем не менее, имеет некоторую ротацию в виду изменения состава запросов. Оптимальный размер словаря составляет порядка миллиона слов. Причем в это количество входят не только сами слова, но и все словоформы, собственные имена, названия компаний и т. п. Это одна из причин, по которой русский вариант голосового поиска менее точен в распознавании, чем английский. В этот миллион словоформ, например, входят слова в различных падежах [3].

Однако Google не сможет распознать речь, относящуюся к узкой специфической тематике, распознавание Google вообще специально не обучаемо под конкретные словари. Например, фраза «187 см ниже уровня линии oZ по отношению к линии oX» — это реальная фраза из проекта, которую Google не распознает правильно, т.к. люди такое в повседневной речи не используют, а здесь присутствуют смешанные алфавиты.

Список литературы

1. Жиляков Е.Г., Прохоенко Е.И., Фирсова А.А., Секисов Д.К. Компьютерная сегментация речевых — Вопросы радиоэлектроники, серия ЭВТ, выпуск 1, 2012 г., стр. 48 — 53.

Серия История. Политология. Экономика. Информатика. 2013. №15 (158). Выпуск 27/1

2. Жиляков Е.Г., Фирсова А.А., Чеканов Н.И. Алгоритмы обнаружения тона речевых сигналов Научные ведомости Белгородского Государственного Университета, №1 (120) 2012 г., выпуск 21/1.

3. Мамантов Д. Спросить человеческим языком: говорите [Электронный ресурс] //

Популярная механика, портал о том как устроен мир [Офиц. сайт]. ШЬ: http://www.popmech.ru/article/9269-sprosit-chelovecheskim-yazyikom/ (дата обращения:

4. Лобанов Б.М., Цирульник Л.М. Компьютерный синтез и клонирование речи. - М. Белорусская Наука», 2008, 316 стр.

5. Davies K.H., Biddulph, R. and Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits, J. Acoust. Soc. Am. 24 (6) pp. 637 — 642.

05.09.2013).

google inc. russian speech recognition service research

E.G.ZHILYAKOV S.L. BABARINOV P.V. CHADYUK

In this paper we study the features of Google voice recognition software, analyzed the results of search queries issued in response to a given lexical item. It's essential to assess the effectiveness of modern speech recognition systems for the development of techniques that allow to improve or create new speech recognition system.

Belgorod National Research University

e-mail:

zhilyakov@bsu.edu.ru

babarinov@bsu.edu.ru

Keywords: speech, speech recognition, voice messages, google, google api.

i Надоели баннеры? Вы всегда можете отключить рекламу.