Научная статья на тему 'Искусственный интеллект в системах распознавания речи'

Искусственный интеллект в системах распознавания речи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
2021
237
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / ОБРАБОТКА ЕСТЕСТВЕННОЙ РЕЧИ / ARTIFICIAL INTELLIGENCE / NATURAL SPEECH PROCESSING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Фролов В.В., Монастырная В.С.

Рассматривается взаимодействие человека с искусственным интеллектом в системах распознавания речи, его проблемы, пример его работы на примере Siri.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ARTIFICIAL INTELLIGENCE IN SPEECH RECOGNITION SYSTEMS

Тhe article examines the interaction of humans with artificial intelligence in speech recognition systems, its problems, how it works on the example of Siri.

Текст научной работы на тему «Искусственный интеллект в системах распознавания речи»

Секция «Информационно-экономические системы»

УДК 338.246

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ В СИСТЕМАХ РАСПОЗНАВАНИЯ РЕЧИ

В. В. Фролов, В. С. Монастырная Научный руководитель - Д. В. Тихоненко

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: pricladnaya.i@yandex.ru

Рассматривается взаимодействие человека с искусственным интеллектом в системах распознавания речи, его проблемы, пример его работы на примере Siri.

Ключевые слова: искусственный интеллект, обработка естественной речи.

ARTIFICIAL INTELLIGENCE IN SPEECH RECOGNITION SYSTEMS

V. V. Frolov, V. S. Monastyrnaya Scientific Supervisor - D. V. Tkhonenko

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: pricladnaya.i@yandex.ru

The article examines the interaction of humans with artificial intelligence in speech recognition systems , its problems, how it works on the example of Siri.

Keywords: artificial intelligence, natural speech processing.

Искусственный интеллект (ИИ) - это наука, которая изучает и занимается разработкой интеллектуальных машин, которые, реагируя на поступающую внешнюю информацию, выполняют функции человека.

Каждый человек, который, так или иначе, встречался с системой распознавания речи, задавался вопросом: Как «это» понимает меня и дает мне нужную информацию? Когда мы обращаемся к компьютеру (приложению) данного типа, он выполняет огромную работу, которую можно разделить на следующие пункты:

1. Компьютер улавливает колебания воздуха. Речь человека вызывает звук, а звук вызывает изменение движения воздуха, которые компьютер и должен уловить. Когда колеблющийся воздух попадает на чувствительный элемент - барабанную перепонку или микрофон, - он генерирует электрический сигнал благодаря особому устройству этих элементов.

2. Вычисляет из общего шума полезный сигнал (отделяет помехи от голоса). До этого этапа компьютер не может различить помехи и речь - для него они идентичны - набор электрических импульсов. Однако человеческий голос имеет своеобразные характеристики - частоту, высоту, повторение звуков. Применяя математический анализ к имеющимся звуковым данным, можно разделить шум и речь. Но так как помехи часто имеют те же характеристики, что и голос, задача разделения оказывается очень сложной и не всегда успешной. 3. Компьютер анализирует цифровой сигнал и строит осмысленную фразу за счет распознания каждого звука и перевода его в понятную для компьютера цифровую форму. 4. Компьютер начинает «играть» с полученными цифровыми звуками, как с кубиком Рубика, пытаясь построить осмысленную фразу, за счет своих доступных алгоритмов: Из имеющихся звуков он старается построить несколько фраз и из них выбирает наиболее подходящую по смыслу. 5. Компьютер выстроил осмысленную фразу и начинает выполнять команду [1-3].

Например, компьютер получает информацию в виде фраз: «Какая завтра будет погода?» и «Какая завтра будет погода» для него эти фразы будут абсолютно идентичны, но вторая не пройдет 4 и 5 пунктов анализа.

Актуальные проблемы авиации и космонавтики - 2016. Том 2

Одной и самой серьезной проблемой является сложность в понимании. Качества понимания зависит от самого языка и качества речи человека. Помимо проблемы, описанной выше, существуют следующие:

1. Сложность с пониманием того, что имеется ввиду при использованием конкретно местоимений. Например: фразы «Я отдал бананы обезьянам, потому что они были голодные» и «Я отдал бананы обезьянам, потому что они были испорченные « похожи по синтаксической структуре. Понимание этих фраз зависит от знаний компьютера в области обезьян и бананов. 2. Свободный порядок слов, который вызывает дополнительные проблемы в распознавании речи. Например: «Бытие определяет сознание» - что? (грубо говоря, такая реакция возникает у компьютера).

Каждый обладатель продукции Apple встречался с этой программой. Siri - это самая последняя и совершенная разработка искусственного интеллекта в мире. - так о Siri пишет Apple. Данное приложение использует обработку естественной речи(которая была описана выше), чтобы отвечать на вопросы и давать рекомендации. Siri приспосабливается к каждому пользователю индивидуально, изучая его предпочтения в течение долгого времени. Основные возможности:

- управление смартфоном (Установить будильник и т. п.);

- рекомендация ресторанов, фильмов , а также их бронирование;

- писать в twitter. Facebook;

- указание и построение маршрута и др.;

- ответы на любые вопросы;

- Siri - собеседник, советчик [2-5].

Задав вопрос, он отравляется на сервера Apple, где обрабатывается и направляется к соответствующему сервису. Такому как Google и Bing и не только. Например, для деловых вопросов используются Open Table, Yahoo Local, ReserveTravel и Localeze. Для поиска информации о мероприятиях Siri обращается к Eventful и LiveKick. Если спрашивать Siri о фильмах, то она отвечает, используя информацию с MovieTickets.com и The New York Times. Таким образом, голосовой ассистент от Apple справится с большинством повседневных вопросов, но ключевой особенностью является то, что Siri работает с WolframAlpha.WolframAlpha позволяет Siri давать ответы на самые трудные вопросы, так как это не поисковая система. WolframAlpha позиционирует себя, как: база знаний и набор вычислительных алгоритмов [5].

Благодаря всему вышеперечисленному, Siri удается понимать речь человека и его вопросы, которые он задает в достаточно свободной форме, а не конкретные команды. На презентации в пример приводили вопрос: «Стоит ли мне сегодня взять зонтик». Siri анализирует вопрос и понимает, что ей нужно ответить - какая погода ожидается в этой местности.

Человеку предстоит проделать еще очень долгий и тяжелый путь для усовершенствования Искусственного интеллекта во всех сферах и в сфере распознавания речи в том числе. Система распознавания речи внедряется в нашу жизнь все больше и больше: компьютеры, смартфоны, автомобили, системы безопасности - это лишь малая часть применения ИИ в данной сфере. За этим стоит будущее, изменение и упрощение жизни человека, нужно лишь не переставать направлять все это в нужное русло.

Библиографические ссылки

1. Стюарт Рассел/ Питер Норвиг. Artificial Intelligence: A Modern Approach (Искусственный интеллект: современный подход). 2015. 1408 с.

2. Новый век [Электронный ресурс]. URL: http://yvek.ru/ (дата обращения: 06.04.2016).

3. Журнал «Достижения науки, техники и культуры» [Электронный ресурс]. URL: http://scorcher.ru/journal/art/art1449.php (дата обращения: 06.04.2016).

4. Apple [Электронный ресурс]. URL: http://www.apple.com/ru/ios/whats-new/ (дата обращения: 06.04.2016).

© Фролов В. В., Монастырная В. С., 2016

i Надоели баннеры? Вы всегда можете отключить рекламу.