Секция «Информационно-экономические системы»
УДК 338.246
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ В СИСТЕМАХ РАСПОЗНАВАНИЯ РЕЧИ
В. В. Фролов, В. С. Монастырная Научный руководитель - Д. В. Тихоненко
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева
Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: pricladnaya.i@yandex.ru
Рассматривается взаимодействие человека с искусственным интеллектом в системах распознавания речи, его проблемы, пример его работы на примере Siri.
Ключевые слова: искусственный интеллект, обработка естественной речи.
ARTIFICIAL INTELLIGENCE IN SPEECH RECOGNITION SYSTEMS
V. V. Frolov, V. S. Monastyrnaya Scientific Supervisor - D. V. Tkhonenko
Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: pricladnaya.i@yandex.ru
The article examines the interaction of humans with artificial intelligence in speech recognition systems , its problems, how it works on the example of Siri.
Keywords: artificial intelligence, natural speech processing.
Искусственный интеллект (ИИ) - это наука, которая изучает и занимается разработкой интеллектуальных машин, которые, реагируя на поступающую внешнюю информацию, выполняют функции человека.
Каждый человек, который, так или иначе, встречался с системой распознавания речи, задавался вопросом: Как «это» понимает меня и дает мне нужную информацию? Когда мы обращаемся к компьютеру (приложению) данного типа, он выполняет огромную работу, которую можно разделить на следующие пункты:
1. Компьютер улавливает колебания воздуха. Речь человека вызывает звук, а звук вызывает изменение движения воздуха, которые компьютер и должен уловить. Когда колеблющийся воздух попадает на чувствительный элемент - барабанную перепонку или микрофон, - он генерирует электрический сигнал благодаря особому устройству этих элементов.
2. Вычисляет из общего шума полезный сигнал (отделяет помехи от голоса). До этого этапа компьютер не может различить помехи и речь - для него они идентичны - набор электрических импульсов. Однако человеческий голос имеет своеобразные характеристики - частоту, высоту, повторение звуков. Применяя математический анализ к имеющимся звуковым данным, можно разделить шум и речь. Но так как помехи часто имеют те же характеристики, что и голос, задача разделения оказывается очень сложной и не всегда успешной. 3. Компьютер анализирует цифровой сигнал и строит осмысленную фразу за счет распознания каждого звука и перевода его в понятную для компьютера цифровую форму. 4. Компьютер начинает «играть» с полученными цифровыми звуками, как с кубиком Рубика, пытаясь построить осмысленную фразу, за счет своих доступных алгоритмов: Из имеющихся звуков он старается построить несколько фраз и из них выбирает наиболее подходящую по смыслу. 5. Компьютер выстроил осмысленную фразу и начинает выполнять команду [1-3].
Например, компьютер получает информацию в виде фраз: «Какая завтра будет погода?» и «Какая завтра будет погода» для него эти фразы будут абсолютно идентичны, но вторая не пройдет 4 и 5 пунктов анализа.
Актуальные проблемы авиации и космонавтики - 2016. Том 2
Одной и самой серьезной проблемой является сложность в понимании. Качества понимания зависит от самого языка и качества речи человека. Помимо проблемы, описанной выше, существуют следующие:
1. Сложность с пониманием того, что имеется ввиду при использованием конкретно местоимений. Например: фразы «Я отдал бананы обезьянам, потому что они были голодные» и «Я отдал бананы обезьянам, потому что они были испорченные « похожи по синтаксической структуре. Понимание этих фраз зависит от знаний компьютера в области обезьян и бананов. 2. Свободный порядок слов, который вызывает дополнительные проблемы в распознавании речи. Например: «Бытие определяет сознание» - что? (грубо говоря, такая реакция возникает у компьютера).
Каждый обладатель продукции Apple встречался с этой программой. Siri - это самая последняя и совершенная разработка искусственного интеллекта в мире. - так о Siri пишет Apple. Данное приложение использует обработку естественной речи(которая была описана выше), чтобы отвечать на вопросы и давать рекомендации. Siri приспосабливается к каждому пользователю индивидуально, изучая его предпочтения в течение долгого времени. Основные возможности:
- управление смартфоном (Установить будильник и т. п.);
- рекомендация ресторанов, фильмов , а также их бронирование;
- писать в twitter. Facebook;
- указание и построение маршрута и др.;
- ответы на любые вопросы;
- Siri - собеседник, советчик [2-5].
Задав вопрос, он отравляется на сервера Apple, где обрабатывается и направляется к соответствующему сервису. Такому как Google и Bing и не только. Например, для деловых вопросов используются Open Table, Yahoo Local, ReserveTravel и Localeze. Для поиска информации о мероприятиях Siri обращается к Eventful и LiveKick. Если спрашивать Siri о фильмах, то она отвечает, используя информацию с MovieTickets.com и The New York Times. Таким образом, голосовой ассистент от Apple справится с большинством повседневных вопросов, но ключевой особенностью является то, что Siri работает с WolframAlpha.WolframAlpha позволяет Siri давать ответы на самые трудные вопросы, так как это не поисковая система. WolframAlpha позиционирует себя, как: база знаний и набор вычислительных алгоритмов [5].
Благодаря всему вышеперечисленному, Siri удается понимать речь человека и его вопросы, которые он задает в достаточно свободной форме, а не конкретные команды. На презентации в пример приводили вопрос: «Стоит ли мне сегодня взять зонтик». Siri анализирует вопрос и понимает, что ей нужно ответить - какая погода ожидается в этой местности.
Человеку предстоит проделать еще очень долгий и тяжелый путь для усовершенствования Искусственного интеллекта во всех сферах и в сфере распознавания речи в том числе. Система распознавания речи внедряется в нашу жизнь все больше и больше: компьютеры, смартфоны, автомобили, системы безопасности - это лишь малая часть применения ИИ в данной сфере. За этим стоит будущее, изменение и упрощение жизни человека, нужно лишь не переставать направлять все это в нужное русло.
Библиографические ссылки
1. Стюарт Рассел/ Питер Норвиг. Artificial Intelligence: A Modern Approach (Искусственный интеллект: современный подход). 2015. 1408 с.
2. Новый век [Электронный ресурс]. URL: http://yvek.ru/ (дата обращения: 06.04.2016).
3. Журнал «Достижения науки, техники и культуры» [Электронный ресурс]. URL: http://scorcher.ru/journal/art/art1449.php (дата обращения: 06.04.2016).
4. Apple [Электронный ресурс]. URL: http://www.apple.com/ru/ios/whats-new/ (дата обращения: 06.04.2016).
© Фролов В. В., Монастырная В. С., 2016