УДК 004.5
М.В. Прищепа, А.Л. Ронжин
Модели интерактивного взаимодействия с подвижным информационно-навигационным комплексом
Проведен анализ современных информационных систем и реализованных в них пользовательских интерфейсов. Рассмотрены модели и программно-аппаратные средства подвижного информационно-навигационного комплекса, обеспечивающие интерактивное взаимодействие с пользователем.
Ключевые слова: мобильные социальные роботы, диалоговые системы, многомодальные интерфейсы, человеко-машинное взаимодействие.
Анализ проблем интерактивного взаимодействия с системами самообслуживания. Одним из перспективных направлений развития информационно-справочных систем самообслуживания в настоящее время является разработка подвижных комплексов, предоставляющих услуги справочного характера пользователям в заданной зоне обслуживания. За счет своей мобильности такие системы способны обслуживать большее количество пользователей, чем стационарные системы [1, 2]. Сейчас стационарные системы самообслуживания и оказания услуг информационно-справочного характера населению, в том числе банкоматы, терминалы оплаты услуг, информационные киоски, оснащенные средствами обработки и вывода аудиовизуальной информации, широко распространены в торгово-развлекательных комплексах, банках, транспортных узлах и других местах одновременного нахождения большого количества людей. Основным требованием, предъявляемым к пользовательскому интерфейсу таких систем, является доступность для людей с различными навыками и возможностями [3]. То есть интерфейс человеко-машинного взаимодействия должен быть простым и удобным настолько, чтобы пользователь смог управлять устройством интуитивно, без предварительной подготовки и обучения.
Учитывая возможности современных технических и программных средств, реализующих ввод, вывод и обработку информационных каналов, доступных пользователю, интерфейсы можно разделить на два основных типа: стандартный графический и многомодальный [4-6]. При реализации систем автоматической обработки речи и других естественных модальностей перспективным считается привлечение контекстной информации [7-9]. При разработке пользовательских интерфейсов к социальным сервисным системам особое внимание уделяется психологическим аспектам человекомашинного взаимодействия. Установление эмоционального контакта между человеком и системой за счет его дизайна является одной из основных задач при разработке стратегий поведения социальных роботов [10]. Кроме того, неоднократно поднималась проблема выбора оптимального положения робота относительно человека для более эффективного взаимодействия [2, 11].
Также следует учитывать, что стиль общения пользователя изменяется по мере знакомства с роботом, его функциями и степенью полезности предоставляемых сервисов. Для персонифицированной настройки стиля общения робота с пользователем следует производить начальное обучение и накапливать информацию о поведении пользователя во время взаимодействия, анализировать и учитывать его предпочтения при дальнейшей настройке пользовательского интерфейса. Таким образом, анализ методов и программно-аппаратного обеспечения, применяемых в существующих исследовательских моделях информационно-навигационных комплексов, показал, что наиболее активно изучаются вопросы анализа поведения и предпочтений пользователей, разработки сценариев поведения автоматических комплексов, а также безопасности и естественности взаимодействия.
Структурная модель подвижного информационно-навигационного комплекса. Рассмотрим формальную постановку задачи информационного обслуживания подвижными комплексами. Пусть и = (и.\, и2, ..., иг-, ..., М/) - множество пользователей; Я = (г\, г2, ..., г;, ..., г/) - множество подвижных комплексов на заданной территории обслуживания; X - база данных обслуживаемой территории со множеством объектов О = (01, о2,..., о„,..., ом), информация о которых предоставляется в ходе функционирования комплексов. Тогда задачу обслуживания можно сформулировать следующим
образом. Учитывая особенности расположения объектов и допустимые маршруты по территории, необходимо на безопасном и комфортном для взаимодействия расстоянии обеспечить диалог пользователя ыг с комплексом Гр а также его сопровождение до интересуемого объекта оп. На рис. 1 показана структурная модель подвижного комплекса, включающая основные блоки, реализующие взаимодействие с пользователем и передвижение по обслуживаемой территории.
База данных обслуживаемой территории
—
Блок захвата аудиовизуальных
Блок анализа и синтеза естественных
Блок расчета маршрута движения
Блок коммуникации с внешними системами
Подвижный информационно-навигационный комплекс
Рис. 1. Структурная модель подвижного информационно-навигационного комплекса
Описание обслуживаемой территории содержит следующий набор основных компонент, необходимых для расчета маршрутов передвижения информационных комплексов: X = <М, К, Н>, где М - топологическая карта территории с отмеченными статическими и динамическими препятствиями; К - координаты мест входа в объекты из множества О, Н - данные о совершенных маршрутах, диалогах и пользователях.
В данной задаче сложность построения диалога связана с подвижностью обоих участников: пользователя и информационного комплекса. Причем данные о некотором пользователе и определяются комплексом Гр в зоне наблюдения которого был обнаружен этот пользователь. Поэтому информационная модель пользователя характеризуется следующими параметрами: щ=<Хр,Ср, Бр, Нр, В>, где Хр - зона нахождения пользователя; Ср - координаты пользователя; Бр - скорость пользователя; Нр - координаты центра лица пользователя; В7- - биометрические характеристики пользователя, накапливаемые в ходе взаимодействия с подвижными комплексами.
Для формирования базы справочных данных об объектах их модели должны содержать следующие параметры: оп = <Кп, Рп, Ап, Еп, Оп>, где Кп - координаты места входа в объект оп; Рп - описание услуг, предоставляемых данным объектом, необходимых для обучения акустико-лексических, языковых и диалоговых моделей речевого/многомодального пользовательского интерфейса; Ап -мультимедиа представление объекта, использующееся комплексом в режиме рекламирования; Оп -дополнительные данные об объекте (часы работы, телефоны обслуживающего персонала), необходимые для функционирования подвижного комплекса.
Техническое оснащение комплекса можно разделить на две основные группы: 1) подвижная платформа, реализующая слежение за появлением препятствий на маршруте комплекса и его перемещение; 2) информационная стойка, на которой выводятся мультимедиа данные об интересующих посетителей объектах и на основе многомодального интерфейса реализуется естественный диалог с пользователем. Поэтому модель подвижного информационного комплекса содержит параметры, значения которых формируются посредством датчиков, расположенных на подвижной платформе, средств захвата аудиовизуальных сигналов, встроенных в информационную стойку, а также параметры, вычисляемые в ходе диалога с пользователем: г=<Ср, Бр,/ Ур Бр, Ж>, где Ср - координаты комплекса; Бр - скорость комплекса; / - режим функционирования, Ур - показания датчиков препятствий; Ц - множество пользователей, находящихся в зоне наблюдения комплекса; Бр - дополнительные параметры (состояние заряда аккумуляторов и других встроенных технических средств), необходимых для функционирования подвижного комплекса; Ж - данные о расположении и режиме функционирования всех обслуживающих комплексов на данной территории [12, 13].
В предложенной модели режим функционирования выбирается из следующего множества: / = (/Б,/Е,/А,/Р,), где/Б - диалог с посетителем; /Е - сопровождение посетителя; /А - движение с выводом рекламы; /Р - движение на техническую остановку. Результатом взаимодействия комплекса Гр
с пользователем и, является предоставление услуги Q, состоящей из выдачи информации об объекте оп и/или сопровождения до этого объекта, расположенного на территории обслуживания 2: Q(ui) = Лг, X, оп). Вопросы навигации, связанные с вычислением оптимального маршрута, в данной работе не рассматривались. В режиме сопровождения основное внимание было уделено проблеме интерактивного взаимодействия с комплексом. Выделены три зоны положения пользователя относительно комплекса: х,еагс^ - зона наблюдения; хе,согі - зона сопровождения; х^аіог - зона взаимодействия. Наличие пользователя в одной из зон определяется на основе следующих логических правил:
где Ху — зона нахождения пользователя; сіу - расстояние между пользователем и комплексом; агу -угол отклонения пользователя от центра комплекса; Еп - сообщения от системы распознавания речи, ё,теагсй_тах - максимальное расстояние поиска пользователей; ёё,а1ог_тах - максимально расстояние, на котором возможен диалог с пользователем; ёе,сог(тах - максимально допустимое расстояние при сопровождении пользователя; ажагсй_тах - максимальный угол, на котором ведется поиск пользователя; аёга1оя_тах - максимально допустимый угол отклонения пользователя от центра комплекса в ходе диалога; аесоп тах - максимальный допустимый угол отклонения пользователя от центра комплекса при сопровождении. Если указанные правила не выполняются, то считается, что анализируемый объект не является пользователем. На рис. 2 пунктирной линией обозначена зона взаимодействия комплекса. Радиус взаимодействия не должен превышать ёёга1оя_тах , а угол отклонения пользователя от центра платформы должен быть меньше аёга1оя_тах. В режиме информирования пользователя подвижный комплекс поддерживает расстояние и угол отклонения в заданных пределах.
Рис. 2. Схемы движения пользователя и комплекса на основных этапах взаимодействия: а - пользователь входит в зону взаимодействия комплекса, движущегося в режиме рекламирования по заданному маршруту; б - информирование пользователя с подстройкой положения комплекса в сторону пользователя; в - сопровождение пользователя до интересующего объекта по заданному маршруту; г - пользователь покидает зону взаимодействия комплекса
а
б
в
Взаимодействие информационного комплекса с пользователями можно разделить на несколько этапов. Комплекс, перемещаясь по заданному маршруту в режиме рекламирования, производит опрос сенсоров на наличие пользователей на расстоянии ^еагсй_тах от комплекса (рис. 2, а). В случае обнаружения пользователя в зоне поиска информационный комплекс корректирует свое положение относительно пользователя таким образом, чтобы расстояние до него не превышало ^Ш10§ тах, а угол отклонения относительно центра не превышал угол после чего комплекс переходит в ре-
жим информирования посетителя (рис. 2, б). При поступлении запроса о сопровождении пользователя в указанное место комплекс переходит в режим сопровождения (рис. 2, в). В этом режиме пользователь должен находиться в зоне сопровождения хезсШ. Это условие поддерживается посредством корректировки скорости и направления движения комплекса. В случае если пользователь отдалился от комплекса на расстояние, превышающее а$еагси_тах (рис. 2, г), считается, что он покинул зону взаимодействия, и комплекс переходит в режим рекламирования.
Для определения текущего режима функционирования комплекса была разработана логическая модель, анализирующая параметры комплекса и ситуации в зоне мониторинга. На рис. 3 приведена блок-схема алгоритма, использованного при реализации логической модели выбора режима функционирования. В начале работы производится проверка технического состояния комплекса Бр, при этом в случае наличия сообщений Ва1агт = 1 комплекс переходит в режим движения на техническое обслуживание.
Рис. 3. Блок-схема алгоритма выбора режима функционирования комплекса
В режим рекламирования комплекс переходит, если выполняется одно из следующих условий: 1) отсутствие пользователей (|Цу| = 0); 2) пользователь находится в зоне поиска х8еагси, но время его
присутствия в ней Тангаа превысило максимальный промежуток времени Тапт^ шХ; 3) пользователь находится в зоне взаимодействия хяа10ё, но система распознавания речи не фиксирует запросов пользователя (Е8ием = 1); 4) поступление сообщения Есапсе1 = 1 - распознана голосовая команда отказа в обслуживании. Переход в режим информирования происходит, если пользователь находится в зоне взаимодействия хам^ и подает голосовой запрос на предоставление информационных услуг (Е^ф = 1). Если пользователь подает запрос на сопровождение (Ее8СоП = 1), комплекс переходит в режим сопровождения.
Эксперименты. Для экспериментальной проверки комплекса была разработана база данных абстрактного торгового центра с 83 объектами, расположенными на обслуживаемой территории. На ее карте были отмечены границы объектов, выходы и проходы между ними. В ходе взаимодействия с пользователем на карте указывалось его местонахождение и выбранного объекта. Поиск маршрута до объекта производился с использованием алгоритма типа A*. В ходе экспериментов выяснилось,
что большинство пользователей (порядка 60%) предпочитают называть не определенное название объекта, а категорию товара или услуги и только после вывода на экран списка всех удовлетворяющих условию объектов выбирать какой-либо один. Около 40% пользователей подавали запрос без вступительных слов (например, «где находится», «как пройти»), а одним словом или названием (например, «Обувь», «Кафе», «Детская одежда»). Процент неправильно обработанных запросов пользователей составил порядка 15%.
Также при тестировании был проведен опрос пользователей с целью выявления дополнительных требований по эргономике и функционалу информационно-навигационных комплексов. Большинство опрошенных мужчин (56%) предпочитают более высокие информационные комплексы в отличие от женщин, которые отдали свое предпочтение средней высоте (150 см). Синтезируемый «механический» голос системы выбрали 47% женщин, тогда как мужчины (70%) предпочитают женский голос. Расстояние взаимодействия с комплексом как в режиме информирования, так и в режиме сопровождения не рекомендуется делать меньше 50 см. Наиболее удобным средством ввода было выбрано сенсорное меню (41% женщин и 70% мужчин), а средствами вывода информации -аватар в виде говорящей головы вместе с выводом графической информации на монитор. Полученные данные будут использованы при разработке опытного образца многомодального информационно-навигационного комплекса.
Заключение. При реализации предложенных режимов функционирования подвижного комплекса были разработаны: структурная модель программно-аппаратного оснащения комплекса; логическая модель выбора текущего режима комплекса, учитывающая расположение пользователей и статус встроенных компонентов; диалоговая модель, построенная на основе данных о рекламируемых объектах и учитывающая текущее положение комплекса и пользователя на обслуживаемой территории. Предложенные модели были реализованы в программно-аппаратном подвижном комплексе - многомодальном подвижном автомате информационного самообслуживания.
Работа выполнена в рамках грантов РФФИ (№ 12-08-01261-а, 12-07-31201-М0Л_а, 12-06-31203-М0Л_а) и НИР СПбГУ № 31.37.103.2011.
Литература
1. Stuckler J. Improving People Awareness Of Service Robots by Semantic Scene Knowledge / J. Stuckler, S. Behnke // RoboCup 2010. - Springer Verlag Berlin Heidelberg., 2011. - P. 157-168.
2. Прищепа М.В. Особенности разработки пользовательского интерфейса мобильного информационного робота / М.В. Прищепа, К.Ю. Баранов // Изв. вузов. Приборостроение. - 2012. - Т. 55, № 11. - С. 46-51.
3. Карпов А. А. Многомодальные ассистивные системы для интеллектуального жилого пространства / А. А. Карпов, Л. Акарун, Ал. Л. Ронжин // Труды СПИИРАН. - 2011. - Вып. 19. - С. 48-64.
4. Ронжин А.Л. Проектирование интерактивных приложений с многомодальным интерфейсом / А.Л. Ронжин, А.А. Карпов // Доклады ТУСУРа. - 2010. - № 1 (21), ч. 1. - С. 124-127.
5. Мещеряков РВ. Специализированная информационная система поддержки деятельности медицинского учреждения / РВ. Мещеряков, Л.Н. Балацкая, Е.Л. Чойнзонов // Информационно-управляющие системы. - 2012. - № 5. - С. 51-56.
6. Haddadin S. Requirements for Safe Robots: Measurements, Analysis & New Insights / S. Haddadin, A. Albu-Schaffer, G. Hirzinger // Robotics Research. - 2009. - Vol. 28, № 11-12. - P. 1507-1527.
7. Мещеряков Р.В. Сегментация и параметрическое описание речевого сигнала / РВ. Мещеряков, В.П. Бондаренко, А.А. Конев // Изв. вузов. Приборостроение. - 2007. - Т. 50, № 10. - С. 3-7.
8. Глазков С. В. Методы анализа контекста приложений в мобильных гетерогенных устройствах / С.В. Глазков, А. Л. Ронжин // Доклады ТУСУР - № 1 (25). - часть 2. - 2012. - С. 236-240.
9. Ронжин Ал. Л. Система аудиовизуального мониторинга участников совещания в интеллектуальном зале / Ал.Л. Ронжин, Ан.Л. Ронжин // Доклады ТУСУРа. - 2011. - № 1 (22), ч. 1. - С. 153-157.
10. Lee J.K. Human Social Response Toward Humanoid Robot’s Head and Facial Features / J.K. Lee, C. Breazeal // CHI’2010. - 2010. - P. 4237-4242.
11. Mead R. Proxemic feature recognition for interactive robots: automating metrics from social sciences / R. Mead, A. Atrash, M.J. Mataric // ICSR 2011. - Springer Verlag Berlin Heidelberg, 2011. -P. 52-61.
12. Ронжин А.Л. Особенности дистанционной записи и обработки речи в автоматах самообслуживания / А.Л. Ронжин, А.А. Карпов, И.А. Кагиров // Информационно-управляющие системы. -2009. - Вып. 42, т. 5. - С. 32-38.
13. Прищепа М.В. Разработка профиля пользователя с учетом психологических аспектов взаимодействия человека с информационным мобильным роботом // Труды СПИИРАН. - 2012. -Вып. 21. - С. 56-70.
Прищепа Мария Викторовна
Мл. науч. сотр. лаб. речевых и многомодальных интерфейсов
Санкт-Петербургского института информатики и автоматизации Российской академии наук (СПИИРАН)
Тел.: +7 (812) 328-70-81
Эл. почта: [email protected]
Ронжин Андрей Леонидович
Д-р техн. наук, доцент, зав. лаб. речевых и многомодальных интерфейсов, СПИИРАН.
гл. науч. сотр. лаб. экспериментальной фонетики Санкт-Петербургского государственного университета
Тел.: +7-911-253-24-32
Эл. почта: [email protected]
Prischepa M.V., Ronzhin A.L.
Models of interaction with mobile information-navigation complex
We analyse modern information systems and user interfaces implemented in them. In the paper there are considered the models and firmware of the mobile information-navigation complex providing interactivity with the user.
Keywords: mobile social robots, interactive systems, multimodal interfaces, human-computer interaction.