Научная статья на тему 'Многомодальные интерфейсы автономных мобильных робототехнических комплексов'

Многомодальные интерфейсы автономных мобильных робототехнических комплексов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
777
161
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МНОГОМОДАЛЬНЫЕ ИНТЕРФЕЙСЫ / РОБОТОТЕХНИЧЕСКИЕ КОМПЛЕКСЫ / КОНТЕКСТ / ГЕТЕРОГЕННЫЕ МОБИЛЬНЫЕ УСТРОЙСТВА / ИНТЕЛЛЕКТУАЛЬНОЕ ПРОСТРАНСТВО / MULTIMODAL INTERFACES / ROBOTIC SYSTEMS / CONTEXT / HETEROGENEOUS MOBILE DEVICES / INTELLIGENT ENVIRONMENTS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ронжин Андрей Леонидович, Юсупов Рафаэль Мидхатович

Рассматриваются особенности проектирования многомодальных пользовательских интерфейсов к мобильным робототехническим комплексам, обеспечивающих восприятие и контекстный анализ текущей окружающей обстановки и взаимодействие с неподготовленными конечными пользователями. При проектировании пользовательского интерфейса автоматизированного рабочего места оператора-профессионала для промышленной или специального назначения информационно-управляющей системы в основу берутся зарегламентированные способы и сценарии функционирования системы. В случае проектирования многомодальных интерфейсов основными проблемами являются вариативность естественных сигналов неподготовленного пользователя и способов передачи информации, а также гетерогенность программно-аппаратного обеспечения мобильных интеллектуальных роботизированных устройств. Целью работы является применение многомодальных интерфейсов, обрабатывающих естественные для человека способы коммуникации (речь, жесты, движения тела, головы, рукописные наброски, направление взгляда, мимика и др.), для обеспечения интуитивно понятного взаимодействия между пользователями и интеллектуальными мобильными робототехническими системами гражданского и специального назначения. Наличие естественного способа взаимодействия сейчас является не менее важным свойством системы, чем ее функциональные возможности. Также следует учесть, что физические ограничения и личные предпочтения пользователей оказывают влияние на выбор доступного или наиболее удобного способа взаимодействия. Построение контекстно-осведомленных робототехнических комплексов с многомодальным интерфейсом позволяет учесть предпочтения и возможности пользователя, а также адаптировать их работу, учитывая условия физического окружения и состояние доступных вычислительных и сетевых ресурсов. В рамках предложенного подхода используемый в интерфейсе набор естественных входных и выходных модальностей определяется на этапе проектирования интерактивной многомодальной системы. Представлены результаты разработки многомодального интерфейса информационно-навигационного робототехнического комплекса.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ронжин Андрей Леонидович, Юсупов Рафаэль Мидхатович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MULTIMODAL INTERFACES FOR AUTONOMOUS MOBILE ROBOTIC SYSTEMS

The peculiarities of the development of multimodal user interfaces for robotic systems, which provide the perception and contextual analysis of the current environment and interaction with untrained end users, are considered. Development of user interface for professional operator of workstation of industrial or special purpose information management system is based on regulated techniques and scenarios of the system control. The main problems in the development of multimodal user interfaces are natural variability of signals and modes of information transmission, as well as the heterogeneity of software and hardware of mobile intelligent robotic system. The aim of the research is the application of multimodal interfaces, processing natural for human modes of communication (speech, gestures, body movements, head, hand-written sketches, gaze direction, facial expressions, etc.), in order to provide intuitive interaction between users and intelligent modules civil and special purpose, which are embedded in the surrounding objects and mobile systems. Now the presence of a natural way of interaction is so important feature of the device as its functionality. Also note that the physical constraints and personal preferences affect the choices of available or the most convenient way to interact. Construction of context-aware system allow robot with multimodal interface to take into account the preferences and the user experience, as well as to adapt their work, analyzing the conditions of the physical environment and the state of the available computing and network resources. In the framework of the proposed approach used set of natural input and output modalities is determined at the development stage of interactive multimodal applications. The results of the development of a multimodal interface for information navigation robotic system are presented.

Текст научной работы на тему «Многомодальные интерфейсы автономных мобильных робототехнических комплексов»

17. Chernous'ko F.L., Banichuk N.V. Variatsionnye zadachi mekhaniki i upravleniya. Chislennye metody [Variational problems of mechanics and control. Numerical methods]. Moscow: Nauka, 1973, 240 p.

18. Open Digital Elevation Model (OpenDEM). Available at: www.opendem.info.

19. CIGAR CSI, SRTM 90 m Digital Elevation Databse. Available at: http://www.cgiar-csi.org/data/ srtm-90m-digital-elevation-database-v4-1.

20. Davidson P., Oshman Y. Optimization of Observer Trajectories for Bearings-only Target Localization, IEEE Transactions on Aerospace and Electronic Systems, 1999, Vol. 35, pp. 892-902.

Статью рекомендовал к опубликованию д.т.н. Е.П. Маслов.

Рубинович Евгений Яковлевич - Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В.А. Трапезникова Российской академии наук; e-mail: [email protected]; 117997, г. Москва, ул. Профсоюзная, 65; тел.: +74953349111; зам. директора по научной работе; д.т.н.; профессор.

Андреев Кирилл Владимирович - ООО «Телум». г. Москва, территория инновационного центра «Сколково»; e-mail: [email protected]; 117570, г Москва, ул. Днепропетровская, 37; тел.: +79160430721; старший инженер отдела исследований; аспирант.

Rubinovich Evgeny Yakovlevich - Trapeznikov Institute of Control Sciences, Russian Academy of Sciences; e-mail: [email protected]; 65, Profsoyuznaya street, Moscow, 117997, Russia; phone: +74953349111; deputy director on R&D; dr. of eng. sc.; professor.

Andreev Kirill Vladimirovich - Telum LLC, Skolkovo innovation center, Moscow; e-mail: [email protected]; 37, Dnepropetrovskaya street, Moscow, 117997, Russia; phone: +79160430721; senior research engineer; postgraduate student.

УДК 004.5

А.Л. Ронжин, Р.М. Юсупов

МНОГОМОДАЛЬНЫЕ ИНТЕРФЕЙСЫ АВТОНОМНЫХ МОБИЛЬНЫХ РОБОТОТЕХНИЧЕСКИХ КОМПЛЕКСОВ*

Рассматриваются особенности проектирования многомодальных пользовательских интерфейсов к мобильным робототехническим комплексам, обеспечивающих восприятие и контекстный анализ текущей окружающей обстановки и взаимодействие с неподготовленными конечными пользователями. При проектировании пользовательского интерфейса автоматизированного рабочего места оператора-профессионала для промышленной или специального назначения информационно-управляющей системы в основу берутся зарегламентированные способы и сценарии функционирования системы. В случае проектирования многомодальных интерфейсов основными проблемами являются вариативность естественных сигналов неподготовленного пользователя и способов передачи информации, а также гетерогенность программно-аппаратного обеспечения мобильных интеллектуальных роботизированных устройств. Целью работы является применение многомодальных интерфейсов, обрабатывающих естественные для человека способы коммуникации (речь, жесты, движения тела, головы, рукописные наброски, направление взгляда, мимика и др.), для обеспечения интуитивно понятного взаимодействия между пользователями и интеллектуальными мобильными робототехническими системами гражданского и специального назначения. Наличие естественного способа взаимодействия сейчас является не менее важным свойством системы, чем ее функциональные возможности. Также следует учесть, что физические ограничения и личные предпочтения пользователей оказывают

* Работа выполнена при частичной финансовой поддержке проекта Программы фундаментальных исследований Президиума РАН «Актуальные проблемы робототехники», РФФИ (проект № 13-08-0741-а).

влияние на выбор доступного или наиболее удобного способа взаимодействия. Построение контекстно-осведомленных робототехнических комплексов с многомодальным интерфейсом позволяет учесть предпочтения и возможности пользователя, а также адаптировать их работу, учитывая условия физического окружения и состояние доступных вычислительных и сетевых ресурсов. В рамках предложенного подхода используемый в интерфейсе набор естественных входных и выходных модальностей определяется на этапе проектирования интерактивной многомодальной системы. Представлены результаты разработки многомодального интерфейса информационно-навигационного робототехнического комплекса.

Многомодальные интерфейсы; робототехнические комплексы; контекст; гетерогенные мобильные устройства; интеллектуальное пространство.

A.L. Ron/hin, R.M. Yusupov

MULTIMODAL INTERFACES FOR AUTONOMOUS MOBILE ROBOTIC

SYSTEMS

The peculiarities of the development of multimodal user interfaces for robotic systems, which provide the perception and contextual analysis of the current environment and interaction with untrained end users, are considered. Development of user interface for professional operator of workstation of industrial or special purpose information management system is based on regulated techniques and scenarios of the system control. The main problems in the development of multimodal user interfaces are natural variability of signals and modes of information transmission, as well as the heterogeneity of software and hardware of mobile intelligent robotic system. The aim of the research is the application of multimodal interfaces, processing natural for human modes of communication (speech, gestures, body movements, head, hand-written sketches, gaze direction, facial expressions, etc.), in order to provide intuitive interaction between users and intelligent modules civil and special purpose, which are embedded in the surrounding objects and mobile systems. Now the presence of a natural way of interaction is so important feature of the device as its functionality. Also note that the physical constraints and personal preferences affect the choices of available or the most convenient way to interact. Construction of context-aware system allow robot with multimodal interface to take into account the preferences and the user experience, as well as to adapt their work, analyzing the conditions of the physical environment and the state of the available computing and network resources. In the framework of the proposed approach used set of natural input and output modalities is determined at the development stage of interactive multimodal applications. The results of the development of a multimodal interface for information navigation robotic system are presented.

Multimodal interfaces; robotic systems; context; heterogeneous mobile devices; intelligent environments.

Введение. Главным отличием многомодальных интерфейсов от профессиональных средств взаимодействия, использующихся оператором автоматизированного рабочего места, является применение способов коммуникации, характерных для общения между людьми. Взаимодействие между оператором-профессионалом и автоматизированной системой, как правило, осуществляется на основе сложившихся контактных способов ввода данных, а также графического интерфейса. С другой стороны при разработке общегражданских роботизированных систем, а также автономных систем специального назначения рано или поздно встанет вопрос о естественном бесконтактном взаимодействии с пользователем. Задача разработки многомодальных интерфейсов впервые возникла при появлении научной парадигмы окружающего интеллектуального пространства, где одним из требований является ненавязчивое естественное взаимодействие с пользователем [1, 2, 3]. Под ненавязчивостью интеллектуальных систем подразумевается их проактивность - способность анализировать текущий контекст, прогнозировать и удовлетворять потребности пользователя без его требования в явной форме. Естественные способы взаимодействия между людьми, например, речь, жесты, рукописные наброски, направление взгляда,

положение тела, мимика в первую очередь должны использоваться при разработке пользовательских интерфейсов. Большинство из перечисленных способов являются бесконтактными, что позволяет вести диалог на расстоянии.

В прототипах мобильных информационно-навигационных робототехнических систем основной упор в их конструктивной части сделан на визуализацию предоставляемой информации [4, 5]. Иногда они имеют голосовой интерфейс с ограниченным словарем, могут автономно передвигаться по помещению, составляя карту местности, а также обладают стандартным набором датчиков для передвижения или обнаружения пользователей [6, 7]. Существующие информационные роботы различаются не только функциональными возможностями, но и способами коммуникации с внешним миром, осведомлённости о предпочтениях посетителей и способности к самообучению [8, 9]. От простейших систем, оснащённых механизмами включения/выключения, делается переход к интеллектуальным робототехническим системам, способным интерпретировать поведение людей и отвечать их запросам.

Способность интеллектуальных интерактивных робототехнических систем анализировать текущие условия эксплуатации, в том числе, текущее состояние пользователя, физического окружения, вычислительных ресурсов, и динамически адаптировать сценарий взаимодействия с пользователем является одним из главных требований при разработке пользовательских интерфейсов. Для его выполнения необходимо, чтобы и пользователь, и приложение извлекали и обрабатывали контекстную информацию «всегда и везде» [10]. Отсюда возникает фундаментальная проблема построения всепроникающих систем, связанная с неоднозначностью контекстной информации, получаемой от тысяч различных источников, участвующих в обслуживании пользователей. Решение этой проблемы зависит от эффективности методов объединения и распределения контекстной информации между множествами систем и пользователей.

Кроме того, извлеченная контекстная информация в большинстве случаев неоднозначна и гетерогенна. Например, положение пользователя может быть определено посредством видеокамер, датчиков давления, встроенных в пол, средства радиочастотной идентификации, дальномерами и другими способами. Каждый из перечисленных вариантов использует собственный набор программно-аппаратного обеспечения и обладает различными характеристиками по точности и скорости определения положения объекта. При определении контекста более высокого уровня (например, не положения пользователя, а его текущей деятельности в этом месте) неоднозначность может увеличиваться [11].

Следовательно, проблема неоднозначности контекста должна решаться на двух уровнях. Во-первых, необходимо минимизировать неоднозначность данных, полученных от многочисленных сенсоров, использующихся одним приложением в одном и том физическом и вычислительном окружении. Во-вторых, при объединении и формировании высокоуровневой контекстной информации, используемой множеством встроенных, мобильных робототехнических систем и пользователей, следует учитывать динамику изменения физических условий и гетерогенность доступных вычислительных и сетевых ресурсов.

Среди существующих методов анализа и формализации контекста можно выделить два класса [12-14]: (1) подход, основанный на правилах, описывающих определенный набор действий для всех вариантов контекста, предусмотренных системой; (2) подход, основанный обучении системы с применением марковских моделях, динамических Байесовских сетей, нейронных сетей и т.д.

При построении многомодальных интерфейсов мобильных робототехниче-ских систем необходимо учитывать, что обработку данных необходимо вести в режиме приближенном к реальному времени, чтобы обеспечить интерактивность и удобство пользовательского интерфейса.

Конфигурирование программно-аппаратных ресурсов при проектировании многомодальных робототехнических систем. При разработке многомодальных робототехнических систем возникают новые специфические проблемы, связанные с синхронизацией, совместной обработкой и объединением многомодальной информации, обрабатываемой пользовательским интерфейсом. В ходе проектирования многомодального интерфейса выполняется основной цикл работ, связанных с анализом: (1) способов взаимодействия модальностей, архитектур распределенных многомодальных систем, методов кодирования и хранения сигналов, средств для разработки и распространения программного обеспечения; (2) методов выбора модальностей, передачи входных потоков (речевой ввод, жестовый ввод, графический ввод), способов синхронизации модальностей, методов создания контрольных журналов многомодального взаимодействия; (3) методов оценки систем (критерии оценки, метрики, методы измерений), типов оценивания (информативность интерфейса, симулирование реальной системы человеком), разработкой экспериментов.

Для формализации и решения задачи проектирования многомодального интерфейса была предложена концептуальная модель, включающая следующие сущности: цели пользователей, сервисы, ресурсы, устройства, преобразования, естественные и искусственные сигналы, входные и выходные модальности. Далее приведена теоретико-множественная формулировка решаемой проблемы. Имеются следующие множества и отношения. Множество целей пользователей P = {р,i е N1,N = {1,...п}, на удовлетворение которых направлено множество сервисов

£ = {5 , g еМ},М = {1,...т}, использующих информационно-коммуникационные

ресурсы Я = {Як,к е С}, С = {1,...с}. Множество устройств, доступных пользователю: В = {Д ,Ь е Н},Н = {1,...А}. Множество моментов времени Т = {}. Множество преобразований Ж = {Жу,/ е О},О = {1,...о}, выполняемых в ходе предоставления сервиса над множествами потоков искусственных ЛЯ = {А£ , д е Е},Е = {1,...е} и естественных сигналов N8 = {!8а,а е и},и = {1,...и}, использующихся для распознавания входных 1М = {М,, 1М.,...!М„ } и синтеза выходных модальностей

V 1 NМ >

ОМ = {ОМ,ОМ,...ОМ }. Множество вариантов многомодальных интерфейсов

строится путем перебора всех возможных комбинаций входных и выходных модальностей:

NM = {1М,ОМ,, 1М,ОМг,..., 1М.ОМК ,...,Ш„ ОМК ,..., 1М. ...М„ ОМ. ...ОМ„ } .

1 1 ' 1 2 ' ' 1 ' ™ 1М ' 1 ™ 1М 1 ™ 1М >

Множество допустимых системотехнических решений а, включающих в себя математические модели ММ, методы МО, алгоритмы ЛЬ , техническое обеспечение ЛР , представлено кортежем: а = ^ММ, МО, ЛЬ, ЛР) }. Учитывая, что в интерактивных системах обработка сигналов должна проводиться в режиме, близком к реальному времени, вводится множество Ж а , ограничивающее множество реализуемых преобразований на множестве системотехнических решений: Ж(а) : ЛЯ(а) х N8(а) х Т ^ ЛЯ(а) х N8(а).

Также введены четыре вида ограничений (характеристик), влияющих на эффективность организации взаимодействия: (1) ограничения на способы ввода и вывода со стороны пользователя, связанные с его/ее навыками использования компьютерных, робототехнических устройств, информационных технологий, личными предпочтениями и физическими ограничениями: иС = {UCi, / е X} ; (2) ограничения на способы ввода и вывода со стороны клиентского устройства,

связанные с размерами, вычислительными и сетевыми возможностями, а также аппаратной частью, реализующей сенсорные и мультимедийные функции робото-технической системы: DC = {ЕС, j е Y} ; (3) множество ограничений среды, в

которой планируется организовать взаимодействие, это: уровень шумов, физические параметры атмосферы, тип помещения, число пользователей, расстояние между пользователем и робототехнической системой, наличие доступа к сетевым

ресурсам и другие: EC = {ECk,k е Z} ; (4) наконец, ограничения самих сервисов, связанных с предметной областью и типом обрабатываемых информационно-коммуникационных ресурсов: SC = , l е V}. Для решений X каждое ограничение формирует некоторое подмножество декартового произведения множеств целей, сервисов, ресурсов, устройств и сигналов:

FU( е Рах х Ra х Da х ASa х Ша; F( е Pa х х Ra х Da х ASa х №а;

F( е Paх Sa х Ra х Da х ЛБа х Ша; F() е Pa х Sa х Ra х Da х ASa х Ша .

Графическая интерпретация перечисленных ограничений, возникающих при организации взаимодействия пользователя с робототехническими системами для доступа к информационно-навигационным сервисам, представлена в виде схемы на рис. 1. Организовать взаимодействие представляется возможным только в том случае, если робототехнические системы находятся в зоне взаимодействия с пользователем и связи с информационно-телекоммуникационными сервисами, а их пользовательские интерфейсы соответствуют физическим возможностям и предпочтениям пользователя и могут обеспечить коммуникацию в текущих условиях окружающего пространства для решения актуальных целей пользователя. С учетом выше изложенного основной задачей является определение множества

решений а а , удовлетворяющих ограничениям ис, ЕС, ЕС, SC и реализующих

ИМ х.

интерфейс на базе множества модальностей

АТ =

(Рх , ^ , ЛX , ^х , ™х ^

Ф(х) : п F() п F() п F() ^В т;

Ж(х) : ЛS(х) х NS(х) х Т ^ ЛS(х) х Ж(х)

где элементы множеств Вт, В' принимают значения {0,1}. Выбор полной комбинации модальностей, допустимых в проектируемом приложении будет определяться следующим образом:

= {©« (ИМ) : ®а (ИМ) х Аге ^ В'},

где &а (ИМ ) множество комбинаций модальностей.

В рамках предложенной модели возможный набор естественных входных и выходных модальностей определяется на этапе проектирования интерактивной многомодальной системы на основе выбора вариантов реализаций отображений

ф(а(, ^(х). Окончательное решение о структуре и функциях многомодального интерфейса и программно-аппаратном обеспечении, необходимом для его реализации, принималось с учетом стоимостных затрат: хе Лrg тш С (а) . В большинстве существующих систем для получения информации пользователь вынужден идти на компромисс между естественностью взаимодействия и функциональными возможностями сервисов/устройств.

Рис. 1. Схема ограничений при организации взаимодействия пользователя с робототехническими системами для доступа к информационно-навигационным

сервисам

На основе предложенного методологического и математического обеспечения проектирования многомодальных интерактивных систем и конфигурирования программно-аппаратных ресурсов были определены комбинации входных и выходных модальностей для разработанных приложений, относящихся к различным классам интерактивных информационно-управляющих и робототехнических систем [15, 16, 17, 18].

Информационно-навигационный мобильный робототехнический комплекс с многомодальным интерфейсом. Одной из проработанных задач в рамках исследования была разработка модельно-алгоритмического обеспечения автономных подвижных робототехнических комплексов, обеспечивающих предоставление пользователям информационно-навигационных услуг на обслуживаемой территории [19, 20]. Далее кратко рассмотрим задачу информационного обслуживания подвижными робототехническими комплексами, основные режимы функционирования, сценарии поведения во время взаимодействия с пользователями.

Пусть и = (щ, и2, ..., и, ..., и/) - множество пользователей, Я = (гь г2, ..., г,, ..., г/) - множество подвижных робототехнических комплексов на заданной территории обслуживания, 2 база данных обслуживаемой территории с множеством объектов О = (оь о2,..., оп,..., ом), информация о которых предоставляется в ходе функционирования робототехнических комплексов. Тогда задачу обслуживания можно сформулировать следующим образом. Учитывая особенности расположения объектов и допустимые маршруты по территории, необходимо на безопасном и комфортном для взаимодействия расстоянии обеспечить диалог пользователя ui с робототехническим комплексом г,, а также его сопровождение до интересуемого объекта оп.

В данной задаче сложность построения диалога связана с подвижностью обоих участников: пользователя и робототехнического комплекса. Причем данные о некотором пользователе и, определяются комплексом гр, в зоне наблюдения которого был обнаружен этот пользователь. Поэтому информационная модель пользователя характеризуется следующими параметрами: и,р=<Х,р,С,р, Бр, Щ, В>, где Хр - зона нахождения пользователя, Су - координаты пользователя, Брр - скорость пользователя, Ну - координаты центра лица пользователя, В, - биометрические характеристики пользователя, накапливаемые в ходе взаимодействия с подвижными комплексами.

Техническое оснащение робототехнического комплекса включает две основные группы: 1) подвижная платформа, реализующая слежение за появлением препятствий на маршруте комплекса и его перемещение; 2) информационная стойка, на которой выводятся мультимедиа данные об интересующих посетителей объектах и на основе многомодального интерфейса реализуется естественный диалог с пользователем. Поэтому модель подвижного информационного комплекса содержит параметры, значения которых формируются посредством датчиков, расположенных на подвижной платформе, средств захвата аудиовизуальных сигналов, встроенных в информационную стойку, а также параметры, вычисляемые в ходе диалога с пользователем: гр=<Ср, Бр, /р, Ур, Бр, Ж>, где Ср - координаты комплекса, Бр - скорость комплекса, / - режим функционирования, Ур - показания датчиков препятствий, Пр - множество пользователей, находящихся в зоне наблюдения комплекса, Бр - дополнительные параметры (состояние заряда аккумуляторов и других встроенных технических средств), необходимых для функционирования подвижного комплекса, Ж - данные о расположении и режиме функционирования всех обслуживающих комплексов на данной территории [21].

В предложенной модели режим функционирования выбирается из следующего множества / = (/Б, /Е, /а, /р,), где /Б - диалог с посетителем; /Е - сопровождение посетителя; /а - движение с выводом рекламы; /р - движение на техническую остановку. Результатом взаимодействия комплекса гр с пользователем и1 является предоставление услуги Q, состоящей из выдачи информации об объекте оп и/или сопровождения до этого объекта, расположенного на территории обслуживания 2: Q(u,) = Ар 2, оп).

В режиме сопровождении основное внимание было уделено проблеме интерактивного взаимодействия с комплексом. Выделены три зоны положения пользователя относительно комплекса: хеагЛ - зона наблюдения, хес01: - зона сопровождения, хца10& - зона взаимодействия. Наличие пользователя в одной из зон определяется на основе следующих логических правил:

Xij (dij , a/j, En ) —

xsearch ,dij < dsearch _max Aa/j <asearch _ xescort ,dij < descort _max Aa/j <aescort _

dii < drfinlna mя-v Л ttyy <

max

max

xdialog ,aij < ddialog_max Лаij <adialog_max-

где Хр - зона нахождения пользователя, ёр - расстояние между пользователем и комплексом, ар - угол отклонения пользователя от центра комплекса, Еп - сообщения от системы распознавания речи, ^еагск__тах - максимальное расстояние поиска пользователей, - максимально расстояние, на котором возможен диалог с пользователем, desc0гt тах - максимально допустимое расстояние при сопровождении пользователя, ажагсл_тах - максимальный угол, на котором ведется поиск пользователя, а&о_1пах -максимально допустимый угол отклонения пользователя от центра комплекса в ходе диалога, ае!!С0г1: тах - максимальный допустимый угол отклонения пользователя от центра комплекса при сопровождении. Если указанные правила не выполняются, то считается, что анализируемый объект не является пользователем. На рис. 2 пунктирной

<

линией обозначена зона взаимодействия комплекса. Радиус взаимодействия не должен превышать ^Ла1ог_тах , а угол отклонения пользователя от центра платформы должен быть меньше Ош^ тах. В режиме информирования пользователя подвижный комплекс поддерживает расстояние и угол отклонения в заданных пределах.

rJ

\\

0* / \

VA \ 1

Jd' • • * \ d

search max

аdialos max

! k Vrj

escort norm

i ^ Vrj

rj

VuЛ

Рис. 2. Схемы движения пользователя и комплекса на основных этапах взаимодействия: а - обнаружение пользователя в зоне взаимодействия комплекса; б - информирование пользователя с подстройкой положения комплекса; в - сопровождение пользователя до интересующего объекта; г - отсутствие пользователя в зоне взаимодействия комплекса

Взаимодействие комплекса с пользователями можно разделить на несколько этапов. Комплекс, перемещаясь по заданному маршруту в режиме рекламирования, производит опрос сенсоров на наличие пользователей на расстоянии ^.еагск тах от комплекса (рис. 2,а). В случае обнаружения пользователя в зоне поиска информационный комплекс корректирует свое положение относительно пользователя таким образом, чтобы расстояние до него не превышало ^¿1а1ог_тах, а угол отклонения относительно центра не превышал угол аоа1о^_тах. После чего комплекс переходит в режим информирования посетителя (рис. 2,б). При поступлении запроса о сопровождении пользователя в указанное место комплекс переходит в режим сопровождения (рис. 2,в). В этом режиме пользователь должен находиться в зоне сопровождения Хеясогр Это условие поддерживается посредством корректировки скорости и направления движения комплекса. В случае если пользователь отдалился от комплекса на расстояние, превышающее ^еагсктах (рис. 2,г), считается, что он покинул зону взаимодействия и комплекс переходит в режим рекламирования.

б

а

в

г

На основе анализа предложенного ранее стационарного варианта информационно-справочного киоска был разработан базовый сценарий поведения устройства в режиме информирования в зависимости от действий пользователя, представлен на рис. 3.

( Пользователь ,—и зашел в зону

Пользователь обнаружен модулем видеолокализации

Аудиовизуальный синтез приветствия

Г

Пользователь N ( Полезный речевой УЫпроизнес фразу в зоне Ысигнал выявлен модулем У' речевого диалога^/ \аудиолокализации

Распознавание голосовой команды

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Запрос к текстовой базе данных

Вывод графических данных на сенсорный экран

Синтез аудиовизуального сообщения )

интез аудиовизуаль VI ного предложения о сопровождении

Полезный речевой сигнал выявлен модул аудиолокализации

Распознавание голосовой

команды

Расчет маршрута движения комплекс

Движение комплекса по маршруту с синтезом аудиовизуальных сообщений в ходе сопровождения

Пользователь вышел из зоны видеомониторинга

Переход комплекса в режим рекламирования

Режим приветствия

Диалоговые режимы -(информи рование/ сопровож дение)

Рекламный режим

Рис. 3. Сценарий работы комплекса в режиме диалога

В сценарии отражены типичные случаи взаимодействия, реализуемые на основе многомодального интерфейса, например: (1) пользователь прошел мимо комплекса слишком быстро, чтобы сработал модуль видеолокализации; (2) пользователь вошел в зону видеомониторинга, был запущен аудиовизуальный синтез приветствия, но пользователь прошел дальше; (3) пользователь произнес голосовую команду в зоне речевого диалога, его аудиосигнал был зарегистрирован как полезный, распознан, произведен поиск необходимой информации в базе данных, а результат выведен на экран киоска и синтезирован посредством «говорящей головы», после чего пользователь ушел от устройства, получив нужные ему данные; (4) после получения информации пользователю было предложено сопровождение до выбранного объекта, и если пользователь подтверждает необходимость сопровождения, то производится расчет маршрута и движение до указанного объекта с выводом справочной информации об объекте.

В ходе одного сеанса взаимодействия пользователь может сделать несколько голосовых запросов к комплексу, в этом случае этапы аудиообработки и вывода информации на экран повторяются соответствующее число раз. При наличии нескольких пользователей, приоритетным автоматически признается тот, кто находится ближе всего. При поступлении задания от пользователя проверяется наличие других заданий, а также опрашиваются датчики препятствий и состояние аккумуляторов. Для улучшения естественности и эффективности информационного обслуживания пользователей в дальнейшем планируется учитывать его предпочтения и персональные характеристики.

Заключение. Многомодальные пользовательские интерфейсы к мобильным робототехническим комплексам обеспечивают восприятие и контекстный анализ текущей окружающей обстановки и взаимодействие с неподготовленными конечными пользователями. Наличие естественного способа взаимодействия сейчас является не менее важным свойством устройства, чем его функциональные возможности. Построение контекстно-осведомленных робототехнических комплексов с многомодальным интерфейсом позволяет учесть предпочтения и возможности пользователя, а также адаптировать их работу, учитывая условия физического окружения и состояние доступных вычислительных и сетевых ресурсов. Предложенный подход выбора набор естественных входных и выходных модальностей при проектирования многомодального интерфейса был успешно использован при разработке интерактивного информационно-навигационного робототехнического мобильного комплекса и в других областях [22, 23, 24].

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Ducatel K., Bogdanowicz M, Scapolo F., Leijten J., Burgelman, J-C. ISTAG - Scenarios of Ambient Intelligence in 2010 // European Commission Community Research. - Feb. 2001.

- 58 p.

2. Юсупов Р.М., Ронжин А.Л. От умных приборов к интеллектуальному пространству // Вестник Российской академии наук. - 2010. - Т. 80, № 1. - С. 45-51.

3. Городецкий В.И., Карсаев О.В., Самойлов В.В., Серебряков С.В. Агентская платформа для повсеместных вычислений // Информационные технологии и вычислительные системы. - 2008. - Вып. 4. - C. 51-60.

4. Breazeal C.L. Designing Sociable Robots. MIT Press (2002).

5. Foster M. E., Giuliani M., Knoll A. Comparing Objective and Subjective Measures of Usability in a Human-Robot Dialogue System // In Proc. of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP, 2009. - P. 879-887.

6. Кобозева И.М., Сидоров Г.О., Циммерлинг А.В. Модуль управления диалогом в системе общения пользователя с подвижным роботом-гидом // Труды СПИИРАН. - 2014. - Вып. 33. - C. 186-206.

7. Nieuwenhuisen M., Stuckler J., Behnke S. Intuitive Multimodal Interaction for Service Robots // In Proc. of HRI'2010. - 2010. - P. 177-178.

8. Budkov V., Prischepa M., Ronzhin A. Dialog Model Development of a Mobile Infor-mation and Reference Robot // Pattern Recognition and Image Analysis, Pleiades Publishing. - 2011.

- № 21 (3). - P. 458-461.

9. Lee J. K., Breazeal C. Human Social Response Toward Humanoid Robot's Head and Facial Features // In Proc. of CHI'2010. - 2010. - P. 4237-4242.

10. Roy N., Roy A., Das S. Context-aware resource management in multi-inhabitant smart homes: A nash H-learning based approach // Pervasive and Mobile Computing Journal. - November 2006. - Vol. 2, Issue 4. - P. 372-404.

11. TalebiFard P., Leunga V.A Data Fusion Approach to Context-Aware Service Delivery in Heterogeneous Network Environments // Procedia Computer Science. - 2011. - Vol. 5. - P. 312-319.

12. Boytsov A., Zaslavsky A. Extending context spaces theory by proactive adaptation. Berlin: Springer, S. Balandin et al. (Eds.): NEW2AN/ruSMART 2010, LNCS 6294. - 2010. - P. 1-12.

13. Dai P., Tao L., Xu G. Audio-Visual Fused Online Context Analysis Toward Smart Meeting Room. Berlin: Springer, J. Indulska et al. (Eds.): UIC 2007, LNCS 4611. - 2007. - P. 868-877.

14. Глазков С.В., Ронжин А.Л. Методы анализа контекста приложений в мобильных гетерогенных устройствах // Доклады ТУСУРа. - 2012. - Т. 3, № 1. - С. 236-240.

15. Юсупов Р.М., Ронжин А.Л., Прищепа М.В., Ронжин Ал.Л. Модели и программно-аппаратные решения автоматизированного управления интеллектуальным залом // Автоматика и телемеханика. - 2011. - № 7. - С. 39-49.

16. Ронжин Ал.Л., Ронжин Ан.Л. Система аудиовизуального мониторинга участников совещания в интеллектуальном зале // Доклады ТУСУРа. - 2011. - № 1 (22). Ч. 1. - С. 153-157.

17. Ронжин А.Л., Будков В.Ю. Технологии поддержки гибридных е-совещаний на основе методов аудиовизуальной обработки // Вестник компьютерных и информационных технологий. - 2011. - № 4. - С. 31-35.

18. Прищепа М.В., Ронжин А.Л. Модели интерактивного взаимодействия с подвижным информационно-навигационным комплексом // Доклады ТУСУР. - 2013. - № 2.

- С. 136-141.

19. Ronzhin A., Prischepa M., Budkov V. Development of Means for Support of Comfortable Conditions for Human-Robot Interaction in Domestic Environments // Workshop Proceedings of the 8th International Conference on Intelligent Environments. J.A. Botía et al. (Eds.), IOS Press, 2012. - P. 221-230.

20. Prischepa M., Budkov V. Structural Model and Behavior Scenarios of Information Navigation Mobile Robot // Springer International Publishing Switzerland. A. Ronzhin et al. (Eds.): SPECOM 2014, LNAI 8773. - 2014. - P. 444-451.

21. Budkov V., Prischepa M., Ronzhin A. Dialog Model Development of a Mobile Information and Reference Robot // Pattern Recognition and Image Analysis, Pleiades Publishing. - 2011.

- Vol. 21, No. 3. - P. 458-461.

22. Ronzhin A., Budkov V. Speaker Turn Detection Based on Multimodal Situation Analysis // Springer International Publishing Switzerland. M. Zelezny et al. (Eds.): SPECOM 2013, LNAI 8113. - 2013. - P. 302-309.

23. Ronzhin A., Budkov V., Kipyatkova I. PARAD-R: Speech Analysis Software for Meeting Support // In Proc. of the 9th International Conference on Information, Communications and Signal Processing ICICS-2013, Tainan, Taiwan, 2013.

24. Юсупов Р.М., Крючков Б.И., Карпов А.А., Ронжин А.Л., Усов В.М. Возможности применения многомодальных интерфейсов на пилотируемом космическом комплексе для поддержания коммуникации космонавтов с мобильным роботом - помощником экипажа // Пилотируемые полеты в космос. - 2013. - № 3 (8). - С. 23-34.

REFERENCES

1. Ducatel K., Bogdanowicz M., Scapolo F., Leijten J., Burgelma, J-C. ISTAG - Scenarios of Ambient Intelligence in 2010, European Commission Community Research, Feb. 2001, 58 p.

2. Yusupov R.M., Ronzhin A.L. Ot umnykh priborov k intellektual'nomu prostranstvu, Vestnik Rossiyskoy akademii nauk, 2010, Vol. 80, No. 1, pp. 45-51.

3. Gorodetskiy V.I., Karsaev O.V., Samoylov V.V., Serebryakov S.V. Agentskaya platforma dlya povsemestnykh vychisleniy [Agent platform for ubiquitous computing], Informatsionnye tekhnologii i vychislitel'nye sistemy [Information technology and computer systems], 2008, Issue 4, pp. 51-60.

4. Breazeal C.L. Designing Sociable Robots. MIT Press (2002).

5. Foster M. E., Giuliani M., Knoll A. Comparing Objective and Subjective Measures of Usability in a Human-Robot Dialogue System, In Proc. of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP, 2009, pp. 879-887.

6. Kobozeva I.M., Sidorov G.O., Tsimmerling A.V. Modul' upravleniya dialogom v sisteme obshcheniya pol'zovatelya s podvizhnym robotom-gidom [The module management dialog in the system interacting with a mobile robotic guide], Trudy SPIIRAN [Proceedings of SPIIRAS], 2014, Issue 33, pp. 186-206.

7. Nieuwenhuisen M., Stuckler J., Behnke S. Intuitive Multimodal Interaction for Service Robots, In Proc. of HRI'2010, 2010, pp. 177-178.

8. Budkov V., Prischepa M., Ronzhin A. Dialog Model Development of a Mobile Infor-mation and Reference Robot // Pattern Recognition and Image Analysis, Pleiades Publishing, 2011, No. 21 (3), pp. 458-461.

9. Lee J. K., Breazeal C. Human Social Response Toward Humanoid Robot's Head and Facial Features, In Proc. of CHI'2010, 2010, pp. 4237-4242.

10. Roy N., Roy A., Das S. Context-aware resource management in multi-inhabitant smart homes: A nash H-learning based approach, Pervasive and Mobile Computing Journal, November 2006, Vol. 2, Issue 4, pp. 372-404.

11. TalebiFard P., Leunga V.A Data Fusion Approach to Context-Aware Service Delivery in Heterogeneous Network Environments, Procedia Computer Science, 2011, Vol. 5, pp. 312-319.

12. Boytsov A., Zaslavsky A. Extending context spaces theory by proactive adaptation. Berlin: Springer, S. Balandin et al. (Eds.): NEW2AN/ruSMART 2010, LNCS 6294, 2010, pp. 1-12.

13. Dai P., Tao L., Xu G. Audio-Visual Fused Online Context Analysis Toward Smart Meeting Room. Berlin: Springer, J. Indulska et al. (Eds.): UIC 2007, LNCS 4611, 2007, pp. 868-877.

14. Glazkov S. V., Ronzhin A.L. Metody analiza konteksta prilozheniy v mobil'nykh geterogennykh ustroystvakh [Methods of analysis of the context of applications in heterogeneous mobile devices], Doklady TUSURa [Reports of Tomsk University], 2012, Vol. 3, No. 1, pp. 236-240.

15. Yusupov R.M., Ronzhin A.L., Prishchepa M.V., Ronzhin Al.L. Modeli i programmno-apparatnye resheniya avtomatizirovannogo upravleniya intellektual'nym zalom [Models and software and hardware solutions for the automated management of intellectual hall], Avtomatika i telemekhanika [Automation and remote control], 2011, No. 7, pp. 39-49.

16. Ronzhin Al.L., Ronzhin An.L. Sistema audiovizual'nogo monitoringa uchastnikov sove-shchaniya v intellektual'nom zale [The audiovisual system of monitoring of participants in the smart room], Doklady TUSURa [Reports of Tomsk University], 2011, No. 1 (22), Part 1, pp. 153-157.

17. Ronzhin A.L., Budkov V.Yu. Tekhnologii podderzhki gibridnykh e-soveshchaniy na osnove metodov audiovizual'noy obrabotki [Technology support hybrid e-meetings on the basis of the audiovisual processing], Vestnik komp'yuternykh i informatsionnykh tekhnologiy [Journal of computer and information technology], 2011, No. 4, pp. 31-35.

18. Prishchepa M.V., Ronzhin A.L. Modeli interaktivnogo vzaimodeystviya s podvizhnym informatsionno-navigatsionnym kompleksom [Models of interactive communication with a mobile information and navigation system], Doklady TUSURa [Reports of Tomsk University], 2013, No. 2, pp. 136-141.

19. Ronzhin A., Prischepa M., Budkov V. Development of Means for Support of Comfortable Conditions for Human-Robot Interaction in Domestic Environments, Workshop Proceedings of the 8th International Conference on Intelligent Environments. J.A. Botia et al. (Eds.), IOS Press, 2012, pp. 221-230.

20. Prischepa M., Budkov V. Structural Model and Behavior Scenarios of Information Navigation Mobile Robot, Springer International Publishing Switzerland. A. Ronzhin et al. (Eds.): SPECOM 2014, LNAI 8773, 2014, pp. 444-451.

21. Budkov V., Prischepa M., Ronzhin A. Dialog Model Development of a Mobile Information and Reference Robot, Pattern Recognition and Image Analysis, Pleiades Publishing, 2011, Vol. 21, No. 3, pp. 458-461.

22. Ronzhin A., Budkov V. Speaker Turn Detection Based on Multimodal Situation Analysis, Springer International Publishing Switzerland. M. Zelezny et al. (Eds.): SPECOM 2013, LNAI 8113, 2013, pp. 302-309.

23. Ronzhin A., Budkov V., Kipyatkova I. PARAD-R: Speech Analysis Software for Meeting Support, In Proc. of the 9th International Conference on Information, Communications and Signal Processing ICICS-2013, Tainan, Taiwan, 2013.

24. Yusupov R.M., Kryuchkov B.I., Karpov A.A., Ronzhin A.L., Usov V.M. Vozmozhnosti prime-neniya mnogomodal'nykh interfeysov na pilotiruemom kosmicheskom komplekse dlya podderzhaniya kommunikatsii kosmonavtov s mobil'nym robotom - pomoshchnikom ekipazha [The application possibilities of multimodal interfaces for manned space complex to maintain communication astronauts with a mobile robot assistant crew], Pilotiruemye polety v kosmos [Manned flights into space], 2013, No. 3 (8), pp. 23-34.

Статью рекомендовал к опубликованию д.т.н. А. А. Карпов.

Ронжин Андрей Леонидович - Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук; e-mail: [email protected]; 199178, Санкт-Петербург, 14 линия, 39; тел.: 88123287081, факс: 88123287081; д.т.н.; профессор; заместитель директора по научной работе.

Юсупов Рафаэль Мидхатович - e-mail: [email protected]; тел.: 88123283311, факс: 88123284450; член-корреспондент РАН; д.т.н.; профессор; Заслуженный деятель науки и техники РФ; директор.

Ronzhin Andrey Leonidovich - St. Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences; e-mail: [email protected]; 14th line, 39, St. Petersburg, 199178, Russia; phone: +78123287081, fax: +78123287081; dr. of eng. sc.; professor; deputy-director for research.

Yusupov Rafael Midkhatovich - e-mail: [email protected]; phone: +78123280103, fax: +78123284450; Corresponding member of the Russian Academy of Sciences (RAS); dr. of eng. sc.; professor; director.

i Надоели баннеры? Вы всегда можете отключить рекламу.