Обзор механизмов ввода и вывода в интерфейсах систем дополненной реальности
Галахова Н.Р., МГТУ им. Н.Э.Баумана NatalieGal @yandex.ru
Аннотация
Для реализации взаимодействия с пользователем в системах дополненной реальности применяются различные виды механизмов ввода и вывода, отличающиеся своими характеристиками и сложностью построения. В данной статье рассматриваются ключевые показатели оценки интерфейсов ввода/вывода систем дополненной реальности, достоинства и недостатки различных вариантов реализации механизмов ввода и вывода. Делается вывод о критериях выбора конкретного способа построения интерфейса.
1 Введение
Дополненная реальность (Augmented Reality, AR) определяется как прямое либо непрямое изображение физической среды, элементы которой дополнены информацией, генерируемой компьютером и воздействующей на органы чувств человека (звук, видео, графика и др.). В противовес виртуальной реальности дополненная не замещает реальный мир некоторой эмуляцией, но встраивает в него данные, относящиеся к материальным объектам.
Спектр вариантов применения дополненной реальности на сегодняшний день весьма широк. Её интерактивность и возможность наложения виртуальных объектов на реальные, делают AR многофункциональным инструментом, используемым в различных сферах человеческой деятельности. Технология дополненной реальности находит применение в образовании - при построении обучающих интерактивных моделей, в бизнесе для упрощения делового взаимодействия, в рекламе и маркетинге в качестве инструмента взаимодействия с целевой аудиторией, в индустрии развлечений для создания игровой среды. Любое практическое приложение AR имеет требования к интерфейсу, специфические для каждой решаемой задачи. Так, например, для проведения интерактивной презентации с использованием AR необходимо обеспечивать взаимодействие с виртуальными объектами
для всех наблюдателей одновременно, а рекламный проект должен требовать минимум технических ресурсов для доступа к AR.
Варианты реализации интерфейсов дополненной реальности различаются по ряду параметров и имеют специфическую сферу применения, соответствующую их возможностям. Данная статья посвящена рассмотрению основных типов входных и выходных интерфейсов дополненной реальности, а также факторов принятия решения об использовании того или иного механизма ввода и вывода в соответствии с требованиями решаемой задачи.
2 Механизмы ввода
Механизм ввода представляет собой материальное устройство для прямого взаимодействия пользователя с дополняющими виртуальными объектами [Wang, Dunston, 2011]. Основная проблема механизмов ввода AR состоит в семантическом разрыве между реальными и виртуальными объектами, отрицательно влияющем на простоту восприятия интерфейса пользователем.
Трёхмерный виртуальный объект обладает 6 степенями свободы, следовательно, то же число степеней свободы должен иметь управляющий входной сигнал для осуществления полного контроля над этим объектом. Послать такой сигнал способно как специфическое устройство ввода, разработанное для конкретной решаемой задачи, так и стандартное периферийное устройство наподобие клавиатуры. Тем не менее, способ ввода, более близкий к производимой манипуляции с виртуальным объектом (например, жестовый), создаёт меньшую когнитивную нагрузку на пользователя, чем ввод при помощи буквенно-цифровой клавиатуры. Это означает, что для работы с более развитым механизмом ввода требуется меньшая квалификация пользователя. В то же время разработка и реализация более совершенных разновидностей механизмов ввода требует значительно больших затрат, а сами механизмы связаны с нестандартными устройствами ввода.
Наиболее простыми и, следовательно, наименее интуитивно понятными механизмами ввода являются двухмерный ввод при помощи стандартных периферийных устройств ввода (клавиатура, мышь) и имитация контроллера при помощи персональных ЭВМ. На уровень выше располагаются физические пространственные контроллеры (например, джойстики), работа с которыми более наглядно отображает манипуляцию виртуальными объектами. Ближе всего к производимому над виртуальным объектом действию - жестовый механизм, подразумевающий обращение с визуализированной информацией как с материальной сущностью, а также материальный ввод, использующий упрощённую физическую модель виртуального объекта для управления им (такой вариант применим, например, в системах AR, обучающих работе с неким инструментом) [Wang, Dunston, 2011].
На практике могут использоваться комбинированные варианты механизмов ввода. Один из наиболее известных AR-проектов, Google Glass, использует для управления же-стовый метод, совмещённый с голосовым вводом, который делает устройство управляемым без помощи рук. Голосовой ввод интуитивно понятен пользователю, однако создаёт проблему распознавания естественного языка, а также усложняет локализацию проекта.
Ещё один вариант двухмерного механизма ввода, широко используемый в настоящее время, - ввод с использованием сенсорного дисплея. Этот способ доступен для обширного класса персональных устройств и делает возможным создание AR-приложений для смартфонов и планшетных ПК.
Таким образом, двухмерные механизмы ввода имеют более низкую стоимость и, следовательно, доступны для широкого круга пользователей. Тем не менее, они более семантически удалены от манипуляции, производимой с объектом AR, и в меньшей мере обладают интуитивностью.
Выбор используемого механизма зависит от решаемой задачи. Примеры факторов, влияющих на принятие решения, и возможные варианты механизмов ввода представлены в Табл. 1.
3 Характеристики AR-изображения
AR-изображение - это кадр, получаемый при наложении визуальных информационных
объектов на образ реального мира. AR-изображение может быть получено как на дисплее некоторого устройства, так и напрямую при помощи зрения, если виртуальные объекты визуализируются в реальном пространстве. Такие изображения строятся различными способами и отличаются рядом характеристик, описывающих субъективное восприятие кадра пользователем.
В [Milgram, Colquhoun, 1994] выделяют три основные характеристики, описывающие AR-изображение: центричность (centricity), искажение (distortion) и прямизна отображения (directness of view).
С позиции центричности AR-изображение может быть оценено как эгоцентрическое либо экзоцентрическое. Эгоцентрическое изображение, по сути, является видом от первого лица; положение виртуальных и реальных объектов на нём меняется в зависимости от
Табл. 1 - Факторы выбора^ механизма ввода
Фактор Варианты Примеры задач
механизма
ввода
Коллектив- Жестовый Интерактивное биз-
ный доступ Голосовой нес-планирование
к управле- При помо- Многопользователь-
нию объек- щи кон- ские игровые систе-
тами троллеров мы
Имитация Материаль- Обучающие систе-
работы с ный мы
реальным Жестовый Системы дистанци-
объектом онного управления
Доступность Двухмер- «Персональные
для широко- ный при помощники»
го круга помощи Рекламные проекты
пользовате- стандарт-
лей ных
устройств
ввода (в
том числе
сенсорный)
Голосовой
Управление Голосовой Навигационные
без помощи системы
рук Лапароскопические
операции
Максималь- Жестовый Системы военного
но быстрая Материаль- назначения
реакция ный Игровые системы
пользовате- Голосовой
ля
точки зрения пользователя. Экзоцентрическое изображение - это вид со стороны; положение виртуальных и реальных объектов на нём инвариантно и не зависит от точки зрения пользователя. Рис. 1 иллюстрирует различные степени центричности AR-изображения.
Эгоцентрическое_Экзоценгрическо е ^
Рис.1. Центричность AR-изображения
Искажение AR-изображения - это физические деформации, вызываемые используемой для графического вывода оптической системой. Искажение характеризуется ортоско-пичностью: ортоскопический кадр получается при отображении в масштабе 1:1 между реальностью и её образом.
Прямизна отображения определяется наличием какого-либо устройства между пользователем и AR-изображением. Прямое отображение предполагает проецирование виртуальных объектов в реальное пространство либо на специальную поверхность. Для того, чтобы увидеть непрямое отображение, необходимо использовать дисплей определённого типа. На Рис. 2 представлены прямое (AR-очки Microsoft HoloLens) и непрямое (приложение на платформе NGRAIN) отображение дополненной реальности.
Л Б
Рис.2. Прямое (А) и непрямое (Б) AR-изображение 4 Механизмы вывода
Механизмы вывода в AR-системах подразделяются на визуальные, акустические, тактильные и т. д. Главная функция механизма вывода - отображение пользовательских сценариев и задач на предназначенные для этого реальные объекты. Основная характеристика механизма вывода системы дополненной реальности - это степень погружения (иммерсии), или присутствие. В [Wang, Dunston, 2011] присутствие определяется как мера, в которой наблюдатель чувствует себя связанным изнутри с отображаемой сценой, а также с виртуальными объектами.
В зависимости от глубины иммерсии в [Milgram, Takemura et al., 1994] выделяют два основных типа дисплеев. Прозрачными (see-through) называются дисплеи, предоставляющие пользователю возможность наблюдать реальный мир напрямую. Таким образом достигается максимально возможная степень погружения. В общем случае виртуальные объекты оптически накладываются на воспринимаемый человеком образ реального мира. Получаемое при этом AR-изображение является прямым. Этот класс механизмов вывода активно используется в авиационных системах в виде панелей либо шлемов.
Второй тип - мониторные (monitor-based) дисплеи, в которых компьютерная графика цифровым либо аналоговым методом накладывается на «живое» либо сохранённое видео. Такая технология в общем случае не требует специализированного устройства отображения, однако степень присутствия в построенных таким образом системах крайне мала. AR-изображение получается непрямым. Этот класс механизмов вывода нашёл широкое применение в мобильных приложениях, использующих камеру устройства для получения образа реального мира.
Информацию для отображения дисплей может получать как из файлов, открываемых управляющей программой, так и извне, в виде маркеров - графических кодов, содержащих информацию о трёхмерном виртуальном объекте. Маркеры не требуют загрузки загрузки дополнительных данных для работы с новым объектом и в большинстве случаев легко наносятся на реальные предметы. Недостаток этого подхода - необходимость наносить маркер с соответствующей информацией на каждый реальный объект, который планируется использовать в AR-системе.
Следует упомянуть о концепции пространственной дополненной реальности (Spatial Augmented Reality, SAR), в которой образы физических объектов изменяются за счёт светового проецирования. Механизм SAR помещает дополняющую графику на сам физический объект, достигая таким образом высокой степени погружения без использования носимого устройства, исключительно при помощи проекторов. Тем не менее, этот вид механизма вывода требует сложного рендеринга, учитывающего положение пользователя, реального объекта, виртуальных объектов, проекторов и устройств ввода [Ramesh, Low, 2001].
Как и определение используемого механизма ввода, выбор механизма вывода диктуется решаемой задачей. В Табл. 2 приведены примеры требований, выдвигаемых к механизму вывода проектируемой AR-системы, и возможные варианты их удовлетворения.
5 Заключение
Интерфейсы дополненной реальности имеют множество реально существующих и перспективных вариантов реализации, различающихся по ряду параметров. Конкретный вид интерфейса (входного и выходного) следует выбирать исходя из требований задачи, доступного технического оснащения и технологических возможностей реализации AR-системы.
От качества проработки интерфейса зависит удобство системы для пользователя и, следовательно, её коммерческий успех. Благодаря современному развитию технологий в настоящее время возможно реализовать достаточно сложные интерфейсы с высокой степенью интуитивности ввода и глубоким погружением.
Существуют также мобильные AR-приложения для смартфонов и планшетных компьютеров; они не отличаются высокими показателями присутствия, однако доступны для широкого круга пользователей. Чем выше показатели интуитивности и иммерсии интерфейса, тем более дорогой и трудоёмкой становится его реализация. В связи с этим прибегать к сложным механизмам ввода и вывода следует лишь тогда, когда это оправдано требованиями решаемой задачи; в остальных случаях следует по возможности снижать стоимость конечной системы за счёт упрощения интерфейсов ввода и вывода.
Список литературы
Milgram, P. and H. Colquhoun. 1999. A Taxonomy of Real and Virtual World Display Integration. Mixed Reality - Merging Real and Virtual Worlds. Y. O. a. H. Tamura, Ohmsha (Tokyo) & Springer Verlag (Berlin), pp. 1-16.
Milgram, P., H. Takemura et al. 1994. Augmented Reality: A class of displays on the reality-virtuality continuum. SPIE: Telemanipulator and Telepresence Technologies, 2351, pp. 282-292.
Ramesh R. and Low K. 2001. Interacting with Spatially Augmented Reality. Proceedings of the 1st international conference on Computer graphics, vir-
tual reality and visualisation, pp. 101-108. ACM, Camps Bay, Cape Town, South Africa.
Wang, X. and Dunston, P. S. 2011. A User-Centered Taxonomy for Specifying Mixed Reality Systems for AEC Industry. Journal of Information Technology in Construction, 16, pp. 493-508
Табл.2 - Факторы выбора механизма ввода
Фактор Варианты механизма вывода Примеры задач
Максимальная иммерсия Нашлемный дисплей (head-mounted display) с видео- либо оптическим наложением Игровые системы Авиационные и медицинские системы
Доступность для широкого круга пользователей Мониторный дисплей, использующий экран стандартного устройства вывода «Персональные помощники» Рекламные проекты
Простота получения информации Маркерный вывод на дисплей прозрачного либо мониторного типа Дополнение информацией выставочных экспонатов Рекламные проекты
Простота добавления в систему новой информации Безмаркерный вывод Персональные навигационные системы Интерактивные презентации
Многопользовательский режим Мониторный либо прозрачный дисплей большого размера SAR Интерактивные презентации Обучающие системы Авиационные системы управления