Научная статья на тему 'Новый подход к проблеме «Прикосновения Мидаса»: идентификация зрительных команд на основе выделения фокальных фиксаций'

Новый подход к проблеме «Прикосновения Мидаса»: идентификация зрительных команд на основе выделения фокальных фиксаций Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
542
55
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЗРИТЕЛЬНЫЕ КОМАНДЫ / УПРАВЛЕНИЕ ВЗОРОМ / ПРОБЛЕМА ПРИКОСНОВЕНИЯ МИДАСА / MIDAS TOUCH PROBLEM / ФОКАЛЬНЫЕ ФИКСАЦИИ / FOCAL FIXATIONS / ГЛУБИНА ВНИМАНИЯ / ATTENTION DEPTH / ЗРИТЕЛЬНОЕ УТОМЛЕНИЕ / VISUAL FATIGUE / VISUAL COMMANDS / GAZE CONTROL

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Величковский Борис Борисович, Румянцев Михаил Александрович, Морозов Михаил Алексеевич

Надежная идентификация произвольных зрительных команд пользователя является основной проблемой при создании глазодвигательных интерфейсов. В работе обосновано использование фокальных зрительных фиксаций пользователя как индикатора зрительных команд. Описаны два эксперимента, в которых оценена эффективность этого подхода в простом управляемом взором интерфейсе. Показано, что точность идентификации не отличается от точности, достижимой с помощью широко применяемого метода регистрации времени пребывания. Одновременно продемонстрировано, что использование фокальных фиксаций приводит к снижению уровня зрительного утомления и ускоряет работу. Обсуждаются перспективы идентификации зрительных команд на основе фокальных фиксаций в глазодвигательных интерфейсах различных типов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Величковский Борис Борисович, Румянцев Михаил Александрович, Морозов Михаил Алексеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

New approach to solution of Midas Touch Problem: Identification of visual commands via extraction of focal fixations

Reliable identification of intentional visual commands is a major problem in the development of eye-movements based user interfaces. This work suggests that the presence of focal visual fixations is indicative of visual commands. Two experiments are described which assessed the effectiveness of this approach in a simple gaze-control interface. Identification accuracy was shown to match that of the commonly used dwell time method. Using focal fixations led to less visual fatigue and higher speed of work. Perspectives of using focal fixations for identification of visual commands in various kinds of eye-movements based interfaces are discussed.

Текст научной работы на тему «Новый подход к проблеме «Прикосновения Мидаса»: идентификация зрительных команд на основе выделения фокальных фиксаций»

ВЕСТН. МОСК. УН-ТА. СЕР. 14. ПСИХОЛОГИЯ. 2013. № 3

Б. Б. Величковский, М. А. Румянцев, М. А. Морозов

НОВЫЙ ПОДХОД К ПРОБЛЕМЕ «ПРИКОСНОВЕНИЯ МИДАСА»: ИДЕНТИФИКАЦИЯ ЗРИТЕЛЬНЫХ КОМАНД НА ОСНОВЕ ВЫДЕЛЕНИЯ ФОКАЛЬНЫХ ФИКСАЦИЙ

Надежная идентификация произвольных зрительных команд пользователя является основной проблемой при создании глазодвигательных интерфейсов. В работе обосновано использование фокальных зрительных фиксаций пользователя как индикатора зрительных команд. Описаны два эксперимента, в которых оценена эффективность этого подхода в простом управляемом взором интерфейсе. Показано, что точность идентификации не отличается от точности, достижимой с помощью широко применяемого метода регистрации времени пребывания. Одновременно продемонстрировано, что использование фокальных фиксаций приводит к снижению уровня зрительного утомления и ускоряет работу. Обсуждаются перспективы идентификации зрительных команд на основе фокальных фиксаций в глазодвигательных интерфейсах различных типов.

Ключевые слова: зрительные команды, управление взором, проблема прикосновения Мидаса, фокальные фиксации, глубина внимания, зрительное утомление.

Reliable identification of intentional visual commands is a major problem in the development of eye-movements based user interfaces. This work suggests that the presence of focal visual fixations is indicative of visual commands. Two experiments are described which assessed the effectiveness of this approach in a simple gaze-control interface. Identification accuracy was shown to match that of the commonly used dwell time method. Using focal fixations led to less visual fatigue and higher speed of work. Perspectives of using focal fixations for

Величковский Борис Борисович — канд. психол. наук, доцент кафедры методологии психологии ф-та психологии МГУ имени М.В. Ломоносова. E-mail: velitchk@mail.ru

Румянцев Михаил Александрович — инженер-исследователь лаборатории когнитивных тестов и моделей НБИКС-центр НИЦ «Курчатовский институт» (Москва). E-mail: rumyantsev_ma@nrcki.ru

Морозов Михаил Алексеевич — инженер-исследователь лаборатории когнитивных тестов и моделей НБИКС-центр НИЦ «Курчатовский институт» (Москва). E-mail: mihmorozov@gmail.com

Работа выполнена при финансовой поддержке Минобрнауки России по государственному контракту от 14.06.2012 г. № 07.514.11.4145 в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007—2013 годы».

33

identification of visual commands in various kinds of eye-movements based interfaces are discussed.

Key words: visual commands, gaze control, Midas touch problem, focal fixations, attention depth, visual fatigue.

Глазодвигательные интерфейсы — современные пользовательские интерфейсы, некоторые функции которых или управление которыми осуществляются взором пользователя с помощью специфических технических устройств. Разработка подобных интерфейсов стала возможна благодаря бурному развитию технологий бесконтактной регистрации движений глаз. Уже сегодня они начинают использоваться в различных областях промышленности, медицины и науки.

В зависимости от выбранной парадигмы человеко-машинного взаимодействия глазодвигательные интерфейсы могут быть разделены на два класса. Один класс — это интерфейсы, использующие управление взором. В них взор человека используется как указывающее устройство (аналогичное компьютерной мыши). Функция взора заключается в выборе элемента интерфейса и его активации с целью выполнения связанной с ним функции вычислительной системы. Таким образом, интерфейсы этого класса используют командную парадигму взаимодействия, при которой пользователи отдают эксплицитные команды. Уже сегодня управляемые взором интерфейсы используются, например, для обеспечения коммуникации парализованных пациентов с внешним миром. Интерфейсы другого класса — интерфейсы, чувствительные к вниманию, — ориентируются на некомандную парадигму взаимодействия. Отслеживая направление взора и характеристики глазодвигательной активности пользователя, они пытаются определить намерения пользователя и поддержать его при их осуществлении. Для всех классов глазодвигательных интерфейсов основной сложностью является обнаружение произвольных зрительных команд и намерений пользователя на основе формальных критериев.

Центральной проблемой разработки глазодвигательных интерфейсов является так называемая проблема «прикосновения Мидаса» (Midas touch problem, Jacob, 1995). Суть проблемы заключается в том, что при прямолинейной реализации идеи глазодвигательного интерфейса любая зрительная фиксация (их насчитывается свыше 100 000 за средний рабочий день) на элементе интерфейса будет приводить к его активации, даже если у пользователя нет такого намерения.

Один из подходов к решению проблемы «прикосновения Мида-са» основывается на использовании эксплицитного движения, служащего индикатором намерения пользователя выполнить команду.

34

При этом взгляд используется как средство выбора, но не активации элемента. Например, типичным является предложение использовать произвольные моргания как индикатор произвольной команды пользователя. Недостатки использования произвольных морганий очевидны — высокая степень дискомфорта пользователя, а также высокая вероятность ложных тревог в связи с непроизвольными морганиями. Предлагаемые в литературе альтернативные индикаторы произвольных команд: движения лицевой мускулатуры (например, «нахмуривание», Tiusku et al., 2012), электрическая активность мозга, возникающая как ответ на представление о моторном движении (Lee et al., 2010), представляются еще менее пригодными в силу низкой надежности обнаружения целевых состояний, а также необходимости использовать инвазивные методы регистрации.

Другой метод решения проблемы «прикосновения Мидаса» основывается на измерении общего времени фиксации взора на элементе интерфейса (dwell time — время пребывания). Когда время пребывания превышает определенный порог, элемент интерфейса активируется и выполняется соответствующая команда. Пороговое значение времени пребывания подбирается таким образом, чтобы оно заметно превышало длительность «обычных» фиксаций. Типичные значения порогового времени пребывания лежат в пределах от 500—800 до 1000 мс, однако встречаются примеры использования порогов до 1500 мс и более (Majaranta, Raiha, 2007). Таким образом, использование интерфейса такого типа требует от пользователя произвольной фиксации взора на элементе интерфейса, который он хочет активировать, в течение времени, превышающего длительность «естественных» фиксаций. Обычно это значительно замедляет работу и вызывает выраженный дискомфорт пользователя.

Учитывая недостатки, присущие обоим методам решения проблемы «прикосновения Мидаса», актуальным можно считать поиск альтернативных решений. Представляется, что возможное решение может быть получено на основе различения фокальных и амбьентных зрительных фиксаций. В основе этой классификации фиксаций лежат представления о существовании двух основных механизмов (или «потоков») переработки зрительной информации — дорзального и вентрального. Дорзальный поток идет из зрительной коры в задние теменные зоны и отвечает за локализацию объектов, в то время как вентральный направляется из зрительной коры в нижневисочные отделы головного мозга и отвечает за идентификацию объектов. Дорзальный поток обеспечивает восприятие пространственного окружения (амбьентное восприятие), включающее быстрые процессы локализации объектов без их идентификации. Он же отвечает за программирование и разворачивание действий по ходу их выполнения.

35

Вентральный поток обеспечивает распознавание и интерпретацию последующей зрительной информации и позволяет планировать действия вне процесса их совершения. Этот модус внимания лежит также в основе «зрения для сознания» — детального восприятия и осознанной идентификации предметов.

Работа каждой подсистемы зрительного восприятия сопровождается специфичной для нее активностью глаз. Амбьентное восприятие требует быстрой оценки местонахождения объектов, что приводит к высокоамплитудным саккадам, выходящим за пределы парафовеальной области (4—5 угловых градусов), и коротким фиксациям, в процессе которых не происходит идентификации объектов. Процесс фокального восприятия, напротив, обеспечивает распознавание объектов, для чего требуется длительная фиксация на нем и малоамплитудные саккады, не выходящие за пределы парафовеальной области. Таким образом, анализ параметров глазодвигательной активности позволяет практически в режиме реального времени определять доминирующий в данный момент модус зрительного внимания.

Например, в исследованиях зрительной оценки дорожной ситуации (Velichkovsky et al., 2002) были выделены три кластера фиксаций: очень короткие фиксации (до 90 мс), которым предшествуют высокоамплитудные саккады (корректировочные фиксации); фиксации длиной от 90 до 140 мс, за которыми следуют большие саккады, выходящие за пределы парафовеальной области (более 4 градусов, предвнимательные, амбьентные фиксации); фиксации длиной более 140—200 мс, после них следовали короткие фиксации, не выходящие за пределы парафовеальной области (фокальные фиксации). Кластеры фиксаций различаются по их длительности: наибольшее количество коротких «корректировочных» фиксаций имеют длительность около 60 мс, большинство длительностей предвнимательных фиксаций находится в промежутке между 100 и 250 мс, а внимательные фокальные фиксации чаще всего длиннее 280—300 мс. Аналогичная кластеризация фиксаций может быть получена и при анализе глазодвигательной активности при восприятии статических сцен.

Таким образом, достаточно длинные фиксации могут считаться фокальными фиксациями, сопровождающими сознательную, внимательную зрительную обработку. В данной работе предлагается использовать критерии выделения фокальных фиксаций для идентификации зрительных команд в управляемых взором интерфейсах. Такой подход позволяет «отсечь» короткие амбьентные фиксации, которые связаны с задачами зрительной ориентации, снижая количество «ложных тревог». Вместе с тем длительность фокальных фиксаций обычно существенно короче типичных значений времени

36

пребывания. Это позволяет снизить дискомфорт пользователя. Так как конкретные значения длительности фокальных фиксаций зависят от конкретной зрительной задачи, а также от индивидуальных особенностей пользователя, то эффективность предложенного решения может быть повышена, если использовать индивидуальные критерии выделения фокальных фиксаций. Ниже приводится описание двух экспериментов, направленных на эмпирическую оценку эффективности предложенного подхода.

Эксперимент 1

Методика

Аппаратура. Стимуляция предъявлялась на экране 19” ЖК-монитора, расположенного на расстоянии 60—65 см от испытуемого. Регистрация движений глаз осуществлялась с помощью установки Eyelink 1000 производства SR Research Ltd. (Канада) со скоростью 250 Гц. Процедура предъявления была реализована в системе программирования психологических экспериментов E-Prime 2.0 Professional, синхронизированной с системой Eyelink посредством предоставляемого SR Research Ltd. COM-интерфейса.

Участники. 10 человек (трое мужчин, 7 женщин, средний возраст 22.5 года), студенты факультета психологии МГУ имени М.В. Ломоносова.

Процедура. Эксперимент проходил в 3 этапа. Этап 1 был направлен на определение параметров индивидуальных распределений длительности фиксаций и амплитуд саккад в задаче зрительного поиска, использующей реалистичный зрительный материал. Этап 2 был направлен на определение индивидуальных параметров фиксаций, соответствующих зрительным командам пользователя при имитации работы с управляемым взором интерфейсом. Этап 3 был направлен на проверку эффективности определения зрительных команд на основе выделения фокальных фиксаций при работе с управляемым взором интерфейсом и его сравнения с методом регистрации времени пребывания (порог=500 мс).

Этап 1. Испытуемому в случайном порядке предъявлялись 30 фотографий панорам городов центральной Европы (Будапешт, Бухарест, Прага). При предъявлении каждой фотографии испытуемый должен был определить, содержит ли изображение «церковь», ответив «да» или «нет».

Этап 2. Испытуемому предъявлялась матрица из 9 «цифровых кнопок» размером 3х3 (по аналогии с кнопочным телефоном или цифровой клавиатурой). Испытуемому на слух предъявлялись цифры, которые он должен был условно «нажать взглядом». Количество нажимаемых цифр варьировалось в пределах одной пробы (1 и 4 цифры). Предъявлялось по 10 проб каждого типа.

37

Этап 3. Было использовано задание из этапа 2, однако нажатие на кнопки взором («зрительная команда») не имитировалось, а осуществлялось в действительности. При выделении зрительной команды происходило нажатие фиксируемой взором кнопки. Использовались два экспериментальных условия. В одном условии критерием выделения зрительной команды было соответствие фиксации индивидуальным критериям фокальных фиксаций, определяемым на этапе 1. В другом условии зрительная команда идентифицировалась, если время пребывания взора в переделах кнопки превышало 500 мс. Определение зрительной команды сопровождалось зрительной обратной связью (кратковременная смена цвета рамки кнопки) и звуковой обратной связью («щелчок»). Такая обратная связь существенно повышает эффективность работы в задаче набора текста с помощью движений глаз (Majaranta et al., 2006). Порядок экспериментальных условий был сбалансирован внутри испытуемых. Предъявлялось по 30 проб каждого типа. В этапе 3 приняли участие 4 из 10 испытуемых (двое мужчин, 2 женщины).

Результаты

Этап 1. Были получены индивидуальные распределения длительности фиксаций и амплитуды саккад. Средняя длительность фиксаций составила 325 мс (диапазон индивидуальных средних значений 271—383 мс). Средняя амплитуда саккад составила 6.3 градусов (диапазон 4.7—7.6 градуса). Как и ожидалось, для распределений длительности фиксаций и амплитуды саккад были обнаружены выраженные индивидуальные различия. Поэтому значения длительности фиксаций и амплитуды саккад были стандартизованы с помощью z-трансформации. На основе стандартизованных значений были рассчитаны средние амплитуды саккад, предшествующих или следующих за фиксациями определенной длительности. График зависимости амплитуды саккад от длительности фиксаций представлен на рис. 1, а. На графике можно различить два типа фиксаций. «Короткие» фиксации (z<0) сочетаются с низкоамплитудными предыдущими саккадами и высокоамплитудными следующими саккадами (корректировочные и амбьентные фиксации). «Длинные» фиксации (z>0) сочетаются с саккадами, амплитуда которых соответствует индивидуальной средней амплитуде саккад (z=0). Учитывая значения индивидуальных средних амплитуд саккад, можно предположить, что такие саккады с большой вероятностью остаются в пределах парафовеальной области. Это позволяет рассматривать соответствующие длинные фиксации как фокальные. Таким образом, индивидуальными критериями выделения фокальных фиксаций можно считать индивидуальную среднюю длительность фиксаций и индивидуальную среднюю амплитуду саккады.

38

Рис. 1. Зависимость амплитуды предшествующих (сплошная линия) и следующих (прерывистая линия) саккад от длительности фиксаций. Стандартизованные данные эксперимента 1 (а — этап 1, б — этап 2). Шкалы градуированы в единицах стандартного отклонения

Этап 2. График зависимости амплитуды саккад от длительности фиксаций представлен на рис. 1, б. На графике хорошо выделяются два типа фиксаций. Коротким фиксациям (z<0) предшествуют сак-кады относительно большой амплитуды. За ними следуют саккады относительно низкой амплитуды (связаны с переводом взора на кнопку с возможной последующей корректировкой). Длинным фиксациям (z>0) предшествуют саккады средней амплитуды (она соответствует диаметру парафовеальной области), что позволяет отнести их к фокальным фиксациям. За этими фиксациям следуют саккады высокой амплитуды. Таким образом, эти фиксации могут быть связаны с внимательным рассматриванием кнопки с последующим переводом взора на другую кнопку.

Центральный вопрос этого этапа эксперимента состоял в возможности различить фиксации, связанные с произвольной имитацией нажатия на кнопку, и прочие фиксации на основе критериев выделения фокальных фиксаций. С этой целью все фиксации были разделены на «целевые» (находятся в пределах одной из заданных в пробе кнопок) и «нецелевые» (находятся вне пределов любой из заданных в пробе кнопок). Для целевых и нецелевых фиксаций были построены совместные плотности распределения их длительности и амплитуд предшествующих и следующих саккад. Плотности были построены с помощью функции bkde2D пакета KernSmooth (http:// cran.r-project.org/web/packages/KernSmooth) в среде статистического анализа R.

39

Рис. 2. Разность между плотностью распределения длительности фиксаций и амплитуды саккад для целевых фиксаций и аналогичной плотностью для нецелевых фиксаций. Показаны только различия свыше 5%. Стандартизованные данные эксперимента 1 (а — предыдущие саккады, б — следующие саккады).

Шкалы градуированы в единицах стандартного отклонения

На рис. 2 представлены результаты вычитания плотности распределения нецелевых фиксаций из плотности распределения целевых фиксаций. Такое вычитание позволяет наглядно представить характеристики фиксаций, которые являются специфическими для имитированного «нажатия» на кнопку. Из рис. 2, а видно, что этим фиксациям предшествуют низкоамплитудные саккады, остающиеся в пределах парафовеальной области. Такие фиксации могут быть короткими (z<0), их вероятная функция состоит в рефиксации взора на целевой кнопке. Они также могут быть длинными (z>0), т.е. фокальными в указанном ранее смысле. Из рис. 2, б видно, что за короткими фиксациями следуют низкоамплитудные саккады (это подтверждает предположение об их связи с рефиксацией целевой кнопки). За длинными (фокальными) фиксациями следуют саккады большой амплитуды. Вероятно, что они связаны с переводом взора на другую кнопку после имитации нажатия. Таким образом, специфическими для имитации нажатия являются именно фокальные фиксации. Объективными критериями их выделения являются индивидуальная средняя длительность фиксаций и индивидуальная средняя амплитуда саккад.

Этап 3. Для каждого испытуемого в каждом условии рассчитывалась точность идентификации зрительных команд. Точность определялась как относительная частота правильных зрительных команд (т.е. «нажатий» на заданные в пробе кнопки). Средняя точность

40

определения зрительных команд методом выделения фокальных фиксаций составила 97%. Она практически не отличалась от средней точности определения зрительных команд методом регистрации времени пребывания (98%). Различие в точности незначимо, х2(1)=0.21, p>0.1. Таким образом, идентификация зрительных команд методом выделения фокальных фиксаций не приводит к увеличению количества ошибок по сравнению с идентификацией зрительных команд методом регистрации времени пребывания. Испытуемые отмечали большее зрительное утомление, возникающее при работе в условии традиционной методики регистрации времени пребывания.

Эксперимент 2

Методика

Общая характеристика. Эксперимент 2 был направлен на дополнительную проверку результатов эксперимента 1. При сопоставлении эффективности идентификации зрительных команд на основе выделения фокальных фиксаций и на основе регистрации времени пребывания проводилась оценка уровня зрительного утомления с помощью специализированного опросника А.Б. Леоновой, Т.А. Шишкиной, Т.П. Даниловой (подробнее см: Leonova et al., 2001). Опросник содержит 21 вопрос, оценивающий субъективную выраженность симптомов зрительного утомления (например, «Я четко воспринимаю все, происходящее на экране», «Ощущаю давление и тяжесть в глазах» и т.д.). Выраженность симптомов оценивается по шкале от 1 до 4, общая оценка зрительного утомления может варьироваться от 21 до 84 баллов (от 29 баллов — умеренное утомление, от 44 баллов — выраженное утомление). Для регистрации движений глаз и предъявления стимуляции использовалась та же аппаратура, что и в эксперименте 1.

Участники. 20 человек (5 мужчин, 15 женщин, средний возраст 22 года), студенты факультета психологии МГУ имени М.В. Ломоносова, не принимавшие участие в эксперименте 1.

Процедура. Эксперимент проводился в 3 этапа, содержательно аналогичных этапам эксперимента 1.

Этап 1. Использовался стимульный материал из базы изображений, содержащей 900 фотографий городских пейзажей, на которых присутствовали или отсутствовали люди (Ehinger et al., 2009). Было отобрано 50 фотографий с людьми и 50 фотографий без людей. Фотографии предъявлялись в случайном порядке. Испытуемый должен был определить наличие людей на фотографии, сказав «да» или «нет».

Этап 2. Задание соответствовало заданию этапа 2 эксперимента 1. Использовались 50 проб с 4 цифрами.

41

Этап 3. Задание соответствовало заданию этапа 3 эксперимента 1. Использовались 120 проб с 4 цифрами. Экспериментальные условия задавались методом идентификации зрительных команд (выделение фокальных фиксаций или регистрация времени пребывания). Порядок экспериментальных условий был сбалансирован между испытуемыми (половина испытуемых выполняла задание в порядке фокальные фиксации время пребывания, а половина испытуемых — в обратном порядке). Для определения фокальных фиксаций использовались полученные на этапе 1 индивидуальные средние длительности фиксаций и амплитуды саккад. После выполнения одного условия испытуемый заполнял опросник на зрительное утомление. Затем испытуемый отдыхал в течение 5 минут, выполнял другое условие и снова заполнял опросник на зрительное утомление.

Результаты

Этап 1. Средняя длительность фиксаций составила 274 мс (диапазон индивидуальных средних значений 226—353 мс). Средняя амплитуда саккад составила 4.4 градуса (диапазон 3.3—5.9 градуса). Для стандартизованных данных о длительности фиксаций и амплитуде саккад был построен график их зависимости (рис. 3, а). Длинным фиксациям (z>0) предшествуют саккады в пределах парафовеальной области (z=0). За ними также следуют саккады в пределах парафове-альной области. С увеличением длительности фиксаций наблюдается тенденция к уменьшению амплитуды предшествующих саккад и увеличению амплитуды следующих саккад. В целом фиксации длительностью больше индивидуальной средней длительности могут рассматриваться как фокальные фиксации, связанные с детальным исследованием потенциальных «целевых объектов».

Этап 2. На рис. 3, б представлен график зависимости амплитуды саккад от длительности фиксаций. Длинным фиксациям (z>0) в среднем предшествуют саккады в пределах парафовеальной области, а следующие за ними саккады выходят за пределы парафовеальной области. Такие фиксации могут быть связаны с внимательным (фокальным) восприятием целевой кнопки и переводом взора на следующую целевую кнопку.

На рис. 4 представлены результаты вычитания плотностей совместного распределения длительности «целевых» и «нецелевых» фиксаций и амплитуды предшествующих им и следующих за ними саккад. Фиксациям, специфическим для имитации нажатий, предшествуют саккады низкой амплитуды (рис. 4, а). Сами фиксации могут быть короткими (рефиксации), но большая часть является длинными фиксациями (z>0). За короткими фиксациями следуют низкоамплитудные саккады (рефиксации). За длинными (фокальными) фиксациями следуют высокоамплитудные саккады, связанные с переводом взора

42

Рис. 3. Зависимость амплитуды предшествующих (сплошная линия) и следующих (прерывистая линия) саккад от длительности фиксаций. Стандартизованные данные эксперимента 2 (а — этап 1, б — этап 2). Шкалы градуированы в единицах стандартного отклонения

Рис. 4. Разность между плотностью распределения длительности фиксаций и амплитуды саккад для целевых фиксаций и аналогичной плотностью для нецелевых фиксаций. Показаны только различия свыше 5%. Стандартизованные данные эксперимента 2 (а — предыдущие саккады, б — следующие саккады).

Шкалы градуированы в единицах стандартного отклонения

на другую кнопку после имитации нажатия. Как и в эксперименте 1, имитация зрительных команд оказалась специфическим образом связанной с наличием фокальных фиксаций. Критериями их выделения

43

и в этом случае могут служить индивидуальная средняя длительность фиксаций и индивидуальная средняя амплитуда саккад.

Этап 3. Точность идентификации зрительных команд рассчитывалась так же, как в эксперименте 1. Средняя точность для идентификации зрительных команд методом выделения фокальных фиксаций составила 90.7%. Средняя точность идентификации зрительных команд методом регистрации времени пребывания составила 93.5%. Это различие в точности не было значимым, у2(1)=2.42, p=0.12. Таким образом, оба метода не различаются статистически достоверно по точности идентификации зрительных команд.

Уровень зрительного утомления при идентификации зрительных команд методом выделения фокальных фиксаций был значимо ниже (40.9±9.5 балла), чем при идентификации зрительных команд на основе регистрации времени пребывания (43.7±12.2). Согласно тесту Колмогорова—Смирнова, распределения значений зрительного утомления для обоих методов не отличались значимо от нормального (обе p>0.1). Согласно t-критерию Стъюдента для парных выборок, различие в уровне зрительного утомления было значимым, t(19)=2.28, p=0.04.

Обсуждение результатов и выводы

Проведенные эксперименты показали принципиальную возможность реализации управления взором в простой модели командного интерфейса на основе различения фокальных и амбьентных фиксаций. Было показано, что простым индивидуальным критерием выделения фокальных фиксаций является среднее индивидуальных распределений длительностей фиксаций, полученных в задачах зрительного поиска.

Полученные результаты позволяют высоко оценить перспективы использования метода выделения фокальных фиксаций для идентификации зрительных команд в управляемых взором интерфейсах и таких их производных, как интерфейсы глаз—мозг—компьютер. В обоих экспериментах было показано, что точность идентификации зрительных команд при этом достаточно высока — не менее 90%. При этом точность идентификации не отличается значимо от точности идентификации, показанной для метода регистрации времени пребывания. Важно, что (в подтверждение гипотезы эксперимента 2) уровень зрительного утомления при работе с методом фокальных фиксаций значимо ниже, чем при работе с методом регистрации времени пребывания. Таким образом, распознавание интенциональных глазодвигательных жестов — зрительных команд — на основе выделения фокальных фиксаций может быть эффективным подходом к решению, казалось бы, неразрешимой проблемы «прикосновения Мидаса». С одной стороны, риск ложных тревог достаточно низок.

44

С другой стороны, снижение вероятности ложных тревог не достигается путем повышения дискомфорта пользователя.

Естественность и высокая скорость работы с управляемыми взором интерфейсами являются важными характеристиками, определяющими их принятие конечными пользователями. Важным частным случаем также является повышение простоты использования глазодвигательных интерфейсов в сочетании с интерфейсами мозг—компьютер, например в случае пациентов с синдромом locked-in, для которых они могут быть единственной формой коммуникации с внешним миром. Продемонстрированная выше способность распознавать уровень глубины внимания, не нарушая ориентировочно-исследовательскую активность пользователя, определяет возможность создания эффективных некомандных интерфейсов ближайшего будущего.

СПИСОК ЛИТЕРАТУРЫ

Ehinger K., Hidalgo-Sotelo B., Torralba A., Oliva A. (2009). Modeling search for people in 900 scenes: A combined source model of eye guidance. Visual Cognition, 17, 6—7, 945—978.

Jacob, R. (1995). Eye tracking in advanced interface design. In: W. Barfield, T.A. Furness (Eds), Virtual environments and advanced interface design (pp. 258—288). New York: Oxford University Press.

Lee E., Woo J., Kim J., Whang M., Park K. (2010). A brain-computer interface method combined with eye tracking for 3D interaction. Journal of Neuroscience Methods, 190, 289—298.

Leonova A.B., Blinnikova I.V., Kapitsa M.S. (2001). Methodology of work safety and human error research. In: V. De Keyser, A. B. Leonova (Eds), Error prevention and well-being at work in Western Europe and Russia (pp. 105—133). Dordrecht, the Netherlands: Kluver Academic Publishers.

Majaranta, P., Raiha, K-J. (2007). Text entry by gaze: Utilizing eye-tracking. In: I.S. MacKenzie, K. Tanaka-Ishii (Eds.), Text entry systems: Mobility, accessibility, universality (pp. 175—187). San Francisco: Morgan Kaufmann.

Majaranta, P., MacKenzie, I. S., Aula, A., Raiha, K.-J. (2006). Effects of feedback and dwell time on eye typing speed and accuracy. Universal Access in the Information Society, 5, 2, 199—208.

Tiusku O., Surakka V., Vanhala T., Rantanen V., Lekkala J. (2012). Wireless Face Interface: Using voluntary gaze direction and facial muscle activations for human-computer interaction. Interacting with Computers, 24, 1—9.

Velichkovsky, B.M., Rothert, A., Kopf, M., Dornhoefer, S.M., Joos, M. (2002). Towards an express diagnostics for level of processing and hazard perception. Transportation Research, Part F, 5, 2, 145—156.

Поступила в редакцию 17.06.13

45

i Надоели баннеры? Вы всегда можете отключить рекламу.