ВЕСТН. МОСК. УН-ТА. СЕР. 14. ПСИХОЛОГИЯ. 2013. № 4
МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ
С. Л. Шишкин, А. А. Федорова, Ю. О. Нуждин,
И. П. Ганин, А. Е. Осадчий, Б. Б. Величковский,
А. Я. Каплан, Б. М. Величковский
на пути к высокоскоростным интерфейсам глаз—мозг—компьютер: сочетание «одностимульной» парадигмы и перевода взгляда
В работе описан новый вид интерфейса мозг—компьютер, использующий счет пользователем однородных зрительных стимулов без разделения их на целевые и нецелевые («одностимульная» парадигма) при среднем темпе их асинхронного предъявления около 2 стимулов в секунду и учете момента саккадического перевода взгляда. Счет начинается сразу после перевода взгляда в область предъявления. Работа интерфейса моделировалась на основе применения линейного классификатора к сигналам ЭЭГ, зареги-
Шишкин Сергей Львович — канд. биол. наук, нач. лаборатории нейроэргономики и интерфейсов мозг—компьютер НИц «Курчатовский институт». E-mail: sergshishkin@mail.ru
Федорова Анастасия Андреевна — инженер-исследователь лаборатории нейроэргономики и интерфейсов мозг—компьютер НИц «Курчатовский институт». E-mail: anastasya.teo@gmail.com
Нуждин Юрий Олегович — аспирант НИц «Курчатовский институт». E-mail: nuzhdin.urii@gmail.com
Ганин Илья Петрович — аспирант биологического ф-та МГУ имени М.В. Ломоносова. E-mail: ipganin@mail.ru
Осадчий Алексей Евгеньевич — PhD, доцент кафедры ВНД и психофизиологии биолого-почвенного ф-та СПбГУ E-mail: ossadtchi@gmail.com
Величковский Борис Борисович — канд. психол. наук, доцент кафедры методологии психологии ф-та психологии МГУ имени М.В. Ломоносова. E-mail: velitchk@mail.ru
Каплан Александр Яковлевич — докт. биол. наук, зав. лабораторией нейрофизиологии и нейрокомпьютерных интерфейсов биологического ф-та МГУ имени М.В. Ломоносова. E-mail: akaplan@mail.ru
Величковский Борис Митрофанович — член-корр. РАН, докт. психол. наук, зав. кафедрой МФТИ, нач. отделения нейрокогнитивных и социогуманитарных наук НИц «Курчатовский институт». E-mail: velich@applied-cognition.org
Работа выполнена при финансовой поддержке Минобрнауки России по государственному контракту от 14.06.2012 г. № 07.514.11.4145 в рамках ФцП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007—2013 годы».
4
стрированным в экспериментах с участием здоровых испытуемых, в покое и при переводе взгляда на стимул. При этом была получена исключительно высокая для неинвазивных интерфейсов мозг—компьютер средняя скорость отклика — не более двух секунд после начала саккады в область стимула. Этот результат свидетельствует о перспективности гибридных интерфейсов глаз—мозг—компьютер, в особенности с учетом возможности еще большего повышения эффективности распознавания команд при объединении предложенного электрофизиологического интерфейса с системой быстрого анализа характеристик зрительных фиксаций и саккад.
Ключевые слова: интерфейс мозг—компьютер, «одностимульная парадигма», зрительные стимулы, связанные с событиями потенциалы, проблема «прикосновения Мидаса».
This paper presents a new class of noninvasive brain-computer interfaces based on user’s silent counting of homogeneous visual stimuli, without defining separate classes of target and non-target stimuli (the “single-stimulus” paradigm), at an average (asynchronous) rate of about 2 stimuli per second and with counting that started immediately after moving the gaze to the stimulus presentation area. Interface’s operation was modeled by applying a linear classifier to EEG signals obtained from healthy participants, in rest condition and after moving their gaze to the stimulus presentation position. A response time of 2 second after the beginning of saccade was demonstrated, which is exceptionally fast comparing to typical results known for the existing noninvasive brain-computer interfaces. This result creates a basis for the development of efficient hybrid eye-brain-computer interfaces, considering that integration of the proposed EEG-based interfaces with the analysis of visual fixations and saccades can further improve recognition of the user’s intentional commands.
Key words: brain-computer interface, “single-stimulus” paradigm, visual stimuli, event-related potentials, Midas touch problem.
Интерфейс мозг—компьютер (ИМК) представляет собой систему для управления компьютером или подключенными к нему устройствами с помощью сигналов мозгового происхождения. В качестве такого сигнала в неинвазивных ИМК (т.е. ИМК, не требующих вживления электродов в мозг или других форм нарушения целостности организма) обычно используется электроэнцефалограмма (ЭЭГ). Одним из лидеров среди неинвазивных ИМК, в частности по точности и быстроте отдачи команд, является ИМК, использующий волну Р300 связанных с событиями потенциалов мозга (ПСС). Пользователь такого интерфейса (далее — ИМК-Р300) для отдачи команды сосредотачивает свое внимание на зрительном стимуле, связанном с данной командой, и мысленно считает его предъявления, одновременно стараясь не обращать внимания на другие стимулы. Распознавание команды, которую пытается отдать
5
пользователь, осуществляет компьютерный классификатор ПСС. Классификатор заранее обучают отличать реакции данного пользователя на целевые стимулы от спонтанных реакций на стимулы, которые он старается игнорировать. После накопления достаточного числа ЭЭГ-реакций пользователя на стимулы, связанные с разными командами, классификатор оказывается в состоянии выбрать команду, которой соответствуют ПСС, наиболее похожие на реакцию на целевой стимул.
В последнее десятилетие в мире наблюдается быстрое развитие разработок новых разновидностей ИМК, в частности ИМК-Р300 (см., напр.: Kaplan et al., 2013). Они в первую очередь предназначены для помощи парализованным больным, однако могут быть интересны и для здоровых пользователей, например в качестве средства управления компьютерными играми. В свою очередь компьютерные игры с ИМК-управлением можно использовать как удобную модель работы перспективных интерфейсов для управления робототехникой (Kaplan et al., 2013; Ganin et al., in press).
ИМК и управляемые с их помощью робототехнические системы могли бы существенно облегчить жизнь не только полностью парализованным людям, но и инвалидам с менее тяжелыми двигательными расстройствами. Для таких людей разрабатываются системы управления с помощью движений глаз, но из-за невозможности исключения спонтанных движений глаз, которые интерфейс принимает за управляющие глазные жесты (проблема «прикосновения Мидаса»), эффективность таких систем до последнего времени оставалась невысокой. Существующие неинвазивные ИМК пока оказываются чрезмерно медленными для реального использования в управлении техническими устройствами.
Возможным решением проблемы низкой скорости работы ИМК является использование в разное время одного из двух режимов управления: (1) программирования робототехнической системы, в котором необходимо осуществлять выбор из большого числа вариантов команд и их параметров, и (2) отдачи в нужный момент времени единственной команды (например, команды остановки устройства). При этом высокая скорость срабатывания требуется лишь во втором случае, когда обеспечить такую скорость значительно проще благодаря отсутствию необходимости предоставлять выбор из многих одновременно доступных команд. Такой подход был реализован для управления роботизированным инвалидным креслом (Rebsamen et al., 2010). Однако и в этом случае скорость срабатывания интерфейса при моделировании остановки движения кресла с использованием ИМК-Р300 и другого ИМК, использующего модуляцию ЭЭГ во время мысленного представления движений, удалось довести лишь до уровня 5—6 секунд.
6
На наш взгляд, существенным потенциалом для использования в ИМК, обеспечивающих быструю подачу единственной команды в нужный момент времени, обладает «одностимульная» парадигма, использовавшаяся в ряде исследований волны Р300 как альтернатива классической «одбол-парадигме» (Polich, Heine, 1996). Если в «одбол-парадигме», на которой, с модификациями, основана и парадигма, до сих пор использовавшаяся в ИМК-Р300, целевые стимулы чередуются с нецелевыми (как правило, предъявляемыми в значительно большем количестве), в «одностимульной» парадигме нецелевые стимулы отсутствуют. При одинаковом распределении интервалов между целевыми стимулами внимание к ним в «одностимульной» парадигме обеспечивает генерацию волны Р300 лишь ненамного меньшей амплитуды, чем в «одбол-парадигме» (Polich, Heine, 1996).
В обычном ИМК-Р300 (напр.: Rebsamen et al., 2010) частое предъявление нецелевых стимулов затрудняет восприятие целевого стимула и делает невозможным обеспечение высокой частоты его предъявления. В «одностимульной» модификации ИМК-Р300, разрабатывавшейся нами в качестве средства упрощения калибровки стандартного ИМК-Р300 (Shishkin et al., 2011), благодаря отсутствию нецелевых стимулов интервалы между целевыми стимулами, очевидно, могут быть существенно сокращены. В предварительных экспериментах с «одностимульной» парадигмой испытуемые воспринимали режимы, где интервалы между целевыми стимулами соответствовали обычно используемым в ИМК-Р300, как «затянутые», а задачу — как чрезвычайно скучную. При увеличении же темпа режим предъявления воспринимался как вполне комфортный. Мы решили воспользоваться этим свойством «одностимульной парадигмы» для увеличения скорости работы однокомандного ИМК.
Поскольку большинство потенциальных пользователей ИМК сохраняют способность управлять направлением взгляда, мы решили в явном виде использовать перевод взгляда на зрительный стимул как часть задания, выполняемого пользователем для отдачи команды интерфейсу и управляемой им технической системе. При этом начало активного восприятия стимулов задается не началом их предъявления (они предъявляются непрерывно), а переводом взгляда.
Иными словами, перемещение взгляда на стимул может использоваться как маркер отдачи команды. В дальнейшем для наиболее эффективного решения задачи скорейшей подачи команды мы планируем исследовать совместное использование этого маркера с «выходом» классификатора ИМК, организовав гибридный интерфейс глаз—мозг—компьютер. Решение такой задачи не является тривиальным из-за возможного влияния «проблемы прикосновения Мидаса», но недавно на основе различения фокальных и амбьентных зрительных фиксаций (Velichkovsky et al., 2002) был предложен новый
7
+++++++++++++++ (+)
Source SicinзI
m
4Jui jIIuii UnnnpnMIlervmvmBReqi
992ms rather than 1000ms.
2013-06-18T08:31:49 - Application confirmed new parameters 2013-06-18T08:31:56 - Operator started operation_
гн» .'!»• Help
Function 1 | Function 21 Function 3| Function 4
Config Set Config Suspend Quit
Running Signs (Source running SignalProcessing running Application running
Рис. 1. Типичный вид экрана в заданиях 2 и 3. В задании 2 в части проб вместо шахматного паттерна в той же позиции в левой части экрана в качестве стимула предъявлялись изображения животных. В правой верхней части экрана в обоих заданиях в реальном времени демонстрировалась ЭЭГ, регистрируемая у испытуемого
подход к решению этой классической проблемы (Величковский и др., 2013), который, по-видимому, может быть применен и при создании гибридного интерфейса.
Данная статья посвящена описанию первых результатов, которые подтверждают возможность быстрого распознавания отдаваемой команды на основе анализа одной лишь ЭЭГ, регистрируемой на фоне перемещений взгляда по команде на целевой стимул, предъявляемый со сравнительно высокой скоростью (со средней частотой около двух предъявлений в секунду).
Методика
В исследовании приняли участие четверо испытуемых, не имеющих неврологических заболеваний и с нормальным или скорректированным до нормального зрением (трое мужчин и одна женщина в возрасте от 22 до 25 лет). Во время исследования регистрировали их ЭЭГ и горизонтальную электроокулограмму (ЭОГ) во время выполнения ими трех заданий: (1) чтения текста с экрана монитора; (2) счета зрительных стимулов при постоянной фиксации позиции на экране, в которой предъявлялись стимулы; (3) наблюдения за собственной ЭЭГ с переводом взгляда по команде в позицию предъявления стимула, со счетом стимулов и переводом взгляда обратно на ЭЭГ после предъявления 5 стимулов. ЭЭГ, зарегистрированная во время выполнения заданий 1 и 2, использовалась для обучения классификатора, а данные, полученные при выполнении задания 3, — для его тестирования. Для предъявления стимулов, регистрации биоэлектрических сигналов и меток стимулов использовалась система BCI2000 (Schalk et al., 2004) с разработанным нами модулем, реализующим однокомандный ИМК на основе «одностимульной» парадигмы. ЭЭГ регистрировалась в пяти позициях — Cz, Pz, Oz, PO7 и PO8. Для регистрации ЭОГ использовались электроды, установленные у внешних углов глаз. И ЭЭГ, и ЭОГ регистрировались монополярно относительно референтного электрода на мочке правого уха, однако в ходе анализа ЭОГ пересчитывалась на биполярное отведение. Частота дискретизации сигналов составляла 500 Гц.
Текст для чтения, стимулы и ЭЭГ демонстрировались на экране ноутбука с диагональю 15,6 и разрешением 1366x768. Расстояние от глаз до экрана выбиралось таким, чтобы обеспечивать комфортное восприятие текста и стимулов. Оно составило от 56 до 74 см для разных испытуемых. Регистрация ЭЭГ на фоне чтения текста (задания 1) выполнялась по 7 минут в начале и в конце эксперимента. Во время чтения испытуемый мог прокручивать текст на экране с помощью мыши.
В заданиях 2 и 3 на экране в одной и той же позиции (рис. 1) предъявлялся зрительный стимул в виде изображения размером
9
27x27 мм. Перед началом стимуляции и на протяжении межсти-мульных интервалов периметр изображения обозначался тонкой черной линией. В качестве стимула в задании 2 использовались стилизованные изображения животных в фас и шахматный паттерн (с наложенным на него кругом и крестиком в центре), в задании 3 — только шахматный паттерн. Длительность стимула составляла 128 мс, интервалы между стимулами принимали случайные значения, равномерно распределенные в интервале от 256 до 512 мс. Таким образом, средняя частота предъявления стимулов составляла 1,95 стимула в секунду.
Изображения животных в задании 2 были выбраны в качестве основного стимульного материала, для того чтобы сделать это задание менее скучным и обеспечить достаточно высокий уровень внимания к стимулу. Предъявление стимулов было организовано группами по 8 стимулов, между группами были введены паузы длительностью 2,5 с. Испытуемым предлагалось считать про себя число стимулов в каждой группе. Их предупреждали о том, что число стимулов в группе всегда будет равно 8, однако для корректности эксперимента они должны вести счет внимательно и стараться не пропускать стимулы даже при наиболее коротких паузах между ними. После предъявления 10 групп стимулов (одна непрерывная запись ЭЭГ) делалась дополнительная пауза длительностью 0,5—1,5 с. С испытуемыми
1 и 2 были сделаны по четыре записи, с испытуемыми 3 и 4 — по восемь записей. Таким образом, в этом задании испытуемым 1 и
2 было предъявлено в общей сложности по 8x10x4=320 стимулов, испытуемым 3 и 4 — по 8x10x8=640 стимулов. В качестве стимула в каждой записи использовалось отдельное изображение. Порядок изображений был случайным.
Задание 3 выполнялось после задания 2. В этом задании стимулом всегда служил шахматный паттерн, предъявлявшийся с частотой 1,95 стимула в секунду одновременно с записью ЭЭГ. Испытуемый наблюдал за собственной ЭЭГ, которая показывалась в правой верхней части экрана в отдельном окне (см. рис. 1; ЭЭГ была представлена неподвижными кривыми, которые, однако, постоянно обновлялись в реальном времени разверткой, пробегавшей окно за 8 с). Время от времени подавался звуковой сигнал (440 Гц, длительность 250 мс, комфортная громкость), после которого испытуемый должен был перевести взгляд на стимул (см. рис. 1), отсчитать 5 предъявлений стимула и снова вернуться к наблюдению за ЭЭГ, переведя взгляд приблизительно в центр окна с нею. Длительность интервала между предъявлениями звукового сигнала составляла от 8 до 16 с, в среднем 12 с. На протяжении одной записи ЭЭГ сигнал подавался 15 раз. Между записями делалась пауза длительностью 1—3 мин. С испытуемыми 1 и 2 были
10
сделаны по три записи, что соответствовало в общей сложности 900 стимулам, предъявленным каждому испытуемому, с испытуемыми 3 и 4 — по семь записей, что соответствовало 2100 стимулам (здесь мы учитываем все стимулы, а не только те, к которым было привлечено внимание испытуемого). В отдельных случаях предъявление стимулов начиналось несколько позже, чем предъявление звуковых сигналов, в связи с чем число групп считаемых испытуемым стимулов могло быть несколько менее 15 на запись.
В начале выполнения и задания 2 и задания 3 испытуемому демонстрировался пример стимулов. После объяснения задания испытуемому предлагалось потренироваться в его выполнении, как правило, в течение минуты. Моменты перевода взгляда на стимул и обратно определялись по характерным высокоамплитудным отклонениям ЭОГ. Единичные случаи существенного (более 1 с) расхождения длин интервалов между выявленными по ЭОГ саккадами в позицию стимула и интервалов между звуковыми сигналами исключались из анализа. Общее число доступных анализу случаев перевода взгляда в позицию предъявления стимула (и соответственно число групп по 5 стимулов, считавшихся испытуемым) для испытуемых 1, 2, 3 и 4 было равно 37, 37, 92 и 80 соответственно. Удаление ЭЭГ-артефактов не производилось, поскольку их число было небольшим и не могло существенно повлиять на результаты.
Для моделирования работы ИМК использовался линейный классификатор на основе фишеровского дискриминанта с регуляризацией Тихонова. В случае работы с ЭЭГ, записанной во время предъявления стимулов (задания 2 и 3), вектор признаков для отклика на каждый из стимулов формировался следующим образом: ЭЭГ подвергалась фильтрации в полосе 1—20 Гц (фильтр Баттерворта 2-го порядка, фильтрация в прямом и обратном направлении для сохранения фазы); частота оцифровки снижалась до 50 Гц; значения амплитуды по всем каналам ЭЭГ в интервале до 800 мс относительно начала предъявления стимула объединялись встык в единый вектор из 200 значений. Эта процедура отличалась для ЭЭГ, записанной при отсутствии стимулов (задание 1), лишь тем, что вместо моментов начала предъявления стимула использовались произвольные моменты времени с фиксированным интервалом 500 мс.
Вектора признаков, полученных из ЭЭГ, записанной во время выполнения испытуемыми задания 1, были отнесены к классу «1», соответствующему отсутствию внимания к стимулу, а полученные из ЭЭГ, записанной во время выполнения задания 2, — к классу «2», соответствующему наличию внимания к стимулу. Число векторов данных в классе «1» было равно для испытуемых 1 и 2 — 320, для испытуемых 3 и 4 — 640 и 843. В класс «2» у всех испытуемых входили
11
1680 векторов данных. При тестировании классификатора вектор весов, полученных при его обучении, скалярно умножался на вектора признаков, полученных из ЭЭГ, зарегистрированной на фоне выполнения задания 3. Полученный в результате этой процедуры показатель («выход классификатора») — по одному значению на каждый стимул, предъявленный при выполнении задания 3, — можно рассматривать как показатель выраженности признаков внимания к стимулу в постстимульной ЭЭГ.
В идеале такой показатель должен иметь значения ниже некоторого порога для всех стимулов, предъявленных в то время, когда испытуемый смотрел на свою ЭЭГ, и принимать значение выше некоторого порогового значения для первого же стимула, предъявленного после перевода взгляда на стимул. Однако компоненты ЭЭГ, не связанные с реакцией на стимул, неизбежно «зашумляют» выход классификатора и должны приводить к появлению «ложных тревог» в периоды, когда внимание к стимулу отсутствует, а также к пропуску части моментов внимания к стимулу. Более того, внимание испытуемого или пользователя ИМК может оказаться спонтанно привлеченным к стимулу вне периодов намеренной фиксации на нем, а в некоторых случаях — спонтанно снизиться в моменты, когда он пытается сосредоточиться на стимуле.
Чтобы обеспечить устойчивость системы по отношению к подобным факторам, ранее (Rebsamen et al., 2010) использовалось накопление и усреднение реакций на три последних стимула. В нашем моделировании работы классификатора мы также использовали усреднение реакций на три последних стимула. Это значительно меньше, чем обычно используется при анализе ПСС, однако следует учитывать два обстоятельства. Во-первых, целью математической обработки сигнала в ИМК является не точная оценка характеристик компонентов ПСС и степени влияния на них разнообразных факторов, а лишь различение наличия или отсутствия внимания к стимулу. Во-вторых, благодаря настройке классификатора на индивидуальные особенности пространственно-временной структуры ПСС во время его обучения информация, полезная для такого различения, эффективно интегрируется по всем отведениям и по времени относительно стимула, что позволяет получить высокое соотношение сигнал/шум на выходе классификатора.
Порог, с которым сравнивался результат усреднения трех последовательных значений на выходе классификатора, подбирался для каждого испытуемого индивидуально с использованием данных по первым 10 саккадам в область предъявления стимула. При этом мы исходили из необходимости минимизировать частоту «ложных тревог» (ЛТ) и одновременно добиться большой частоты правильных
12
срабатываний (ПС) — срабатываний в то время, когда испытуемый должен был считать предъявления стимула. ЛТ рассчитывалась по шести значениям на выходе классификатора, соответствовавшим стимулам, предъявлявшимся до начала саккады, кроме непосредственно предшествующего ей стимула. В свою очередь ПС рассчитывалась по следующим шести значениям на выходе классификатора, начиная с первого, полученного после начала саккады (при его расчете использовались и данные по двум стимулам, предъявленным до начала саккады). Путем перебора находились интервалы значений порога классификатора, в которых одновременно выполнялись условия ЛТ<10% и ПС>80% и определялось среднее значение по этим интервалам.
Это значение порога использовалось при анализе эффективности классификации оставшейся части данных того же испытуемого. Кроме значений ЛТ и ПС, рассчитывавшихся так же, как и при подборе порога, оценивалось время отклика интерфейса (ВО). В качестве оценки ВО использовалось время окончания получения компьютером всей ЭЭГ, использовавшейся для расчета первого значения на выходе классификатора, превысившего порог, относительно времени начала саккады, но при условии отсутствия «ложных тревог» перед саккадой. Вычисления, требующиеся для получения значения на выходе уже обученного линейного классификатора, чрезвычайно просты и не требуют существенных затрат машинного времени, поэтому задержка, которую могут внести такие вычисления, при расчете ВО не учитывалась.
Результаты
Хотя в заданиях 2 и 3 требовалось считать стимулы, предъявляемые со сравнительно высокой скоростью (около двух в секунду), все испытуемые сообщили, что они легко справлялись с этой задачей. Анализ усредненных ПСС в записях с предъявлением стимулов показал, что типичный для ИМК-Р300 компонент Р300 практически отсутствовал, однако в центральном и теменном отведениях наблюдался более ранний позитивный компонент с латентностью пика около 200 мс. Этот компонент был хорошо выражен только у испытуемого 3 (рис. 2, левый график), но в затылочных отведениях PO7, PO8 и Oz у всех испытуемых наблюдались сравнительно высокоамплитудные компоненты с латентностью пика до 200 мс (рис. 2, справа).
На рис. 3 приведен пример динамики значений на выходе классификатора, анализировавшего отклики на стимулы в ЭЭГ в задании 3, т.е. на фоне перевода взгляда в область предъявления стимула. Момент перевода взгляда в область стимула (влево) определяется
13
Рис. 2. Пример усредненных потенциалов, связанных с событиями (ПСС), в задании 2. Сплошная линия — усреднение ответов на первые 320 стимулов, пунктир — усреднение ответов на последующие 320 стимулов (ответы на эти группы стимулов усреднялись раздельно для оценки стабильности усредненного потенциала). Испытуемый 3
по отклонению ЭОГ вниз, за которым через несколько секунд следовало отклонение вверх, соответствовавшее возвращению взгляда в исходное положение. Как видно на рис. 3, вскоре после саккады значения на выходе классификатора резко возрастали.
Рис. 3. Фрагмент записи электроокулограммы (ЭОГ) (нижняя линия) и значений на выходе классификатора откликов в ЭЭГ (кружки в верхней части рисунка, для наглядности соединенные линиями; по вертикальной шкале — условные единицы). Положение кружков относительно шкалы времени соответствует времени последнего из трех стимулов, отклики на которые в ЭЭГ подавались на вход классификатора. Сплошные горизонтальные линии соответствуют нулю ЭОГ и выхода классификатора, вертикальные линии — определенным по ЭОГ началам саккад в область стимула. Пунктирной горизонтальной линией обозначен порог классификатора. Испытуемый 3
14
Динамика значений классификатора в окрестности всех саккад в область стимула у испытуемого 3 показана на рис. 4. Остальные испытуемые демонстрировали похожий паттерн. Как показывает этот рисунок, перевод взгляда на стимул систематически приводил к росту значений на выходе классификатора, оценивавшего похожесть ЭЭГ-ответа на стимул, несмотря на то что при обработке ЭЭГ усреднялись данные лишь по трем стимулам, предъявлявшимся в среднем на протяжении всего лишь одной секунды. Благодаря этому использование порога, значение которого индивидуально подбиралось для каждого испытуемого, но не менялось во времени (см. пунктирную горизонтальную линию на этом рисунке и на рис. 3), позволяло успешно детектировать моменты перевода взгляда лишь по отклику в ЭЭГ.
Рис. 4. Значения на выходе классификатора (в условных единицах) как функция положения стимула во времени относительно начала саккады в область стимула. Слева — суперпозиция кривых, соответствующих единичным саккадам. Нулевое значение времени соответствует совпадению момента предъявления стимула (его начала) с началом саккады. Справа — средние значения (сплошная линия) ± стандартное отклонение (пунктир), рассчитанные для одних и тех же порядковых номеров стимула относительно начала саккады. За «нулевой» стимул принимается первый стимул, предъявленный после начала саккады. Следует иметь в виду, что каждое значение на выходе классификатора рассчитывалось по ответам на текущий и на два предыдущих стимула, а для получения с элекроэнцефалографа необходимого для расчета объема данных требовалось дополнительное время — 1 с. Горизонтальная пунктирная линия показывает положение порога (0,45 для данного испытуемого). Испытуемый 3
15
Результаты «угадывания» саккад по ЭЭГ-ответам на стимулы по всем испытуемым представлены в таблице. У испытуемых 1, 2, и 3 частота правильных срабатываний после саккады в область стимула (ПС) превышала 90%, а число ошибочных срабатываний до саккады (ЛТ) не превышало 7%. У испытуемого 4 эти показатели были несколько ниже. Различия в точности между испытуемыми могли быть связаны с тем, что у испытуемого 4 ранее отсутствовал опыт участия не только в ИМК-экспериментах, но и в любых экспериментах с регистрацией ЭЭГ, тогда как остальные испытуемые неоднократно участвовали в ИМК-экспериментах.
Оценки основных показателей интерфейса
Испыту- емый Число анализировавшихся саккад в область стимула Частота ложных тревог (ЛТ), % Частота правильных срабатываний (ПС), % Время отклика интерфейса (ВО), с
Среднее Станд. откл.
1 27 7 96 2.3 0.5
2 27 7 93 1.6 0.5
3 82 6 95 2.0 0.7
4 70 17 81 2.2 0.8
Среднее 52 9 91 2.0 0.6
Как видно из таблицы, разработанная нами методика обеспечила срабатывание интерфейса в среднем через 2 секунды после начала саккады. Следует учесть, что это время рассчитывалось с учетом не только результатов анализа значений на выходе классификатора, но и всех задержек, которые могли бы влиять на ВО при проведении классификации в онлайн-режиме. В то же время в него не входила задержка между сигналом к переводу взгляда и началом саккады (около 200 мс), так как точные времена подачи звукового сигнала не использовались в анализе. Кроме того, испытуемые иногда делали две саккады влево подряд, а поскольку в данном эксперименте не использовалась видеорегистрация движений глаз, нельзя было надежно различить случаи, когда фиксация в области предъявления стимула происходила после первой и после второй саккады. Вследствие этого ВО относительно саккады в область стимула могло быть определено не вполне точно. Оно, в частности, могло быть несколько заниженным у испытуемого 2, который демонстрировал двойные саккады сравнительно часто.
16
Обсуждение результатов и выводы
Проведенное нами предварительное исследование показало принципиальную возможность использования единичного зрительного стимула, предъявляемого с частотой около 2 раз в секунду, в качестве основы стимуляции в ИМК, обеспечивающем выдачу единственной команды с минимальной задержкой после начала попытки отдать команду.
В исследовании Б. Ребсамена с коллегами (Rebsamen et al., 2010), где решалась подобная задача, ВО интерфейса у разных испытуемых составляло 4—7 секунд. В нашем моделировании работы с ИМК с использованием записей ЭЭГ, полученных у четырех испытуемых, удалось достичь снижения этого времени приблизительно до 2 секунд. Наблюдаемая при этом частота ЛТ составила от 6 до 17% при расчете по реакциям на 6 стимулов, что в среднем соответствовало 3 секундам. В расчете на одну минуту это составляло от 1,2 до 3,4 ложных срабатываний, в то время как в работе Ребсамена и др. при использовании ИМК-Р300 наблюдалось от 1,0 до 1,5 ложных срабатываний в минуту. Однако надо отметить, что наши испытуемые находились в более жестких условиях: они должны были часто переводить взгляд на стимул, находящийся в поле зрения, тогда как в исследовании Ребсамена и др. для оценки частоты ложных тревог использовался отдельный экспериментальный режим, в котором отдавать команду не требовалось в течение длительного времени. Кроме того, в указанной работе (Rebsamen et al., 2010) использовалось 15 ЭЭГ-электродов, а нам удалось обойтись лишь пятью, что являлось лучшим приближением к использованию ИМК в реальных ситуациях. Наконец, наше исследование является лишь первой попыткой разработки интерфейса на основе одностимульной парадигмы, и представляется весьма вероятным, что дальнейшая оптимизация может обеспечить улучшение его характеристик.
Среди наиболее быстрых неинвазивных ИМК основным конкурентом ИМК-Р300 и его различных вариаций, включая наш «одно-стимульный» ИМК, по-видимому, на данный момент следует считать ИМК на основе «кодированных» зрительных вызванных потенциалов — КЗВП-ИМК (c-VEP BCI). В этом ИМК, как и в ИМК-Р300, разным командам соответствуют зрительные стимулы, предъявляемые в различных позициях, однако они следуют в очень быстром темпе через варьируемые особым образом интервалы (характерный сдвиг по фазе последовательностей стимулов в разных позициях и обеспечивает «кодирование»). Пользователь подает команду путем фиксации взгляда в одной из этих позиций, однако от него не требуется считать стимулы. В недавнем исследовании с помощью КЗВП-ИМК (Spueler et al., 2012) испытуемые печатали буквы со средней скоростью
17
21 буква в минуту, а предъявление набора стимулов, достаточного для ввода одной команды, вместе с паузой между ними требовало лишь около 2 секунд. Данный интерфейс пока что не применяли для решения задач, подобных той, которая решалась нами, — для различения подачи команды и отсутствия подачи команды. Не исключено, что такие задачи могли бы решаться этим интерфейсом, однако он может оказаться и недостаточно приспособленным для них из-за существенной роли, которую играет в его алгоритме различение фаз. Вывод о его применимости может быть сделан лишь на основании экспериментального исследования c использованием небольшого числа электродов, приемлемого во внелабораторных условиях. Еще в одном сравнительно быстром ИМК — на основе зрительных вызванных потенциалов стабильного состояния (SSVEP) — используется ритмическая фотостимуляция, широкая применимость которой вызывает сомнения ввиду ее потенциальной эпилептогенности при определенных параметрах стимуляции.
Описанная в настоящей работе методика может представлять интерес не только как основа нового ИМК с рекордно высокой скоростью отклика, но и как модель для изучения организации восприятия в контексте глазодвигательного поведения. Можно предположить, что перевод взгляда в позицию, где ожидается появление значимого кратковременного стимула, должен сопровождаться кратковременной активизацией механизмов, обеспечивающих зрительное восприятие. В парадигме ИМК-Р300, как и в других похожих задачах, при постоянной фиксации взгляда в позиции, где предъявляются стимулы, ответ в ЭЭГ с наиболее высокой амплитудой вызывает стимул, предъявляемый в начале последовательности из нескольких стимулов (Ганин и др., 2012). Не исключено, что аналогичный эффект возможен и в том случае, когда испытуемый начинает счет стимулов после перевода взгляда в позицию их предъявления, и что именно такой эффект способствовал быстроте срабатывания классификатора в нашей модели ИМК. Мы предполагаем в дальнейшем провести исследование такого гипотетического эффекта с использованием видеорегистрации положения взгляда.
Показатели, достигнутые в настоящем предварительном исследовании при использовании сочетания «одностимульной» парадигмы с высоким темпом предъявления стимулов и переводом взгляда в позицию их предъявления, свидетельствуют о принципиальной перспективности совместного использования данных глазодвигательной и электрофизиологической активности для создания гибридных интерфейсов глаз—мозг—компьютер, обеспечивающих высокую скорость и точность работы человека с разнообразными техническими устройствами.
18
СПИСОК ЛИТЕРАТУРЫ
Величковский Б.Б., Румянцев М.А., Морозов М.А. Новый подход к проблеме «прикосновения Мидаса»: идентификация зрительных команд на основе выделения фокальных фиксаций // Вестн. Моск. ун-та. Сер. 14. Психология. 2013. № 3. C. 33—45. [Velichkovskij, B.B., Rumjancev, M.A., Morozov, M.A. (2013). Novyj podhod k probleme “prikosnovenija Midasa”: identifikacija zritel’nyh komand na osnove vydelenija fokal’nyh fiksacij. Vestnik Moskovskogo universiteta. Serija 14. Psihologija, 3, 33—45]
Ганин И.П., Шишкин С.Л., Кочетова А.Г., Каплан А.Я. Интерфейс мозг—компьютер «на волне P300»: исследование эффекта номера стимулов в последовательности их предъявления // Физиология человека. 2012. Т. 38. С. 5—13. [Ganin, I.P., Shishkin, S.L., Kochetova, A.G., Kaplan, A.Ja. (2012). Interfejs mozg—komp’juter “na volne P300”: issledovanie jeffekta nomera stimulov v posledovatel’nosti ih pred’’javlenija. Fiziologija cheloveka, 38, 5—13]
Ganin, I.P., Shishkin, S.L., Kaplan, A.Y. A P300-based brain-computer interface with stimuli on moving objects: four-session single-trial and triple-trial tests with a game-like task design. PLOS ONE (in press).
Kaplan, A.Y., Shishkin, S.L., Ganin, I.P., Basyul, I.A., Zhigalov, A.Y. (2013). Adapting the P300-based brain-computer interface for gaming: a review. IEEE Transactions on Computational Intelligence and AI in Games, 5, 141—149.
Polich, J., Heine, M.R.D. (1996). P300 topography and modality effects from a single-stimulus paradigm. Psychophysiology, 33, 747—752.
Rebsamen, B., Guan, C., Zhang, H., ..., & Burdet, E. (2010). A brain controlled wheelchair to navigate in familiar environments. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 18, 590—598.
Schalk, G., McFarland, D.J., Hinterberger, T., Birbaumer, N., Wolpaw, J.R. (2004). BCI2000: a general-purpose brain-computer interface (BCI) system. IEEE Transactions on Biomedical Engineering, 51, 1034—1043.
Shishkin, S.L., Nikolaev, A.A., Nuzhdin, Y.O., ..., & Kaplan A.Y. (2011). Calibration of the P300 BCI with the single-stimulus protocol. Proceedings of the Fifth International BCI Conference 2011 (Graz University of Technology, Graz, Austria, September 22—24, 2011). Verlag der Technischen Universitat Graz. P. 256—259.
Spueler, M., Rosenstiel, W., Bogdan, M. (2012). Online adaptation of a c-VEP brain-computer interface (BCI) based on error-related potentials and unsupervised learning. PLOS ONE, 7, e51077.
Velichkovsky, B.M., Rothert, A., Kopf, M., Dornhoefer, S.M., Joos, M. (2002). Towards an express diagnostics for level of processing and hazard perception. Transportation Research, Part F, 5, 145—156.
Поступила в редакцию 17.06.13