Раздел IV. Цифровая обработка и анализ сигналов,
речи, текстов
А.А. Морозов, В.А. Морозов, Ю.В. Обухов, Т.А. Строганова РАЗРАБОТКА МЕТОДА НЕПАРАМЕТРИЧЕСКОГО
МНОГОФАКТОРНОГО АНАЛИЗА ЭЛЕКТРОЭНЦЕФАЛОГРАММ
ЧЕЛОВЕКА*
Исследование кратковременных осцилляций в электрической активности мозга, вызванных стимулом, стало в последние годы одним из основных подходов к изучению нейрофизиологических механизмов восприятия и внимания человека [0,2]. Этот подход потребовал существенного обновления методов обработки сигналов и стати -стического оценивания данных, принятых в нейрофизиологии. В частности, широкое применение в исследовании вызванных осцилляций (ВО) нашли параметрические методы многофакторного дисперсионного анализа ANOVA и MANOVA, непараметрические критерии Вилкоксона, Манна-Уитни [3,4], а также бутстрэп (bootstrapping) и перестановочные тесты (permutation) [5]. Однако, несмотря на повсеместное использование, обоснованность применения этих методов при анализе вызванных осцилляций во многих случаях вызывает серьёзные сомнения. Это связано с особыми свойствами электроэнцефалографических сигналов, к которым относятся:
1. Нестационарность электроэнцефалограмм (ЭЭГ), проявляющаяся на различных временных масштабах [6]. Нестационарность сигнала во многих случаях обуславливает невозможность или, по крайней мере, некорректность применения методов обработки сигналов, хорошо зарекомендовавших себя в радиофизике.
2. Наличие пространственных (между различными каналами ЭЭГ), а также временных (между близлежащими точками спектрограмм ЭЭГ) статистических зависимостей в ансамблях экспериментальных данных [7]. В рамках конкретной постановки исследовательской задачи необходимо различать два вида пространственно-временных статистических зависимостей:
(1) Зависимости, обнаруживаемые между сходными (то есть зависимыми в статистическом смысле), но при этом имеющими независимое происхождение (то есть независимыми друг от друга физически) источниками электрической активности коры мозга - далее «формальные» зависимости.
(2) Зависимости, приводящие к дублированию в различных пространственных и частотно-временных областях массива экспериментальных данных информации, пришедшей из одного источника - далее «причинно-следственные» зависимости.
3. Существенная негауссовость ансамблей экспериментальных данных, во многих случаях приводящая к невозможности применения наиболее мощных (для гауссовых выборок) и хорошо отработанных параметрических методов статистического анализа [2].
Альтернативой параметрическим методам одномерного и многомерного мно -гофакторного дисперсионного анализа являются непараметрические методы, сво-
*
Работа поддержана РФФИ, проекты 06-07-89302 и 05-01-00651, а также программой Президиума РАН «Фундаментальные науки - медицине»
бодные от априорных предположений о виде распределения исследуемых величин. Примерами таких методов являются ранговый дисперсионный анализ Крас-кела-Уоллиса [3,4], ранговый дисперсионный анализ Фридмана [3,4], а также многомерные перестановочные тесты [7]. К сожалению, перечисленные выше непараметрические методы также обладают существенными недостатками, из которых здесь мы выделим следующие:
1. Указанные ранговые методы непригодны для исследования эффектов взаимодействия факторов [4].
2. Так же, как и классические методы, перечисленные непараметрические методы основаны на предположении о независимости наблюдений. Это предположение может нарушаться, так как для нейрофизиологических данных зависимость измерений, полученных на различных электродах, является экспериментально установленным фактом (см., например, [7]).
Для преодоления этих проблем авторами был разработан новый метод непараметрического многофакторного анализа (НМА), основные положения которого рассмотрены в настоящей статье.
Учёт влияния причинно-следственных зависимостей
Основными видами причинно-следственных зависимостей в выборках элек-троэнцефалографических данных являются:
1. Статистическая зависимость между амплитудами и фазами электроэн-цефалографических сигналов, регистрируемых на различных каналах, возникающая вследствие пространственного «размытия» сигнала при прохождении его через проводящие ткани головы (попадания на эти каналы сигнала из одного и того же источника в коре головного мозга).
2. Статистическая зависимость между близлежащими точками спектрограмм, возникающая вследствие «размытия» анализируемого сигнала по времени в ходе спектрального анализа.
Для нейрофизиологических исследований наличие в экспериментальных данных причинно-следственных зависимостей опасно, прежде всего, возможностью получения заниженных оценок ошибки первого рода, то есть вероятности того, что наблюдаемые эффекты возникли случайно и не отражают объективно существующие закономерности.
«Размытие» сигнала по времени является неустранимым дефектом любых методов спектрального анализа. Для оценки влияния эффекта «размытия» сигнала необходимо учитывать свойства применяемого метода построения спектрограмм, а именно частотно-временные характеристики функции вейвлета, с которой осуществляется свёртка анализируемого сигнала, или формы и ширины окна в случае использования оконного преобразования Фурье. Заметим, что для спектрограмм характерно «размытие» сигнала не только по времени, но и по частоте. Это приводит, в частности, к возникновению причинно-следственных зависимостей между спектрограммами ЭЭГ-сигналов различных диапазонов частот.
Причинно-следственные зависимости, обусловленные «размытием» сигнала по времени мы устраняем с помощью прореживания последовательностей измеренных значений. Перед прореживанием (после вычисления спектрограмм отдельных реализаций ЭЭГ-сигналов) мы осуществляем отбраковку реализаций, содержащих выбросы. Отбраковка осуществляется с помощью сравнения максимальных значений мощности спектрограмм отдельных реализаций по методу робастной статистики Х42 [8].
Наличие причинно-следственных зависимостей между каналами ЭЭГ учитывается с помощью преобразования многомерных (статистически связанных) ис-
ходных данных в одномерный массив. Это преобразование осуществляется с помощью метода анализа главных компонентов (principal component analysis, PCA) [4]. Главные компоненты можно рассматривать как некоторый новый набор факторов (новую систему координат), учитывающий внутренние взаимосвязи, существующие в анализируемых данных [4]. В качестве результата преобразования (то есть массива, подаваемого на следующий этап анализа) мы берём проекцию исходного массива данных на ось одного из главных компонентов. Обычно, выбирается первый главный компонент (ПГК), который вносит наибольший вклад в изменчивость анализируемых данных.
Заметим, что полное устранение причинно-следственных зависимостей между негауссовыми выборками данных с помощью PCA, к сожалению, невозможно [9]. Однако в разработанном нами методе используется лишь один из главных компонентов, вычисляемых PCA, поэтому указанное свойство PCA никак не нарушает строгость осуществляемых преобразований.
Анализ эффектов взаимодействия факторов
Анализом эффектов взаимодействия факторов называется исследование того, как воздействие одного фактора на исследуемую переменную изменяется под влиянием других факторов [3].
Для анализа эффектов взаимодействия внутригрупповых и межгрупповых факторов мы разработали специальный метод (далее метод анализа взаимодействия бинарных факторов). Метод основан на том факте, что многие важнейшие факторы, влияющие на интерпретацию результатов нейрофизиологического эксперимента, являются бинарными, то есть имеют два значения (например, тестовый и контрольный стимулы, левое и правое полушария). Поэтому для учёта влияния таких факторов достаточно вычислить парные разности значений, соответствующих противоположным значениям бинарного фактора, и проверять те или иные статистические гипотезы на ансамблях вычисленных разностей. Аналогично, для учёта влияния двух бинарных факторов используются парные разности разностей значений, соответствующих значениям бинарных факторов и т.д.
Для проверки статистических гипотез на выборках экспериментальных данных (в том числе на выборках разностей) мы используем различные непараметрические критерии: критерий знаков, критерий парных сравнений Вилкоксона, критерий Манна-Уитни, критерий Флайгера-Полицелло (Fligner-Policello), а также перестановочный метод (permutation). Независимо от того, какой именно метод используется, мы придерживается следующих положений:
1. Названные непараметрические критерии используются для проверки статистических гипотез о том, что одна выборка значений является стохастически большей или меньшей, чем другая (в отличие от других авторов, проверяющих статистические гипотезы о соотношении медиан или средних генеральных совокупностей).
2. Эта задача решается с использованием односторонних версий критериев, то есть проверяются альтернативные гипотезы «больше», «меньше» (в отличие от двусторонних критериев, проверяющих альтернативную гипотезу «не равно»).
Самостоятельной проблемой является учёт таких факторов как пол, возраст и состояние здоровья испытуемых. В случае если эти факторы являются межгруппо-выми (в частности, если они получены на группах испытуемых разного объёма, или, по смыслу, не могут быть учтены с помощью вычитания парных значений), мы используем для анализа двухвыборочные непараметрические критерии, такие как критерий Манна-Уитни и критерий Флайгера-Полицелло.
Проверка статистических гипотез в условиях нестационарности ЭЭГ
Нестационарность ЭЭГ-сигнала приводит, по крайней мере, к двум проблемам статистического анализа ЭЭГ-спектрограмм:
1. Статистические характеристики сигнала (функция распределения, дисперсия и пр.) изменяются во времени. Это означает, в частности, что применение для обработки ЭЭГ-сигнала параметрических методов многофакторного дисперсионного анализа ANOVA и MANOVA во многих случаях оказывается некорректным.
2. Нестационарность сигнала проявляется как до, так и после предъявления испытуемому стимула (в достимульном и послестимульном интервалах времени). В случаях, когда нестационарность сигнала проявляется в достимульном интервале, возникает вопрос, какие именно интервалы времени можно использовать в качестве референтной области для сравнения с ними сигнала после подачи стимула?
Применение непараметрических критериев для проверки статистических гипотез на выборках экспериментальных данных в сочетании с рассмотренным выше методом анализа взаимодействия бинарных факторов позволило нам решить первую из перечисленных выше проблем. Однако вторая проблема (далее «проблема нестационарной референтной области») потребовала отдельного изучения и разработки специального метода анализа.
Прежде всего необходимо отметить, что проблема нестационарной референтной области имеет, по крайней мере, два источника происхождения:
1. Нестационарность ЭЭГ-сигнала, обусловленная его природой. Наиболее ярким примером нестационарности такого рода являются альфа-веретёна - короткие вспышки осцилляций, спонтанно возникающие в области альфа-частот.
2. Нестационарность ЭЭГ-сигнала, обусловленная постановкой эксперимента. Как показали эксперименты с визуальными стимулами, в случае предъявления испытуемому серии стимулов (тестов) изменение статистических характеристик сигнала, обусловленное предъявлением очередного стимула, может продолжаться достаточно долго (0.5-1 сек и более) и попасть в достимульный интервал следующего теста.
Для решения проблемы нестационарности референтной области мы разработали метод сравнения исследуемой величины (амплитуды или мощности, разности амплитуд или разности мощностей) ВО с её значениями в многосегментной референтной области. Этот метод основан на следующих исходных предположениях:
1. Сегменты референтной области являются квазистационарными.
2. Рассматриваемый набор сегментов референтной области является репрезентативным по отношению к решаемой задаче, то есть адекватно описывает все возможные состояния достимульного интервала. Из этого предположения следует, в частности, что статистически значимое отличие рассматриваемой выборки экспериментальных данных от K и более сегментов референтной области (K=1...N, где N - общее количество сегментов референтной области) - от всех в одну сторону (стохастически больше или меньше) - позволяет сделать вывод о неслучайном происхождении рассматриваемой выборки данных.
3. Все сегменты референтной области содержат результаты независимых друг от друга наблюдений.
Исходя из этих предположений осуществляется проверка статистических гипотез о стохастическом равенстве исследуемого ансамбля данных (соответствующего неко-
торой послестимульной пространственно-временной области) ансамблям различных сегментов референтной области. При этом рассматриваются два случая:
1. В качестве конкурирующей гипотезы для всех сегментов референтной области проверяется гипотеза «больше».
2. В качестве конкурирующей гипотезы для всех сегментов референтной области проверяется гипотеза «меньше».
Для каждого из названных случаев на основе полученных оценок р1,р2,...,ры минимальной (для рассматриваемого теста) статистической значимости различий сравниваемых ансамблей вычисляется Ес(К,р1,р2,...,рк) - интегральная функция распределения вероятностей ошибки первого рода для утверждения, что рассматриваемый ансамбль данных стохастически больше (меньше) ансамблей некоторых К сегментов референтной области. Функция ¥с определяется с помощью обобщённого биномиального закона распределения [10].
Для удобства использования интегральной функции распределения вероятностей ¥с мы ввели вспомогательный параметр Е=Ы-К, обозначающий количество сегментов, которые по содержательным соображениям могут быть исключены из анализа.
Заметим, что репрезентативность референтной области увеличивается при рассмотрении большего количества N независимых сегментов. Увеличение параметра Е при фиксированном значении параметра N позволяет выявлять более слабые эффекты в условиях нестационарной референтной области. Однако при этом снижается устойчивость метода анализа к нестационарности сигнала (то есть увеличивается вероятность ложного обнаружения эффектов, вызванного нестацио-нарностью). Таким образом, возможность изменения параметров N и Е в сочетании с аккуратным выбором референтной области позволяет гибко настраивать рассматриваемый метод на анализ спектрограмм ЭЭГ-сигналов разного вида (фазово-связанные, фазово-несвязанные компоненты спектрограмм ЭЭГ, спектрограммы полной мощности ЭЭГ) в различных частотных диапазонах.
Трёхмерная визуализация результатов анализа
Разработанный метод трёхмерной визуализации результатов анализа выборок данных пригоден как для визуализации результатов однофакторного анализа данных (вырожденный случай), так и для визуализации результатов анализа эффектов взаимодействия факторов. Идея состоит в том, что на горизонтальных осях координат откладываются значения факторов, не являющихся бинарными (например, «электроды» или «время»), а на третьей оси координат откладывается статистическая характеристика (среднее или медиана) исследуемой величины (амплитуды или мощности) ВО или разность значений характеристики ВО (если анализируется взаимодействие бинарных факторов). Кроме того, с помощью цвета отображается информация о наличии статистически значимого отличия исследуемых выборок от референтной области, а также о знаке отличия (больше, меньше).
Выводы
Рассмотренные элементы в совокупности составляют метод непараметрического многофакторного анализа ЭЭГ, позволяющий анализировать влияние различных факторов на частотно-временную динамику волновых процессов коры головного мозга, порождаемых стимулом, а также эффекты взаимодействия различных факторов.
Разработанный метод отличается от существующих методов парного сравне -ния (иногда называемых методами апостериорного сравнения) [3] тем что:
1. Позволяет проверять статистические гипотезы, учитывающие возможную нестационарность референтных областей.
2. Учитывает причинно-следственные зависимости между выборками данных при оценке статистической значимости исследуемых эффектов.
3. Позволяет исследовать эффекты взаимодействия факторов на выборках нейрофизиологических данных с помощью непараметрических тестов (независимых от того, является ли закон распределения исследуемых данных нормальным).
4. Предоставляет средства трёхмерной визуализации результатов статистического анализа многомерных данных.
Разработанный метод был реализован и успешно применён для анализа данных, собранных в ходе экспериментов с иллюзорными изображениями, проводимых Психологическим институтом РАО. Анализировались фазово-связанные и фазово-несвязанные компоненты спектрограмм ЭЭГ, а также спектрограммы полной мощности ЭЭГ [11,12,13,14].
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Bastiaansen M., Hagoort P. Event-induced theta responses as a window on the dynamics of memory // Cortex. - 2003. - Vol. 39. - pp. 967-992.
2. Tallon-Baudry C., Bertrand O., Delpuech C., Pernier J. Stimulus specificity of phase-locked and non-phase-locked 40 Hz visual responses in human // The Journal of Neuroscience. - 1996. - Vol. 16. - No. 13. - pp. 4240-4249.
3. Electronic Statistics Textbook. - Tulsa: StatSoft, Inc., 2004. -
http://www.statsoft.com/textbook/stathome.html .
4. Using MATLAB. - Natick: MathWorks, Inc., 2002.
5. Makeig S., DebenerS., Onton J., Delorm A. Mining event-related brain dynamics // TRENDS in Cognitive Sciences. - 2004. - Vol. 8. - pp. 205-210.
6. КапланА.Я. Нестационарность ЭЭГ: методологический и экспериментальный анализ // Успехи физиологических наук. - 1998. - Том 29. - № 3. - с. 35-55.
7. Hemmelmann C., Horn M., Reiterer S., Schack B., Susse T., Weiss S. Multivariate tests for the evaluation of high-dimensional EEG data // Journal of Neuroscience Methods. - 2004. -No. 139. - pp. 111-120.
8. Хампель Ф., Рончетти Э., Рауссеу П., Штаэль В. Робастность в статистике. Подход на основе функций влияния. - М.: Мир, 1989.
9. Харман Г. Современный факторный анализ. - М.: Статистика, 1972.
10. Справочник по теории вероятностей и математической статистике / В. С. Королюк, Н.И. Портенко, А.В. Скороход, А.Ф. Турбин. - М.: Наука, 1985.
11. MorozovA.A., Obukhov Yu.V., Stroganova T.A., TsetlinM.M., OrekhovaE.V. The search of the regularity in the spatio-temporal dynamics of the human visual cortex oscillations // Pattern Recognition and Image Analysis. - 2005. - Vol. 15. - No 4. - pp. 697-699.
12. Морозов А.А., Морозов В.А., Обухов Ю.В., Строганова Т.А. Метод многофакторного ана-лиза электроэнцефалограмм человека на основе вейвлет-спектрографии и непараметрической статистики // Доклады VII Международной научно-технической конференции «Физика и радиоэлектроника в медицине и экологии» (ФРЭМЭ'2006, 28-31 августа 2006 г., Суздаль, Россия) - Владимир: Изд-во «Собор», 2006. - Книга 1. - c. 145-147.
13. Морозов А.А., МорозовВ.А., ОбуховЮ.В., Строганова Т.А. Разработка метода непараметрического многофакторного анализа электроэнцефалограмм человека // Материалы седьмой Международной научно-технической конференции «Искусственный интеллект. Интеллектуальные и многопроцессорные системы» (ИИ-ИМС'2006, 25-30 сентября 2006 г., Кацивели, Крым, Украина) - Таганрог: Изд-во ТРТУ, 2006. - Том 3. - С. 158-162.
14. Морозов А.А., Морозов В.А., Обухов Ю.В., Строганова Т.А. Непараметрический метод многомерного многофакторного анализа электроэнцефалограмм человека // Искусственный интеллект. - 2006. - № 3. - С. 603-612.