Научная статья на тему 'РЕЧЕВОЕ КОДИРОВАНИЕ НА ОСНОВЕ ТЕТАИ ГАММА-АКТИВНОСТИ В КОРЕ ГОЛОВНОГО МОЗГА'

РЕЧЕВОЕ КОДИРОВАНИЕ НА ОСНОВЕ ТЕТАИ ГАММА-АКТИВНОСТИ В КОРЕ ГОЛОВНОГО МОЗГА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
76
5
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Яфиль Александр, Фонтолан Лоренцо, Капдебон Клер, Гуткин Борис, Жиро Анн-Лиз

Многие внешние стимулы представляют собой квазиритмическую структуру с различными временными промежутками, которую мозг должен определенным образом разлагать на составные части или объединять в блоки. Колебания в коре были предложены в качестве средств сенсорного демультиплексирования, т. е. параллельной обработки различных частотных потоков в сенсорных сигналах. Однако их причинная роль в данном процессе до сих пор не была продемонстрирована. В данной работе мы использовали модель нейронной микросети, чтобы ответить на вопрос: могут ли связанные гамма-/тета-колебания, наблюдаемые в слуховой коре мозга, явиться подспорьем для многомасштабного сенсорного анализа речи? Мы показываем, что в слитной речи тета-колебания могут максимально точно отслеживать слоговой ритм и организовывать временной ответ гамма-нейронов как код, позволяющий осуществлять слоговое распознавание на фонематическом уровне. Как отслеживание медленных изменений высоты речевого тона тета-колебаниями, так и их привязывание к гамма-спайковой активности нейронов явились важными чертами для точного кодирования речи. Полученные результаты показывают, что колебания в коре могут быть ключевым инструментом для демультиплексирования, синтаксического анализа, и кодирования речи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Яфиль Александр, Фонтолан Лоренцо, Капдебон Клер, Гуткин Борис, Жиро Анн-Лиз

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SPEECH ENCODING BY COUPLED CORTICAL THETA AND GAMMA OSCILLATIONS

Many environmental stimuli present a quasi-rhythmic structure at different timescales that the brain needs to decompose and integrate. Cortical oscillations have been proposed as instruments of sensory de-multiplexing, i.e., the parallel processing of different frequency streams in sensory signals. Yet their causal role in such a process has never been demonstrated. Here, we used a neural microcircuit model to address whether coupled theta-gamma oscillations, as observed in human auditory cortex, could underpin the multiscale sensory analysis of speech. We show that, in continuous speech, theta oscillations can flexibly track the syllabic rhythm and temporally organize the phoneme-level response of gamma neurons into a code that enables syllable identification. The tracking of slow speech fluctuations by theta oscillations, and its coupling to gamma-spiking activity both appeared as critical features for accurate speech encoding. These results demonstrate that cortical oscillations can be a key instrument of speech de-multiplexing, parsing, and encoding.

Текст научной работы на тему «РЕЧЕВОЕ КОДИРОВАНИЕ НА ОСНОВЕ ТЕТАИ ГАММА-АКТИВНОСТИ В КОРЕ ГОЛОВНОГО МОЗГА»

Речевое кодирование на основе тета- и гамма-активности в коре головного мозга

Александр Яфиль Лоренцо Фонтолан Клер Капдебон Борис Гуткин Анн-Лиз Жиро

Высшая нормальная школа, Франция; Женевский университет, Швейцария; Национальный исследовательский университет, Россия

Многие внешние стимулы представляют собой квазиритмическую структуру с различными временными промежутками, которую мозг должен определенным образом разлагать на составные части или объединять в блоки. Колебания в коре были предложены в качестве средств сенсорного демультиплексирования, т. е. параллельной обработки различных частотных потоков в сенсорных сигналах. Однако их причинная роль в данном процессе до сих пор не была продемонстрирована. В данной работе мы использовали модель нейронной микросети, чтобы ответить на вопрос: могут ли связанные гамма-/тета-колебания, наблюдаемые в слуховой коре мозга, явиться подспорьем для многомасштабного сенсорного анализа речи? Мы показываем, что в слитной речи тета-колебания могут максимально точно отслеживать слоговой ритм и организовывать временной ответ гамма-нейронов как код, позволяющий осуществлять слоговое распознавание на фонематическом уровне. Как отслеживание медленных изменений высоты речевого тона тета-колебаниями, так и их привязывание к гамма-спайковой активности нейронов явились важными чертами для точного кодирования речи. Полученные результаты показывают, что колебания в коре могут быть ключевым инструментом для демультиплексирования, синтаксического анализа, и кодирования речи.

РЕЗЮМЕ БЫРБ

Некоторые люди говорят в два раза быстрее, чем другие, в то время как люди с индивидуальными речевыми особенностями произносят одни и те же слова по-разному. Однако, несмотря на эти различия между говорящими, люди, как правило, могут с необыкновенной легкостью следить за устной речью.

Различные компоненты речи имеют разные частоты: например, обычная слоговая частота речи составляет примерно 4 слога в секунду. Фонемы, являющиеся наименьшими компонентами речи, имеют б льшую частоту. Однако все эти компоненты передаются в одно и то же время, и поэтому у мозга должна быть возможность обрабатывать их одновременно.

83

84

Слуховая кора - часть мозга, обрабатывающая звук, производит различные 'волны' электрической активности, и эти волны также имеют характерную частоту (которая соответствует количеству вспышек нейронной активности в секунду). Один из типов мозговых волн, который называется тета-ритмом, имеют частоту от трех до восьми вспышек в секунду, что совпадает с обычной слоговой частотой речи, а частота другой мозговой волны - гамма-ритма - совпадает с частотой фонем. Есть предположение, что эти две мозговые волны могут играть ключевую роль для нашей способности следить за речью, но до настоящего момента прямых доказательств этой теории не существовало.

Hyafil и др. использовали компьютерные модели нейронных колебаний для того, чтобы изучить эту теорию. Их имитационные эксперименты показали что тета-ритм, как и предполагалось, следит за слогами в устной речи, в то время как гамма-ритм кодирует отличительные признаки каждой фонемы. Более того, два ритма работают вместе для того, чтобы выстраивать последовательность фонем, которые составляют каждый слог. Эти результаты помогут улучшить технологии распознавания речи.

ОСНОВНОЙ ТЕКСТ ВВЕДЕНИЕ

Физическая сложность биологических сигналов и сигналов окружающей среды представляет собой фундаментальную проблему для сенсорных систем. Сенсорные сигналы часто состоят из различных ритмических потоков, организованных на разных временных интервалах; их необходимо обрабатывать параллельно и перекомпоновывать для достижения слитного понимания. Речь представляет собой такой вид физической сложности, в котором различные ритмы индексируют языковые репрезентации различных степеней детализации - от фонем до слогов и слов (Rosen, 1992; Zion, Golumbic и др., 2012). Перед извлечением смысла из слитной речи необходимы два важнейших шага предобработки: демультиплексирование, т. е. параллельный анализ каждого образующего ритма, и синтаксический анализ, т. е. дискретизацию акустического сигнала на лингвистически значимые блоки, которые могут быть обработаны отдельно (Stevens, 2002; Poeppel, 2003; Ghitza, 2011). В то время как синтаксический анализ, по-видимому, осуществляется «сверху-вниз», при наличии априорной информации о том, где находятся лингвистические границы, полученной в процессе обучения (Ngon и др., 2013), скорее всего, он осуществляется с опорой на изменение акустических характеристик. Недавно было сделано предположение о том, что как демультипликсирование, так и синтаксический анализ речи могут осуществляться «снизу-вверх» посредством сочетания колебаний в слуховой коре мозга в различных частотных диапазонах, делая возможными параллельные вычисления на слоговой и фонематической временных шкалах. (Ghitza, 2011; Giraud and Poeppel, 2012). Внутреннее связывание колебаний различных частот в коре, наблюдаемое в электрофизиологических записях слуховой коры мозга (Lakatos и др., 2005; Fontolan и др., 2014), делает возможным иерархическое сочетание вычислений на фонематической и слоговой шкалах, последовательно восстанавливая естественный порядок фонем и слогов.

Наиболее значительные флуктуации энергии в потоке речи наблюдаются на частоте примерно равной 4 Гц (Zion Golumbic и др., 2012); они могут служить в качестве акустической направляющей для маркировки слогового ритма

(Mermelstein, 1975). Поскольку слоговая скорость совпадает с тета-ритмом слуховой коры (3-8 Гц), границы слогов могут быть маркированы фазой те-та-периода. Значимость слежения за речью нейронным тета-ритмом (Henry и др., 2014) отмечается экспериментальными данными, показывающими, что разборчивость речи зависит от степени фазовой синхронизации нейронной активности тета-диапазона в слуховой коре мозга (Ahissar и др.., 2001; Luo and Poeppel, 2007; Peelle и др., 2013; Gross и др., 2013). По аналогии с пространственными и мнемоническими колебательными процессами, которые происходят в гиппокампе (Jensen and Lisman, 1996; Lisman and Jensen, 2013; Lever и др., 2014), тета-ритм может инициировать нейронную гамма-активность для облегчения ее последующего декодирования (Canolty и др., 2007): фаза нейронной активности, имеющей шаг в тета-диапазоне может регулировать более быструю нейронную активность, включенную в лингвистическое кодирование фонематических деталей (Ghitza, 2011; Giraud and Poeppel, 2012) в нижней части гамма-диапазона (> 30 Гц). Таким образом, управление гамма- и тета-ритмами могут как изменять чувствительность гамма-нейронов, чтобы дать больше вычислительных возможностей для обработки информативных частей слоговых звуковых образов, так и формировать временной период, выровненный по слоговым контурам для выполнения фонематической обработки на основе гамма-нейронов.

Как бы убедительно ни звучала эта гипотеза, прямых доказательств для существования нейронных механизмов, связывающих речевые компоненты и колебательные процессы, все же не хватает. Одним из способов установления причинной роли ритмов в обработке речи является компьютерное моделирование, поскольку оно позволяет тестировать эффективность перекрестной связи тета- и гамма-ритмов как средства демультиплексирования, синтаксического анализа и кодирования речи напрямую. В более ранних моделях обработки речи рассматривался только гамма-ритм в отношении изолированных фрагментов речи (Shamir и др., 2009) или вообще не рассматривались корковые ритмы (Gütig and Sompolinsky, 2009; Yildiz и др., 2013). С другой стороны, в более ранних моделях перекрестной связи ритмов не рассматривались такие сенсорные функции, как синтаксический анализ и демультиплексирование (Jensen and Lisman, 1996; Tort и др., 2007). В данной работе мы рассмотрели, как модель связанных тета- и гамма-корковых ритмов, основанная на биофизике, может обрабатывать слитную речь (устные высказывания). Кроме того, мы тщательно рассмотрели: (i) могут ли тета-колебания точно разбивать речевой поток на слоги; (ii) могут ли тета-сигналы, связанные со слогами, служить в качестве временного периода для улучшения декодирования слитной речи на основе гамма-нейронных колебаний; (iii) требует ли это декодирование возникновения тета-нейронных колебаний для изменения активности гамма-нейронной сети. Для рассмотрения двух последних пунктов, мы сравнили производительность модели по отношению к декодированию речи с двумя контрольными версиями сети, в которой мы удалили нейронную связь, синхронизирующую тета-нейроны с изменениями высоты речевого тона или связь между ними и гамма-нейронами.

1. РЕЗУЛЬТАТЫ

1.1. Архитектура модели и спонтанное поведение

Модель, предлагаемая в данной работе (Рисунок 1А) основана на архитектуре (Douglas и Martin, 2004; da Costa и Martin, 2010) и функциональности коры (Lakatos и др., 2007) так же, как и в более ранних моделях генерации

перекрестно связанных колебаний (Tort и др., 2007; Kopell и др., 2010; Vierling-Claassen и др., 2010). Мы используем хорошо описанную модель пирамидных вставочных гамма-нейронов для реализации гамма-нейронной сети: вспышки тормозных нейронов следуют сразу после вспышек возбуждающих нейронов (Jadi и Sejnowski, 2014), создавая общий спайковый ритм. Поскольку в поверхностных слоях коры возникают и гамма- и тета-колебания (Lakatos et al., 2005), мы предполагаем, что механизмы генерирования локальных тета-и гамма-колебаний с непосредственной связью между ними имеют такой же характер. Прямых доказательств факта генерирования локальных тета-колебаний в слуховой коре мозга по-прежнему не хватает (Ainsworth и др., 2011), и мы не можем полностью исключать, что они могут распространяться от удаленных источников (например, в гиппокампе; Tort и др., 2007; Kopell и др., 2010). Однако мы построили модель генерирования локальных колебаний, исходя из следующих фактов: (1) тета-колебания в неокортексе (соматосенсорные тета-колебания) наблюдаются в лабораторных условиях (Fanselow и др., 2008), (2) МЭГ, ЭЭГ и сочетание ЭЭГ / ФМРТ процессов в мозге человека показывают, что активность тета-нейронов синхронизируется по фазе с огибающей амплитуды речи в зоне А1 и ассоциативной коре (но не выходя за эти пределы) - (Ahissar и др., 2001; Luo и Poeppel, 2007; Cogan и Poeppel, 2011; Morillon и др., 2012) и (3) фазовая синхронизация тета-колебаний с речью не сопровождается возрастанием мощности и является причиной изменения фазовой структуры локальных колебаний (Luo и Poeppel, 2007). Мы исходили из похожести механизма генерирования тета- и гамма-колебаний с меньшими значениями синаптических временных констант для тета-ритма возбуждающих и тормозных нейронов (Kopell и др., 2010; Vierling-Claassen и др., 2010). Различная динамика двух модулей отражает разнообразие синаптических временных масштабов тормозных нейронов, наблюдаемых в процессе эксперимента; при этом клетки Мартинотти обнаруживают медленное синаптическое торможение (нейроны Ti), а корзинчатые нейроны обнаруживают более быстрое торможение

затухания (нейроны Gi) (Silberberg and Markram, 2007). Под тета-нейронной сетью мы понимаем пирамидные вставочные тета-нейроны по аналогии с пирамидными вставочными гамма-нейронами. Полная модель, таким образом, состоит из модуля генерирования тета-ритма с взаимосвязанными спайковыми возбуждающими (Te) и тормозными нейронами (Ti), которые спонтанно синхронизируются по тета-ритму (частота которого составляет 6 - 8 Гц) посредством затухающего медленного торможения и модуля генерирования гамма-ритма с возбуждающими (Ge) и тормозными нейронами (Gi), вспышки в которых происходят с большей скоростью (25 - 45 Гц), синхронизируемые быстрым затухающим торможением (пирамидные вставочные гамма-нейроны; Рисунок 1B) (Börgers and Kopell, 2005). Паттерн импульсов наших смоделированных нейронов неплотный и слабо синхронизированный в состоянии покоя, в соответствии с низкой частотой спайков нейронов в коре (Brunei and Wang, 2003) (Рисунок 1 -дополнение 1D). В отличие от классических пирамидных вставочных гамма-нейронов (50 - 80 Гц), наблюдаемых в препаратах слуховой коры мозга крыс в лабораторных условиях (Ainsworth и др., 2011), наша сеть генерировала гамма-ритм с более низкой частотой - примерно 30 Гц, - наблюдаемой в слуховой коре мозга человека в ответ на речь (Nourski и др., 2009; Pasley и

др., 2012).

(A) Архитектура полной модели. Возбуждающие нейроны Te (n = 10) и тормозные нейроны Ti (n = 10) формируют петлю пирамидных вставочных тета-нейронов, генерирующий тета-колебания. Возбуждающие нейроны Ge (n = 32) и тормозные нейроны Gi (n = 32) формируют петдю гамма-колебания. Нейроны Te принимают неспецифические проекции всех слуховых каналов, в то время как нейроны Ge принимают специфическую проекцию от единственного слухового канала, сохраняя тонотопию в популяции Ge. Петли пирамидных вставочных гамма- и тета-нейронов связываются проекциями по принципу «каждый с каждым» от нейронов Te к Ge. (B) Активность сети в состоянии покоя во время восприятия речи. Растровый график спайков: Ti (темно-зеленый), Te (светло-зеленый), Gi (темно-синий), Ge (голубой). Смоделированный локальный полевой потенциал (ЛПП) приводится в верхней части, а акустическая спектрограмма предложения "Ralph prepared red snapper with fresh lemon sauce for dinner», подаваемого на вход, приводится в нижней части. Спайки Ge, совпадающие с тета-вспышкой (прямоугольники красного цвета) формируют выходные данные сети. Гамма-синхронизация прослеживается в спайках Gi. (C) Вызванный потенциал (ВП) и гистограмма времени реакции на стимул популяций Te и Ge для 50 воспроизведений одного и того же предложения: ВП (т.е. смоделированный ЛПП, усредненный по воспроизведениям, кривая черного цвета), звуковая огибающая предложения (кривая красного цвета, отфильтрованная по частоте равной 20 Гц), гистограмма времени реакции на стимул для тета- (кривая зеленого цвета) и гамма-нейронов (кривая синего цвета). Вертикальные полосы соответствуют масштабу - 10 спайков - для обеих гистограмм времени реакции на стимул. Тета-нейронная сеть синхронизируется по фазе с изменениями высоты речевого сигнала и синхронизирует гамма-нейронную сеть через связь между тета- и гамма-нейронами. (D) Связь фазы с амплитудой тета- и гамма-колебаний спайковой активности Ge. Вверху - огибающая для гамма-колебаний ЛПП находится в фазе с тета-колебаниями ЛПП при отдельных испытаниях. Слева внизу - фазы с амплитудой ЛПП (измеренного с помощью коэффициента модуляции) для каждой пары частот в состоянии покоя, показывая максимум в каждой паре вида «тета-гамма». Внизу справа - коэффициент модуляции связи фазы с амплитудой на уровне спайков для интактной и контрольной моделей без

Рисунок 1 - дополнение 1. Спектральный анализ

88

связи между тета- и гамма-колебаниями (красная стрелка в части А), в состоянии покоя (столбики синего цвета) и подача речи на вход (столбики коричневого цвета).

(А) Фазовый портрет тета-колебаний (левый столбец) и энергетической диаграммы тета-колебаний (правый столбец) для 50 подач одного и того же предложения на вход модели с несвязанным управлением тета-/гамма-ко-лебаниями (верхняя строка) и интактным состоянием (нижняя строка). Соотношение «фаза/энергия» отсортировано по 4 различным категориям, которым присвоены цветовые обозначения. (В) Слева - связь фазы с амплитудой спайков: среднее значение амплитуды для пирамидных вставочных гамма-нейронов (определенное как количество нейронов Gi, в которых возникают спайки во время гамма-вспышки) как функция от фазы пирамидных вставочных тета-нейронов (определенная через интерполяцию между последовательными тета-вспышками). Обозначения: модель в интактном состоянии - кривая черного цвета, модель с несвязанными тета-/гамма-ко-лебаниями - кривая синего цвета. Данные по состоянию покоя (жирная пунктирная линия) и данные во время обработки речи (сплошная линия) почти полностью совпадают. Тонкая пунктирная линия обозначает стандартную ошибку среднего. Связь фазы с амплитудой спайка была сильной на полной модели, но почти отсутствовала, когда связь между тета- и гамма-нейронами была удалена. Справа - связь между фазой и частотой спонтанного спайка: среднее значение для частоты пирамидных вставочных гамма-нейронов (определенное в соответствии с продолжительностью между последовательными гамма-вспышками) как функция от фазы пирамидных вставочных тета-нейронов. Условные обозначения совпадают с условными обозначениями для графика слева. Связь между фазой и частотой спайка сильная тогда и только тогда, когда присутствует связь между тета- и гамма-нейронами (статистически значимая связь - р < 10 9, как в момент обработки речи, так и для состояния покоя). (С) Фазовая синхронизация тета- и гамма-колебаний с речью. Концентрация фазы отфильтрованного

тета- (сверху) и гамма-ЛПП сигналов (снизу) во времени для 200 подач на вход одного и того же предложения (так же, как на рисунках 1В, С). Горизонтальная полоса оранжевого цвета обозначает подачу предложения на вход. Наблюдается быстрый переход от однородного распределения фазы тета-колебания перед началом предложения к синхронизированному по фазе. Фазовая синхронизация пропадает после конца предложения. (D) Коэффициент вариации спайк-паттерна (слева) и коэффициент Фано (справа) во время обработки речи. Обе величины были получены в соответствии с реакцией сети на 100 подач на вход одного и того же фрагмента речевого сигнала длиной в одну секунду. Столбцы и планки погрешностей показывают среднее значение и стандартное отклонение по отдельным популяциям нейронов. (Е) Среднее значение для ЛПП (вызванный когнитивный потенциал (ВКП)) и стандартное отклонение, вычисленное в соответствии со 100 подачами на вход сети одного и того же предложения. Обратите внимание, что вариативность ЛПП сильно сокращается к началу речи, прежде всего из-за фазовой синхронизации тета- и гамма-колебаний.

В состоянии покоя активность популяции пирамидных вставочных тета-нейронов синхронизируется по шкале тета-колебаний, а активность популяции пирамидных вставочных гамма-нейронов - по шкале гамма-колебаний. Как Te, так и Ge популяции принимают проекции от 'подкоркового' модуля, который имитируют нелинейную фильтрацию акустической входной информации подкорковыми структурами, которые, прежде всего, включают разложение сигнала на 32 слуховых канала (Chi и др., 2005). Отдельные возбуждающие нейроны в тета-модуле получили входную информацию, усредненную по каналам, в то время как гамма-модуль получил входную информацию, отселектированную по частоте. Такая разница в выборочности была причиной экспериментальных наблюдений, полученных на основе записей внутричерепных процессов (Morillon и др., 2012; Fontolan и др., 2014), что показывает тот факт, что в отличие от гамма-модуля, реакция тета-моду-ля не зависит от входного спектра. Это также отражает диссоциацию между популяцией «стереотипизированных» нейронов, реагирующих на любой акустический стимул очень быстро и невыборочно (предположительно, это нейроны Te) и популяцией «модулированных» нейронов, реагирующих выборочно в соответствии с конкретными спектрально-временными признаками (предположительно, это нейроны Ge) в слуховой коре мозга приматов (Brasselet и др., 2012). Каждый нейрон Ge принимает входную информацию с одного конкретного канала, сохраняя слуховую тонотопию таким образом, что вся популяция Ge представляет собой многокомпонентную спектральную структуру стимула. Каждый нейрон Te принимает входную информацию со всех каналов, т. е., популяция Te передает временной сигнал, захватывающий медленные изменения стимула, с широким диапазоном перестройки. Важно отметить, что в обоих модулях колебаний между нейронами Te и Ge установлена связь типа «каждый с каждым», что позволяет те-та-колебаниям контролировать активность более быстрых гамма-колебаний. Данная структура позволяет проводить слоговые границы (с помощью тета-модуля) с тем, чтобы ограничить декодирование более быстрого потока фонематической информации. Выходные данные сети берутся из нейронов Ge, так как мы предполагаем, что нейроны Ge снабжают входными данными корковые структуры более высокого уровня; они выполняют такие операции, как категоризация фонем и предоставляют доступ к словарю. Соответствующим образом нейроны Ge на модели принимают больше спектральных характеристик речи, чем нейроны Te (Рисунок 1B). Спайки, подаваемые на нейроны Ge, позже выравниваются в соответствии с временными параметрами тета-спайков и передаются декодирующим алгоритмам.

90

1.2. Динамика реакции модели на предложения естественного языка

Сначала мы изучили характер динамики модели. Как и ожидалось в соответствии с ее архитектурой и биофизическими параметрами (См. «Материалы и методы»), нейронная сеть продуцировала активность в тета-диапазоне (6 - 8 Гц) и низком гамма-диапазоне (25 - 45 Гц), как в состоянии покоя, так и во время речи. В соответствие с экспериментальными наблюдениями (Luo и Poeppel, 2007) заметного возрастания спайковой активности тета-нейронов не наблюдалось, но начала предложений вызвали фазовую синхронизацию тета-колебаний, что отражено на гистограммах времени реакции тета-нейронов на стимул, которые были позже усилены на всех границах огибающей речевого сигнала. Следовательно, пики итоговой общей вызванной активности соответствовали пикам звуковой огибающей речевого сигнала (Рисунок 1С) (Abrams и др., 2008). Локальный полевой потенциал (ЛПП) индексирует общую синаптическую активность всей сети (возбуждающие нейроны обеих сетей), а ее динамика имеет большую степень соответствия со спайковой активностью. В отличие от энергетической диаграммы тета-активности ЛПП, фазовый портрет тета-активности ЛПП обладал устойчивостью при повторении одного и того же предложения (Рисунок 1 - дополнения 1А, С, Е), повторяя характеристики ЛПП в слуховой коре мозга приматов (Kayser и др., 2009) и в соответствие с данными по магнитоэнцефалографии процессов, происходящих в мозге человека (Luo и Poeppel, 2007; Luo и др., 2010). Наряду с другими эмпирическими данными по слуховой коре мозга человека (Nourski и др., 2009) гамма-колебания возникали в моменты, соответствовавшие началам предложений (Рисунок 1С). Вследствие связи прямого распространения от тета-участков к гамма-участкам, амплитуда гамма-колебаний синхронизировалась с фазой тета-колебаний как в состоянии покоя, так и во время речи (Рисунок 1D). Синхронизация обнаруживалась как по спайкам (Рисунок 1 - дополнение к рисунку 1B), так и по сигналу ЛПП (Рисунок 1D). Немаловажно, что эта синхронизация прекращалась при удалении тета/гамма связи; это показывает, что общих входных данных для Te и Ge клеток недостаточно для связывания двух колебаний.

1.3. Нахождение слоговых границ при помощи тета-колебаний

Перед тем, как тестировать декодирующие свойства модели, мы исследовали, могут ли слоговые границы четко определяться на корковом уровне тета-нейронной сети (См. «Методы»). Это первичное исследование основывалось на корпусе, содержащем 4620 фонетически размеченных английских предложений (TIMIT Linguistic Data Consortium, 1993). Акустический анализ этих предложений подтвердил соответствие между максимумами на спектре модулированного речью сигнала и средней слоговой скоростью (3-6 Гц) (Рисунок 2 - дополнение 1А), вследствие чего слоговые границы соответствуют точкам минимума при медленных изменениях речи (Peelle и др., 2013). Тета-нейронная сеть модели (Рисунок 2 - дополнение 1В) была непосредственно спроектирована для использования этих закономерностей и определения места нахождения слоговых границ. При подаче предложений на вход тета-модуля, мы отметили соответствующую тета-вспышку, следовавшую через 50 мс после начала слога, что повлекло за собой подстройку тета-колебаний под акустические тета-изменения в речевом сигнале (Рисунок 2 - дополнение 1С, D). Более важным является тот факт, что нейронные тета-вспышки соответствовали слоговым границам в подаваемых на вход предложениях (Рисунок 2A). Мы сравнили

A PINTH activity in relation to syllables

yxs^YW^W^ryuyw^ K 0Q8

В Syllable alignment performance

LFP

Те

I i

I ,

200 its

M i

I I 1 it

! I

<u

| 0.04

ьа

Ji

JS 0

A

Mermelstein

Ш LN

1 □□ Theta

ид ■

2 3

Compression factor

Рисунок 2. Синхронизация тета-колебаний в соответствии со слоговой

структурой

производительность тета-нейронной сети с производительностью двух альтернативных моделей, так же обладающих способностью определять слоговые границы: простого линейно-нелинейного детектирующего устройства (Рисунок 2 - дополнение 1Е) и алгоритма Мермельштейна - наиболее современной модели, - разрешающей, в отличие от модели, разработанной в рамках данной работы, определение слоговых границ лишь в off-line режиме. Производительность тета-нейронных сетей оказалась выше производительности как линейно-нелинейной модели, так и алгоритма Мель-мельштейна (Рисунок 2В, все значения p < 10-12). Так же, как и в поведенческих исследованиях человеческого восприятия (Miller и др., 1984; Nourski и др., 2009; Mukamel и др., 2011) тета-нейронная сеть способна подстроиться под различный темп речи. Производительность данной модели оказалась выше производительности других алгоритмов с точки зрения точности расстановки слоговых границ значений (p < 10-12) в условиях двойного и тройного сжатия временного масштаба (Рисунок 2В).

(А) Тета-спайки выравниваются по слоговым границам. На верхнем графике показана активность тета-нейронной сети в состоянии покоя и при реакции на предложение, включая кривую ЛПП, показывающую сильные тета-коле-бания и растровые графики спайков для популяций Ti (обозначено светло-зеленым цветом), Te (обозначено темно-зеленым цветом). Тета-вспышки соответствуют слоговым границам, получаемым из данных о разметке (вертикальные линии черного цвета, нанесенные поверх акустической спектрограммы на графике в нижней части). (В) Производительность различных алгоритмов по отношению к определению начал слогов: оценка выравнивания слогов показывает степень соответствия между тета-вспышками и слоговыми границами для каждого предложения из корпуса; оценка была усреднена для 3620 предложений тестируемого набора данных (плато графика погрешностей показывают стандартную ошибку). На диаграмме сравниваются результаты для алгоритма Мельмельштейна (столбики серого цвета), линейно-нелинейного детектирующего устройства (столбики розового цвета) и тета-нейронной сети (столбики зеленого цвета) как для нормального темпа речи (коэффициент сжатия 1), так и для компрессированной речи (коэффициенты сжатия 2 и 3). Производительность оценивалась на основе другой части выборки - не той, которая использовалась для параметризации.

91

92

Рисунок 2 - дополнение 1. Корпус TIMIT и модели, используемые для определения слоговых границ

(А) Акустический анализ корпуса TIMIT. Слева: частота модуляции речевого сигнала возрастает с повышением слоговой скорости. Все 4620 предложений из корпуса TIMIT (тестируемый набор данных) были отсортированы по квартилям в соответствии со слоговой скоростью (т.е. количество слогов в секунду). Спектр огибающей речевого сигнала (с поправкой 1/f) был усреднен для всех предложений в каждой квартили, после чего значения были нанесены на график. Цветные полосы в верхней части графика представляют собой диапазон слоговой скорости для каждой из четырех квартилей, показывая соответствие между частотой собственных колебаний и слоговой скоростью в предложениях корпуса. Посередине: усредненный спектр канала. Спектр, усредненный по всем предложениям корпуса, вычислялся для каждого из 128 слуховых каналов прекортикальной слуховой модели, созданной Chi и его коллегами (Chi и др., 2005). На всех каналах обнаруживается явный максимум в одном и том же диапазоне - 4 - 8 Гц, - что показывает тот факт, что тета-модуляция однозначно присутствует в информации, подаваемой на слуховую кору. Справа: началу слога соответствует провал на спектрограмме. Среднее значение для слуховой спектрограммы каналов предложений синхронизировалось по фазе с началами слогов, где t = 0 (линия зеленого цвета) соответствует началу слога. Красный цвет соответствует высоким значениям, синий - низким. Провал в начале слога особенно ярко выражен на средних частотах, соответствующих формантам. Слуховые каналы были усреднены для всех начал слогов по всему корпусу (4620 предложений). Данный график показывает связь между слоговыми границами и изменениями в слуховых каналах, которые слуховая кора может использовать для определения слоговых границ. (В) Модель тета-

нейронной сети. Слева: архитектура тета-модели такая же, как и модель всей сети без пирамидных вставочных гамма-нейронов. Речевые данные разложены по слуховым каналам как в линейно-нелинейной модели и проецируются случайным образом на 10 возбуждающих нейронов Te. Популяция Te обоюдно взаимодействует с 10 тормозными нейронами Ti, генерируя тета-колебания. Тета-вспышки обеспечивают определяющую модель временными параметрами для слоговых границ. (С) Вспышки в нейронах Te возникают в моменты времени, соответствующие началам слогов: нейроны Te, указывающие на начало слога, случайным образом реагируют на начала всех предложений. Спайки от одного нейрона Te были отобраны по результатам подачи на вход 500 различных предложений, после чего они использовались для установления временных параметров начала предложений. В данной работе начало предложения определялось как момент времени, в который огибающая речевого сигнала достигала определенного порога (1000 произвольных единиц измерения) в первый раз. Количество спайков после этого усреднялось по интервалам длиной в 20 мс, что показало - нейрон обнаруживает пик сильной активности через 0 - 60 мс после начала предложения. Вторая вспышка возникает через 200 мс после начала, что показано на примере нейрона в работе Brasselet и др., 2012. (D) Модель линейно-нелинейного устройства, детектирующего границы слогов. Слуховые каналы фильтруются, суммируются и пропускаются через нелинейную функцию: выходные данные определяют ожидаемую вероятность начала слога. Контур отрицательной обратной связи позволяет не учитывать начала, повторяющиеся через короткие промежутки времени. Значения для фильтров, нелинейной функции и контуров обратной связи оптимизируются так, чтобы соответствовать части выборки предложений. (Е) Когерентность стимула и сети. Тета-фаза (4 - 8 Гц) была извлечена как из смоделированного ЛПП, так и из входной речевой информации. Когерентность в каждой точке на графике была вычислена как коэффициент фазовой синхронизации на основе разницы между фазами, вычисленной на основе 100 воспроизведений отдельного предложения. Когерентность, установленная на интервале 0 - 200 мс, следующая за началом предложения, является достаточно высоким устойчивым значением, равным примерно 0,4.

Это первоначальное исследование показывает, что тета-активность представляет собой устойчивую, основанную на слогах, систему отсчета времени, которую нейронная система может использовать для считывания активности гамма-нейронов.

1.4. Декодирование простых временных стимулов из выходных спайк-паттернов

Нашим следующим шагом была попытка выяснить, могут ли слоговые тета-блоки выходных последовательностей спайков (нейроны Ge) для различных видов входной информации быть правильно сгруппированы. Сначала мы дали количественную оценку возможности модели кодировать стимулы, смоделированные в виде временных структур. Мы использовали пилообразный сигнал с длительностью 50 мс, положение пика которого менялось в зависимости от параметров (Рисунок 3А) с межстимульным интервалом от 50 до 250 мс. Этот модельный набор стимулов ранее использовался для модели кодирования, основанной на гамма-нейронах; также считалось, что он отражает идеализированные формантные переходы (Shamir и др., 2009). Мы извлекли спайк-паттерны из всех (выходных) нейронов Ge на интервале за 20 мс перед началом роста и через каждые 20 мс после

94

Рисунок 3. Характеристики пилообразного графика

спада. Эту процедуру называют «хронометрирование стимулов», поскольку начало стимула используется как система отсчета. Используя кластеризацию (См. «Средства и методы») мы обнаружили, что идентичность поданных на вход пилообразных графиков могла быть декодирована из выходных спайк-паттернов (Рисунок 3А) с точностью больше 60% (Рисунок 3С, полоса светло-серого цвета). Мы также вычислили производительность декодирования, когда использовали внутреннюю систему отсчета, представленную тета-хронометрированием, а не «хронометрированием стимулов». Когда анализировались спайк-паттерны в интервале, ограниченном двумя последовательными тета-вспышками (Рисунок 3С, полоса темно-серого цвета), декодирование пилообразного графика все еще могло осуществляться и даже относительно хорошо сохраняться (средняя скорость декодирования - 41,7%). Шум в тета-модуле позволяет осуществить синхронизацию тета-вспышек с началами стимулов и, таким образом, увеличивает производительность по отношению к задаче нахождения посредством соответствующего тета-квантования спайк-паттернов.

(А) Спайк-паттерны гамма-нейронов при реакции на простой стимул. На вход модели был подан стимул в виде пилообразного графика длительностью 50 мс, где хронометрирование пиков было параметризовано между 0 (пик в момент начала роста) и 1 (пик в момент начала спада). Спайковая активность показана для различных нейронов Ge (ось у) на окнах, синхронизированных с тета-вспышками по фазе (на интервале от -20 до +70 мс вокруг вспышки, ось х). Паттерны нейронов нанесены на график ниже в соответствии с «зубьями» пилообразного графика. (В) Смоделированные сети. Анализ выполнялся на смоделированных данных, полученных от трех отдельных сетей: вверху - 'Пассивная тета-модель' (речевые данные не подаются на вход

нейронов Те), в середине - 'Модель с несвязанными тета-/гамма-нейрона-ми' (нет проекции нейронов Те на нейроны Ge), внизу - полностью интактная модель. (С) Производительность (группирование) по принципу «стимул ув. тета-хронометрирование» для трех смоделированных сетей. Хронометрирование стимулов (светлые полосы) получается посредством извлечения спайков Ge с помощью окна, ограниченного последовательными тета-вспышками (тета-блок, см. Рисунок 3А). Группирование проводилось 10 раз для каждой сети и каждого нейронного кода, после чего были получены средние значения и стандартное отклонение. Среднее ожидаемое значение погрешности - 10%. ф) Производительность (обнаружение стимула) для интактной и контрольной моделей. Нейронные паттерны в состоянии покоя отличались от всех 10 нейронных паттернов, определенных с помощью 10 отдельных временных форм. (Е) Матрицы ошибок для хронометрирования стимулов и тета-хронометрирования и хронометрирования двух контрольных моделей (построенные с использованием кода тета-хронометрирова-ния). Цвет каждой клетки обозначает количество испытаний, где параметру стимула ставился в соответствие декодируемый параметр (синий цвет - малые значения; красный цвет - большие значения). Значения, расположенные по диагонали обозначают правильное декодирование.

После этого мы сравнили производительность декодирования полной модели и производительность двух контрольных моделей: в одной из них для тета-модуля не учитывалось воздействия стимула (пассивная тета-модель), а в другой - тета-модуль не был связан с гамма-модулем (модель без тета-/ гамма-связи) (обозначено синим и зеленым цветами на Рисунке 3В). Производительность декодирования обеих контрольных моделей ухудшилась для обоих нейронных кодов (начала тета-колебаний и хронометрирования стимула, все значения р < 10-9), что показали средние значения производительности (Рисунок 3С) и матрицы ошибок (Рисунок 3Е). Детальные данные матриц грубых ошибок показывают, что временные структуры декодируются верно, или в качестве сопредельных временных форм только для интактной версии модели (Рисунок 3Е). Более того, интактная модель произвела лучшее разграничение типа «сигнал ув. состояние покоя», чем две контрольные модели, избегая значительного количества ложных срабатываний (Рисунок 3D). Подводя итог вышесказанному, можно отметить, что что нейроны, в которых спайки возникают во время тета-вспышек, предоставляют устойчивый внутренний код для характеристик простых временных структур, и что это возможно благодаря синхронизации по времени тета нейронов (Те) со стимулами и изменениями, оказываемыми на сжатом масштабе на выходные нейроны ^е).

1.5. Кодирование непрерывной речи с помощью модельных выходных спайк-паттернов

Основной целью данной теоретической работы была оценка возможности декодирования непрерывного речевого сигнала связанными колебаниями в коре в режиме реального времени. Поэтому мы поставили задачу сгруппировать слоги предложений естественного языка. Для декодирования спайковой активности Ge, мы использовали такие же процедуры, как при кодировании/декодировании простых временных структур. Выходные спайки Ge были разбиты на спайк-паттерны на основе тета-блоков, после чего для восстановления характеристик слога был применен декодирующий анализ (Рисунок 4А). Для оценки того, насколько важной является точность хронометрирования спайков гамма-нейронов, мы сравнили декодирование с использованием спайк-паттернов (т. е. спайков с временной маркировкой

96

Рисунок 4. Обработка слитной речи и группировка слогов

в соответствии с началами блоков) с использованием простого подсчета (т. е. спайков без маркировки). При использовании спайк-паттернов декодирование слогов было более точным для интактной модели: 58% слогов были правильно сгруппированы для множества из 10 возможных вариантов слогов (выбранных случайным образом) (Рисунок 4В). Качество декодирования слогов было существенно хуже при подсчете количества спайков вместо использования спайк-паттернов (р < 10-12). Немаловажным является тот факт, что качество декодирования было низким в обеих контрольных моделях (пассивные тета-модели с несвязанными тета-/гамма-колебани-ями) при использовании как подсчета количества спайков, так и спайк-паттернов (значительно ниже, чем декодирование с использованием спайк-паттернов для полной модели - все значения р < 10-12 - и незначительно выше при подсчете спайков для полной модели - все значения р > 0.08 без учета поправки).

(А) Схема декодирования. Выходные спайк-паттерны были построены с помощью извлечения спайков Ge, возникающих в пределах временных окон, ограниченных последовательными тета-вспышками (обозначены красными прямоугольниками) во время моделирования обработки речи. Каждый выходной паттерн позже был маркирован соответствующим слогом (полосы серого цвета). (В) Среднее значение производительности декодирования слогов для некомпрессированной речи. Производительность трех моделей (Рисунок 3В) при использовании двух нейронных кодов: подсчет количества спайков и использование спайк-паттерна. (С) Среднее значение производительности декодирования слогов, при использовании кода спайк-паттерна для всех дикторов. Качество декодирования слогов было наилучшим, когда

Д Syllable duration distribution

Syllable duration (ms)

Рисунок 4 - дополнение 1. Группировка слогов в соответствии с дикторами

длительность слогов лежала в диапазоне 100-300 мс, т. е. соответствовала длительности одного тета-цикла. Производительность интактной модели была большей, чем производительность двух моделей независимо от диапазона, в котором лежала длительность слога. Погрешность составляет 10%. Цветовые обозначения в данном пункте такие же, как и в пункте B. (D) Производительность декодирования слогов для компрессированной речи для интактной модели с использованием кода спайк-паттерна (для того же диктора, что в пункте B). Компрессия лежит в диапазоне от 1 (некомпресси-рованная речь) до 3. Среднее значение погрешности составляет 10% (горизонтальная линия на графике справа).

(А) Распределение слоговых длительностей в соответствие с предложениями и 462 дикторами. Затемненная область (100 - 300 мс) обозначает участок с максимальной плотностью. Крайние значения, возможно, соответствуют неточно определенным слогам.

Мы также изучили производительность модели по отношению к кодированию слогов, произнесенных различными дикторами. Мы использовали такую же декодирующую процедуру, как и ту, что описана выше, но в данном случае классификатор обучали на произнесении одних и тех же двух предложениях различными дикторами. Тета-блоки группировались в слоги на основе реакции сети на два предложения, произнесенные 99 другими дикторами. Материал эксперимента включал предложения, произнесенные 462 дикторами различного этнического и географического происхождения, что показывает явную неоднородность фонематической реализации и длительностей слогов (что было отмечено фонетистами). Распределение длительностей слогов отклонялось от медианы на 200 мс, а «хвост»

98

распределения находился в диапазоне от нескольких миллисекунд до 800 (Рисунок 4 - дополнение М). Поскольку тета-активность должна работать для диапазона 3 - 9 Гц, т. е. объединять слоговые блоки с длительностью 100 - 300 мс 2011, 2014), мы не рассчитывали, что модель будет работать одинаково хорошо для всего диапазона длительностей слогов. При декодировании с использованием спайк-паттерна, точность интактной модели составляла 24% (с погрешностью в 10%). Пик ее производительности пришелся на диапазон, на который она рассчитана, т. е. для длительностей слогов от 100 до 300 мс. Принимая во внимание фонематическую вариативность между дикторами, можно считать такую точность достаточно высокой. Немаловажно, что интактная модель работала лучше, чем контрольные модели как в диапазоне 100 - 300 мс (р < 0.001), так и для всего диапазона длительностей (р < 0.001). Все эти исследования показывают, что модель может достаточно хорошо отслеживать слоги для окна анализа, пределы которого адекватны с психологической точки зрения. Они также показывают, что декодирование опирается на целостность архитектуры модели.

Наконец, мы проверили устойчивость кода спайк-паттерна к временной компрессии речи и обнаружили, что при ухудшении качества производительность декодирования была выше случайного значения при коэффициентах сжатия 2 и 3 (Рисунок 4D), имитируя декодирование, осуществляемое человеком (ДЫвваг и др., 2001). В общем случае декодирование слогов из непрерывного речевого сигнала показало, что связанные тета- и гамма-колебания обеспечивают устойчивый инструмент для обработки и декодирования слогов, а также то, что их работа опирается на связанность между двумя колебаниями.

1.6. Кодирующие свойства модельных нейронов

В конечном итоге, мы оценили психологическую правдоподобность модели, сравнивая кодирующие свойства смоделированных нейронов (без дальнейшей параметризации) с нейронами, запись деятельности которых велась со слуховой коры приматов (Kayвer и др., 2009; 2012). Первое исследование кодирующих свойств нейронов состояло в сравнении способности группировки нейронных кодов модели в произвольные фрагменты речи с установленной длительностью (в отличие от группировки слогов, как в предыдущем разделе). Мы смоделировали данные, используя естественную речь, и изучили спайковую активность нейронов Ge, применяя такие же методы анализа, как и в исходном эксперименте. Мы извлекли окна спайковой активности фиксированной длины для отдельных нейронов Ge и оценили кодирующие свойства нейронов, используя различные нейронные коды. Кодирование речи сначала оценивалось с помощью классификатора по принципу «ближайшего соседа», а потом методами взаимной информации (Kayвer и др., 2009).

1.6.1. Анализ по классификатору

В данном исследовании паттерны нейронов не группировались в слоги (как в исследовании, которое описывалось выше) или в какую-либо другую лингвистическую единицу - осуществлялась группировка в произвольные фрагменты речи, что дало возможность произвести глубокий теоретический анализ кодирующих свойств нейронов. Мы извлекли из корпуса Т1МТ небольшую часть - 25 предложений - и подали на вход модели 50 реализаций каждого из этих предложений. Мы определили 10 стимулов в

Рисунок 5. Сравнение с кодирующими свойствами нейронов слуховой коры

качестве 10 различных окон заданного размера (от 80 до 480 мс), случайных образом отобрали 25 предложений и оценили способность к декодированию стимула с опорой на активность отдельных нейронов Ge в пределах этих окон (Каувег и др., 2012). Использовалось 3 различных кода (Рисуок 5А): простой подсчет нейронов использовался в качестве кода идентификации, код с разбиением по времени, в котором спайки приписывались к одному из 8 блоков равной длительности в пределах временного окна и код с разбиением по фазе, в котором спайки наделялись информацией о фазе ЛПП тета-колебания в момент спайка (спайки позже приписывались к одному из 8 блоков в соответствии с фазой).

(А) Нейронные коды. Декодирование стимулов осуществлялось на основе спайк-паттернов Ge, разбитых по окнам установленного размера (на рисунке показан паттерн для одного нейрона извлеченный из одного из окон). Подсчет нейронов состоял в подсчете всех спайков для каждого нейрона в пределах одного окна. Код с временным разбиением был получен разделением окна на N блоков равной длины (вертикальные полосы серого цвета) и подсчетом количества спайков в каждом блоке. Код с разбиением по фазе был получен при помощи разбиения фазы ЛПП на N блоков (обозначено 4 цветами на графике в верхней части) и приписыванию спайка соответствующему фазового блоку. (В) Декодирование спайк-паттернов. Слева - декодирующая производительность по нейронам Ge для интактной модели с использованием блоков в количестве N = 8 для каждого блока: подсчет спай-ков (кривая черного цвета), код с разбиением по времени (кривая синего цвета) и с разбиением по фазе (кривая зеленого цвета). Справа - данные исходного эксперимента. Исходный материал: Каувег и др., 2012. (С) Взаимная информация (ВИ). Слева - средние значения взаимной информации

Рисунок 5 - дополнение 1. Производительность речевого кодирования и взаимная информация (контрольные модели)

100

для стимула и выходной нейронной активности отдельных нейронов при обработке предложения интактной моделью для подсчета спайков (кривая черного цвета), код с разбиением по времени (линия синего цвета), код с разбиением по фазе и подсчет спайков, рассматриваемые вместе (линия зеленого цвета) и сочетание кодов с разбиением по времени и по фазе (линия красного цвета). Справа - сравнение данных, полученных в ходе эксперимента над нейронами слуховой коры (исходный материал: Kayвer и др., 2009).

(А) Производительность декодирования стимулов для каждого нейронного кода для нейронов Ge для контрольных моделей (слева - пассивная тета-модель; справа - без связи между тета- и гамма-нейронами): подсчет нейронов (кривая черного цвета), нейронный код с разбиением по времени (кривая синего цвета) и с разбиением по фазе (кривая зеленого цвета). (В) Производительность декодирования стимулов как функция от количества блоков для всех трех вариантов моделей и данных, полученных в ходе эксперимента. Количество блоков, использованных для разбиения спайков, варьировалось от 2 до 16, в то время как значение длительности оставалось неизменным - 160 мс. Каждая точка соответствует среднему значению для 1000 различных наборов стимулов и нейронов (плато на графике погрешностей показывают стандартную ошибку среднего). Данные, полученные в ходе исходного эксперимента, - запись активности нейронов слуховой коры обезьян, слушавших природные звуки. Данные, полученные в ходе эксперимента, количественно представлены для интактной модели - для контрольной модели они не представлены. Рисунок 3 Е - исходный материал: Kayвer и др., 2012. (С) Взаимная информация для акустических стимулов и отдельных нейронов Ge для контрольных моделей (слева - пассивная те-та-модель, справа - без связи между тета- и гамма-нейронами): подсчет спайков (линия черного цвета), код с разбиением по времени (линия синего цвета), код с разбиением по фазе и подсчет спайков, рассматриваемые вместе (линия зеленого цвета) и сочетание кодов с разбиением по времени

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

и по фазе (линии красного цвета). Обе контрольные модели обнаруживают низкие значения взаимной информации и не показывают структуру данных, как на рисунке 5 В.

Мы отметили, что для окон от 80 до 240 мс (в пределах одного тета-периода) декодирование для кода с разбиением по фазе осуществлялось почти так же хорошо, как для кода с разбиением по времени (левая часть рисунка

5 В). Иными словами, декодирование стимула с использованием тета-хронометрирования осуществлялось почти так же хорошо, как при использовании хронометрирования стимула. Производительность при использовании подсчета спайков была значительно ниже (р < 10-12 для окон всех 6 размеров). В целом, можно сказать, что имелось качественное и количественное соответствие между результатами, представленными смоделированными данными и результатами исходного эксперимента (правая часть рисунка 5 В). Когда мы удаляли из сети одну из связей: либо между входной информацией и тета-нейронами (пассивная тета-модель), либо между тета- и гамма-нейронами (модель с несвязанными тета- и гамма-нейронами), производительность при использовании кода с разбиением по фазе падала до такого значения, что была не намного выше производительности при использовании подсчета спайков (Рисунок 5 - дополнение 1 А; значительно меньшее возрастание производительности декодирования при использовании кода с разбиением по фазе - р < 10-12 для окон всех 6 размеров и обеих контрольных моделей), а получаемые результаты больше не соответствовали ожидаемым. Наконец, данные, полученные в ходе эксперимента, и данные для интактной модели так же совпали, когда мы изучали зависимость точности декодирования от количества блоков, чего не наблюдалось в случае с контрольными моделями (Рисунок 5 -дополнение 1 В).

1.6.2. Анализ взаимной информации

Взаимная информация для входных данных (звуковые стимулы) и выходных данных (паттерны нейронов) представляет собой альтернативную единицу измерения того, насколько хорошо кодируются стимулы в выходном паттерне (см: «Средства и методы»). Мы использовали те же смоделированные данные, что и для процедуры классификации, но предложения подразделялись на более короткие фрагменты с использованием неперекрывающихся окон (длина окна: 8 - 48 мс) (Каувег и др., 2009). Мы сравнили взаимную информацию для стимула и активности отдельных нейронов Ge как функцию от длины окна, в пределах которого находился стимул с помощью 4 нейронных кодов: подсчет спайков, код с разбиением по времени, код с разбиением по фазе, рассматриваемый вместе с подсчетом спайков, и код с разбиением по фазе и по времени, рассматриваемые вместе. Эти коды в количественном отношении эквивалентны декодирующим стратегиям, используемым при анализе по классификатору, рассмотренному выше. На Рисунке 5 С показано, что, когда учитывается спайк, фаза увеличивает взаимную информацию, которую несут с собой код подсчета спайков и код с временным разбиенем, рассматриваемый отдельно (р < 10 12 для окно всех

6 размеров). Иными словами, фаза спайка представляла дополнительную, а не избыточную информацию для более традиционных кодов. Усиление, создаваемое фазой спайка, увеличивалось при удлинении окна и при сочетании с подсчетом спайков или спайк-паттернами (подсчет спайков ув. код с разбиением по времени, подсчет спайков и код с разбиением по фазе ув. код с разбиением по времени и фазе). Эти результаты дублируют данные исходного эксперимента над слуховой корой обезьян (Каувег и др.,

102

2009). Такой паттерн не воспроизводился при использовании какой-либо из контрольных моделей (Рисунок 5 - дополнение 1 С). Эти результаты, таким образом, показывают, что в дополнение к увеличению устойчивости кода фазы спайков, связь между тета- и гамма-нейронами улучшила временную точность для спайков, которые возникали в нейронах Ge в качестве реакции на речевые стимулы. Немаловажно, что результаты как при анализе по классификатору, так и при анализе взаимной информации показывают, что полносетевая архитектура модели представляет эффективный способ улучшения кодирующих возможностей нейронов, что имеет заметное сходство с реальными нейронами слуховой коры приматов.

2. ОБСУЖДЕНИЕ

Как и любой из наиболее сложных естественных паттернов, речь содержит ритмическую активность, представляющую различные и иногда зависимые категории информации на различных временных шкалах. Используя модель деятельности слуховой коры, основанную на биофизике, мы показываем, что связь тета- и гамма-колебаний различной частоты в коре головного мозга представляет собой средство для слогового хронометрирования для реализации считывания данных по гамма-активности, возникновение которой вызывается речью. Смоделированные текущие данные показывают, что тета-вспышки, генерируемые тета-нейронной сетью (пирамидные вставочные тета-нейроны) могут определять слоговые границы в режиме реального времени как минимум так же точно, как самые современные алгоритмы, определяющие слоговые границы при автономной работе. Определение слоговых границ тета-нейронной сетью, таким образом, предоставляет эндогенную систему отсчета времени для речевого кодирования. Смоделированные нами данные также показывают, что биофизическая гамма-нейронная сеть, на вход которой подается разложение спектра речевого сигнала, может использовать тета-систему отсчета времени для кодирования быстрого потока фонематической информации. Самым главным результатом нашей работы является то, что гамма-нейронная сеть могла эффективно кодировать временные паттерны (от простого пилообразного графика до естественной речи), поскольку она была подстроена под тета-ритм, который определяется слоговыми границами. Предлагаемая тета-/гамма-нейронная сеть обнаружила точные спектральные и кодирующие характеристики, которые как качественно, так и количественно соотносились с существующими нейрофизиологическими доказательствами, включая свойства связывания колебаний различных частот (Schroeder и Lakatos, 2009) и кодирование стимулов с тета-системой отсчета (Kayser и др., 2009; 2012). Проекции нейронов Ge и Te обеспечили нейронную сеть связью между фазой и амплитудой, а также связью между фазой и частотой для гамма- и тета-колебаний, как на уровне спайка, так и на уровне ЛПП (Jensen и Colgin, 2007). Это точное воспроизведение связи между фазой и амплитудой тета-/гамма-колебаний, наблюдаемое на материале записей внутрикорковых процессов (Giraud и Poeppel, 2012; Lakatos и др., 2005). Важно, что вследствие диссоциации популяций возбуждающих нейронов мы получили более плотную спайковую гамма-активность, следующую сразу после тета-вспышки, возникающий на начале слога. Это показывает важное свойство системы обработки, основанной на тета-и гамма-колебаниях; оно состоит в том, что более глубокое кодирование осуществляется слуховой корой во время ранней фазы слога, когда нужно извлечь большее количество информации (Schroeder и Lakatos, 2009; Giraud и Poeppel, 2012).

Слуховая система человека, как и другие сенсорные системы, способна генерировать инвариантные реакции на различные физические представления одной и той же входной информации. Важно, что она относительно невосприимчива к темпу произносимой речи. Темп речи может возрастать вдвое, меняясь в зависимости от диктора, и ее все еще можно будет распознать вплоть до фактора компрессии 3 (Ahissar и др., 2001). В данной модели тета-вспышки могли показывать слоговые границы, когда речь компрессировали с фактором 2, а при большем факторе компрессии определяющая способность ухудшалась. Декодирование слогов значительно ухудшалось для компрессированной речи, но оставалось в два раза более точным, чем случайная величина. Наша сеть использует исключительно подход снизу-вверх и не включает лингвистические процессы и репрезентации верхних уровней, которые, по всей вероятности, играют важную роль в восприятии речи (Davis и др., 2011; Peelle и др., 2013; Gagnepain и др., 2012): их относительная устойчивость к компрессии речи, таким образом, способствует тому, что уровень производительности является достаточно высоким. В более ранней модели (Gütig и Sompolinsky, 2009) предлагался нейронный код, устойчивый к искажениям речи, на основании того, что отдельные нейроны делают поправку на темп речи, что отражается на общем уровне их активности. Данная модель обладала довольно высоким уровнем производительности по отношению к категоризации речи и опиралась на спайковое поведение крайней степени точности (спайк возникал в нейронах единственный раз, когда связанный с ними канал достигал определенного порога); для данной теории не было достаточного количества доказательств. В другой модели, разработанной Хопфилдом, предполагалось, что внешний поток гамма-колебаний низкой частоты обеспечивает кодирующие нейроны устойчивым хронометрированием и динамической памятью с промежутками до 200 мс - окнами достаточно длинными для сбора информации со всего слога (Hopfield, 2004). Полезность гамма-колебаний для точности установления спайков в обеих моделях Хопфилда едва ли такая же, как для наших моделей, в то время как процесс объединения слогов в модели Хопфилда осуществлялся неравномерно прерывающимися записями последней (~200 мс) нейронной активности; в нашей модели он осуществлялся с помощью тета-вспышек, синхронизированных с речевым сигналом, на равномерных промежутках. Преимущество нашей модели состоит в том, что объединение длинных фрагментов речи можно осуществлять постоянно благодаря фазе выходных спайков по отношению к продолжающемуся тета-колебанию. Наш подход показывает, что точное кодирование может достигаться с помощью системы, которая не требует явных процессов, связанных с памятью, и такой, что временной буфер объединения моделируется только медленным колебательным контуром, синхронизированным с динамикой речи.

В данной модели со связанными тета- и гамма-колебаниями, тета-колебания не только играют роль буфера для объединения на слоговой шкале, но также являются точным нейронным таймером. Поскольку слоговые контуры представляют собой медленные изменения речи, тета-колебательный контур может легко подстраиваться под них (3 - 7 Гц, Рисунок 2 - дополнение 1А) и указывать на слоговые границы. Спайковое поведение тета-нейронов при этом такое же, как и при экспериментальных наблюдениях над подмножеством нейронов зоны А1 при реакции на природные звуки (Fishbach и др., 2001; Phillips и др., 2002; Wang и др., 2008); оно предоставляет эндогенную систему отсчета времени которая служит в качестве ориентира для декодирования другими нейронами (Kayser и др., 2012; Brasselet и др., 2012; Panzeri и Diamond, 2010; Panzeri и др., 2014). Такой же характер имеет диссоциация между нейронами Ge и Te в

•ÉWh*^! Александр Яфиль, Лоренцо Фонтолан, Клер Капдебон, Борис Гуткин, Анн-Лиз Жиро Речевое кодирование на основе тета- и гамма-активности в коре головного мозга

104 нашей модели: в то время как нейроны Ge привязаны к определенному каналу, нейроны Te покрывают весь акустический спектр, что дает им возможность реагировать на начала стимулов быстро и устойчиво (Brasselet и др., 2012). Однако на модели тета-нейроны разряжались не только в момент начала стимула, но и в регулярно повторяющиеся моменты на протяжении речевого сигнала - на слоговых границах (Zhou и Wang, 2010). Эти нейроны, таким образом, связывают быструю нейронную активность и возбуждающие гамма-нейроны в последовательность лингвистически оформленных блоков (слогов), играя роль подобную пунктуации в письменном языке (Lisman и Buzsáki, 2008). Механизм сегментации концептуально похож на сегментацию нейронных кодов тета-колебаниями в гиппокампе во время пространственной навигации (Gupta и др., 2012). С точки зрения эволюции можно сказать, что поскольку тета-ритм не является особенностью ни конкретно слуховой коры, ни конкретно человеческого мозга, он мог развиться в качестве инструмента для обработки речи в процессе развития языка. Подобным образом, в языке человека оптимизировалась длина его основных составляющих - слогов, -по отношению к обрабатывающим возможностям слуховой коры. В результате этого, слоги имеют идеальный временной формат, который взаимодействует, например, с процессами памяти в гиппокампе или с двигательными процессами, имеющими другие типы ритмических механических ограничителей, например, естественная скорость движения челюсти (4 Гц) (Lieberman, 1985). Несмотря на то, что отслеживание слогов и кодирование речи тета-/гамма-ней-ронной сетью, рассматриваемое в данной работе, является многообещающим подходом, у него есть некоторые недостатки. В то время как данная модель использует только подход «снизу-вверх», статистические предсказания с подходом «сверху-вниз» играют важную роль в направлении восприятия речи (Arnal и Giraud, 2012; Gagnepain и др., 2012; Poeppel и др., 2008) предположительно для каналов с различными частотами и различными интервалами обработки (Wang, 2010; Bastos и др., 2012; Fontolan и др., 2014). Как эти предсказания взаимосвязаны с обрабатывающей активностью тета- и гамма-нейронов по-прежнему не ясно (Lee и др., 2013). Результаты эксперимента говорят о том, что тета-активность может находиться на стыке процессов типа «снизу-вверх» и «сверху-вниз». Слуховая тета-активность лучше синхронизируется с изменениями речевого сигнала, в случае, если речь разборчива, в независимости от временной и спектральной структур (Luo и Poeppel, 2007; Peelle и др., 2013). В данной модели тета-активность несет в себе временную предсказывающую функцию: она зависит от изменений речевого сигнала, но также достаточно хорошо подстраивается под вариативность длительности слогов для того, чтобы подстраиваться к общей статистике речевого сигнала (средняя длительность слога). Производительность модели была выше случайного значения при декодировании слогов в речи диктора, неизвестного для модели, обнаруживая высокую степень гибкости по отношению к отслеживанию слогов на диапазоне 3 - 9 Гц. Последующие работы по данной тематике, таким образом, со всей очевидностью должны быть направлены на исследование того, как внутренняя динамика тета- и гамма-активности взаимодействует не только с сенсорной входной информацией, но и с речевыми нисходящими сигналами, например, статистические предсказания на уровне слов и предложений (Gagnepain и др., 2012) и даже мультимодальные статистические предсказания (Arnal и др., 2009). Соотношение между автономным функционированием активности тета- и гамма-колебаний, с одной стороны, и их подстройки под сенсорную входную

информацию, с другой стороны, будут занимать центральное положение в совокупности экспериментальных и теоретических задач.

В заключение можно добавить, что наша модель является доказательством, того что связанные тета-/гамма-колебания могут быть надежным инструментом для демультипликсирования речи и, в более широком смысле, для параллельного анализа сложных сенсорных сцен в различные временные интервалы. Привязывая гамма-спайковую активность к слоговым границам, тета-активность позволяет осуществлять декодирование отдельных слогов в непрерывных речевых потоках. Модель показывает вычисленное значение нейронных колебаний для обработки сенсорных стимулов на основе их временных характеристик и предлагает новые перспективы для автоматического распознавания речи на основе слогов ^и и др., 1997) и нейрокомпьютерных интерфейсов для нейроморфных алгоритмов, основанных на колебаниях.

3. СРЕДСТВА И МЕТОДЫ

3.1. Архитектура полной модели

Модель состоит из четырех типов клеток: тормозные тета-нейроны (77, 10 нейронов), возбуждающие тета-нейроны (Te, 10 нейрона), тормозные гамма-нейроны (G7, 32 нейрона) и возбуждающие гамма-нейроны (Ge, 32 нейрона), которые мы в данной статье также называем выходными нейронами. Все нейроны были смоделированы, согласно методу «интегрировать-и-сработать» с утечками, где изменение потенциала мембраны нейронов Vi вычисляется как:

cv=gL V - V) + IfYN(t) + I!NP(t) + IDC(t) + n(t)

где С - емкость потенциала, мембраны; gL и Уь - потенциал проводимости и равновесный потенциал утечки; Рт, Р№ и РС - синаптический и постоянный токи, соответственно; - гауссовская шумовая составляющая с вариативностью а.

I

Всякий раз, когда V. достигала порогового потенциала ¥тк, нейрон порождал спайк и значение V возвращалось к „.

/ КЬЬЫ

Рш - сумма всех синаптических токов всех проекционных нейронов в сети:

= 2 gjS.it) (V/™- V«),

где g - это проводимость синапса «от j к I»,5.(0- это соответствующая переменная активации, - равновесный потенциал синаптического тока (0 мВ для возбуждающих нейронов, -80 мВ для тормозных нейронов). Вариативность переменной активации я..^) передается при помощи следующей формулы:

j

dxR

j —

dt

~t = - i+ S(t - tjSPK),

ds.

_j

dt

1

где тя и - временные константы для нарастания и спада синаптического потенциала, соответственно.

т

Взаимосвязанность между клетками выражается в следующих признаках:

1. Между Те и Тг установлены связи типа «каждый с каждым»; при этом

генерируется тета-ритм пирамидных вставочных нейронов. Между клетками Тг так же были установлены связи типа «каждый с каждым».

2. Между Ое и Ог так же установлены связи типа «каждый с каждым»; при этом

генерируется гамма-ритм пирамидных вставочных нейронов.

3. Все клетки Те проецировались на Ое по принципу «каждый с каждым», делая

возможным связанность колебаний разных частот.

Входящий ток 1/мр{г) ненулевой только для клеток Те и Ое; он определяется следующей формулой:

/ло = I ™сРс(1),

с

где х() - сигнал, взятый с канала с, а а - вес проекции канала с на клетку г.

Входные данные, подаваемые на клетки Те, рассчитываются посредством фильтрации слуховой спектрограммы оптимизированным двумерным временно-спектральным ядром (см. раздел «Линейно-нелинейная модель» ниже). Сигнал ЛПП моделировался посредством сложения всех абсолютных значений синаптического тока для всех возбуждающих клеток (как Ое, так и Те), что описано в работе Ма77от и др. (2008). Все модели запускались с помощью Ма^аЬ. Дифференциальные уравнения решались с помощью метода Эйлера с временным шагом, равным 0,005 мс. Значения для всех параметров представлены в Таблицах 1 и 2.

Таблица 1. Набор параметров для полной сети

106

Параметр C V THR V RESET VK VL gL gGe,Gl gGl,Ge gTe,Ge

Значение 1 F/cm2 -40 mV -87 mV -100 mV -67 mV 0.1 5/NGe 5/NGi 0.3/NT Te

Параметр 4 < Te 4 ZRr Ti 4 ¿1 Te JDC Ge JDC Gl

Значение 0,2 мс 4 мс 0,5 мс 5 мс 2 мс 20 мс 3 1

Таблица 2. Оптимальные параметры для линейно-нелинейной модели

Параметр jnext sp zih DC

Значение 0,0748 1,433 0,4672

3.2. Стимулы

Мы

использовали устные записи англииских предложении, произнесенных дикторами- женщинами и дикторами-мужчинами из базы данных TIMIT (Linguistic Data Consortium, 1993). Предложения сначала пропускались через модель подкорковой слуховой обработки предложении (Chi и др., 2005). Модель разлагает слуховую входную информацию на 128 каналов различных диапазонов частот, представляя собой улиточный банк фильтров (http://www.isr.umd.edu/Labs/NSL/Software.htm). Сигналы, разложенные по частотам, пропускают через ряд нелинейных фильтров, показывающих вычисления, реализуемые в слуховом нерве и в подкорковых ядрах. После этого мы сократили количество каналов со 128 до 32, усредняя сигнал в каждой группе 4 последовательных каналов, и использовали 32 канала

в качестве входной информации для сети. Каждый канал проецировался на отдельную клетку Ge (т. е. конкретные связи mci = 0,255(c, i). Входная информация для Te представляла собой совокупность каналов, каждый из которых свернут временным фильтром и проецируется на все клетки Te (связь по принципу «каждый с каждым»). Такое свертывание может быть осуществлено популяцией промежуточных нейронов, которые передают входную информацию, поступающую на них, с некоторой задержкой - здесь от 0 до 50 мс.

Идентичность фонем и границ была размечена фонетистами для каждого предложения корпуса. Мы использовали программу Tsylib2 (Fisher, 1996), автоматически разделяющую на слоги фонетические транскрипции (Kahn, 1976), для того чтобы объединить эти последовательности фонем в последовательности слогов в соответствии с правилами английской грамматики, получая таким образом хронометрирование для слоговых границ. Для того чтобы рассмотреть, как модель подстраивается под компрессию речи, мы сгенерировали компрессированные предложения с помощью алгоритма синхронного накладывающегося окна с равномерным шагом (PSO-LA), реализованного в PRAAT - программного обеспечения для анализа и изменения речевого сигнала (http://www.fon.hum.uva.nl/praat/). При использовании данного алгоритма все спектральные признаки исходного речевого сигнала сохраняются при его компрессировании. Перед подачей данных на вход сети для не компрессированной речи использовались одни и те же подкорковые фильтры.

3.3. Алгоритмы для предсказания слоговых границ

Усреднение, обусловленное слоговыми границами (усреднение, обусловленное спайком), рассчитывается так: для каждой слоговой границы (начала слогов, не включая первый в каждом предложении), мы извлекали окно, соответствующее сихронизированной слоговой границе, длиной 700 мс и усредняли его для всех слоговых границ. Усреднения, обусловленные спайком, были рассчитаны для огибающей речевого сигнала и каждого речевого канала модели, описанной в работе Chi и др. (2005).

3.3.1. Предсказывающие модели

Мы сравнили производительность четырех различных групп моделей по тому, насколько хорошо они предсказывают слоговые границы, основываясь на огибающей речевого сигнала или речевой аудиограмме: алгоритм Мельмельштейна, линейно-нелинейную модель (упрощенный алгоритм «интегрировать-по-порогу»), подстраивающийся тета-нейронный колебательный контур и контрольная модель, основанная только на ритмах. Эти алгоритмы рассматриваются в последующих разделах.

Алгоритм Мельмерштейна

Алгоритм Мельмельштейна - это стандартный алгоритм, который предсказывает слоговые границы, находя провалы в мощности речевого сигнала (Mermelstein, 1975; Villing и др., 2004). Статистическое предсказание в отношении границ делается в несколько шагов. Первый шаг -извлечение мощности речевого сигнала в диапазоне 500 - 4000 Гц (грубо соответствующего формантам) и пропуск через фильтр нижних частот (40 Гц), чтобы убрать быстрые флуктуации, определяющие так называемую функцию тонокомпенсации. Второй шаг - расчет выпуклой оболочки сиг-

108

нала громкости для каждого предложения и извлечение максимальной разности между сигналом громкости и его выпуклой оболочкой. Если эта разность превышает определенный порог Tmin и если разность между пиком всего предложения и пиком интервала меньше, чем Pmx, то тогда момент времени, в который разность была максимальной, определяется как предсказанная граница, после чего такая же процедура выполняется рекурсивно для интервалов слева и справа от этой границы. Параметры T и P были оптимизированы, чтобы получать максимальный интервал

min max 1 J 1

предсказания (см. ниже); полученные значения: Tmin = 0.152 дБ и Pmax = 15.85 дБ.

Следует заметить, что этот алгоритм нельзя использовать в режиме реального времени, так как выпуклая оболочка в данный момент времени зависит от будущего значения мощности речевого сигнала. Таким образом, слоговые границы могут быть определены только после некоторой задержки, которая делает алгоритм непрактичным для распознавания речи в режиме реального времени, как это происходит в мозге человека.

Линейно-нелинейная модель и ее варианты

Для того чтобы оценить возможность упрощенной нейронной модели предсказывать слоговые границы, мы обучили обобщенный линейный процессор для набора слоговых данных. Модель (Рисунок 2 - дополнение 1D) не анализирует полную динамику нейронов - она просто собирает ядро линейных стимулов, за которыми следует нелинейная функция. При этом процессе выдается «спайк» или «сигнал слоговой границы» всякий раз, когда выходной сигнал достигает определенного порога (Pillow и др., 2008). Этот сигнал подается обратно на нелинейную функцию (при этом используется другое ядро Ih). Такая отрицательная обратная связь реализует относительный рефракторный период. Данная модель является обобщенной Линейно-Нелинейной моделью Пуассона, поэтому мы называем ее просто LN модель. Мы использовали 32 слуховых канала в качестве входной информации для модели и обучили ее с тем, чтобы максимально увеличить ее производительность по отношению к предсказанию слоговых границ.

Мы искали линейный фильтр, временной и спектральный компоненты которого отделимы друг от друга. Сначала мы посчитали усреднение, обусловленное спайком (а точнее «усреднение, обусловленное слоговой границей») для всех 32 каналов от 600 до 0 мс до реальной границы с шагом 10 мс. Однако усреднение, обусловленное спайком, предоставляет оптимальную оценку для линейного ядра в модели LN только в случае, если стимул состоит из некоррелированного белого шума (Chichilnisky, 2001). Для того чтобы получить оптимальные значение в условиях шума, мы искали фильтр H с отделимыми компонентами, дающий лучший результат: (<\V(t) - YA(t\H)\2>), где:

• Y(t) - это выходные данные в бинарном формате: 1, если слоговая граница находится в окрестности 10 мс и 0 в остальных случаях.

• H - фильтр с разделяемыми временным и спектральным компонентами (т.е. H(m, u) = S(m)T(u) для любой последовательности u и любой частоты ю. S и T - отделяемые спектральный и временной компонент соответственно)

• Y(t\H) = I H (w, u) X W, t - u),

u, w

гдеX(w, t) - значение для слухового канала ю на шаге времени t.

Оптимальные решения системы подтверждают:

XT (u)R(w, u) - X S(E)T(u)T(w)M(w, E, u, v)vw,

u uvE

XS (w)R(w, u) - X S(w)S(E)T(v)M(w, E,, u, v)vu,

w vwE

где

??? (т.е. Я - это усреднение, обусловленное спайком, а

М- смешанный тензор для X, т.е. М(м/, Е, и, V) - соу(Х(м>, г - и), Х(Е, г - ))).

Решения для Т и 5" данной системы равенств могут быть численно округлены с помощью следующей итеративной процедуры:

50(м>) = Т0(и) = \ш,

Sn+i = I

T =|

п+1 1

T0R

Е T(u)T(v)M(u, v, ., .),

RS

\ Sn-E

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

с остановкой в случае, если

n+1

значение

I

итоговой квадратичной ошибки

||RS+0-X+(w, + 1) (w)S+(n + 1) ß) T+n (v)M(w, Ъ , v) ЩП+иП

меньше, чем минимальное значение (мы использовали порог равный 10-4). Первые 6 компонентов (т. е. временные блоки) временного ядра (т. е. 0 -50 мс) также использовались для свертывания входной информации в те-та-модуле. Мы не объединяли компоненты, которые располагались дальше (60 - 400 мс), так как их вес был намного ниже, а их реализация с помощью промежуточных нейронов кажется менее возможной.

Для извлечения оптимального значения всех параметров модели, мы применили инструментарий GLM matlab, разработанный в лаборатории Pillow lab (http:// pillowlab.cps.utexas.edu/code_GLM.html), используя одномерный сигнал

U(t) = XS(w)X(w, t)в качестве входной информации. Другие параметры LN

w

модели, включая самоингибирующее временное ядро Ih, были оптимизированы с помощью градиентного спуска, внедренного в вышеупомянутый инструментарий. Данный метод предоставляет оценивание для стохастической обобщенной LN модели. Нам нужно было оценить производительность детерминистской LN модели. Мы запустили детерминистскую модель с теми же параметрами, что и стохастическую, добавив один свободный параметр, описывающий нормированное время по отношению к следующему спайку (в стохастической модели это время рассчитывается на основе экспоненциального распределения). Значение t"pxt было оптимизировано при помощи той же процедуры минимизации, что и та, которая была использована для других моделей (см. раздел «Оптимизация» ниже). Два других параметра были так же оптимизированы, так как величины после минимизации не совпали с величинами, полученными с помощью инструментария GLM: значения времени для самоингибирования % и постоянной входной информации для модели - DC (Таблица 2).

Мы так же внесли еще одно изменение в LN модель. Мы оптимизировали модель так, чтобы она срабатывала не на слоговых границах, а через 10 мс (в действительности, мы просто сдвинули окно усреднения, обусловленного спайком на 10 мс). Это дает сигнал с задержкой, но он более устойчив, поскольку в этом случае можно использовать больше информации (заметьте срабатывание на слуховой спектрограмме, следующее сразу после слоговой границы).

Тета-модель

Тета-модель состоит из клеток Те и Т модели полной сети, рассмотренной выше, с тем же самым набором параметров. 11 параметров были оптимизированы для полной модели, 10 - для контрольной (см. значения в Таблице 3).

Параметр о„ Te а„. — 0_ — 0„. Ti Ge Gi < Te iDr Ti Text Te TDC Te TDC Ti gTi,Ti gTi,Te gTe

Значение 0,282 A 2,028 A 24,3 30,36 15 1,25 0.0851 0.432 0.207 0.264

Контрольная модель

Контрольная модель использовалась для того чтобы предоставить ориентир для оценки производительности других моделей. В данных управляемых условиях предсказанные границы генерировались ритмически с заданным временным интервалом в независимости от стимула. Скорость ритмического процесса варьировалась от 1 до 15 Гц с интервалом 0,5 Гц. Производительность данной контрольной модели была выше, чем производительность другой контрольной модели с гомогенным процессом Пуассона. Таким образом, с ее помощью можно осуществлять более строгий контроль для оценки эффективности других алгоритмов.

3.3.2. Оценка производительности модели

Мы оценили, насколько хорошо все модели определяли слоговые границы по сравнению с информацией, полученной из размеченных речевых данных. В качестве единицы измерения оценки мы использовали расстояние точечного процесса, которое применяется для сравнения расстояния между спайковыми последовательностями (Victor и Purpura, 1997). Вес сдвига был принят за 20 s-1 (иными словами, предсказанная и действительная граница могли считаться совпавшими, если отстояли друг от друга не более чем на 50 мс).

Для того чтобы провести сравнение двух моделей для каждого уровня компрессии, мы рассчитали (ненормированный) показатель расстояния для тета-модели, просуммированный для всех предложений из взятого тестового набора данных и среднее количество предсказанных границ в предложении. После этого мы сравнили тета-модель с контрольной ритмической моделью с той же самой скоростью предсказывания слоговых границ и рассчитали разность между ненормированным расстоянием для тета-модели и ненормированным расстоянием для соответствующей ритмической модели.

3.3.3. Оптимизация

Мы оптимизировали все параметры для всех моделей, чтобы получить минимальное нормированное расстояние точного процесса между предсказанной и действительной границами в каждом предложении. Оптимизация осуществлялась с помощью глобального градиентного спуска (функция fminsearch в Matlab) и повторялась для всех начальных точек, чтобы избежать попадпния в локальный минимум. Несмотря на то, что и тета-модель, и контрольная модель являются стохастическими по своей природе, размер выборки был достаточно велик для целевой функции на всей выборке, чтобы считать ее почти детерминистской, допуская конвергенцию алгоритма градиентного спуска. Список оптимизированных параметров для каждого типа модели представлен в разделах, посвященным конкретным

моделям, выше. Мы разделили набор данных для машинного обучения, взятого из TIMIT (4620 предложений) на два: первый, состоявший из 1000 предложений, использовался для расчета оптимальных параметров; конечная же оценка производительности алгоритма с его оптимальными параметрами осуществлялась с помощью отдельного набора, состоявшего из 3620 предложений.

3.4. Анализ характеристик модели

3.4.1. Спектральный анализ ЛПП

Разрешение смоделированного ЛПП было понижено до 1000 Гц перед осуществлением частотно-временного разложения с помощью сложного преобразования элементарных волн Морле для всех частот в диапазоне от 2 до 100 Гц с разрешением в 0,5 Гц. После этого для каждого момента времени t и каждой частоты f для 100 отдельных предложений sen по формуле, взятой из работы Mitra и Pesaran (1999), была рассчитана когерентность стимула и сигнала ЛПП. Синхронизированные вспышки вставочных пирамидных тета- и гамма-нейронов были обнаружены с помощью хронометрирования спайков в популяциях Gi и Ti, поскольку спайки тормозных нейронов синхронизировались лучше, чем возбуждающие. Синхронизированные вспышки спайков обнаруживались в данной популяции всякий раз, когда 10% нейронов популяции генерировали спайки на интервале в 6 мс (15 мс для клеток Ti).

3.4.2. Связь различных частот

Мы рассчитали связь различных частот, исходя из 50 прогонов работы модели, которые осуществлялись для различных предложений с предшествующим временем покоя 1000 - 1500 мс.

Для связи между фазой и амплитудой, мы извлекли фазу и амплитуду всех частот от 2 до 70 Гц с интервалом в 1 Гц и рассчитали коэффициент модуляции для каждого случая; значения амплитуды сигнала x(fam ,t,sen) помещались в N= 18 различных блоков в соответствии с одновременной фазой x(fphaee,t,sen). Для связи между фазой и амплитудой спайков, мы определили гамма-амплитуду спайка через количество нейронов Gi, генерировавших спайки в момент данной гамма-вспышки и тета-фазу спайка через линейную интерполяцию от -и тета-вспышки спайка до +и для последующей тета-вспышки.

3.5. Декодирование простых временных паттернов.

Сначала мы исследовали производительность модели, используя простые пилообразные сигналы (Shamir и др., 2009), представляющие прототипы реализации формантных переходов на данной полосе частот. Каждый стимул имел фазу подъема от 0 и 1 и фазу спада с 1до 0. Общая длительность сигнала составляла 50 мс, а положение относительно максимума t между начальной (tSTART) и конечной (tEND) точками определялось как переменная

a = (tMAX tSTART)^(tEND tSTART)'

Связность входной информации пришлось немного изменить, так как пилообразные сигналы одномерны в отличие от многомерных сигналов для каналов, которые нам необходимо использовать для речевых стимулов: для клеток Te мы использовали IETXT, а для связей с клетками Ge наряду

112

с исходной моделью (Shamir и др., 2009) мы использовали разные уровни входной информации для популяции в диапазоне от 0,125 до 4 с интервалом 0,125. Остальное в модели не менялось.

Мы смоделировали реакцию сети на ряд 500 «зубьев» пилообразного графика с параметром a, взяв одно из 10 равномерно распределенных значений на интервале [0; 1]. Межстимульный интервал менялся случайно в диапазоне от 50 до 250 мс.

Мы сравнили производительность модели для разных нейронных кодов. Для кода «хронометрирование стимулов» (см. раздел «Результаты») мы извлекли спайк-паттерны выходных нейронов (Ge) на интервале от 20 мс до и 70 мс после начала каждого «зуба». Мы рассчитали расстояние между всеми спайк-паттернами для выходных данных, используя меру расстояния между последовательностями спайков (Victor и Purpura, 1997), реализованную в Spike Train Analysis Toolkit (http://neuroanalysis.org/toolkit/). Мы приняли вес сдвига за 200 s-1, соответствующий временному разрешению в 5 мс. Мы декодировали параметр пика, используя простую процедуру кластеризации по принципу «исключение по одному» из инструментария STA, приняв экспоненту кластеризации за -10. Сравнивая «декодированный параметр», т. е. параметр, соответствующий ближайшему кластеру, с параметром входных данных пилообразного сигнала, мы построили матрицы ошибок и рассчитали производительность декодирования.

В ситуации с кодом «тета-хронометрирования» мы извлекли спайк-паттерн выходного нейрона в окнах, с границами в момент времени за 20 мс до тета-вспышки и в момент времени через 20 мс после следующей тета-вспышки («тета-блоки», Рисунок 4А). Момент времени спайка для каждого блока отсчитывался в соответствии с начальной границей окна. Каждый спайк-паттерн помечался соответствующим значением стимула, если те-та-вспышка возникала во время подачи стимула на вход или «состоянием покоя», если тета-вспышка возникала на межстимульном интервале. Такой же анализ декодирования применялся для внутренне связанных нейронных паттернов, вследствие чего получалась матрица ошибок размером 11 х 11 (10 стимульных пометок и состояние покоя). Меры теории обнаружения (попадания, пропуски, правильные отрицания и ложная тревога) вычислялись посредством сложения значений в матричных блоках матрицы ошибок (размерами 10 х 10, 10 х 1, 1 х 10 и 1 х 1 соответственно). Матрица классификации ошибок была получена посредством удаления последних строки и столбца из этой матрицы ошибок.

Мы использовали тот же анализ декодирования для всех вариантов сети; контрольная модель, в которой на клетки Te не подаются входные данные в виде пилообразного сигнала (пассивная тета-модель) и другая контрольная модель, из которой были удалены тета-/гамма-связи (сеть с несвязанными тета-/гамма-нейронами).

3.6. Декодирование слогов в предложениях

Данная процедура классификации была похожа на процедуру декодирования слогов, с помощью которой мы пытались декодировать характерные признаки слогов в непрерывном речевом потоке (полные предложения), опираясь на активность выходных нейронов. В качестве стимулов мы подавали на вход сети 25 предложений из корпуса TIMIT, каждое из которых повторялось 100 раз. Мы извлекли тета-блоки спайк-паттернов Ge, как объяснялось ранее. Каждый блок помечался в соответствии с характерными

признаками слогов, подаваемыми на вход в момент первой тета-вспышки в блоке. Из 25 предложений мы случайным образом отобрали 10 слогов из полного набора. Поскольку в некоторых случаях было несколько следующих друг за другом тета-вспышек, соответствующих одному и тому же слогу, мы уравняли общее число тета-блоков на слог, случайным образом выбрав 100 тета-блоков, помеченных одним из 10 слогов. Слоговая классификация спайк-паттернов Ge, разбитых на тета-блоки, осуществлялась при помощи двух различных нейронных кодов. Для кода спайк-паттернов мы применили такую же процедуру, как и для классификации для пилообразного сигнала, используя меньшее значение веса сдвига спайка, в соответствии с временным разрешением 60 мс. Для кода с подсчетом спайков мы посчитали количество спайков, сгенерированных каждым нейроном Ge тета-блоке. После этого мы запустили классифицирующую процедуру по принципу «ближайшего соседа», чтобы декодировать характерные признаки слогов, соответствующих каждому тета-блоку в соответствии с подсчетом спайков для всех нейронов Ge (см. «Классифицирующий анализ» ниже). Оба метода опираются на процедуру с принципом «исключение по одному», которая состоит в идентификации блока после того, как декодирующие устройство обучается на всех блоках, кроме того, который требуется декодировать. Декодирование повторялось 200 раз. Каждый раз использовался различный набор из 10 случайных слогов; анализ проводился с помощью всех трех вариантов модели. Для слоговой классификации по дикторам мы использовали 2 предложения из корпуса TIMIT, записанные 462 дикторами ('She had your dark suit in greasy wash water all year" и "Don't ask me to carry an oily rag like that") и обучили сеть слоговой классификации, основанной на выходных данных нейронов по другим дикторам, таким образом, проверяя обобщение по говорящим. Вариативность произношения дикторов очень велика, что подтверждается фонемными цепочками, размеченными фонетистами, однако в этих двух предложениях удалось выделить 25 слогов для каждого диктора. Мы смоделировали сеть, подавая на ее вход эти 924 предложения, и использовали выходные данные, разбитые на тета-блоки, чтобы декодировать основные характеристики слогов. Этот метод очень похож на декодирование слогов, при котором нейронные паттерны, разбитые на тета-блоки, группировались в один из 10 возможных слогов (выбранный случайным образом из набора в 25 слогов); разница состояла только в том, что в данном случае классификатор опирался на дикторозависимые тета-блоки. Классификация была осуществлена 100 раз для разных поднаборов слогов.

3.7. Кодирующие свойства нейронов: классифицирующий анализ

Первоначальное рассмотрение кодирующих свойств нейронов заключалось в сравнении возможности классифицировать нейронные коды модели на произвольные речевые фрагменты (в отличие от слогов в предыдущем разделе). Методы, подробно изложенные ниже, реализованы на основе записи процессов декодирования нейронной активности, возникающей в слуховой коре обезьян, при реагировании на природные звуки (Каувег и др., 2012). Мы смоделировали сеть, подавая на ее вход 25 различных предложений из корпуса Т1М1Т, повтор каждого из которых осуществлялся 50 раз. Мы случайным образом извлекли 10 окон заданного размера (их диапазон варьировался от 80 до 460 мс с интервалом в 80 мс) из общего набора в 25 предложений. После этого мы восстановили характерные признаки на основе активности нейронов, которые случайным образом извлекались из популяции Ое с помощью трех различных нейронных кодов. Для кода с подсчетом нейронов, мы посчитали количество спайков, сгенериро-

ванных этим нейроном в пределах каждого окна. Для кода с разбиением по времени мы разделили каждое окно на N равных блоков и посчитали количество спайков в каждом блоке отдельно. Для кода с разбиением по фазе мы разделили каждое окно на основе тета-фазовых, или скорее, тета-временных интервалов: каждый спайк помечался фазой тета-колебания для соответствующего времени спайка - и посчитали количество спайков, попадающее в каждое подразбиение интервала [-и; и].

После этого мы использовали процедуру сравнения шаблонов по принципу «ближайшего соседа» для декодирования стимулов. Чтобы классифицировать каждый эталонный стимул с помощью нейронного кода, мы усреднили векторы для всех подач на вход каждого стимула, используя принцип «исключение по одному»; затем мы рассчитали евклидово расстояние между данным вектором и каждым из 10 шаблонов, усредненных по стимулу. Наконец, мы «декодировали» нейронный код, приписывая его к классу стимулов, расстояние от которого до шаблона было наименьшим. Более подробное объяснение процедуры представлено в статье, описывающей исходный эксперимент (Каувег и др., 2012). Процедура осуществлялась 1000 раз, каждый раз с разным набором 10 случайных стимулов для всех трех вариантов сети.

3.8. Кодирующие свойства нейронов: анализ взаимной информации

Мы дополнили классификацию стимулов подобным анализом взаимной информации для звукового «стимула» и реакцией отдельных нейронов Ge для дальнейшей характеристики кодирующих свойств сети. Взаимная информация позволяет оценить снижение неопределенности для звукового «стимула», получаемого из знаний о реакции нейронов во время испытания. Набор данных был тождественен тому, который мы использовали до этого для классифицирующего анализа, при котором каждый стимул был заново разбит на непересекающиеся окна длины T (в данном случае от 8 до 48 мс) (Kayser и др., 2009; de Ruyter van Steveninck и др., Strong, 1997).

Взаимная информация рассчитывалась для тех же нейронных кодов, что и в работе Kayser и др. (2009). Мы использовали код с подсчетом спайков и код с разбиением по времени (в случае с кодом с разбиением по времени, размер всех 8 блоков сохранялся; количество блоков в пределах окна, таким образом, возрастало с увеличением размера окна). Поскольку медленная фаза ЛПП была более устойчива при различных повторах предложений, чем мощность, мы использовали сочетание подсчета спайков с тета-фазой ЛПП для получения кода с подсчетом спайков и разбиением по фазе (Montemurro т др., 2008). Для данного кода медленная фаза ЛПП разделялась на N = 4 блоков, а частота испускания спайков в пределах каждого окна помечалась в соответствии с фазой, при которой возник первый спайк. Наконец, мы исследовали влияние медленной фазы ЛПП на взаимную информацию при сочетании с временными спайк-паттернами. Таким образом, в случае с кодом с разбиением по времени и фазе спайки несут с собой две различных метки, первая из которых относится к положению спайка в одном из подразбиений для окна стимула, а вторая показывает фазу глубинного ЛПП в момент возникновения спайка.

Мы сделали поправку на ошибку отбора (Kayser и др., 2009), сначала используя метод полного перебора (Panzeri и др., 2007), а потом метод квадратичной экстраполяции (Strong и др., 1998). После этого мы снизили остаточную систематическую погрешность с помощью обобщённой кросс-валидации (была произведена повторная выборка 200 элементов) (Montemurro и др., 2008).

ИСПОЛЬЗОВАННАЯ ЛИТЕРАТУРА

1. Right-hemisphere auditory cortex is dominant for coding syllable patterns in speech DA Abrams, T Nicol, S Zecker, N Kraus The Journal of Neuroscience, 28, 3958-3965, 2008 http://dx.doi.org/10.1523/JNEUROSCI.0187-08.2008

2. Speech comprehension is correlated with temporal response patterns recorded from auditory cortex E Ahissar, SS Nagarajan, M Ahissar, A Protopapas, H Mahncke, MM Merzenich Proceedings of the National Academy of Sciences of USA, 98, 13367-13372, 2001 http://dx.doi.org/10.1073/pnas.201400998

3. Dual gamma rhythm generators control interlaminar synchrony in auditory cortex M Ainsworth, S Lee, MO Cunningham, AK Roopun, RD Traub, NJ Kopell, MA Whittington The Journal of Neuroscience, 31, 17040-17051, 2011 http://dx.doi.org/10.1523/ JNEUR0SCI.2209-11.2011

4. Cortical oscillations and sensory predictions LH Arnal, AL Giraud Trends in Cognitive Sciences, 16, 390-398, 2012 http://dx.doi.org/10.10167i.tics.2012.05.003

5. Dual neural routing of visual facilitation in speech processing LH Arnal, B Morillon, CA Kell, AL Giraud The Journal of Neuroscience, 29, 13445-13453, 2009 http://dx.doi. org/10.1523/JNEUR0SCI.3194-09.2009

6. Canonical microcircuits for predictive coding AM Bastos, WM Usrey, RA Adams, GR Mangun, P Fries, KJ Friston Neuron, 76, 695-711, 2012 http://dx.doi.org/10.1016/j. neuron.2012.10.038

7. Effects of noisy drive on rhythms in networks of excitatory and inhibitory neurons C Borgers, NJ Kopell Neural Computation, 17, 557-608, 2005 http://dx.doi. org/10.1162/0899766053019908

8. Neurons with stereotyped and rapid responses provide a reference frame for relative temporal coding in primate auditory cortex R Brasselet, S Panzeri, NK Logothetis, C Kayser The Journal of Neuroscience, 32, 2998-3008, 2012 http://dx.doi.org/10.1523/ JNEUR0SCI.5435-11.2012

9. What determines the frequency of fast network oscillations with irregular neural discharges? I. Synaptic dynamics and excitation-inhibition balance N Brunel, XJ Wang Journal of Neurophysiology, 90, 415-430, 2003 http://dx.doi.org/10.1152/jn.01095.2002

10. Spatiotemporal dynamics of word processing in the human brain RT Canolty, M Soltani, SS Dalal, E Edwards, NF Dronkers, SS Nagarajan, HE Kirsch, NM Barbaro, RT Knight Frontiers in Neuroscience, 1, 185-196, 2007 http://dx.doi.org/10.3389/ neuro.01.1.1.014.2007

11. Multiresolution spectrotemporal analysis of complex sounds T Chi, P Ru, SA Shamma The Journal of the Acoustical Society of America, 118, 887-906, 2005 http://dx.doi. org/10.1121/1.1945807

12. A simple white noise analysis of neuronal light responses EJ Chichilnisky Network, 12, 199-213, 2001 http://dx.doi.org/10.1080/713663221

13. A mutual information analysis of neural coding of speech by low-frequency MEG phase information GB Cogan, D Poeppel Journal of Neurophysiology, 106, 554-563, 2011 http://dx.doi.org/10.1152/jn.00075.2011

14. Whose cortical column would that be? NM da Costa, KA Martin Frontiers in Neuroanatomy, 4, 16, 2010 http://dx.doi.org/10.3389/fnana.2010.00016

15. Does semantic context benefit speech understanding through "top-down" processes? Evidence from time-resolved sparse fMRI MH Davis, MA Ford, F Kherif, IS Johnsrude Journal of Cognitive Neuroscience, 23, 3914-3932, 2011 http://dx.doi.org/10.1162/ jocn_a_00084

116

16. Reproducibility and variability in neural spike trains RR de Ruyter van Steveninck, GD Lewen, SP Strong, R Koberle, W Bialek Science, 275, 1805-1808, 1997 http://dx.doi. org/10.1126/science.275.5307.1805

17. Neuronal circuits of the neocortex RJ Douglas, KA Martin Annual Review of Neuroscience, 27, 419-451, 2004 http://dx.doi.org/10.1146/annurev.neuro.27.070203.144152

18. Selective, state-dependent activation of somatostatin-expressing inhibitory interneurons in mouse neocortex EE Fanselow, KA Richardson, BW Connors Journal of Neurophysiology, 100, 2640-2652, 2008 http://dx.doi.org/10.1152/jn.90691.2008

19. Auditory edge detection: a neural model for physiological and psychoacoustical responses to amplitude transients A Fishbach, I Nelken, Y Yeshurun Journal of Neurophysiology, 85, 2303-2323, 2001

20. tsylb2 WM Fisher National Institute of Standards and Technology, 1996 http://www.nist. gov/speech/tools

21. The contribution of frequency-specific activity to hierarchical information processing in the human auditory cortex L Fontolan, B Morillon, C Liégeois-Chauvel, AL Giraud Nature Communications, 5, 4694, 2014 http://dx.doi.org/10.1038/ncomms5694

22. Temporal predictive codes for spoken words in auditory cortex P Gagnepain, RN Henson, MH Davis Current Biology, 22, 615-621, 2012 http://dx.doi.org/10.1016/j. cub.2012.02.015

23. Linking speech perception and neurophysiology: speech decoding guided by cascaded oscillators locked to the input rhythm O Ghitza Frontiers in Psychology, 2, 130, 2011 http://dx.doi.org/10.3389/fpsyg.2011.00130

24. Behavioral evidence for the role of cortical 9 oscillations in determining auditory channel capacity for speech O Ghitza Frontiers in Psychology, 5, 652, 2014 http://dx.doi. org/10.3389/fpsyg.2014.00652

25. Cortical oscillations and speech processing: emerging computational principles and operations AL Giraud, D Poeppel Nature Neuroscience, 15, 511-517, 2012 http://dx.doi. org/10.1038/nn.3063

26. Speech rhythms and multiplexed oscillatory sensory coding in the human brain J Gross, N Hoogenboom, G Thut, P Schyns, S Panzeri, P Belin, S Garrod PLOS Biology, 11, e1001752, 2013 http://dx.doi.org/10.1371/journal.pbio.1001752

27. Segmentation of spatial experience by hippocampal theta sequences AS Gupta, MA van der Meer, DS Touretzky, AD Redish Nature Neuroscience, 15, 1032-1039, 2012 http://dx.doi.org/10.1038/nn.3138

28. Time-warp-invariant neuronal processing R Gütig, H Sompolinsky PLOS Biology, 7, e1000141, 2009 http://dx.doi.org/10.1371/journal.pbio.1000141

29. Entrained neural oscillations in multiple frequency bands comodulate behavior MJ Henry, B Herrmann, J Obleser Proceedings of the National Academy of Sciences of USA, 111, 14935-14940, 2014 http://dx.doi.org/10.1073/pnas.1408741111

30. Encoding for computation: recognizing brief dynamical patterns by exploiting effects of weak rhythms on action-potential timing JJ Hopfield Proceedings of the National Academy of Sciences of USA, 101, 6255-6260, 2004 http://dx.doi.org/10.1073/ pnas.0401125101

31. Cortical oscillations arise from contextual interactions that regulate sparse coding MP Jadi, TJ Sejnowski Proceedings of the National Academy of Sciences of USA, 111, 6780-6785, 2014 http://dx.doi.org/10.1073/pnas.1405300111

32. Cross-frequency coupling between neuronal oscillations O Jensen, LL Colgin Trends in Cognitive Sciences, 11, 267-269, 2007 http://dx.doi.org/10.1016Zj.tics.2007.05.003

33. Theta/gamma networks with slow NMDA channels learn sequences and encode episodic memory: role of NMDA channels in recall O Jensen, JE Lisman Learning & Memory, 3, 264-278, 1996 http://dx.doi.org/10.1101/lm.3.2-3.264

34. Syllable-based generalizations in English phonology D Kahn 1976 http://seas3.elte.hu/ szigetva/courses/syllable/kahn76-pres-szpsyllableracz.pdf

35. Analysis of slow (theta) oscillations as a potential temporal reference frame for information coding in sensory cortices C Kayser, RA Ince, S Panzeri PLOS Computational Biology, 8, e1002717, 2012 http://dx.doi.org/10.1371/journal.pcbi.1002717

36. Spike-phase coding boosts and stabilizes information carried by spatial and temporal spike patterns C Kayser, MA Montemurro, NK Logothetis, S Panzeri Neuron, 61, 597608, 2009 http://dx.doi.org/10.1016/j.neuron.2009.01.008

37. Gamma and theta rhythms in biophysical models of hippocampal circuits NJ Kopell, C Börgers, DD Pervouchine, P Malerba Hippocampal microcircuits, Springer, 423-457, 2010

38. Neuronal oscillations and multisensory interaction in primary auditory cortex P Lakatos, CM Chen, MN O'Connell, A Mills Neuron, 53, 279-292, 2007 http://dx.doi.org/10.1016/j. neuron.2006.12.011

39. An oscillatory hierarchy controlling neuronal excitability and stimulus processing in the auditory cortex PP Lakatos, AS Shah, KH Knuth, I Ulbert, G Karmos, CE Schroeder Journal of Neurophysiology, 94, 1904-1911, 2005 http://dx.doi.org/10.1152/ jn.00263.2005

40. Top-down beta rhythms support selective attention via interlaminar interaction: a model JH Lee, MA Whittington, NJ Kopell PLOS Computational Biology, 9, e1003164, 2013 http://dx.doi.org/10.1371/journal.pcbi.1003164

41. Space,Time and Memory in the Hippocampal Formation C Lever, R Kaplan, N Burgess Springer Vienna, Vienna, 2014 http://dx.doi.org/10.1007/978-3-7091-1292-2

42. On the evolution of human syntactic ability. Its pre-adaptive Bases—Motor control and speech P Lieberman Journal of Human Evolution, 14, 657-668, 1985 http://dx.doi. org/10.1016/S0047-2484(85)80074-9

43. TIMIT acoustic-phonetic continuous speech corpus Linguistic Data Consortium 1993 https://catalog.ldc.upenn.edu/LDC93S1

44. A neural coding scheme formed by the combined function of gamma and theta oscillations JE Lisman, G Buzsaki Schizophrenia Bulletin, 34, 974-980, 2008 http:// dx.doi.org/10.1093/schbul/sbn060

45. The theta-gamma neural code JE Lisman, O Jensen Neuron, 77, 1002-1016, 2013 http://dx.doi.org/10.1016/j.neuron.2013.03.007

46. Auditory cortex tracks both auditory and visual stimulus dynamics using low-frequency neuronal phase modulation H Luo, Z Liu, D Poeppel PLOS Biology, 8, e1000445, 2010 http://dx.doi.org/10.1371/journal.pbio.1000445

47. Phase patterns of neuronal responses reliably discriminate speech in human auditory cortex H Luo, D Poeppel Neuron, 54, 1001-1010, 2007 http://dx.doi.org/10.1016/j. neuron.2007.06.004

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

48. Encoding of naturalistic stimuli by local field potential spectra in networks of excitatory and inhibitory neurons A Mazzoni, S Panzeri, NK Logothetis, N Brunel PLOS Computational Biology, 4, e1000239, 2008 http://dx.doi.org/10.1371/journal.pcbi.1000239

49. Automatic segmentation of speech into syllabic units P Mermelstein The Journal of the Acoustical Society of America, 58, 880-883, 1975 http://dx.doi.org/10.1121Z1.380738

118

50. Articulation rate and its variability in spontaneous speech: a reanalysis and some implications JL Miller, F Grosjean, C Lomanto Phonetica, 41, 215-225, 1984 http:// dx.doi.org/10.1159/000261728

51. Analysis of dynamic brain imaging data PP Mitra, B Pesaran Biophysical Journal, 76, 691-708, 1999 http://dx.doi.org/10.1016/S0006-3495(99)77236-X

52. Phase-of-firing coding of natural visual stimuli in primary visual cortex MA Montemurro, MJ Rasch, Y Murayama, NK Logothetis, S Panzeri Current Biology, 18, 375-380, 2008 http://dx.doi.org/10.1016/j.cub.2008.02.023

53. Asymmetric function of theta and gamma activity in syllable processing: an Intra-cortical study B Morillon, C Liegeois-Chauvel, LH Arnal, CG Benar, AL Giraud Frontiers in Psychology, 3, 1-9, 2012 http://dx.doi.org/10.3389/fpsyg.2012.00248

54. Phase-based measures of cross-frequency coupling in brain electrical dynamics under general anesthesia EA Mukamel, KF Wong, MJ Prerau, EN Brown, PL Purdon Conference Proceedings: Annual International Conference of the IEEE Engineering in Medicine and Biology Society, 2011, 1981-1984, 2011 http://dx.doi.org/10.1109/IEMBS.2011.6090558

55. (Non)words, (non)words, (non)words: evidence for a protolexicon during the first year of life C Ngon, A Martin, E Dupoux, D Cabrol, M Dutat, S Peperkamp Developmental Science, 16, 24-34, 2013 http://dx.doi.org/10.1111/j.1467-7687.2012.01189.x

56. Temporal envelope of time-compressed speech represented in the human auditory cortex KV Nourski, RA Reale, H Oya, H Kawasaki, CK Kovach, H Chen, MA Howard, JF Brugge The Journal of Neuroscience, 29, 15564-15574, 2009 http://dx.doi.org/10.1523/ JNEUR0SCI.3065-09.2009

57. Information carried by population spike times in the whisker sensory cortex can be decoded without knowledge of stimulus time S Panzeri, ME Diamond Frontiers in Synaptic Neuroscience, 2, 17, 2010 http://dx.doi.org/10.3389/fnsyn.2010.00017

58. Reading spike timing without a clock: intrinsic decoding of spike trains S Panzeri, RA Ince, ME Diamond, C Kayser Philosophical Transactions of the Royal Society of London. Series B, Biological Sciences, 369, 20120467, 2014 http://dx.doi.org/10.1098/ rstb.2012.0467

59. Correcting for the sampling bias problem in spike train information measures S Panzeri, R Senatore, MA Montemurro, RS Petersen Journal of Neurophysiology, 98, 1064-1072, 2007 http://dx.doi.org/10.1152/jn.00559.2007

60. Reconstructing speech from human auditory cortex BN Pasley, SV David, N Mesgarani PLOS Biology, 10, e1001251, 2012 http://dx.doi.org/10.1371/journal.pbio.1001251

61. Phase-locked responses to speech in human auditory cortex are enhanced during comprehension JE Peelle, J Gross, MH Davis Cerebral Cortex, 23, 1378-1387, 2013 http://dx.doi.org/10.1093/cercor/bhs118

62. Central auditory onset responses, and temporal asymmetries in auditory perception DP Phillips, SE Hall, SE Boehnke Hearing Research, 167, 192-205, 2002 http://dx.doi. org/10.1016/S0378-5955(02)00393-3

63. Spatio-temporal correlations and visual signalling in a complete neuronal population JW Pillow, J Shlens, L Paninski, A Sher, AM Litke, EJ Chichilnisky, EP Simoncelli Nature, 454, 995-999, 2008 http://dx.doi.org/10.1038/nature07140

64. The analysis of speech in different temporal integration windows: cerebral lateralization as 'asymmetric sampling in time' D Poeppel Speech Communication, 41, 245-255, 2003 http://dx.doi.org/10.1016/S0167-6393(02)00107-3

65. Speech perception at the interface of neurobiology and linguistics D Poeppel, WJ Idsardi, V van Wassenhove Philosophical Transactions of the Royal Society of London. Series B, Biological Sciences, 363, 1071-1086, 2008 http://dx.doi.org/10.1098/rstb.2007.2160

Александр Яфиль, Лоренцо Фонтолан, Клер Капдебон, Борис Гуткин, Анн-Лиз Жиро Речевое кодирование на основе тета- и гамма-активности в коре головного мозга

66. Temporal information in speech: acoustic, auditory and linguistic aspects S Rosen Philosophical Transactions of the Royal Society of London. Series B, Biological Sciences, 336, 367-373, 1992 http://dx.doi.org/10.1098/rstb.1992.0070

67. The gamma oscillation: master or slave? CE Schroeder, P Lakatos Brain Topography, 22, 24-26, 2009 http://dx.doi.org/10.1007/s10548-009-0080-y

68. Representation of time-varying stimuli by a network exhibiting oscillations on a faster time scale M Shamir, O Ghitza, S Epstein, NJ Kopell PLOS Computational Biology, 5, e1000370, 2009 http://dx.doi.org/10.1371/journal.pcbi.1000370

69. Disynaptic inhibition between neocortical pyramidal cells mediated by Martinotti cells G ilberberg, H Markram Neuron, 53, 735-746, 2007 http://dx.doi.org/10.1016/j. neuron.2007.02.012

70. Toward a model for lexical access based on acoustic landmarks and distinctive features KN Stevens The Journal of the Acoustical Society of America, 111, 1872, 2002 http:// dx.doi.org/10.1121/1.1458026

71. Entropy and information in neural spike trains SP Strong, R Koberle, RRR van Steveninck, W Bialek Physical Review Letters, 80, 197-200, 1998 http://dx.doi. org/10.1103/PhysRevLett.80.197

72. Measuring phase-amplitude coupling between neuronal oscillations of different frequencies AB Tort, R Komorowski, H Eichenbaum, N Kopell Journal of Neurophysiology, 104, 1195-1210, 2010 http://dx.doi.org/10.1152/jn.00106.2010

73. On the formation of gamma-coherent cell assemblies by oriens lacunosum-moleculare interneurons in the hippocampus AB Tort, HG Rotstein, T Dugladze, T Gloveli, NJ Kopell Proceedings of the National Academy of Sciences of USA, 104, 13490-13495, 2007 http://dx.doi.org/10.1073/pnas.0705708104

74. Metric-space analysis of spike trains: theory, algorithms and application J Victor, K Purpura Network, 8, 127-164, 1997 http://dx.doi.org/10.1088/0954-898X/8/2/003

75. Computational modeling of distinct neocortical oscillations driven by cell-type selective optogenetic drive: separable resonant circuits controlled by low-threshold spiking and fast-spiking interneurons D Vierling-Claassen, JA Cardin, CI Moore, SR Jones Frontiers in Human Neuroscience, 4, 198, 2010 http://dx.doi.org/10.3389/fnhum.2010.00198

76. Automatic blind syllable segmentation for continuous speech R Villing, J Timoney, T Ward, J Costello Electronic Engineering, 2004

77. Neurophysiological and computational principles of cortical rhythms in cognition XJ Wang Physiological Reviews, 90, 1195-1268, 2010 http://dx.doi.org/10.1152/ physrev.00035.2008

78. Neural coding of temporal information in auditory thalamus and cortex X Wang, T Lu, D Bendor, E Bartlett Neuroscience, 157, 484-494, 2008 http://dx.doi.org/10.1016/j. neuroscience.2008.07.050

79. Integrating syllable boundary information into speech recognition SL Wu, ML Shire, S Greenberg, N Morgan Acoustics, Speech, and Signal Processing, 1997. ICASSP-97., 1997 IEEE International Conference on, IEEE, 2, 987-990, 1997 http://ieeexplore.ieee. org/xpls/abs_all.jsp?arnumber=596105

80. From birdsong to human speech recognition: bayesian inference on a hierarchy of nonlinear dynamical systems IB Yildiz, K von Kriegstein, SJ Kiebel PLOS Computational Biology, 9, e1003219, 2013 http://dx.doi.org/10.1371/journal.pcbi.1003219

81. Cortical processing of dynamic sound envelope transitions Y Zhou, X Wang Journal of Neuroscience, 30, 16741-16754, 2010 http://dx.doi.org/10.1523/ JNEUR0SCI.2016-10.2010 119

I.. /flfc Александр Яфиль, Лоренцо Фонтолан, Клер Капдебон, Борис Гуткин, Анн-Лиз Жиро Речевое кодирование на основе тета- и гамма-активности в коре головного мозга

82. Temporal context in speech processing and attentional stream selection: a behavioral and neural perspective EM Zion Golumbic, D Poeppel, CE Schroeder Brain and Language, 122, 151-161, 2012 http://dx.doi.org/10.10167j.bandl.2011.12.010

СВЕДЕНИЯ ОБ АВТОРАХ

Александр Яфиль

Закончил докторантуру и работает в Institut d'Investigacions Biomediques August Pi i Sunyer (IDIBAPS) и Center for Brain and Cognition (Universitat Pompeu Fabra) в Барселоне (Испания), специализируясь в математике и физике. Его научные интересы распространяются от компьютерного анализа циклической активности нейронных популяций до подходов к моделированию восприятия, предсказания и поведенческой приспособляемости у грызунов и человека.

Лоренцо Фонтолан

Клер Кабдебон

Докторант в UNICOG лаборатории (Сакле, Франция).

Борис Гуткин

Директор по исследованиям в CNRS (Франция) и руководитель исследовательской группы теории нейродинамики в лаборатории когнитивных нейронаук в Ecole Normale Superiuere (Париж, Франция). Он также является ведущим специалистом в Центре когниции и принятия решения, департамет психологии в Высшей школе экономики, Москва. Борис Гуткин развивает математические и вычислительные модели нейродинамики, а также процессов обработки информации в мозге. Его интересы включают понимание механизмов и функциональной роли мозговых осцилляторов, моделирование работающей памяти, а также вычислительную психиатрию привыкания к лекарствам.

Анн Лиз Жиро

Полный профессор нейронаук в университете Женевы, Швейцария. В своих исследованиях она фокусируется на исследовании нейронного базиса восприятия речи человеком с акцентом на нейронных вычислениях на основе нейроосцилляторов, а также на исследовании языковых расстройств, возникающих из-за их дисфункции.

SPEECH ENCODING BY COUPLED CORTICAL THETA

AND GAMMA OSCILLATIONS

120 Many environmental stimuli present a quasi-rhythmic structure at different timescales that the brain needs to decompose and integrate. Cortical oscillations have been proposed as instruments of sensory demultiplexing, i.e., the parallel processing of different frequency streams in sensory signals. Yet their causal role in such a process has never been demonstrated. Here, we used a neural microcircuit model to address whether coupled theta-gamma oscillations, as observed in human auditory cortex, could underpin the multiscale sensory analysis of speech. We show

Александр Яфиль, Лоренцо Фонтолан, Клер Капдебон, Борис Гуткин, Анн-Лиз Жиро Речевое кодирование на основе тета- и гамма-активности в коре головного мозга

that, in continuous speech, theta oscillations can flexibly track the syllabic rhythm and temporally organize the phoneme-level response of gamma neurons into a code that enables syllable identification. The tracking of slow speech fluctuations by theta oscillations, and its coupling to gamma-spiking activity both appeared as critical features for accurate speech encoding. These results demonstrate that cortical oscillations can be a key instrument of speech de-multiplexing, parsing, and encoding. 121

i Надоели баннеры? Вы всегда можете отключить рекламу.