Оценка численности иммунных рецепторов с помощью рекуррентных нейронных сетей
Толстоухова С.П., Национальный исследовательский университет «Высшая школа
экономики», МИЭМ [email protected] Назаров В.И., Национальный исследовательский университет «Высшая школа
экономики», ИБХ РАН vdm. nazarov@gmail. com
Аннотация
Иммунитет является сложнейшей системой организма человека. Благодаря технологиям секвенирования нового поколения стало возможным получать большие массивы данных Т-клеток и Б-клеток, относящиеся к адаптивному иммунитету - самообучающейся подсистеме иммунитета. В данной' пилотной работе мы представляем новую модель для предсказания численности Т-клеток в крови человека на основе рекуррентных нейросетей.
1 Введение
Человеческий организм в каждый момент времени подвергается атаке самых разнообразных патогенов - вирусов, бактерий, грибов, различных паразитов. Из всего многообразия потенциальных угроз только малая часть патогенов проникает непосредственно в организм, но даже они способны нанести огромный урон ему. Основной задачей иммунной системы является распознавание и уничтожение проникших в организм патогенов, которую она выполняет за счет условного разделения на две параллельные "ветви", соответствующие разным способам решения этой задачи - на врожденный иммунитет и приобретенный, или адаптивный иммунитет. Врожденный иммунитет располагает механизмами выявления и уничтожения только заранее "заданных" патогенов, информация о которых изначально заложена в геноме человека. Из ограниченного информационного объема генома, а также из-за способности патогенов к мутациям и их огромного разнообразия, в геноме принципиально невозможно закодировать рецепторы на абсолютно все возможные патогены. В ходе эволюции эту проблему решило развитие другой ветви иммунной системы - адаптивного иммунитета, который
позволяет организму обучаться защите от наиболее распространенных патогенов в среде.
Адаптивный иммунитет человека реализуется с помощью Т-клеточных (T-cell receptor, TCR) и Б-клеточных рецепторов (или иммуноглобулинов - Immunoglobulins, Ig) -специальных белков-рецепторов на поверхностях Т-клеток и Б-клеток соответственно, которые распознают патогены. Нуклеотидные последовательности рецепторов создаются случайным образом в стохастическом процессе V(D)J-
рекомбинации - процессе перестройки части генома Т- или Б-клеток, - а потом транслируются в белок и выставляются на поверхности клетки. В процессе V(D)J-рекомбинации случайным образом выбираются по одному из множества геномных сегментов (имеющие названия V(ariable), D(iversity) или J(oining) сегменты). Далее получившиеся сегменты случайным образом изменяются на концах (удаляется случайное число нуклеотидов, после чего случайное число нуклеотидов вставляется между сегментами), которая впоследствии транслируется в белок, если это валидная белковая последовательность. Белки TCR также проходят следующий этап - селекцию, в которой уничтожаются потенциальные аутоиммунные рецепторы (способные атаковать сам организм) или рецепторы, вообще не способные к распознаванию чего-либо.
Технологии секвенирования нового поколения позволили получать большие массивы данных о нуклеотидных последовательностях рецепторов TCR и Ig из периферической крови человека. Это открывает возможность для статистического анализа иммунологических данных и математического моделирования на уровне клеток поведения иммунной системы. В
данной пилотной работе мы разработали модель оценки численности иммунных рецепторов в крови человека на основе рекуррентных нейросетей.
2 Селекция иммунных рецепторов
Потенциальное разнообразие иммунных рецепторов, которые собираются в процессе Уф^-рекомбинации, достигает, к примеру, 1014 для Т-клеточных рецепторов бета-цепей [Murugan et al., 2012]. Часть из этих рецепторов являются нефункциональными, другими словами, они не способны распознать никакой возможный патоген. Часть рецепторов, наоборот, являются аутоимунными - не только распознающие патогены, но и способные распознать сам организм хозяина как врага и вызвать ответ иммунитета на него (pre-selection на рис. 1). Вследствие этого, реальное число рецепторов на порядки меньше (naive на рис. 1). Число же рецепторов, которые распознали какой-либо патоген и увеличили свою численность в ответ на него, еще меньше (antigen-experienced на рис. 1). Влияние селекции проявляется в отборе тех, кто потенциально может помочь и не навредить организму (thymic selection), и в отборе тех, кто уже встретился с патогенами и может в будущем создать лучшую защиту против него (clonal selection).
TCR repertoire size
■ Pre-selection Naive
Antigen-experienced
TCR repertoire composition
»» »(ГМЧ! 1Ш ii о ев -ее -we
5 ; s e S .
eew e eew e :»• ' s e? ~ W HWWWk» ее e M
* в ее ее. e ее e e
*» e Miee s oe •еемеечмеееемм
99 9 999 999 99 9 9S99 9 3 99 99 99 9999 999 999 99 9 99 9999999 9 95 99 99 99
Thymic selection Clonal selection
Pre-seiection
Antigen-experienced
Рис. 1 Соотношение размеров репертуаров в ТС Я. Наибольшее разнообразие TCR находится в преселектированном репертуаре. Селекция в тимусе убирает нефункциональные и аутоиммунные рецепторы, что снижает разнообразие репертуара. После встречи с патогенами, рецепторы увеличивают свою численность, вытесняя наивные рецепторы (которые не встречались с патогенами ранее). В статье [ЕШапай et а1., 2014] была предложена математическая модель селекции, которая позволяет количественно
оценивать влияние селекции на клонотипы -определенные последовательности иммунных рецепторов с фиксированными V и J сегментами:
Q(t,V,J) = Pp0st(T,V,J)/Ppre(T,V,J)
= Z-1qLqVj^ _ qi;L(T[i]), Q(T, V, J) = PpostCT V, J)/Ppre (T^/V, J)
= Z_1qLqvj ^ qi;L(T[i]),
где Q(t, V, J) - влияние селекции на клонотип I с сегментами V и J, Ppost(T, V, J) -вероятность встретить клонотип т с сегментами V и J в экспериментальных данных, т.е. его пропорция в данных, Ppre (t, V, J) - вероятность генерации клонотипа I с сегментами V и J, Z-1 -нормализующая константа для выполнения условия
Zv,jQ(T,V,J)Ppre(T,V,J) = 1, qL - влияние селекции на длину L клонотипа т, qVj - влияние селекции на сегменты V и J клонотипа т, qi;b(T[i]) - влияние селекции на i-ю аминокислоту в клонотипе т с длиной L.
Описанная модель не позволяет оценить точную численность рецепторов, другими словами, она не оценивает клональную селекцию (рецепторы antigen-experienced на рис. 1). В данной работе мы представляем модель на основе рекурретных нейронных сетей, которая способна оценивать численность рецепторов.
3 Рекуррентные нейронные сети
В работе были использованы архитектуры рекуррентных нейронных сетей Long Short Term Memory (LSTM) и Gated Recurrent Unit (GRU). Эти архитектуры являются классическими для разработки моделей, обрабатывающих последовательную
информацию, в нашем случае -амнокислотные последовательности
клонотипов.
3.1 LSTM
LSTM [S. Hochreiter, J. Schmidhuber, 1997], или долговременная-кратковременная память - это разновидность архитектуры рекуррентных нейронных сетей,
позволяющая работать с длинными последовательностями. Каждый
j-й нейрон LSTM имеет отличную от внутреннего состояния «память» с|в каждый
А
момент времени t. Эта память хранит информацию о том участке
последовательности входных данных, которую нейрон успел пропустить к моменту
л)
© Л
времени ^ Возвращаемое значение нейрона определяется следующим уравнением
Л - ^
позволяет ей улавливать зависимости между данными, расположенными далеко друг от друга.
3.2 GRU
= о[ tanh (4),
GRU [Cho et а1., 2014] - архитектура рекуррентной сети, разработанная на основе LSTM К.Х. Чо в 2014 г. Как и LSTM, GRU обрабатывает поток информации по мере ее Рис. 2 Графическая схема сети LSTM.
где о| - это выходная функция-вентиль, регулирующая степень использования информации, находящейся в памяти, при вычислении активации. Выходная функция определяется уравнением
о[ = а^0х1 + иА_! + У0С^, где а - сигмоида, а V, - диагональная матрица. Память нейрона 4 обновляется путем частичного «забывания» предыдущего значения, хранящегося в ней, и добавления новой информации с[:
С = г' С + 1 С
Ч ч 4-1 ~ чЧ' где с[ вычисляется по формуле
с! = tanh (Wcxt + и^^у.
Степень «забывания» регулируется, соответственно, функцией забывания а количество добавляемой информации -входной функцией 1[:
г? = + Ufht_1 + У^У; 1[ = а(Wixt + иА-1 + У^-хЯ
Vf и VI - диагональные матрицы. Рис. 2 иллюстрирует механизм взаимодействия функций-вентилей внутри нейрона.
Таким образом, LSTM способна определять степень важности отдельных участков последовательности, либо сохраняя информацию о них в памяти, либо нет, что
прохождения через нейрон, однако не имеет отдельной памяти и работает только с внутренними состояниями и возвращаемыми значениями нейронов.
Активация нейрона GRU в момент времени t - это линейная интерполяция между предыдущим состоянием и
потенциальной активацией
ь1 = (1- 4) ьи +
где функция обновления определяет
степень изменения предыдущего состояния и важность новой информации. Функция обновления вычисляется по формуле
4 = а(ША + и2Ьм)'
ХгА
Рис. 3. Графическая схема модуля сети GRU
В отличие от LSTM, GRU не предусматривает функции выхода, контролирующую степень «открытости» внутреннего состояния нейрона для дальнейших вычислений.
Потенциальная активация h[ определяется формулой
h]t = tanh (Wxt + U(rt ° h^y, где о - поэлементное произведение, r[ -функция сброса состояния, отвечающая за «забывание» нейроном незначительной информации, вычисляемая аналогично функции обновления состояния:
rj = a(Wrxt + Urht-i)j.
Более наглядно механизм взаимодействия функций внутри модуля изображен на рис. 3.
4 Модель селекции на основе
рекуррентных нейронных сетей
Модели были тренированы на данных из [Zvyagin et al 2012]. Для оценки качества моделей мы подготовили пять видов данных, на каждом из которых оценивали среднеквадратичную ошибку:
- «top» - самые крупные рецепторы по численности, 50 рецепторов.
- «mid» - 100 случайно выбранных рецепторов с численностью больше чем 10, но не входящие в «top».
- «low» - 1000 случайно выбранных с численностью больше чем 2, но меньше чем 10.
- «non» - 10000 случайно созданных белковых последовательностей, которые точно не могут пройти селекцию.
- «put» - 10000 рецепторов, которые потенциально могут пройти селекцию, но которые не присутствуют в экспериментальной выборке.
Выбор лучшей модели состоял из двух шагов. На первом шаге мы взяли несложные LSTM / GRU и разные методы генерации подвыборок, из которых выбрали лучшие модели и способы генерации подвыборок. На втором шаге мы усложнили выбранные модели и обучали их.
Мы разработали следующие способы выбора подвыборки для каждого шага обучения моделей:
- «simple» - сбалансированные подвыборки: на каждом шаге модель обучалась на 100 "больших" (с численностью более чем или равной 10) и 28 "маленьких" (с численностью
менее чем 10) случайно выбранных рецепторах. Это позволяет учесть сильную разницу в численностях «больших» и «маленьких» рецепторов, а также учитывает важность точности оценки более крупных рецепторов.
- «wei» - сбалансированные подвыборки, каждый «большой» рецептор взят с весом, равным его численности; «маленькие» рецепторы взяты с весом, равным единице. Это позволяет модели точнее оценивать «большие» рецепторы и учитывает их важность для селекции.
- «top» - сбалансированные подвыборки, каждый «большой» рецептор взят с весом, равным его численности; «маленькие» рецепторы взяты с весом, равным единице; в каждой подвыборке всегда присутствует 30 самых больших по численности рецепторов.
- «fade» - сбалансированные подвыборки, каждый "большой" рецептор взят с весом, равным его численности; «маленькие» рецепторы взяты с весом, равным единице. На каждом шаге происходит квадратичное уменьшение веса рецептора. Это позволяет на первых итерациях обучения модели быстро задать ей область, где «большие» рецепторы хорошо предсказываются, из которой далее она более точно начинает оценивать меньшие рецепторы.
На первом шаге мы реализовали следующие модели рекуррентных
нейросетей:
- «GRU» - модуль GRU с вектором состояния размером 64 с PReLU [K. He et al. 2015] функцией активации и Batch Normalization [S. Loffe et al., 2015]. В остальных моделях отличался только размер вектора внутреннего состояния или сам модуль (LSTM) в комбинации с полносвязным слоем размером в один нейрон с PReLU.
- «LSTM» - модель аналогична предыдущей, только с LSTM вместо GRU.
- «GRU2» - модуль GRU как в модели "GRU", также включены два полносвязных слоя размером в 64 и 32 нейрона с Dropout [N.Srivastava et al., 2014] равным 0.5 и Batch Normalization. Выходной нейрон - PReLU.
- «LSTM2» - модель аналогична предыдущей, но модуль GRU заменен на LSTM.
Все рекуррентные слои в моделях имели Dropout равный 0.2. Для обучения мы использовали оптимизатор Nadam [T.Dozat., 2015]. Веса инициализировали через метод He [K. He et al. 2015]. Код был реализован на
LSTM
GRU
LSTM2
GRU2
Чэдс^ :
Ч*
V
...... .....
№ ss ЛМл* U/uMN-v M m
V
IS
i
K, v. 3 - w
-w
0
v
V/Mb&ftfrw*^^
■Зшь/Ufc's
Ж
its ftps**)VM
-A«**""1
25 50 75 100 125 150 175 200
25 50 75 100 125 150 175 200
25 50 75 100 125 150 175 200
25 50 75 100 125 150 175 200
Keras [F. Chollet, 2015]. Модели обучались в течение 1000 эпох, на каждой из которых модель обучалась на 51200 рецепторах. Результаты приведены на рис. 4. Модель LSTM и LSTM2 глобально показывают худший результат, чем модели GRU и GRU2. Выборы подвыборки «wei» и «fade» показали лучший результат в оценке «top» и «mid» данных, несмотря на то, что оценивают «low», «non» и «put» немного хуже, чем остальные, и поскольку оценка «больших» рецепторов важнее, чем оценка «маленьких» («большие» рецепторы означают большую важность для иммунитета), поэтому они были выбраны далее для тренировки моделей более сложных моделей на основе GRU:
Рис. 4 Графики среднеквадратичной ошибки моделей при разных способах определения подвыборки в зависимости от количества эпох обучения. Синяя линяя соответствует «simple», зеленая - «wei», красная
- «top» и фиолетовая - «fade» - «GRU3» - модель аналогична «GRU2», но с
сравнению с «fade» для всех моделей при оценке численности «больших» рецепторов. И наоборот, выбор подвыборок «fade» приводит к лучшим результатам оценки количества малочисленных либо совсем не присутствующих рецепторов. Такой эффект вызван «взвешиванием» данных подвыборок: при «wei» модель хорошо обучается на многочисленных рецепторах, имеющих больший вес, а при «fade» - на малочисленных, так как их вес относительно быстро становится сопоставимым с весом «больших», и в данных их разнообразие намного больше.
размером вектора внутреннего состояния равным 128.
- «GRU4» - модель аналогична «GRU3», но с тремя полносвязными слоями размерами 128, 64, 32.
На рис. 5 показаны результаты обучения моделей GRU3 и GRU4. Выбор подвыборок <^еЬ> оказывается стабильно лучшим по
5 Заключение
В данной пилотной работе была реализована модель оценки количества рецепторов в данных репертуаров TCR человека на основе глубинного обучения. Было проведено сравнение шести моделей рекуррентных нейросетей разной
архитектуры и четырех способов создания случайных подвыборок для обучения моделей. Лучшими моделями показали себя
вариации GRU, а также способы создания подвыборки для обучения, учитывающие вес объектов. В дальнейших исследованиях планируется увеличить точность модели путем усложнения архитектуры и изменения процесса обучения таким образом, чтобы модель обучалась не только на экспериментальных данных, но и на тех, которые не присутствуют в данных.
Рис. 5 Графики среднеквадратичной ошибки GRU- моделей, показавших лучшие результаты, в зависимости от числа эпох обучения. Синяя линия соответствует обучению на подвыборках «wei»,
зеленая - «fade».
Список литературы
Kyunghyun Cho et al. 2014. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. arxiv, https://arxiv. org/pdf/ 1406.1078.pdf
Francois Chollet. 2015. keras. GitHub repository, https://github.com/fchollet/keras
Timothy Dozat. 2015. Incorporating Nesterov Momentum into Adam.
http://cs229.stanford.edu/proj2015/054_report.pdf
Yuval Elhanati et al. 2014. Quantifying selection in immune receptor repertoires. Proceedings of the National Academy of Sciences,111, 27, 9875-9880.
Kaiming He et al. 2015. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification. arxiv,
https://arxiv.org/pdf/1502.01852.pdf
Sepp Hochreiter, Jürgen Schmidhuber. 1997. Long Short-Term Memory. Journal Neural Computation, 9 (8), 1735-1780.
Sergey Ioffe et al. 2015. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. arxiv,
https://arxiv.org/abs/1502.03167
sequence repertoires. Proceedings of the National Academy of Sciences, 109, 40, 16161-16166.
Nitish Srivastava et al. 2014. Dropout: A Simple Way to Prevent Neural Networks from Overfitting. Journal of Machine Learning Research,15, 19291958
Ivan Zvyagin et al. 2014. Distinctive properties of identical twins' TCR repertoires revealed by high-throughput sequencing. Proceedings of the National Academy of Sciences, 111, 16, 59805985.
Anand Murugan et al. 2012. Statistical inference of the generation probability of T-cell receptors from