Использование компрессии данных для оценки энтропии простейших клеточных автоматов_
Обзор методов анализа, моделей генерации и моделей селекции репертуаров иммунных рецепторов
Назаров В.И.
Национальный Исследовательский Университет "Высшая Школа Экономики "
ИБХРАН vdm. nazarov@gmail. com
Аннотация. Методы секвенирования нового поколения позволили получать данные иммунных рецепторов в недоступных ранее масштабах. В статье дается обзор популярного программного обеспечения для первичного анализа репертуаров иммунных рецепторов, методы сравнения и оценки разнообразия репертуаров, описаны существующие модели генерации и селекции иммунных рецепторов.
Ключевые слова: адаптивный иммунитет, Т-клеточные рецепторы, Б-клеточные рецепторы, Т-клетки, иммуноглобулины, TCR, BCR, Ig.
1 Введение
Задача имунной системы заключается в обеспечении распознания и сдерживания огромного разнообразия патогенных организмов - бактерий, грибов, вирусов, простейших и макропаразитов, которые сильно различаются между собой по строению и способам паразитизма. В силу информационной ограниченности генома человека - в нем содержится всего около 30000 генов - в геноме невозможно закодировать все возможные рецепторы, способные распознать все разнообразие патогенов. Мощь системы адаптивного иммунитета позвоночных животных основана на процессах случайной сборки и селекции рецепторов к патогенам - Т-клеточных рецепторов (T-cell receptors, TCR) и Б-клеточных рецепторов (B-cell receptors, BCR), которые находятся на поверхностях специальных клеток - Т-лимфоцитов (Т-клеток) и Б-лимфоцитов (Б-клеток). TCR играют очень важную роль в адаптивном иммунитете: они обеспечивают отбор специфичных к патогенам BCR, выбор стратегии борьбы с патогенами и защиту организма от аутоагрессии.
TCR и BCR - гетеродимерные мембранные белки, состоящие из двух цепей: альфа-бета или гамма-дельта для TCR и легкая-тяжелая для BCR. На каждой цепи находится вариабельный регион CDR3, которыйй участвует в распознавании белков патогенов. Последовательности TCR и BCR формируются при созревании лимфоцитов в процессе V(D)J рекомбинации. Сборка рецепторов происходит из закодированных в геноме наборов сегментов V (Variable), D (Diversity, в случае альфа и гамма цепей для TCR и легкой цепи для BCR отсутствует), J (Joining) и С
(Constant). Из каждого набора сегментов для каждой цепи V, D (не для всех цепей) и J случайным образом выбирается один. Затем эти три VDJ или два VJ сегмента располагаются в порядке V(D)J, при этом на стыках между сегментами вставляются случайные нуклеотиды (N-нуклеотиды) и удаляются нуклеотиды с краев сегментов (рис. 1). Получившаяся нуклеотидная последовательность транслируется в белок, который и является рецептором. В каждом лимфоците такой процесс происходит независимо, что позволяет генерировать огромное число разнообразных лимфоцитов, каждый из которых несет свой рецептор. После этого Т-лимфоцигы проходят селекцию для того, чтобы исключить нефункциональные рецепторы и рецепторы, которые реагируют на белки самого организма. Б лимфоциты проходят селекцию после распознавания патогена - на этапе соматических гипермутаций, которые изменяют имеющиеся последовательности рецепторов для лучшего распознавания этого патогена.
V D J
...CTGGGAACTCCCTACCTCT А^А АТ^АА ATTAAG ^ Т^С ТС А С G А ТТС G, --
...CTGGGAACTCCCTACCTCT f ATTAAG г- TCACGATTCG,..
TCTTG A AAT
... CTGGGAACTCCC ТА CCTCTTCTTG ATTAAG AAATTCACGATTCG.,-
V NDN J
FW1 CDR1 FW2 CDR2 FW3 CDR3 FW4
Рис. 1. V(D)J рекомбинация. Сначала у сегментов удаляются буквы, потом вставляются случайные нуклеотиды (N-нуклеотиды) между парами VD и DJ. Для случая VJ рекомбинации процесс происходит без D сегмента, и случайные нуклеотиды вставляются между парой VJ. Сегмент С здесь не показан, поскольку он одинаков для каждого рецептора. Рисунок взят из [Ralph et al., 2015].
Методы секвенирования нового поколения (next-generation sequencing, NGS) позволили получать данные об иммунных рецепторах из крови в больших масштабах, чем это было доступно ранее - в настоящее время возможно получать данные о миллионах лимфоцитах, находящихся в крови. В качестве выходных данных методы NGS выдают файлы с нуклеотидными последовательностями длиной в 100 нуклеотидов и более, включающие в себя CDR3 и часть V сегмента. В данной работе сделан обзор методов анализа таких данных и описаны разработанные модели V(D)J рекомбинации и селекции лимфоцитов.
Использование компрессии данных для оценки энтропии
простейших клеточных автоматов_
2 Методы разметки V(D)J сегментов в последовательностях TCR и BCR
Первичный шаг анализа данных репертуаров TCR и BCR - это извлечение информации о CDR3 и V(D)J сегментах из последовательностей иммунных рецепторов. Другими словами, в нуклеотидной последовательности необходимо разметить границы V(D)J сегментов по известной базе сегментов. Сложность задачи заключается в большом объеме входных данных и множестве ошибок в последовательностях (замен, удалений и вставок нуклеотидов, которых не было в оригинальных последовательностях в крови), которые необходимо корректировать. После такой обработки данные возможно представить в виде таблиц, где каждая строка является одним уникальным рецептором и содержит информацию о его количестве в исходных данных, его V(D)J сегментах, количестве N-нуклеотидов, и другой информации. Каждая строка в такой таблице называется "клонотип". Абстракция данных рецепторов в виде таблиц является очень практичной для дальнейшего анализа и применения различных методов сравнения репертуаров, оценки разнообразия и других статистических процедур.
Один из подходов к извлечению информации о CDR3 и сегментах основывается на применении скрытых марковских моделей (Hidden Markov Models, НММ). Программа iHMMune-align [Gaeta et al., 2007] сначала выравнивает V сегменты и находит наиболее подходящих кандидатов, и после этого с применением информации о выровненном сегменте с помощью алгоритма Вигерби вычисляет наиболее вероятную комбинацию V(D)J генов. Программа SODA2 [Munshaw et al., 2010] вычисляет постериорные вероятности возможных V(D)J комбинаций для каждой последовательности и находит наиболее вероятных кандидатов. В работе [Ralph et al., 2015] был предложен новый метод, основанный на НММ. Топология их моделей аналогична предложенным в [Gaeta et al., 2007; Munshaw et al., 2010], но с помощью новой процедуры "факторизации" (factorization) авторам работы удалось улучшить результаты более старых программ. Разработанная ими процедура факторизации - это процедура вывода параметров НММ для всей нуклеотидной последовательности на основе параметров отдельных моделей для каждого из сегментов, составляющих это последовательность.
Самым популярным алгоритмом для выравнивания последовательностей является BLAST. В статье [Ye et al., 2013] исследователи предоставили новое программное обеспечение для идентификации V(D)J, основанное на BLAST под названием IgBLAST. Программа имеет Web-интерфейс. Аналогичным сервисом является IMGT/HighV-Quest [Li et al., 2013].
Другая программа, Decombinator [Thomas et al., 2013], использует модифицированный алгоритм Ахо-Корасик для поиска точных совпадений подстрок. Модифицированный алгоритм позволяет искать замены, вставки и выпадения из нуклеотидных последовательностей сегментов.
Гораздо лучшие результаты в сравнении с описанными выше программами показывает MiTCR [Bolotin et al., 2013]. Алгоритм идентификации CDR3 MiTCR состоит из трех этапов: выравнивание V-J сегментов и извлечение CDR3, генерация клонотипов и кластеризация клонотипов. На этапе выравнивания сегментов алгоритм ищет определенные подстроки длиной 5, которые являются подстроками V-J сегментов, и после их нахождения расширяет выравнивание, считая оценку выравнивания: штрафуя за несовпадающие нуклеотиды и "награждая" за совпадающие. Все сегменты, которые имеют высокую оценку, становятся кандидатными. Границы CDR3 извлекаются в зависимости от позиций выравнивания сегментов. На этапе генерации клонотипов все нуклеотидные последовательности CDR3 сохраняются в префиксное дерево, причем последовательности с низким качеством либо удаляются из анализа, либо ассоциируются с одним из существующих клонотипов. На этапе кластеризации клонотипов производится коррекция ошибок и вычисляется итоговая численность для каждого ьслонотипа.
Недавно опубликованное программное обеспечение TCRklass [Yang et al., 2015] использует алгоритм, основанный на малых нуклеотидных и аминокислотных подстроках сегментов, которые далее ищутся в данных последовательностей и используются для определения V-J сегментов и границ CDR3, после чего происходит коррекция ошибок. TCRklass показывает более качественное определение CDR3 и V-J сегментов по сравнению с MiTCR и IMGT/HighV-Quest. В отличие от TCRklass, авторы ViDJiL [Giraud et al., 2015] обращают фокус внимания не на качество идентификации CDR3, а на скорость работы программы. Реализованный в ViDJiL алгоритм состоит из двух этапов. На первом этапе индексируется база нуклеотидных последовательностей V-J сегментов - каждая последовательность разбивается на подстроки определенной длины, и для каждой подстроки строится список сегментов, которые ее содержат. На втором этапе алгоритм, используя подстроки, построенные на предыдущем шаге, ищет границы CDR3. ViDJiL предоставляет Web-интерфейс для работы со своей программой и ее серверную версию, в которой также реализованы процедуры для визуализации данных репертуаров TCR и BCR.
В работе [Bonissone et al., 2015] был предложен оригинальный метод разметки V(D)J сегментов, основанный на графах де Брюйна и специальной раскраске графов. Граф де Брюйна строится на подстроках фиксированной длины к ("к-меры") из нуклеотидных последовательностей сегментов и входных неразмеченных данных. Каждый k-мер, который
Использование компрессии данных для оценки энтропии
простейших клеточных автоматов_
отвечает сегментам, красится в свой цвет, после чего происходит распространение цвета на k-меры входных данных и определение наиболее вероятного для каждой входной последовательности набора сегментов на основе этих цветов.
3 Методы анализа репертуаров TCR и BCR
После извлечения информации о CDR3 и V(D)J сегментах и получении таблиц клонотипов становится возможным применять методы анализа репертуаров, которые используют как сами последовательности, так и информацию о границах CDR3 и сегментах.
3.1 Сравнение репертуаров
Наиболее популярным методом сравнения репертуаров является количество общих нуклеотидных или аминокислотных последовательностей клонотипов, общих среди двух или более репертуаров [Warren et al., 2011]. В работе [Zvyagin et al., 2014] было показано, что число общих клонотипов между двумя репертуарами строго коррелирует с произведением размеров этих репертуаров, и было предложено модифицировать этот метод, нормировав число общих клонотипов на произведение численности клонотипов в каждом репертуаре. В этой же работе был предложен иной метод сравнения репертуаров, основанный на последовательном подсчете ненормализованного или нормализованного числа общих клонотипов среди N клонотипов с наибольшей численностью, где N варьировалось от 1000 до размера минимального репертуара с шагом в 1000. Применение данного метода к репертуарам трех пар близнецов позволило выявить, что среди клонотипов с высокой численностью общие клонотипы среди близнецов встречаются чаще, чем среди не-близнецов. Альтернативными способами сравнения являются мера Жаккара [Thomas et al., 2014], который производит нормировку на общее среди двух репертуаров число уникальных клонотипов, и индекс Морисита - Хорн [Venturi et al., 2008], который также учитывает долю каждого клонотипа.
Иным способом сравнения репертуаров является сравнение распределений V или J сегментов среди репертуаров с использованием дивергенции Дженсена-Шеннона [Zvyagin et al., 2014]. С помощью данного метода было показано, что распределения V сегментов между близнецами имеют меньшую дивергенцию, нежели распределения между не-близнецами.
3.2 Оценка разнообразия репертуаров
Важной характеристикой репертуара является его разнообразие -насколько богат репертуар различными клонотипами, и каково общее число клонотипов в крови. Для оценки разнообразия данного репертуара
часто используют энтропию Шеннона, которая также называется "индекс разнообразия первого порядка" [Jost, 2007], поскольку при подсчете разнообразия она присваивает каждому клонотипу вес, пропорциональный его доле в репертуаре. Альтернативой энтропии является индекс Джини -Симпсона [Jost, 2007], который, в отличие от энтропии, учитывает более высокопредставленные клонотипы с большим весом. С использованием таких методов возможно сравнение разнообразия между репертуарами. Общее число клонотипов в крови может быть оценено с помощью методов, пришедших из области экологии [Robins et al., 2009]. Тем не менее, большое число ошибочных клонотипов в репертуарах в силу несовершенства технологий секвенирования и огромное потенциальное разнообразие рецепторов не позволяют точно оценить реальное число клонотипов в крови человека.
3.3 Анализ соматических гипермутаций и селекции BCR
Одним из подходов к анализу BCR является построение филогенетических деревьев соматических гипермутаций, которые показывают, каким образом рецепторы мутировали. [Kleinstein et al. 2003] (рис. 2). Для построения и анализа таких деревьев были разработаны программы IgTree [Barak et al., 2008] и ImmuniTree [Sok et al., 2013].
Рис. 2. Филогенетическое дерево ВСЯ на основе соматических гипермутаций, построенное с помощью 1пш1шиТгее. Рисунок взят из [8ок е! а1., 2013].
Другим способом анализа BCR является разработка статистических процедур для оценки их селекции. В статье [Уаап et а1., 2012] был предложен метод байесовской оценки селекции с помощью паттернов соматических мутаций. В [М^ку а1., 2015] была разработана вероятностная модель аминокислотных замен при соматических гипермутациях. В работе [Шитап et а1., 2013] был предложен гибридный метод оценки филогегетических деревьев BCR и их селекции.
Использование компрессии данных для оценки энтропии
простейших клеточных автоматов_
3.4 Другие методы
Описанные выше методы являются наиболее часто используемыми при анализе репертуаров Т-клеточных и Б-клеточных рецепторов. В ряде работ были применены новые методы анализа, которые, по имеющейся у автора информации, не были использованы где-то еще,
Оригинальный способ представления данных репертуара был применен в [ВавЫшсИ^еге е! а1., 2013]. В этой работе был построен граф, в котором вершинами являются нуклеотидные последовательности ВСЯ тяжелой цепи, а ребра соединяют вершины, редакционное расстояние между которыми не более 1. Распределение размеров связных компонент графов было проанализировано с помощью индекса (Зии-Зппрзоп и было выявлено, что распределение размеров статистически значимо отличается между группой людей, больных хроническим лимфолейкозом, и контрольной группой.
Рис. 3. Граф нуклеотидных последовательностей BCR. Вершинами являются нуклеотидные последовательности BCR, ребра соединяют вершины, редакционное расстояние между которыми не более 1. Рисунок взят из [Bashford-Rogers et al., 2013]
Создатели Decombinator в работе [Thomas et al., 2014] применили методы машинного обучения для классификации репертуаров TCR мышей на два класса: тех, в кого ввели определенный патоген, и в кого нет. На первом шаге анализа исследователи разбили аминокислотные последовательности CDR3 на k-меры (к = 3 или к = 4), и присвоили им соответствующие Atchley factors - вектор характеристик каждой аминокислоты, таких как гидрофобность. После этого получившиеся векторы были кластеризованы с использованием алгоритма k-means. С помощью перевыборок было оценено число векторов для каждого кластера для каждой мыши, и на последнем шаге алгоритм Support Vector Machines или алгоритм иерархической кластеризации был использован для классификации / кластеризации данных, соответственно.
В статье [DeWitt et al., 2015] была изучена динамика иммунного ответа на вакцину против желтой лихорадки и разработана статистическая процедура для оценки вероятности того, что определенный TCR прореагировал с вирусом в вакцине. Репертуар в двух временных точках представляется как два вектора одинаковой длины с долями клонотипов, которые пришли из двух разных мультиномиальных распределений (до и после вакцинации). Предположив, что суммарная разница в изменениях
доли между двумя временными точками гораздом меньше 1, исследователи с использованием теста Фишера протестировали каждый клонотип и получили p-value для каждого клонотипа, что он возрос в численности между временными точками. Подсчитав positive false discovery rate (pFDR, ожидаемая доля истинных нулевых гипотез среди всех отвергнутых гипотез), была установлена нижняя граница для p-value, которая позволяет статистически значимо идентифицировать отреагировавшие клонотипы. Полученный метод возможно применять в других похожих исследованиях и искать специфические клонотипы к каким-либо патогенным организмам.
4 Модели генерации и селекции TCR
Единственные существующие на данный момент вероятностные модели генерации и селекции TCR бета-цепей были предложены в работах [Murugan et al., 2012] и [Elhanati et al., 2014], соответственно. Модель генерации нуклеотидной последовательности Е с определенным набором сегментов V, D, J и событий (вставки определенной длины, количество удалений, N-нуклеотиды) описывается формулой:
^recomb
х P(delH|F)i>(del/|7)P(del5 'D. de!3 'D\D)
inst^D in sDJ
xP(\mVD) J] p^lx^PiinsDJ) П PD]MM-/=1 /=1
^*gen ^^ ^recomb ( •
EeE„
где Precomb(E) - вероятность сборки нуклеотидной последовательности Е, P(V) - вероятность выбора определенного V-сегмента V, P(D,J) -вероятность выбора пары сегментов D и J, P(delV/V) - вероятность определенного числа удалений при выбранном V, P(deU/J) - вероятность определенного числа удалений при выбранном J, P(ins*) - вероятность вставки определенной длины для VD / DJ сочленений и р(2)(*\ *) -марковская цепь для N-нуклеотидов, где вероятность вставки нуклеотида зависит от нуклеотида на предыдущей позиции. Полная вероятность генерации определенной последовательности CDR3 вычисляется как сумма всех возможных сценариев сборки, которые реализуют эту последовательность:
Статистический вывод значения параметров каждого события генерации был выполнен с помощью ЕМ-алгоритма. На основе данных из девяти человек было определено, что модели генерации между людьми различаются незначительно и оценено возможное число уникальных
Использование компрессии данных для оценки энтропии
простейших клеточных автоматов_
нуклеотидных последовательностей ТС11 бета-цепей с использованием энтропии как 1018.
Модель селекции ТСЯ концептуально высчитывается по различиям между искусственным репертуаром, полученным по вероятностной модели генерации ТСЯ, и экспериментальными данными. Модель для каждого клонотипа описывается формулой:
Ррге (г, V,]) * ;-]
где <2 - "фактор селекции" для определенной нуклеотидной последовательности ТСЯ и фиксированной пары У-1 сегментов, Р^ и Ррге - вероятности появления клонотипа до селекции (другими словами, вероятность генерации клонотипа по вероятностной модели) и после (его доля в экспериментальных данных), соответственно, qL - коэффициент селекции в зависимости от длины последовательности клонотипа, qvJ -коэффициент селекции в зависимости от выбранной пары К/, ц^сц) -коэффициент селекции в зависимости от аминокислоты щ на позиции * в последовательности длины Ь, 2 нормализующая константа. Статистический вывод значений коэффициентов селекции был осуществлен с помощью ЕМ-алгоритма.
5 Модели генерации и селекции ВСЯ
По аналогии с вероятностными моделями генерации и селекции ТСЯ [Мипщап е! а1., 2012; ЕШапай е1 а1., 2014] в работе [ЕШапай е1 а1., 2015] были предложены вероятностные модели генерации и селекции ВСЯ тяжелой цепи, на сегодняшний день не имеющие альтернатив. Модель генерации описывается формулой:
Ррге ~ Р(К Д J)P(iiisVD)P(insDJ)
xP(ddV|F)P(ddlD.deIi-D|D)F(delJjJ) xP(Sl)P(s2|«l) ■ • ■ P(Sjll8VD SjmVD-l) хР(Ь)Р(ЫЬ) • • • P(iin«DJKiniiDJ—l)
Pmem = Ppte > П^/ЗГ'(1 " m' = 1 ifmu,ationat'
^ 77li = U [f not
г
По сравнению с формулой из [Murugan et al., 2012], в модели BCR добавляется вероятность гипермутаций Ртет, которая описывается как вероятность комбинации мутаций и не-мутаций на определенных позиций с фиксированной вероятностью мутации е. Формула селекции BCR аналогична формуле в [Elhanati et al., 2014].
6 Заключение
В данной работе был сделан обзор существующих методов анализа репертуаров Т-клеточных и Б-клеточных рецепторов и их моделей генерации и селекции. Чрезвычайное потенциальное разнообразие иммунных рецепторов и ошибки в данных являются серьезным препятствием для описания полной картины работы адаптивного иммунитета. В силу этого очень многообещающе выглядят методы, основанные на моделях генерации и селекции иммунных рецепторов, которые позволяют напрямую сравнивать те процессы, что создают репертуары и определяют их динамику, но такие методы на данный момент не были разработаны и ждут своего исследователя.
Благодарности
Работа выполнена при поддержке грантов РФФИ 14-04-01823, 13-04-01124,14-04-01062; МК-4583.2015.4; Госконтракт 14.604.21.0118.
Список литературы
[Barak et al., 2008] Barak M., Zuckerman N. S., Edelman H., Unger R., Mehr R. IgTree©: Creating Immunoglobulin variable region gene lineage trees. J. Immunol. Methods, 338, 2008, pp. 67-74.
[Bashford-Rogers et al., 2013] Bashford-Rogers R., Palser A. Network properties derived from deep sequencing of human B-cell receptor repertoires delineate B-cell populations. Genome Research, 2013, pp. 1874—1884.
[Bolotin et al., 2013] Bolotin D.A. et al. MiTCR: software for T-cell receptor sequencing data analysis. Nat. Methods 10,2013, pp. 813-814.
[Bonissone et al., 2015] Bonissone S., Pevzner R Immunoglobulin Classification Using the Colored Antibody Graph. Lecture Notes in Computer Science, 2015, pp. 44-59.
[DeWitt et al., 2015] DeWitt W. S. et al. Dynamics of the Cytotoxic T Cell Response to a Model of Acute Viral Infection. J. Virol. 249,2015.
[Elhanati et al., 2014] Elhanati Y., Murugan A., Callan C.G Mora, Т., Walczak A.M. Quantifying selection in immune receptor repertoires. Proc. Natl. Acad. Sci., Ill, 2014, pp. 9875 - 9880.
[Elhanati et al., 2015] Elhanati Y., Murugan A.,Callan C.G Mora, Т., Walczak A.M. Inferring processes underlying B-cell repertoire diversity, http://arxiv.org/abs/1502.03136,2015.
[Gaeta et al., 2007] Gaeta B.A., Maiming H.R., Jackson K.J., Bain M.E., Wilson P., Collins A.M. fflMMune-align: Hidden Markov model-based alignment and identification of germline genes in rearranged immunoglobulin gene sequences. Bioinformatics 23, 2007, pp. 1580-1587.
[Giraud et al., 2015] Giraud M. et al. Fast multiclonal clusterization of V(D)J recombinations from high-throughput sequencing. BMC Genomics, 15,2015, p. 409.
[Jost, 2007] Jost L. Partitioning diversity into independent alpha and beta components. Ecology, 88,2007, pp. 2427 - 2439.
[Kleinstein et al., 2003] Kleinstein S. H., Louzoun Y., Shlomchik, M. J. Estimating Hypermutation Rates from Clonal Tree Data. J. Immunol. 171,2003, pp. 4639^649.
Использование компрессии данных для оценки энтропии
простейших клеточных автоматов_
[Li et al., 2013] Li S., Lefranc M.-P. et al. IMGT/HighV QUEST paradigm for T cell receptor IMGT clonotype diversity and next generation repertoire immunoprofiling. Nat Commun, 4(May), 2013, pp. 2333.
[Mirsky et al., 2015] Mirsky A., Kazandjian L., Anisimova M. Antibody-specific model of amino acid substitution for immunological inferences from alignments of antibody sequences. Mol. Biol. Evol. 32,2015, pp. 806-819.
[Munshaw et al., 2010] Munshaw S., Kepler T.B. SoDA2: a hidden Markov model approach for identification of immunoglobulin rearrangements. Bioinformatics 26,2010, pp. 867-872.
[Murugan et al., 2012] Murugan A., Mora Т., Walczak A.M., Callan C.G. Statistical inference of the generation probability of T-cell receptors from sequence repertoires. Proc. Natl. Acad. Sci, 109,2012. pp. 161-166.
[Ralph et al., 2015] Ralph D., Matsen F. A. IV. Consistency of VDJ rearrangement and substitution parameters enables accurate В cell receptor sequence annotation. http://aixiv.Org/abs/l503.04224, 2015.
[Robins et al., 2009] Robins H.S., Campregher P.V., Srivastava S.K., Wacher A., Turtle C.J., Kahsai O., et al. Comprehensive assessment of T-cell receptor beta-chain diversity in alpha-beta T cells. Blood, 114,2009, pp. 4099 - 4107.
[Sok et al., 2013] Sok D. et al. The Effects of Somatic Hypermutation on Neutralization and Binding in the PGT121 Family of Broadly Neutralizing HIV Antibodies. PLoS Pathog., 9, el003754,2013.
[Thomas et al., 2013] Thomas N, Heather J., Ndifon W., Shawe-Taylor J., Chain B. Decombinator: A tool for fast, efficient gene assignment in T-cell receptor sequences using a finite state machine. Bioinformatics, 29,2013, pp. 542-550.
[Thomas et al., 2014] Thomas N. et al. Tracking global changes induced in the CD4 T cell receptor repertoire by immunization with a complex antigen using short stretches of CDR3 protein sequence. Bioinformatics, 2014.
[Uduman et al., 2013] Uduman M., Shlomchik M.J., Vigneault F., Church GM., Kleinstein S.H. Integrating В Cell Lineage Information into Statistical Tests for Detecting Selection in Ig Sequences. J. Immunol. 192,2013, pp. 867-874.
[Venturi et al., 2008] Venturi V., Kedzierska К., Tanaka M.M., Turner S.J., Doherty P.C., Davenport M.P. Method for assessing the similarity between subsets of the T cell receptor repertoire. J Immunol Methods, 329,2008, pp. 67 - 80.
[Warren et al., 2011] Warren et al. Exhaustive T-cell repertoire sequencing of human peripheral blood samples reveals signatures of antigen selection and a directly measured repertoire size of at least 1 million clonotypes. Genome Res., 21,2011, pp. 790 - 797.
[Yaari et al., 2012] Yaari G., Uduman M., Kleinstein S.H. Quantifying selection in high-throughput Immunoglobulin sequencing data sets. Nucleic Acids Res. 40,2012, el34.
[Yang et al., 2015] Yang X. et al. TCRklass: a new K-string-based algorithm for human and mouse TCR repertoire characterization. J Immunol, 194(1), 2015, pp. 446-454.
[Ye et al., 2013] Ye J, Ma N, Madden TL, Ostell JM: IgBLAST: an immunoglobulin variable domain sequence analysis tool. Nucleic Acids Res, 41(May), 2013, pp. 34-40.
[Zvyagin et al., 2014] Zvyagin, I.V. et al. Distinctive properties of identical twins' TCR repertoires revealed by high-throughput sequencing. Proc. Natl. Acad. Sci., Ill, 2014, pp. 5980 - 5985.