Научная статья на тему 'Анализ данных высокопроизводительного секвенирования репертуаров антител с использованием уникальных молекулярных идентификаторов'

Анализ данных высокопроизводительного секвенирования репертуаров антител с использованием уникальных молекулярных идентификаторов Текст научной статьи по специальности «Фундаментальная медицина»

CC BY
224
46
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Иммунология
Scopus
ВАК
CAS
RSCI
Ключевые слова
ГУМОРАЛЬНЫЙ АДАПТИВНЫЙ ИММУНИТЕТ / HUMORAL ADAPTIVE IMMUNITY / РЕПЕРТУАР АНТИТЕЛ / ANTIBODY REPERTOIRE / B-ЛИМФОЦИТЫ / МОЛЕКУЛЯРНОЕ БАРКОДИРОВАНИЕ / MOLECULAR BARCODING / ВЫСОКОПРОИЗВОДИТЕЛЬНОЕ СЕКВЕНИРОВАНИЕ / HIGH-THROUGHPUT SEQUENCING / B CELLS

Аннотация научной статьи по фундаментальной медицине, автор научной работы — Лебедин М. Ю., Турчанинова М. А., Егоров Е. С., Британова О. В., Чудаков Дмитрий Михайлович

Использование высокопроизводительного секвенирования сделало возможным проведение глубокого анализа репертуаров последовательностей гипервариабельных CDR3 участков иммунных рецепторов. Однако способность B-клеточных рецепторов к накоплению на всем протяжении вариабельного домена гипермутаций, неотличимых по своей природе от ошибок ПЦР, а также низкое качество протяженного секвенирования существенно затрудняют анализ репертуаров полноразмерных вариабельных последовательностей иммуноглобулинов. В настоящем обзоре мы показываем, как применение уникальных молекулярных идентификаторов (unique molecular identifiers, UMI) и биоинформатического анализа позволяет получить практически безошибочный репертуар иммуноглобулинов для сложных популяций B-лимфоцитов, содержащих минорные гипермутировавшие подварианты.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по фундаментальной медицине , автор научной работы — Лебедин М. Ю., Турчанинова М. А., Егоров Е. С., Британова О. В., Чудаков Дмитрий Михайлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

HIGH-THROUGHPUT IMMUNOGLOBULIN SEQUENCING DATA ANALYSIS WITH THE USE OF UNIQUE MOLECULAR IDENTIFIERS

High-throughput sequencing made deep analysis of immune receptors repertoires possible. However, B cells’ ability to accumulate hypermutations indistinguishable from PCR errors along whole variable domain and low quality of extended sequencing still impose a serious obstacle to analysis of full-length variable immunoglobulin sequence repertoires. In present review we demonstrate how molecular barcoding technique (unique molecular identifiers, UMI) and bioinformatics analysis provide nearly error-free immunoglobulin repertoires profiling of complex B-cell populations comprising minor hypermutated subvariants.

Текст научной работы на тему «Анализ данных высокопроизводительного секвенирования репертуаров антител с использованием уникальных молекулярных идентификаторов»

59. De vito P., Incerpi S., Pedersen J.Z., Luly P., Davis F.B., Davis P.J. Thyroid hormones as modulators of immune activities at the cellular level. Thyroid. 2011; 21(8): 879—90.

60. Kvetnoy I.M., Ingel' I.E. Hormonal function non-endocrine cells: role of the new biological phenomenon in the regulation of homeostasis. Byull. eksper. biologii i meditsiny. 2000; 11: 483—7. (in Russian)

61. Pruett S.B. Quantitative aspects of stress-induced immunomodulation. J. Int. Immunopharmacol. 2001; 1(3): 507—20.

62. Filippova L.v., Nozdrachev A.D. Interoception andneuroimmune interaction. [Interoretseptsiya i neyroimmunnye vzaimodeystviya]. St. Petersburg: Nauka; 2007. (in Russian)

63. Takayasu S., Iwasaki Y., Nigawara T., Asai M., Yoshida M., Kageya-ma K. et al. Involvement of nuclear factor-kB and Nurr-1 in cy-tokine-induced transcription of proopiomelanocortin gene in AtT20 corticotroph cells. Neuroimmunomodulation. 2010; 17(2): 88—96.

64. De vito P., Incerpi S., Pedersen J.Z., Luly P., Davis F.B., Davis P.J. Thyroid hormones as modulators of immune activities at the cellular level. Thyroid. 2011; 21(8): 879—90.

65. Arranz A., Androulidaki A., Zacharioudaki v., Martinez C., Margio-ris A.N., Gomariz R.P. et al. vasoactive intestinal peptide suppresses toll-like receptor 4 expression in macrophages via Akt1 reducing their responsiveness to lipopolysaccharide. Mo. Immunol. 2008; 10: 2970—80.

66. Popova E.v., Tin'kov A.A., Nikonorov A.A., Popova Yu.v., Karau-lov A.v. The effect of prolactin on the immune system under stress. Immunopatologiya, allergologiya, infektologiya. 2016; 1: 14—19. (in Russian)

67. Karaulov A.v., Kalyuzhin O.v. Cytokines: the biological action and clinical application. Uspekhi klinicheskoy immunologii i allergologii. Moscow; 2000. (in Russian)

68. Khaitov R.M. Physiology of the immune system. [Fiziologiya im-munnoy sistemy]. Moscow: vINITI RAN; 2001. (in Russian)

69. Gaillard R.C. Interaction between the hypothalamo-pituitary-adrenal axis and the immunological system. J. Ann. Endocrinol. 2001; 62(2): 155—63. (in Russian)

REVIEWS

70. Anisman H., Gibb J., Hayley S. Influence of continuous infusion of interleukin-1beta on depression-related processes in mice: corti-costerone, circulating cytokines, brain monoamines, and cytokine mRNA expression. Psychopharmacology. 2008; 199(2): 231—44.

71. Gruol D.L. IL-6 regulation of synaptic function in the CNS. Neuropharmacology. 2015; 96: 42—54.

72. Penkowa M., Hidalgo J. IL-6 deficiency leads to reduced metalloth-ionein-I + II expression and increased oxidative stress in the brain stem after 6-aminonicotinamide treatment. J. Exp. Neurol. 2000; 163(1): 72—84.

73. Galinowski A. Neuro-psycho-immunology: the influence of aging on the biological mechanisms of stress, anxiety and depression. encephale. 2006; 32: 1112—4.

74. Khananashvili Ya.A., Khloponin P.A., Khloponin D.P. Apoptosis: morphogenetic and physiological aspects. [Apoptoz: morfogenet-icheskie i fiziologicheskie aspekty]. Rostov-on-Don: RGMU, 2001. (in Russian)

75. Dantzer R., Konsman J.P. Neural and humoral pathways of communication from the immune system to the brain: parallel or convergent? J. Auton. Neurosci. 2000; 1—3: 60—5.

76. Lotrich F.E. Inflammatory cytokine-associated depression. Brain Res. 2015; 617: 113—25.

77. Oosterhof N., Boddeke E., van Ham T.J. Immune cell dynamics in the CNS: Learning from the zebrafish. Glia. 2015; 63(5): 719 —35.

78. Billiau A. Interferon: the pathways of discovery I. Molecular and cellular aspects. Cytokine Growth Factor rev. 2006; 17(5): 381—409.

79. Karaulov A.v. Mechanisms of development of immune disorders under stress and methods of their correction. [Mekhanizmy razvitiya immunologicheskikh narusheniy pri stresse i metody ikh korrektsii.]. In: Pokrovskiy v.I., eds. Rukovodstvo po reabilitatsii lits, podverg-shikhsya stressornym nagruzkam. Moscow; 2004. (in Russian)

Поступила 04.06.16 Принята к печати 16.08.16

© КОЛЛЕКТИВ АВТОРОВ, 2017 УДК 612.017.1;577.2.083

Лебедин М.Ю.1, Турчанинова М.А12, Егоров Е.С12, Британова О.В12, Чудаков Д.М.1 2

АНАЛИЗ ДАННЫХ ВЫСОКОПРОИЗВОДИТЕЛЬНОГО СЕКВЕНИРОВАНИЯ РЕПЕРТУАРОВ АНТИТЕЛ С ИСПОЛЬЗОВАНИЕМ УНИКАЛЬНЫХ МОЛЕКУЛЯРНЫХ ИДЕНТИФИКАТОРОВ

1Институт биоорганической химии им. академиков М.М. Шемякина и Ю.А. Овчинникова РАН, 117997, г. Москва;

2Российский национальный исследовательский медицинский университет им. Н.И. Пирогова, 117997, г. Москва

Использование высокопроизводительного секвенирования сделало возможным проведение глубокого анализа ре-пертуаров последовательностей гипервариабельных CDR3 участков иммунных рецепторов. Однако способность B-клеточных рецепторов к накоплению на всем протяжении вариабельного домена гипермутаций, неотличимых по своей природе от ошибок ПЦР, а также низкое качество протяженного секвенирования существенно затрудняют анализ репертуаров полноразмерных вариабельных последовательностей иммуноглобулинов. В настоящем обзоре мы показываем, как применение уникальных молекулярных идентификаторов (unique molecular identifiers, UMI) и биоинформатического анализа позволяет получить практически безошибочный репертуар иммуноглобулинов для сложных популяций B-лимфоцитов, содержащих минорные гипермутировавшие подварианты.

Ключевые слова: гуморальный адаптивный иммунитет; репертуар антител; B-лимфоциты; молекулярное

баркодирование; высокопроизводительное секвенирование. Для цитирования: Лебедин М.Ю., Турчанинова М.А., Егоров Е.С., Британова О.В., Чудаков Д.М. Анализ данных высокопроизводительного секвенирования репертуаров антител с использованием уникальных молекулярных идентификаторов. Иммунология. 2017; 38(1): 59-63. DOI: 10.18821/0206-4952-2017-38-1-59-63

Для корреспонденции: Чудаков Дмитрий Михайлович, д-р биол. наук, зав. лабораторией геномики адаптивного иммунитета ИБХ РАН, E-mail: [email protected]

ОБЗОРЫ

LebedinM.Y.1, TurchaninovaM.A.1-2, EgorovE.S.12, Britanova O.V.12, ChudakovD.M.12*

HIGH-THROUGHPUT IMMUNOGLOBULIN SEQUENCING DATA ANALYSIS WITH THE USE OF UNIQUE MOLECULAR IDENTIFIERS

1 Shemiakin-Ovchinnikov Institute of Bioorganic Chemistry, Russian Academy of Science, 117997, Miklukho-Maklaya 16/10, Moscow, Russia;

2 Pirogov Russian National Research Medical University, 117997, Ostrovityanova 1, Moscow, Russia.

High-throughput sequencing made deep analysis of immune receptors repertoires possible. However, B cells' ability to accumulate hypermutations indistinguishable from PCR errors along whole variable domain and low quality of extended sequencing still impose a serious obstacle to analysis of full-length variable immunoglobulin sequence repertoires. In present review we demonstrate how molecular barcoding technique (unique molecular identifiers, UMI) and bioinformatics analysis provide nearly error-free immunoglobulin repertoires profiling of complex B-cell populations comprising minor hypermutated subvariants.

Keywords: humoral adaptive immunity; antibody repertoire; B cells; molecular barcoding; high-throughput sequencing.

For citation: Lebedin M.Y., TurchaninovaM.A., Egorov E.S., Britanova O. V., Chudakov D.M. High-throughput immunoglobulin sequencing data analysis with the use of unique molecular identifiers. Immunologiya.2017; 38(1): 59-63. DOI: 10.18821/0206-4952-2017-38-1-59-63

For correspondence: Chudakov Dmitry Mikhaylovich, Dr. Biol. Sci., head. the laboratory of genomics of adaptive immunity the Institute of Bioorganic chemistry, E-mail: [email protected]

conflict of interest. The authors declare no conflict of interest.

Acknowledgments. The work was supported by the Russian science Foundation, grant No. 14-14-00533.

Received 02.10.16 Accepted 03.11.16

введение

Современные методы высокопроизводительного секвени-рования (high throughput sequencing, HTS) позволяют глубоко проанализировать клональное разнообразие T-клеточных рецепторов [1—4] и иммуноглобулинов [5—9], определяющих специфичность адаптивного иммунного ответа. Применение этих методов в фундаментальных и биомедицинских исследованиях становится рутинным в иммунологии. Анализ кло-нальных репертуаров B-лимфоцитов с помощью HTS уже был успешно использован в ряде работ [5, 6, 10—16]. Такой анализ необходим в широком спектре задач, в частности при изучении механизмов, лежащих в основе развития и формирования репертуара наивных и активированных B-лимфоцитов {Briney, 2012 #2774; Larimore, 2012_#1056; wu, 2010 #1814}, исследовании возрастных изменений гуморального иммунного ответа {Siegrist,_2009 #2776; wang, 2014 #1632}, мониторинга иммунного ответа при аутоиммунных [17, 18] и инфекционных [14, 19] заболеваниях, при исследовании B-клеточных раков [20, 21], для идентификации и оптимизации антиген-специфичных моноклональных антител {Fridy, 2014_#2785;Lu, 2014 #2786}, а также при разработке оптимальных стратегий вакцинации {Lu, 2014 #2786; Lavinder, 2014 #2788; Jiang, 2013 #1653; Ademokun, 2011 #1659}.

Однако чем глубже мы хотим проанализировать репер-туары иммунных рецепторов, тем сложнее выявить редкие клональные варианты и отличить истинные гомологичные последовательности от множества искусственных подвари-антов, образующихся в результате накопления ошибок в процессе ПЦР-амплификации и секвенирования. Анализ репертуаров антител существенно осложняет наличие в структуре вариабельной области так называемых гипермутаций — ну-клеотидных замен, а также небольших делеций и вставок (инделов), способствующих повышению их изначального комбинаторного разнообразия.

С одной стороны, возможное наличие гипермутаций делает необходимым сквозное прочтение всего вариабельного домена (в отличие от репертуаров Т-клеточных рецепторов, для каждого из которых достаточно по небольшому фрагменту последовательности определить используемый вариабельный v-сегмент). Для такого прочтения требуется совокупная длина секвенирования порядка 480 нуклеотидов в случае амплификации с использованием мультиплексного ПЦР и порядка 670 нуклеотидов при использовании метода 5' RACE

[22] (с учетом захвата нетранслируемого 5' участка, 5'UTR). Чтение такой длины принципиально возможно на секвенато-рах Illumina (парное чтение 340 + 340 нуклеотидов), однако качество такого анализа крайне низко. Чтение на вышедших из употребления секвенаторах 454 также было возможно, однако отличалось низкой производительностью и невысоким качеством.

С другой стороны, накопленные гипермутации сходны по своей природе с ошибками ПЦР, накапливаемыми в ходе приготовления библиотек генов иммуноглобулинов. На практике невозможно отличить реально существующие подвари-анты последовательностей антител от искусственно генерируемых.

По этим причинам глубокий безошибочный полноразмерный анализ репертуаров иммуноглобулинов до недавнего времени оставался практически невыполнимой задачей. Ситуация изменилась с разработкой подхода, основанного на использовании так называемых уникальных молекулярных идентификаторов, или баркодов (UMI) [23—28]. Как показано далее, использование UMI в ходе биоинформатической обработки данных HTS позволяет радикально повысить качество секвенирования, значительно увеличить длину надежного прочтения, а также устранить накопленные ошибки ПЦР и секвенирования без потерь реального разнообразия репертуаров иммуноглобулинов.

Повышенная длина и качество длинных прочтений

Анализ вариабельной области тяжелых и легких цепей иммуноглобулинов, полученной на матрице кДНК по технологии RACE [22], требует совокупной длины прочтения в 650—670 нуклеотидов (от 5'UTR до J-сегмента, а также включая примерно 30—40 нуклеотидов C-сегмента, необходимых для определения изотипа антител).

Такая длина теоретически доступна на Illumina MiSeq с использованием набора для парного секвенирования 600 нуклеотидов, в состав которого входит достаточное количество реагентов для выполнения 650 циклов реакции. Однако качество секвенирования Illumina быстро снижается по мере прочтения, опускаясь до крайне низких значений после 300 нуклеотидов, что делает невозможным получение надежной информации о последовательности антител в средней части вариабельного фрагмента, содержащей важные для распознавания антигена участки CDR1 и CDR2.

Использование молекулярного баркодирования стар-

товых молекул кДНК позволяет сгруппировать прочтения секвенирования, относящиеся к одним и тем же молекулам кДНК (т. е. несущие одни и те же UMI).

Такая группировка позволяет получить высококачественную консенсусную последовательность для каждой стартовой молекулы кДНК. Например, если отчет Illumina по качеству прочтения сообщает, что есть 10% вероятность, что «G» в положении X оказывается ошибкой (Phred = 10), но при этом есть 5 таких прочтений, покрывающих одну и ту же матричную молекулу, совокупная вероятность ошибки снижается до 0,001% (условный Phred = 50, рис. 1 см. на 3-й полосе обложки). Таким образом, точность определения нуклеотида в каждом положении возрастает на порядки. Такой анализ радикально повышает доступную длину надежного прочтения нуклеотидов, позволяя уверенно покрыть всю вариабельную область тяжелой или легкой цепи анализируемой смеси последовательностей иммуноглобулинов.

Если в пяти прочтениях в одной позиции находится один и тот же нуклеотид (показан рамкой) с качеством прочтения Illumina Phred = 10 (вероятностью ошибки 10%), то в полученной консенсусной последовательности (подчеркнута) вероятность ошибки составляет 0,001% (Phred = 5 • 10 = 50). Вероятность ошибки (p) связана с показателем качества Phred (Q) через следующую формулу: p = 10 Л (-Q/10). Ошибочные нуклеотиды в прочтениях, исправляемые в составе консенсусной последовательности, показаны красным.

Кроме того, мы разработали принципиально новую стратегию протяженного секвенирования с применением UMI, позволяющую практически безошибочно секвенировать фрагменты длиной до 750 нуклеотидов [28]. В этой стратегии мы использовали асимметричное 400 + 100 нт парное секвенирование Illumina MiSeq. Дело в том, что после стандартного лигирования адаптеров Illumina к библиотеке генов, подготавливаемой для высокопроизводительного секвениро-вания, 50% получаемых молекул оказываются ориентированы 5'—3' относительно будущего 1-го прочтения, а 50% — 3'—5'. Таким образом, около 50% первых 400-нуклеотидных прочтений покрывают каждую исходно меченную UMI молекулу кДНК с 5'-конца, тогда как остальные 50% первых прочтений покрывают ту же молекулу с З'-конца (рис. 2 см. на 3-й полосе обложки).

При таком сценарии 2-е 100-нуклеотидные прочтения используют лишь для определения последовательности UMI. Сборка первых прочтений по UMI приводит к получению высококачественных последовательностей длиной в 400 нуклеотидов, часть которых покрывает 3'-, а другая часть — 5'-конец молекул кДНК. Далее объединение таких высококачественных частей последовательности, несущих один и тот же UMI, обеспечивает совокупную длину высококачественного секвенирования до 720—750 нуклеотидов, достаточную для определения последовательности даже очень длинных вариантов иммуноглобулинов [28]. Важно, что в ходе построения консенсусной последовательности по UMI устраняются не только ошибки секвенирования, но также и накопленные ошибки ПЦР, как описано далее.

Исключение накопленных ошибок

Ошибки амплификации и секвенирования накапливаются в существенном количестве в процессе приготовления и анализа библиотек. В то же время истинные гипермутированные подварианты иммуноглобулинов с одной или несколькими заменами могут быть представлены в малых количествах, как и искусственные варианты — результат ошибок ПЦР и секвени-рования. Как соматические гипермутации, так и накапливаемые ошибки ПЦР имеют эволюционную, ветвящуюся архитектуру и оказываются неотличимы друг от друга при анализе группы гомологичных вариантов иммуноглобулинов. Коррекция ошибок, основанная на относительных частотах встречаемости подвариантов клонотипов, достаточно эффективная

REVIEWS

при анализе репертуаров T-клеточных рецепторов [29—31], приводит к выраженной потере интересующих гипермутированных подвариантов в процессе анализа репертуаров иммуноглобулинов (и при анализе репертуаров T-клеточных рецепторов такой подход может приводить к потере гомологичных вариантов, с небольшой частотой возникающих в результате конвергентной рекомбинации в тимусе).

Однако большинство ошибок ПЦР происходят на поздних циклах, когда в реакции участвует множество молекул. В результате такие ошибки, так же как и ошибки секвениро-вания, оказываются представлены лишь малой долей прочтений, покрывающих одну и ту же стартовую молекулу ДНК или кДНК. В ходе построения консенсусной последовательности с использованием UMI устраняются как ошибки сек-венирования, так и большинство ошибок ПЦР, накопленных в процессе приготовления библиотек (см. рис. 1, ошибочные нуклеотиды показаны красным). В процессе такого анализа сохраняются малопредставленные редкие гомологичные подварианты (в отличие от коррекции, основанной на относительной частоте встречаемости вариантов последовательностей в общем пуле прочтений секвенирования).

С использованием контрольных вариантов последовательностей мы показали, что при полноразмерном анализе кДНК библиотек вариабельных фрагментов тяжелых цепей антител частота ошибок после коррекции с помощью UMI составляет примерно одну ошибку на 10 000 пар оснований на UMI [28]. Для сравнения: при стандартном подходе частота ошибок составляет 1 на 100—300 пар оснований на прочтение или выше.

Ошибки, не поддающиеся коррекции в ходе построения консенсуса по UMI, происходят из двух источников: 1) возникающие в процессе синтеза кДНК. Поскольку UMI в используемой нами технологии включается в процессе синтеза кДНК, ошибка, приобретенная на этой стадии, будет по определению содержаться во всех прочтениях, полученных для данной стартовой молекулы. Очевидно, что такие ошибки не могут быть скорректированы с использованием UMI; 2) произошедшие на ранних циклах ПЦР, получившие в силу стохастической природы ПЦР преимущество в ходе дальнейшей амплификации и в результате доминирующие внутри своей группы прочтений UMI.

Однако ошибки синтеза кДНК, как и ошибки первых циклов амплификации, очень редки, т. к. они происходят на том этапе, когда в реакции участвует минимальное количество синтезированных молекул. Для устранения ошибок, оставшихся после UMI-коррекции, целесообразно применять коррекцию на основании соотношения частот встречаемости вариантов последовательностей. При этом следует использовать соотношения либо ожидаемые частоты ошибок, установленные экспериментально для конкретного протокола пробоподготовки и секвенирования на контрольных вариантах последовательностей.

Количественный анализ представленности подва-риантов иммуноглобулинов

Существенные различия в уровне экспрессии мРНК иммуноглобулинов между различными функциональными субпопуляциями B-лимфоцитов не позволяют проводить количественный анализ репертуаров с использованием кДНК библиотек несортированных клеток крови. Плазматические клетки в периферической крови составляют от 1 до 5% всей популяции B-клеток [32, 33]. Уровень экспрессии мРНК иммуноглобулинов у плазматических клеток, чья основная функция — секреция большого количества антител, может существенно отличаться от подобной экспрессии у наивных и B-клеток памяти [34]. По нашим оценкам, по сравнению с плазматическими клетками уровень экспрессии мРНК генов иммуноглобулинов B-клетками памяти ниже в среднем в 100 раз, наивными B-лимфоцитами — в 250. В связи с этим даже несколько плазматических клеток, попавших в анализ кДНК библиотек антител, при расчете стар-

ОБЗОРЫ

тового числа молекул могут быть ошибочно приняты за значительную клональную экспансию.

Избавиться от погрешностей в количественном определении клонального состава, связанных с межпопуляционной гетерогенностью B-лимфоцитов, можно, сосредоточившись на конкретной функциональной субпопуляции B-клеток (плазматических, наивных или клетках памяти), сортированных с помощью метода проточной цитометрии или сепарации на магнитных шариках.

Уровень экспрессии мРНК может также заметно отличаться между индивидуальными В-лимфоцитами в пределах одной функциональной субпопуляции. Наиболее эффективный способ минимизировать влияние такой гетерогенности — использовать для выделения РНК и синтеза кДНК стартовые образцы с большим количеством клеток. При этом в дальнейшую работу для обеспечения необходимого покрытия секве-нирования следует брать лишь определенную часть полученной кДНК (подробнее об этом будет сказано далее).

Возможно, использование геномной ДНК в качестве исходного материала для анализа репертуаров иммуноглобулинов было бы предпочтительней для количественного анализа, т. к. помогло бы избежать количественных искажений из-за различий в уровне экспрессии мРНК иммуноглобулинов. Однако, с одной стороны, на сегодняшний день не было предложено эффективного метода для введения UMI в геномную ДНК, выделенную из нескольких тысяч клеток (как правило, таково доступное для анализа число плазматических клеток через 8 дней после иммунизации, когда их численность в периферической крови достигает пика). С другой стороны, подходы, основанные на геномной ДНК, также несут в себе ряд недостатков, в частности невозможно определить изотип антитела, а также велика вероятность потери редких клонов, генетический материал которых при условии старта с геномной ДНК будет представлен в образце единичными молекулами. В будущем методы, основанные на кДНК и геномной ДНК, могут быть скомбинированы для получения максимальной информации из каждого интересующего образца.

Ошибки в составе UMI

Ошибки ПЦР и секвенирования случаются в том числе и в последовательности самого уникального молекулярного идентификатора. Молекулярный баркод длиною в 12 случайных нуклеотидов после всех этапов амплификации и секве-нирования может давать порядка 10—20 искусственных под-вариантов. Соответственно в ходе анализа данных прочтения с идентичными UMI будут собраны во множество групп, в то время как в реальности речь идет об одной и той же стартовой молекуле. Еще большее число искусственных подвари-антов баркодов было обнаружено при тестировании модельной системы из 16-нуклеотидных UMI [35].

Однако, как и в случае ошибок в анализируемых последовательностях иммуноглобулинов, ошибки в составе UMI в подавляющем большинстве происходят на поздних стадиях ПЦР либо в ходе секвенирования. Такие ошибки характеризуются низким покрытием секвенирования и могут быть относительно легко отфильтрованы по этому признаку. Величина оптимального порога, выраженного в минимальном количестве прочтений на каждый UMI, может варьироваться в зависимости от размера стартовой библиотеки и достигаемого покрытия секвенирования.

Фильтрация уникальных идентификаторов по количеству прочтений позволяет избавиться от искусственного разнообразия UMI. Однако в редких случаях, если ошибка в UMI произошла на ранних циклах ПЦР, количество прочтений для него может не сильно отличаться от среднего, и фильтрация не ликвидирует такой баркод. Для более точного удаления ошибочных UMI проводят биоинформатический анализ родства последовательностей идентификаторов. Поскольку вероятность встречи двух вариантов UMI, отличающихся одним ну-

клеотидом, существенно ниже, чем вероятность ошибки ПЦР, такие «дочерние» подварианты UMI можно удалить [25].

Другим способом избежать ложного разнообразия UMI, возникающего из-за ошибок ПЦР, служит использование оптимизированных UMI, отобранных таким образом, чтобы каждый идентификатор отличался от любого другого не менее чем на 9 нуклеотидов. Однако такие UMI синтезируются индивидуально, что делает их использование дорогостоящим. Кроме того, их возможное число ограничено, что накладывает ограничение на количество стартовых молекул: при включении 150 оптимизированных UMI с обоих концов ампликона разнообразие идентификаторов составляет всего 22 500 вариантов [36]. Для анализа большого количества молекул (больше 10 000) и относительно точной фильтрации дочерних UMI применяют частично вырожденные идентификаторы, не имеющие в составе одного из нуклеотидов. Кроме описанных преимуществ, Mk, оптимизированные и частично вырожденные UMI, с меньшей вероятностью образуют вторичные структуры и гибридизуются вне целевой последовательности, что увеличивает эффективность и равномерность амплификации и снижает количество необходимых для получения библиотеки циклов ПЦР [27].

случайные совпадения UMI

При глубоком анализе (анализе большого числа молекул ДНК или кДНК иммуноглобулинов) может происходить естественное повторение последовательности уникальных молекулярных идентификаторов [26, 35, 37]. Например, теоретически возможное разнообразие 12-нуклеотидных UMI составляет порядка 1,7 • 107 уникальных вариантов. Если в образце с 10 000 случайными UMI вероятность встретить пару одинаковых или отличающихся на один нуклеотид молекулярных идентификаторов невелика, то при глубоком сек-венировании, когда в образце присутствуют миллионы стартовых молекул, частота подобных совпадений существенно возрастает. При анализе данных становится практически невозможно отличить естественные коллизии от искусственного разнообразия баркодов, вызванного накоплением ошибок в ходе секвенирования и амплификации. Соответственно при глубоком анализе данных массированного секвенирования с использованием технологий на основе UMI необходимо учитывать соотношение разнообразия используемых уникальных идентификаторов и анализируемого числа молекул.

необходимое покрытие секвенирования

Использование подходов, основанных на UMI, требует достижения достаточного покрытия секвенирования, выраженного в числе прочтений на один молекулярный баркод (одну стартовую молекулу кДНК либо гДНК). По нашему опыту, для эффективного построения консенсусной последовательности и исправления ошибок секвенирования и ПЦР требуется не менее 4—5 прочтений на UMI. На первый взгляд такое покрытие может показаться дорогостоящим для исследователя. На практике, однако, небольшое количество стартовых молекул часто анализируют избыточным числом прочтений, на которые тратят на порядки больше ресурсов, чем это необходимо. Применение молекулярных идентификаторов позволяет в ходе анализа данных оценить реальное число молекул на старте реакции, стандартизировать протокол и в дальнейшем использовать оптимальное количество материала и объем секвенирования.

Чем меньше молекул кДНК анализируется, тем выше получаемое качество секвенирования. В то же время цель HTS технологии — глубокий анализ сложности репертуара, т. е. анализ большего количества молекул начального материала. Компромисс между этими проблемами определяет достаточно узкий диапазон оптимального количества исследуемых молекул кДНК либо гДНК иммуноглобулинов на один запуск секвенирования Illumina MiSeq. Число целевых парных про-

чтений последовательностей иммуноглобулинов после всех стадий фильтрации по качеству может колебаться в пределах от 10 до 15 млн на одно успешное секвенирование на приборе MiSeq. Принимая во внимание желательное 10-кратное покрытие каждой начальной молекулы и неравномерность покрытия, оптимальное число молекул на старте ПЦР для последующего приготовления библиотек и секвенирования на MiSeq составляет около 200 000—250 000 молекул [28]. Учитывая эти значения, а также уровень экспрессии мРНК генов иммуноглобулинов и среднюю эффективность встраивания UMI в синтезируемые молекулы кДНК, легко рассчитать долю кДНК, необходимую для создания библиотеки с желаемым покрытием секвенирования для каждого конкретного образца сортированных B-клеток. При использовании для приготовления библиотек гДНК задача упрощается и сводится к оценке эффективности мечения стартовых молекул гДНК уникальными молекулярными идентификаторами.

Заключение

Применение уникальных молекулярных идентификаторов, асимметричного прочтения и современных биоинфор-матических инструментов позволяет проводить практически безошибочный анализ репертуаров гипермутирующих иммуноглобулинов. При секвенировании с достаточным уровнем покрытия использование UMI позволяет скорректировать ошибки, возникающие на поздних циклах амплификации и в ходе секвенирования, а асимметричное прочтение дает возможность секвенировать ПЦР-продукты длиной вплоть до 700—750 пар оснований. Благодаря этому исследователи могут получать высококачественные полноразмерные последовательности вариабельной области генов иммуноглобулинов даже для относительно длинных кДНК библиотек, получаемых с использованием технологии template switch RACE.

Точность определения частоты представленности различных клональных вариантов B-лимфоцитов на основе кДНК анализа репертуаров иммуноглобулинов остается умеренной из-за различий в уровне экспрессии мРНК иммуноглобулинов как между клонами В-клеток, так и отдельными B-лимфоцитами. Точный количественный анализ клональных репертуаров B-лимфоцитов станет возможным с разработкой эффективных методов приготовления UMI-меченных библиотек генов иммуноглобулинов на основе геномной ДНК.

Финансирование. Работа поддержана Российским на-учнъм фондом, грант № 14-14-00533.

Конфликт интересов. Авторы заявляют об отсутствии конфликта интересов.

литература (references)

1. Robins H.S. et al. Comprehensive assessment of T-cell receptor beta-chain diversity in alphabeta T cells. Blood. 2009; 114(19): 4099—107.

2. Freeman J.D. et al. Profiling the T-cell receptor beta-chain repertoire by massively parallel sequencing. Genome Res. 2009; 19(10): 1817—24.

3. Mamedov I.Z. et al. Quantitative tracking ofT cell clones after haematopoietic stem cell transplantation. EMBO Mol. Med. 2011; 3(4): 201—7.

4. Warren R.L. et al. Exhaustive T-cell repertoire sequencing of human peripheral blood samples reveals signatures of antigen selection and a directly measured repertoire size of at least 1 million clonotypes. Genome Res. 2011; 21(5): 790—7.

5. Vollmers C. et al. Genetic measurement of memory B-cell recall using antibody repertoire sequencing. Proc. Natl. Acad. Sci. USA. 2013; 110(33): 13463—8.

6. Jiang N. et al. Lineage structure of the human antibody repertoire in response to influenza vaccination. Sci. Transl. Med. 2013; 171(5): 171ra19.

7. Laserson U. et al. High-resolution antibody dynamics of vaccine-induced immune responses. Proc. Natl. Acad. Sci. USA. 2014; 111(13): 4928—33.

8. Kaplinsky J. et al. Antibody repertoire deep sequencing reveals antigen-independent selection in maturing B cells. Proc. Natl. Acad. Sci. USA. 2014; 111(25): E2622—9.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

REVIEWS

9. Georgiou G. et al. The promise and challenge of high-throughput sequencing of the antibody repertoire. Nat. Biotechnol. 2014; 32(2): 158—68.

10. Weinstein J.A. et al. High-throughput sequencing of the zebrafish antibody repertoire. Science. 2009; 324(5928): 807—10.

11. Mora T. et al. Maximum entropy models for antibody diversity. Proc. Natl. Acad. Sci. USA. 2010; 107(12): 5405—10.

12. Jiang N. et al. Determinism and stochasticity during maturation of the zebrafish antibody repertoire. Proc. Natl. Acad. Sci. USA. 2011; 108(13): 5348—53.

13. Rubelt F. et al. Onset of immune senescence defined by unbiased pyrosequencing of human immunoglobulin mRNA repertoires. PLoS One. 2012; 7(11): e49774.

14. Parameswaran P. et al. Convergent antibody signatures in human dengue. Cell Host. Microbe. 2013; 13(6): 691—700.

15. Tan Y.C. et al. High-throughput sequencing of natively paired antibody chains provides evidence for original antigenic sin shaping the antibody response to influenza vaccination. Clin. Immunol. 2014; 151(1): 55—65.

16. Galson J.D. et al. BCR repertoire sequencing: different patterns of B-cell activation after two Meningococcal vaccines. Immunol. Cell Biol. 2015; @

17. Tan Y.C. et al. Barcode-enabled sequencing of plasmablast antibody repertoires in rheumatoid arthritis. Arth. and Rheum. 2014; 66(10): 2706—15.

18. Doorenspleet M.E. et al. Rheumatoid arthritis synovial tissue harbours dominant B-cell and plasma-cell clones associated with autoreactivity. Ann. Rheum. Dis. 2014. 73(4): 756—62.

19. Racanelli V. et al. Antibody V(h) repertoire differences between resolving and chronically evolving hepatitis C virus infections. PLoS One. 2011; 6(9): e25606.

20. Tschumper R.C. et al. Comprehensive assessment of potential multiple myeloma immunoglobulin heavy chain v-D-J intraclonal variation using massively parallel pyrosequencing. Oncotarget. 2012; 3(4): 502—13.

21. Sutton L.A. et al. Different spectra of recurrent gene mutations in subsets of chronic lymphocytic leukemia harboring stereotyped B-cell receptors. Haematologica. 2016; 101(8): 959—67.

22. Matz M. et al. Amplification of cDNA ends based on template-switching effect and step-out PCR. Nucleic Acids Res. 1999; 27(6): 1558—60.

23. Kinde I. et al. Detection and quantification of rare mutations with massively parallel sequencing. Proc. Natl. Acad Sci. USA. 2011; 108(23): 9530—5.

24. Shugay M. et al. Towards error-free profiling of immune repertoires. Nature Meth. 2014; 11(6): 653—5.

25. Brodin J. et al. Challenges with using primer IDs to improve accuracy of next generation sequencing. PLoS One. 2015; 10(3): e0119123.

26. Egorov E.S. et al. Quantitative profiling of immune repertoires for minor lymphocyte counts using unique molecular identifiers. J. Immunol. 2015; 194(12): 6155—63.

27. Khan T.A. et al. Accurate and predictive antibody repertoire profiling by molecular amplification fingerprinting. Sci. Adv. 2016; 2(3): e1501371.

28. Turchaninova M.A. et al. High-quality full-length immunoglobulin profiling with unique molecular barcoding. Nature Protoc. 2016; 11(9): 1599—616.

29. Bolotin D.A. et al. Next generation sequencing for TCR repertoire profiling: platform-specific features and correction algorithms. Eur. J. Immunol. 2012; 42(11): 3073—83.

30. Bolotin D.A. et al. MiXCR: software for comprehensive adaptive immunity profiling. Nature Meth. 2015; 12(5): 380—1.

31. Bolotin D.A. et al. MiTCR: software for T-cell receptor sequencing data analysis. Nature Meth. 2013; 10(9): 813—4.

32. Wrammert J. et al. Rapid cloning of high-affinity human monoclonal antibodies against influenza virus. Nature. 2008. 453(7195): 667—71.

33. Franz B. et al. Ex vivo characterization and isolation of rare memory B cells with antigen tetramers. Blood. 2011; 118(2): 348—57.

34. Shi W. et al. Transcriptional profiling of mouse B cell terminal differentiation defines a signature for antibody-secreting plasma cells. Nature Immunol. 2015; 16(6): 663—73.

35. Casbon J.A. et al. A method for counting PCR template molecules with application to next-generation sequencing. Nucleic Acids Res. 2011; 39(12): e81.

36. Shiroguchi K. et al. Digital RNA sequencing minimizes sequence-dependent bias and amplification noise with optimized single-molecule barcodes. Proc. Natl. Acad. Sci. USA. 2012; 109(4): 1347—52.

37. Deakin C.T. et al. Impact of next-generation sequencing error on analysis of barcoded plasmid libraries of known complexity and sequence. Nucleic. Acids. Res. 2014; 42(16): e129.

Поступила 02.10.16 Принята в печать 03.11.16

i Надоели баннеры? Вы всегда можете отключить рекламу.