Научная статья на тему 'Исследование погрешностей оцифровки пиков генетического анализатора'

Исследование погрешностей оцифровки пиков генетического анализатора Текст научной статьи по специальности «Химические науки»

CC BY
66
11
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Научное приборостроение
ВАК
RSCI
Область наук
Ключевые слова
ДНК / DNA / ГЕНЕТИЧЕСКИЙ АНАЛИЗАТОР / GENETIC ANALYZER / ФЛУОРЕСЦЕНТНАЯ ДЕТЕКЦИЯ / FLUORESCENT DETECTION

Аннотация научной статьи по химическим наукам, автор научной работы — Алексеев Я.И., Белов Д.А., Белов Юрий Васильевич, Курочкин В.Е.

Рассмотрены основные причины различия электрофоретической мобильности флуоресцентно-меченых фрагментов ДНК. Выполнен анализ результатов экспериментального разделения фрагментов секвенсной смеси. Предложен способ определения базового временнóго интервала. Отличия реальных временнÏх интервалов от базового временнóго интервала предложено рассматривать как систематическую составляющую погрешности измерений при определении последовательности пиков.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по химическим наукам , автор научной работы — Алексеев Я.И., Белов Д.А., Белов Юрий Васильевич, Курочкин В.Е.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RESEARCH OF THE GENETIC ANALYZER DIGITIZATION PEAKS ERRORS

Basic reasons of distinction of electrophoretic mobility of fluorescently marked DNA fragments were considered. The analysis of results of the experimental sequence mixture fragments division was made. The method of basic time interval determination was offered. It were suggested to consider the differences between real and base time intervals as a systematic component of an error of measurements in case of peaks sequence determination.

Текст научной работы на тему «Исследование погрешностей оцифровки пиков генетического анализатора»

ISSN 0868-5886 НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2014, том 24, № 2, c. 79-85

- СИСТЕМНЫЙ АНАЛИЗ ПРИБОРОВ И ИЗМЕРИТЕЛЬНЫХ МЕТОДИК - —

УДК 543.426; 543.

© Я. И. Алексеев, Д. А. Белов, Ю. В. Белов, В. Е. Курочкин

ИССЛЕДОВАНИЕ ПОГРЕШНОСТЕЙ ОЦИФРОВКИ ПИКОВ ГЕНЕТИЧЕСКОГО АНАЛИЗАТОРА

Рассмотрены основные причины различия электрофоретической мобильности флуоресцентно-меченых фрагментов ДНК. Выполнен анализ результатов экспериментального разделения фрагментов секвенсной смеси. Предложен способ определения базового временного интервала. Отличия реальных временных интервалов от базового временного интервала предложено рассматривать как систематическую составляющую погрешности измерений при определении последовательности пиков.

Кл. сл.: ДНК, генетический анализатор, флуоресцентная детекция

ВВЕДЕНИЕ

Определение нуклеотидной последовательности (секвенирование ДНК) является одной из основных задач, решаемых с помощью генетического анализатора, основанного на принципе капиллярного электрофореза [1]. Нуклеотидная последовательность традиционно записывается с использованием букв А, С, G и Т.

При подготовке пробы получается смесь фрагментов ДНК с шагом 1 нуклеотид. Для раздельного детектирования фрагментов на конец каждого фрагмента помещается соответствующая флуоресцентная метка. Максимальная длина фрагментов определяется разрешающей способностью генетического анализатора (450 и более нуклеоти-дов).

Во время разделения фрагментов ДНК в капилляре под действием электрического поля на выходе четырех цветовых каналов флуоресцентного детектора регистрируются цифровые последовательности, которые графически изображаются в виде последовательностей пиков, соответствующих нуклеотидам А, С, G, Т. При этом каждому цифровому отсчету соответствует точка графика, имеющая по горизонтальной оси (оси времени) номер отсчета, а по вертикальной оси — значение интенсивности флуоресценции в относительных единицах (о.е.).

Задача определения нуклеотидной последовательности решается путем измерения положения во времени пиков в каждом канале флуоресцентного детектора, присвоения им буквенных обозначений и суммирования результатов в виде буквенной последовательности.

В генетическом анализаторе флуоресцентный детектор имеет пятый цветовой канал, на выходе

которого могут быть получены сигналы калибровочной смеси фрагментов ДНК известной длины [2]. Однако при секвенировании ДНК сигналы калибровочной смеси не используются.

ПРИЧИНЫ РАЗЛИЧИЯ ЭЛЕКТРОФОРЕТИЧЕСКОЙ МОБИЛЬНОСТИ СОСЕДНИХ ФЛУОРЕСЦЕНТНО-МЕЧЕНЫХ ФРАГМЕНТОВ ДНК

Разделение фрагментов ДНК в капилляре под действием электрического поля происходит за счет различия их электрофоретической мобильности. Смесь фрагментов ДНК регистрируется в виде последовательности пиков, при этом в первом приближении наблюдается почти линейная зависимость времени выхода от длины фрагмента с шагом 1 нуклеотид. Однако если электрофорети-ческая мобильность фрагментов, отличающихся по длине на 1 нуклеотид и соответствующих разным нуклеотидам, не соответствует общей калибровочной зависимости, то на графиках наблюдается неравномерное распределение соседних пиков. При частичном наложении соседних пиков, значительных случайных ошибках определения положения вершин пиков и ухудшении разрешающей способности в конце эксперимента (при максимальной длине фрагментов) уменьшается достоверность полученной информации: возможны ошибки при определении истинной нуклеотидной последовательности.

Первая причина различия электрофоретической мобильности — различие молекулярных масс соседних нуклеотидов и флуоресцентных меток (красителей).

Табл. 1. Соответствие красителей и нуклеотидов на конце фрагмента

Нуклеотид Молекулярная масса нуклеотида Второй краситель Молекулярная масса второго красителя, г/моль Суммарная молекулярная масса, без первого красителя Длина волны излучения, нм

G 328 FAM 376 704 520

А 313 R6G 457 770 557

Т 302 ТАМЯА 431 733 576

С 388 ROX 534 922 605

В генетическом анализаторе для получения флуоресцентных сигналов четырех красителей при использовании одного лазера с длиной волны излучения 488 нм используется эффект переноса энергии [3-5]. Для реализации этого эффекта на конец каждого фрагмента присоединяется соответствующая комбинация двух флуоресцентных красителей с помощью вставки линкерных молекул. В качестве первого красителя (донора) используется краситель FAM. В табл. 1 приведен возможный вариант сочетания нуклеотидов и вторых красителей (акцепторов) [6, 7].

На рис. 1 представлено взаимное расположение 2 соседних пиков во времени, относящихся к 2 ближайшим по массе фрагментам ДНК (с шагом 1 нуклеотид).

При допущениях, что мнимое положение первого "неокрашенного" пика принято равным нулю, а запаздывание "окрашенных" пиков пропорционально приращению молекулярной массы фрагментов, то расположение реальных "окрашенных" пиков можно описать следующими формулами:

¿1 = т • мш;

^ = т • (М2 + М2м);

¿2 — = т

= т •

(М2 + М2М) " т • М1М =

(М2 + М2М " М1М ),

Если принять в последней формуле допущение, что молекулярная масса нуклеотидов равна средней (базовой) МЫ = Мб и молекулярная масса красителей (с учетом первого красителя и линкера) равна средней (базовой) молекулярной массе красителей (МЫМ = М(Ы—1)М = МбК), то временной интервал между соседними пиками будет равен

¿Ы - N-1) = т •М б = Тб.

Временной интервал Тб характеризует усредненную электрофоретическую мобильность, величину Тб можно условно назвать как "базовый временной интервал". Последовательность пиков с интервалом Тб носит равномерный характер, медленно изменяясь во времени от начала до конца эксперимента за счет изменения коэффициента т.

Отсюда следует:

т = Т б/ Мб ,

^Ы — N-1) ) / Тб = ТЫ / Тб =

=(МЫ + МЫМ — М (N—1)М)/ Мб.

В последней формуле отношение временного интервала между соседними пиками ТЫ к базовому

где и — времена выхода 1-го и 2-го окрашенных пиков по отношению к неокрашенному 1-му пику; т — коэффициент электрофоретической мобильности; М2 — приращение молекулярной массы фрагмента по отношению к первому; М1М и М2М — приращение молекулярной массы фрагментов за счет красителей.

Аналогичной формулой можно описать расположение всех последующих пиков с номерами (N—1) и Ы:

¿Ы N—1) = т

(MN + МЫМ — М( N —1)М /'

0 ¿1

кМг k•M2k

д 12

Рис. 1. Взаимное расположение во времени 1-го и 2-го соседних пиков (соответственно и ¿2)

временному интервалу Тб выражено в базовых относительных единицах (б.о.е.).

В качестве примера можно привести два частных случая, используя данные первой и четвертой строк табл. 1 (без учета 1 красителя и линкера):

^3С-/Тб =(922 -376) / 333 = 1.64 б.о.е., ) / Тб = (704 -534) / 333 = 0.51 б.о.е.

Этот пример показывает, что при упрощенном допущении, когда запаздывание пиков пропорционально приращению молекулярной массы фрагментов, временные интервалы между соседними пиками значительно отличаются от базового временного интервала. Это приводит к неравномерному распределению пиков в последовательности, по этой причине в приведенном примере интервалы между пиками отличаются более чем в 3 раза.

Величину относительной неравномерности следования временных интервалов между соседними пиками можно вычислить следующим образом:

DN = Ты / Тб -1 = М + М^ -М(„-1)М) /Мб -1.

Для приведенных выше примеров величины DN соответственно равны +0.64 и -0.49 б.о.е. Максимальная величина DN наблюдается в случае, когда масса ^го нуклеотида значительно отличается от средней молекулярной массы, а массы красителей соседних пиков значительно отличаются между собой.

Большие разбросы временных интервалов между пиками относительно базового временного интервала в приведенных ниже экспериментальных данных могут быть объяснены второй причиной, которая приводит к изменениям электрофоре-тической мобильности, а именно отличиями пространственной конфигурации нуклеотидов и красителей.

ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ РАЗДЕЛЕНИЯ ФРАГМЕНТОВ СЕКВЕНСНОЙ СМЕСИ

В качестве примера на рис. 2, а, приведен небольшой участок исходных (сырых) данных, отражающих результаты разделения фрагментов сек-венсной смеси плазмидной ДНК, образованной с помощью набора для секвенирования ABI PRISM BigDye TerMinator v3.1 Cycle Sequencing Mit (Life Technologies, США). Эти результаты получены в ЗАО "СИНТОЛ", Москва, при испытании опытного образца генетического анализатора НАНО-ФОР-05, производства Института аналитического приборостроения РАН, Санкт-Петербург.

На графиках рис. 2, а, некоторые соседние пики (нумерация пиков — на б): 1 и 2, 8 и 9, 10 и 11, 12 и 13, 18 и 19 от фрагментов ДНК, окрашенных разными красителями, — в значительной степени взаимно перекрываются.

Для обработки данных и определения последовательности ДНК использован программный модуль анализатора — ДНК АЛ. Полученная последовательность содержит более 450 нуклеотидов.

ИССЛЕДОВАНИЕ ЭЛЕКТРОФОРЕТИЧЕСКОЙ МОБИЛЬНОСТИ ФЛУОРЕСЦЕНТНО-МЕЧЕНЫХ ФРАГМЕНТОВ ДНК

Для оценки различия электрофоретической мобильности при использовании экспериментальных данных предлагается применить модифицированный способ аппроксимации табличной функции степенным полиномом в среде Excel (табл. 2). Этот способ отличается от использованного нами ранее при фрагментном анализе [4] тем, что в качестве критерия при аппроксимации табличной функции используется не временное положение пиков, а временные интервалы между ними. Результатом такой аппроксимации является монотонная функция, представляющая зависимость

0.5 0

-0.5 -1

У

К

/V

V

20

О

Рис. 2. Разделение фрагментов ДНК. а — участок исходных данных, отражающих результаты разделения фрагментов секвенсной смеси; по горизонтали — текущее время в секундах, по вертикали — значение интенсивности флуоресценции в относительных единицах (о.е.). б — отличие временных интервалов между соседними пиками на рис. 1, а, от базового временного интервала (б.о.е.); горизонтальная ось — номер пика равномерной базовой последовательности (точки этого графика для наглядности соединены линиями)

Табл. 2. Вычисление отличия временных интервалов между соседними пиками от базового временного интервала

А в с D Е Е G Н I J М

1906 1 G 1894.94 1900.80 5.85 9.5 3.65 13.30 806.23 0.62

1915.5 2 С 5.86081 1906.65 5.85 7 1.15 1.31 0.28 0.20

1922.5 3 Т 0.00064 1912.50 5.86 4.5 -1.36 1.84 -0.23

1927 4 С -2.3Е-06 1918.36 5.86 2 -3.86 14.87 -0.66

1929 5 G 1924.21 5.86 6.5 0.64 0.41 0.11

1935.5 6 G 1930.07 5.86 11 5.14 26.43 0.88

1946.5 7 Т 1935.93 5.86 5.5 -0.36 0.13 -0.06

1952 8 А 1941.79 5.86 3.5 -2.36 5.57 -0.40

базового временного интервала Тб от времени и позволяющая выразить неравномерность интервалов между пиками в базовых относительных единицах.

При предварительной обработке сигналов флуоресцентного детектора программой ДНК АЛ были автоматически определены положения центров пиков (время выхода в секундах — столбец А в табл. 2) и присвоены номера пиков (столбец В). Каждому пику автоматически присвоено буквенное обозначение, соответствующее нуклеотиду и присоединенному красителю А, С, G или Т (столбец С).

Аппроксимирующая функция выражена в виде полинома третьей степени в столбце E в следующем виде:

E1=$D$1+$D$2*B1+$D$3*(B1)Л2+ + $D$4*(B1)Л3,

где величина $D$1 определяет начальное значение этой функции (сдвиг) и задается в первом приближении равной значению А1; величина $D$2 определяет единичное приращение этой функции (наклон) и задается в первом приближении равной значению (А2 - А1); величины $D$3 (кривизна) и $Е$4 (изменение кривизны) задаются в первом приближении равными нулю.

В столбце Е вычислены интервалы между соседними пиками аппроксимирующей функции в секундах (базовый временной интервал Тб):

Е1=Е2-Е1.

В столбце G вычислены интервалы между реальными соседними пиками в секундах:

G1=A2-A1.

В столбце Н вычислены разности интервалов реальных соседних пиков и соседних пиков аппроксимирующей функции (ошибки) в секундах:

H1=G2-F1.

В столбце I вычислены квадраты ошибок 11=Н1Л2, а столбце J — сумма квадратов ошибок Л=СУММ(11:1400) .

Величины $D$1, $D$2, $D$3, $D$4 уточняются с помощью метода наименьших квадратов (минимум величины Л) и метода последовательного приближения в меню Данные\Анализ\Поиск решения.

В столбце М вычислены отличия временньк интервалов между соседними пиками от базового временного интервала М1=Н1/Е1, где Е1 — базовый временной интервал.

Для демонстрации на рис. 3 результатов (столбец М) выбран участок от 51 до 350 нуклеотидов, на котором случайные составляющие погрешности определения положения пиков носят равномерный характер.

В ячейке J2 вычислено стандартное отклонение (величина, близкая к СКО):

J2=СТАНДОТКЛОН(M51:M35 0) = 0.2 8 б.о.е.

На рис. 2, б, в увеличенном масштабе изобра-

Рис. 3. Отличия временных интервалов между соседними пиками от базового временного интервала.

DN (б.о.е.) — вертикальная ось. Горизонтальная ось — номер пика. Точки графика для наглядности соединены линиями

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

жена часть рис. 3. Точка 1 на рис. 2, б, соответствует точке 101 на рис. 3 и т. д.

При рассмотрении графика рис. 2, б, можно отметить, что максимальные отрицательные величины DN ~ -0.5 б.о.е. относятся к нуклеотидам Т (пики 1, 8, 10, 12, 18), а максимальные положительные величины DN ~ 0.5 б.о.е. относятся к нуклеотидам с обозначением G (пики 2, 9, 11, 13, 19). Этот эффект наблюдается в случаях, когда нуклеотиды с обозначением Т и G чередуются. На основании этого наблюдения можно сделать вывод о том, что фрагменты ДНК, которые оканчиваются нуклео-тидами с обозначениями Т и G, значительно различаются по электрофоретической мобильности (из-за отличия по массе и пространственной конфигурации нуклеотидов и красителей).

Отличия реальных временных интервалов от базового временного интервала носят систематический характер, их предлагается рассматривать как систематическую составляющую погрешности измерений при определении положения и последовательности пиков.

ОБСУЖДЕНИЕ ТРЕБОВАНИЙ К КОМБИНАЦИИ НУКЛЕОТИДОВ И КРАСИТЕЛЕЙ

При секвенировании ДНК четыре комбинации нуклеотидов на концах фрагментов и соответствующих красителей должны обеспечивать несколько требований:

1) минимальное расстояние в пространстве между красителями (донором и акцептором), поскольку степень переноса энергии обратно пропорциональна 6-й степени от этого расстояния [8];

2) близкие расстояния между этими красителями для получения одинаковых интенсивностей 4 флуоресцентных сигналов;

3) близкие характеристики электрофоретиче-ской мобильности.

Для оценки неравномерности положения соседних пиков во времени и уточнения границы допустимого различия характеристик электрофо-ретической мобильности рассмотрим еще раз положение во времени двух соседних пиков.

Для этого вернемся к начальной формуле

Ч- (1 = т2 ■ (М2 + М2М) - т • м 1М,

где т\ и т2 — коэффициенты, характеризующие электрофоретическую мобильность окрашенных фрагментов ДНК, которые регистрируются в виде соседних пиков.

Сдвиг по времени между пиками будет близок к нулю или даже может стать отрицательным, если коэффициент электрофоретической мобильности первого фрагмента будет значительно больше второго. Предельно допустимая неравномерность следования пиков включает в себя еще случайную погрешность определения пиков dС, которая увеличивается при уширении пиков в конце эксперимента (при максимальной длине фрагментов).

В случае выполнения равенства

т2 ■ (м2 + М2М) + ¿2С = т ■ М1М +

соседние пики совпадут, и их последовательность не будет определена.

Характеристики электрофоретической мобильности комбинаций конечных нуклеотидов и красителей, которые зависят от молекулярных масс нуклеотидов и красителей, а также их пространственной конфигурации могут быть частично выровнены путем выбора соответствующих линкеров. Анализируя экспериментальные результаты разделения фрагментов в приведенном примере, можно сделать вывод о том, что фрагменты ДНК, окрашенные разными красителями, значительно различаются по электрофоретической мобильности, т. е. полного выравнивания с помощью линкеров не наблюдается. Поэтому необходимо найти способ устранения этого недостатка при вторичной обработке результатов разделения фрагментов секвенсной смеси.

ЗАКЛЮЧЕНИЕ

1 Рассмотрены основные причины различия электрофоретической мобильности флуоресцентно-меченых фрагментов ДНК: различие молекулярных масс соседних нуклеотидов, флуоресцентных меток (красителей) и пространственной конфигурации нуклеотидов.

2 Выполнен анализ результатов экспериментального разделения фрагментов секвенсной смеси. Предложен способ определения базового

временного интервала Тб. Показано, что последовательность пиков с интервалом Тб носит равномерный характер. Отличия реальных временных интервалов от базового временного интервала носят систематический характер, их предлагается рассматривать как систематическую составляющую погрешности измерений при определении положения и последовательности пиков. Способ компенсации таких погрешностей будет предложен в следующей статье.

3 На конкретном примере выполнена оценка характерных отличий временных интервалов между соседними пиками. Показано, что чередующиеся пики, которые в значительной степени взаимно перекрываются, относятся к фрагментам ДНК, отличающимся по электрофоретической мобильности.

4 Рассмотрены требования к комбинации нук-леотидов и красителей.

СПИСОК ЛИТЕРАТУРЫ

1. Алексеев Я.И., Белов Ю.В., Малюченко О.П. и др. Генетический анализатор для фрагментного анализа ДНК // Научное приборостроение. 2012. Т. 22, № 4. С. 17-22.

2. Белов Ю.В., Петров А.И., Лавров В.В., Курочкин В.Е. Построение калибровочной линии при фрагмент-ном анализе ДНК // Научное приборостроение. 2013. Т. 23, № 3. С. 26-31.

3. Методы расшифровки нуклеотидной последовательности фрагментов ДНК. URL: (http://molbiol.ru/protocol/13_03.html).

4. Tu O., Mnott T., Marsh M. et al. The influence of fluorescent dye structure on the electrophoretic mobility of end-labeled DNA // Nucleic Acids Research. 1998. Vol. 26, nu. 11. P. 2797-2802.

5. Jingyue J., Alexander N., Glazer I. and Mathies A.R. Cassette labeling for facile construction of energy transfer fluorescent primers // Nucleic Acids Research. 1996. Vol. 24, nu. 6. P. 1144-1148.

6. Система обработки нуклеотидных последовательностей HEID.

URL: (http://www.impb.ru/pdf/NL_1984_1r.pdf).

7. Флуоресцентные красители.

URL: (http://www.syntol.ru/infoflu.htm).

8. Перенос энергии между двумя хромофорами. URL: (http://en.wikipedia.org/ wiki/Forster_resonance_energy_transfer).

Институт аналитического приборостроения РАН, г. Санкт-Петербург

(Белов Д.А., Белов Ю.В., Курочкин В.Е.)

ЗАО "СИНТОЛ", г. Москва (АлексеевЯ.И.)

Контакты: Белов Юрий Васильевич, bel3838@mail.ru

Материал поступил в редакцию: 7.03.2014

RESEARCH OF THE GENETIC ANALYZER DIGITIZATION PEAKS ERRORS

Ya. I. Alekseev1, D. A. Belov2, Yu. V. Belov2, V. E. Kurochkin2

JSC Syntol, Moscow, RF

2Institute for Analytical Instrumentation of RAS, Saint-Petersburg, RF

Basic reasons of distinction of electrophoretic mobility of fluorescently marked DNA fragments were considered. The analysis of results of the experimental sequence mixture fragments division was made. The method of basic time interval determination was offered. It were suggested to consider the differences between real and base time intervals as a systematic component of an error of measurements in case of peaks sequence determination.

Keywords: DNA, genetic analyzer, fluorescent detection

REFERENСES

1. Tu O., Mnott T., Marsh M. et al. The influence of fluorescent dye structure on the electrophoretic mobility of end-labeled DNA. Nucleic Acids Research, 1998, vol. 26, nu. 11, pp. 2797-2802.

2. Jingyue J., Alexander N., Glazer I. and Mathies A.R. Cassette labeling for facile construction of energy transfer fluorescent primers. Nucleic Acids Research, 1996, vol. 24, nu. 6, pp. 1144-1148.

Contacts: Belov Yurii Vasilyevich, bel3838@mail.ru

Article arrived in edition: 7.03.2014

i Надоели баннеры? Вы всегда можете отключить рекламу.