УДК 51-7
В.Б. Байбурин, Ю.П. Волков, Н.П. Коннов, А.А. Захаренко СОВРЕМЕННЫЕ МАТЕМАТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА ДНК БАКТЕРИЙ
Описаны результаты применения некоторых современных математических методов для анализа информации содержащейся в ДНК бактериальных клеток.
Математические методы, анализ, ДНК
V.B. Baiburin, Uy.P. Volkov, N.P. Konnov, A.A. Zakcharenko
MODERN MATHEMATICAL ANALYSIS OF BACTERIAL DNA
Some results of bacterial DNA analysis with modern mathematical methods are represented.
Mathematical methods, analysis, DNA
Основными направлениями анализа ДНК являются: поиск кодирующих белки участков и сравнение их с известными белками, поиск корреляций и закономерностей в не кодирующих белки участках ДНК, сравнение целых геномов различных организмов (например, различных бактерий) с целью построения филогенетического дерева данных организмов [1 - 3]. Рассматривается часть указанных методов, реализованная в программном комплексе на языке С++.
В бактериальном геноме преимущественно содержится информация о белках и практически отсутствуют некодирующие белок участки. Поэтому корреляционная функция [6] от бактериального генома показывает четкие пики с периодом в три нуклеотида (рис. 1), что является надежным свидетельством наличия кодирующих белок последовательностей [6].
Рис. 1. Корреляционная функция возбудителя чумы (У. реБ^Б антиква)
Для анализа ДНК фрактальными методами последовательность оснований необходимо перевести в числовую форму, для чего используются несколько алгоритмов [8]. Для перевода ДНК в одномерный сигнал можно например прибавлять к счетчику 1 при встрече основания А или Г и вычитать 1 если встречается Т или С (другие алгоритмы приведены в [7]). На рис.2 приведены одномерные случайные блуждания для бактериального генома бактерий возбудителя чумы и сибирской язвы и для сравнения приведен график одномерных блужданий от случайной последовательности ДНК. Данный метод позволяет определить местонахождение, двух особых точек: верхней - точка старт синтеза бактериальной ДНК(при клеточном делении) и нижней - точка остановки синтеза [4].
На рис. 3 приведены изображения двумерных случайных блужданий для ДНК бактерий возбудителя чумы, сибирской язвы и псевдотуберкулеза, и случайной последовательности ДНК. Видно, что ДНК у близкородственных организмов (возбудители чумы и псевдотуберкулеза) более подобны друг другу и резко отличаются от случайной ДНК.
Рис. 2. Одномерные случайные блуждания: А - ДНК бактерии возбудителя чумы У. реБЙБ (антиква), Б - ДНК бактерии сибирской язвы (ВасИиБ Ап^асеБ). В - случайной ДНК
Методы нелинейного анализа позволяют отличить шумовой сигнал от стохастического в последовательности ДНК. В частности, нами реализован метод вычисления вложенной размерности последовательности ДНК длиной й, похожий на вычисление корреляционного интеграла [5], адаптированный для последовательности оснований ДНК. Коротко алгоритм [2] состоит в следующем: участок ДНК длиной N х1?х2,...,хн представляется в виде серии ё-мерных векторов задержанных данных
X! = (^ х2 ,..^ хй X
X2 = (х2, хз ,..., хй +1),
. (1)
ХЫ-й +1 = (ХЫ-й +1,..., ХЫ ),
Далее для каждого вектора Хр = (хр, хр+1,..., хр-1), где (1 < р < N - й) ищется наиближайший вектор Хн(р) = (хн(р),хн(р)+1,...,хн(р)+а-1), и после этого - как близко
между собой находятся данные хн (р)+d и хр+d . В качестве критерия близости используется прямое сравнение нуклеотидов в последовательностях ДНК
Го 1/ х{ = X;,
КX , Х; ) = \ (2)
[1 / X * X; ,
т.е. к(А, С) = к(А, в) = к(А, Т) = к(С, в) = к(С, Т) = к(в, Т) = 1 и к(А, А) = к(С, С) = к(в, в) = к(Т, Т) = 0. Тогда расстояние между векторами Х1 и X ■ вычисляется путем суммирования полученных значений к для каждого нуклеотида в последовательности
й -1
Н (X,, X,) = X К х+к, х}+к),
к=0
(3)
Г
Рис. 3. ДНК бактерии возбудителей чумы (У. ревйв антиква) (А) и псевдотуберкулеза (У. РвеиСоШЬегси^в) (Б), сибирской язвы (В) и случайной последовательности оснований.
Двумерные случайные блуждания
Таким образом, ближайшим к заданному вектору Хр считается вектор X ■ у которого наименьшее значение Н(X,, Xр) при у Ф р . Если таких окажется несколько, то выбирается
один из них случайным образом. После определения ближайшего вектора к заданному вектору Xp вычисляется локальная ошибка єр = (хр+й, хН( )+й) на основании которой вычисляется средняя ошибка последовательности
1 м-й і
X Єр =ТГ-7 (^1,^2,-,^м-й) =
(4)
Ю =
N — й р=і
N - й
N й Хш, Хн а)+й) + ^( , ХН (2)+й
) + ... + к(хм , хн(N) )]
где, как уже отмечалось, Н(1) соответствует вектору XH(1) = (хН(1), хН(1)+1,...,хН(1)+й-1), который является ближайшим к вектору X1 = (х1,х2,...,хй) в смысле уравнений (2)-(3), вектор Xн(2) = (хн(2),хн(2)+1,...,хн(2)+й-1), ближайший к вектору X2 = (х2,хз,...,хй+1) и т.д.
18
В
Для некоррелированных случайных последовательностей ДНК ошибка < Е >, вычисляемая в уравнении (4), не зависит от величины вложенной размерности й и для однородного расположения оснований в ДНК (р( А) = р(С) = р(О) = р(Т) = 0,25) составляет 0,75.
Для оценки сложности организации последовательности ДНК необходимо вычислить <Е> как функцию от величины вложенной размерности й. Если величина < Е > убывает, то вложенной размерностью считается наибольшая величина й , при которой < Е > перестает убывать и выходит на горизонтальное плато (или начинает возрастать). При анализе случайного сигнала величина < Е > колеблется около значения 0,75 и не позволяет получить определенного значения вложенной размерности.
Для кодирующих белки последовательностей ДНК вложенная размерность обычно весьма мала (1-3) (рис. 4), для некодирующих последовательностей, наоборот, она может быть весьма большой; так, например, для ДНК высших организмов (человек) вложенная размерность максимальна и составляет 16.
|л Средняя ощибна oi вложенной размсрнности вне
1 1
0.95
0,9 -
0,85
0.8 -
0.75
0,7 - ——
0,65
0.6 -
0.55 1 1 1 1 1 1 1 1 1 1
0,5 ^ 23456789 1 Т t t III т т t 10 11 12 13 14 15 16 17 18 19 2
Рис. 4. Вложенная размерность возбудителя сибирской язвы
В программе также реализованы методы сравнения полных геномов на основе вейвлет-спектров [9], Фурье-анализ периодичностей в ДНК [10], построение сравнительных дот-карт двух ДНК [11], WTMM анализ [3] участков ДНК и другие методы.
ЛИТЕРАТУРА
1. Percus J.K. Mathematics of genome analysis / J.K. Percus. Cambridge univ.press. 2004. 140 p.
2. Nonlinear modeling technique for the analysis of DNA chains / J. Barral, A. Hamsy, J.Jimenez, and A. Marcano // Physical Review E. 2000. V.61, N2. P.1812-1815.
3. Muzy J.F. Wavelets and multifractal formalism for singular signals: application to turbulence data / J.F.Muzy, E.Bacry, A. Arneodo // Phys/Rew/Lett. 1991. V.67. N25. P.3515-3518.
4. Сингер М. Гены и геномы: в 2 т. Т.2 / М. Сингер, П. Берг. М.: Мир, 1998. 391 с.
5. Потапов А.А. Фракталы в радиофизике и радиолокации. Топология выборки / А.А.Потапов. М.: Университетская книга, 2005, 848 с.
6. Species independence of mutial information in coding and non-coding DNA / Grosse I., Herzel H., Buldyrev S. V., et al.// Phys. Rev. E. 2000. V.61. N5. Р.5624-5629.
7. Long-range correlation properties of coding and noncoding DNA sequences: GenBank analysis / Buldyrev S. V., Goldberg A.L., Havlin S., et al. // Phys. Rev. E. 1995. V.51. N5. Р.5084-5091.
8. Abramson G. Fractal properties of DNA walk / G. Abramson, H.A. Cerdeira, C. Bruschi. Elsievier Preprint. 1998. Р.1-14.
9. Comparative genomics via wavelet analysis for closely related bacteria / Song J., Ware T., Liu S.-L., Surette M. // EURASIP J. Appl.Signal Proc. 2004. V.1. N.5-12. P.5-12.
10. Fourier and wavelet analysis, a tool for visualizing regular patterns in DNA sequences / Dodin G., Vandergheynst P., Levior P., et al. // J. teor. Boil. 2006. V.206. Р.323-326.
11. Bai-Lin Н. Fractal from genomes- exact solution of a biology-inspired problem / Bai-Lin Hao // Physica A. 2000. V.282. Р.225-246.
Байбурин Вил Бариевич -
доктор физико-математических наук, профессор, заведующий кафедрой «Программное обеспечение вычислительной техники и автоматизированных систем» Саратовского государственного технического университета
Волков Юрий Петрович -
доктор технических наук, профессор кафедры «Программное обеспечение вычислительной техники и автоматизированных систем» Саратовского государственного технического университета
Коннов Николай Павлович -
доктор биологических наук, профессор Российского научно-исследовательского противочумного института «Микроб», г. Саратов
Захаренко Александр Алексеевич -
аспирант кафедры «Программное обеспечение вычислительной техники и автоматизированных систем» Саратовского государственного технического университета
Статья поступила в редакцию 25.09.09, принята к опубликованию 25.11.09