Специальный выпуск: Материалы XIXмеждународного конгресса "Здоровье и образование в XXI веке"
18-20 декабря 2017, г. Москва —--—
УДК 577.21
ПРИМЕНЕНИЕ ЦЕПЕЙ МАРКОВА ПРИ ИССЛЕДОВАНИИ ОСНОВ ОРГАНИЗАЦИИ ГЕНОМА
Волобуев А.Н.
ФГБОУ ВО Самарский Государственный Медицинский Университет, г. Самара, Российская
Федерация
Аннотация. Представлены некоторые принципы анализа нуклеотидных последовательностей молекул ДНК при проведении клинико - генетической диагностики. Рассмотрены основы хранения информации с помощью ДНК. Исследованы принципы построения генетического кода. Показана целесообразность вырождения генетического кода. На основе применения теории цепей Маркова дан анализ конкретных нуклеотидных последовательностей.
Ключевые слова: геном, нуклеотидная последовательность, цепи Маркова, информационный критерий Байеса.
Введение. Генетический прогноз рождения больного ребенка в семье состоит в следующем: определение степени генетического риска, оценка тяжести медицинских и социальных последствий возможной аномалии, перспектива применения и эффективность методов пренатальной диагностики. Точность клинико -генетического диагноза является исходным пунктом для составления генетического прогноза. В настоящее время правильный клинико - генетический диагноз требует ряда специальных исследований. Одним из таких исследований является секвенирование цепей ДНК родителей с целью выявления патологических генов. Анализ полученных генетических данных требует теоретического осмысления результатов.
Использования цепей Маркова в оценке генетического риска. Анализ нуклеотидных последовательностей осуществляется различными способами. Мы рассмотрим принципы анализа нуклеотидных последовательностей в цепи ДНК с использованием теории цепей Маркова [1].
Встречаемость разных оснований в молекуле ДНК неодинакова. Частоты пар соседних вдоль цепи ДНК
„ р „ „ Р ^ Р Р
оснований ш отличаются от произведений частот самих оснований ш и у, где и и V - типы оснований.
Это указывает на зависимость вероятностей встречаемости оснований в паре вдоль молекулы ДНК друг от друга. Вдоль молекулы ДНК положение основания определяется не только синтезируемым белком.
Таблица 1
Относительные частоты динуклеотидов вдоль ДНК позвоночных
CC AG AA CA GG TT GA TC GC AT AC GT TA
Р., 1,18 1,16 1,15 1,15 1,14 1,07 1,04 1,00 0,99 0,85 0,84 0,82 0,65
В таблице 1 показаны некоторые относительные частоты динуклеотидов вдоль ДНК позвоночных.
< 1
Puv
Не все основания полностью комплементарны (совместимы) друг другу. При РuРv комплементарность
оснований вдоль цепи ДНК снижена. На нуклеотидную последовательность кодирующих участков налагаются строгие ограничения, связанные с последовательностью аминокислотных остатков синтезируемых белков. На эти ограничения накладываются ограничения на уровне кодонов, связанные с ограничениями на динуклеотидном (вдоль ДНК) уровне. Ограничения на уровне кодонов могут в значительной мере сниматься вырожденностью генетического кода. По-видимому, также ограничения на уровне кодонов снижают мутационную устойчивость цепи ДНК, способствуя эволюционным процессам.
Марковская цепь определяется как последовательность случайных величин, обладающая тем свойством, что
X X
распределение величины п зависит только от значения "-1. Последовательность нуклеотидов в цепи ДНК
можно считать Марковской цепью. В цепи Маркова взаимозависимыми являются и удаленные друг от друга
Специальный выпуск: Материалы XIXмеждународного конгресса "Здоровье и образование в XXI веке"
18-20 декабря 2017, г. Москва
основания. Часто бывает необходимо определить расстояние, на которое распространяется взаимодействие между основаниями вдоль ДНК, выявить особенности последовательностей нуклеотидов, повторы или сходные участки последовательностей, мутационные замены отдельных нуклеотидов и т.д.
Для примера проведем первоначальное исследование марковской цепи из 9-и нуклеотидов CTATAATAG.
Найдем вероятность, что за кодоном ATA следует нуклеотид А.
P(A | ATA) = Патаа _ 2 _ 2
Эта вероятность равна Пата 2, где Пата - число кодонов ATA в последовательности,
п _ 1
атаа - число последовательностей АТАА в общей последовательности нуклеотидов.
Для дальнейшего анализа используем метод функции правдоподобия, предложенный выдающимся генетиком Р.А. Фишером. Метод функции правдоподобия, в частности, позволяет установить порядок цепи Маркова, т.е. определить расстояние, на которое распространяется взаимодействие нуклеотидов.
Предположим, что исследуемая последовательность нуклеотидов узнается некоторым ферментом. Функция правдоподобия характеризует вероятность появления данной последовательности в общей последовательности цепи нуклеотидов. Но эта вероятность зависит от порядка марковской цепи последовательности нуклеотидов.
Последовательность, составленная из независимых оснований, будет соответствовать марковской цепи 0-го порядка. Функцияl правдоподобия цепи Маркова нулевого порядка исследуемой последовательности нуклеотидов равна 4 9 262144 .
Цепь порядка 1 предполагает, что вероятность нахождения какого-либо основания в позиции i зависит только от вероятности присутствия одного из четырех оснований в позиции i —1.
Функция правдоподобия, например, для марковской цепи нуклеотидов 1-го порядка вычисляется по формуле:
L (l)_ P (C )P AT | с )P (A |T )P (T | A )P (A |T )P (A | A )P (T | A )P (A |T )P (G | A )_
_ 1 . nCT . nTA . n AT . nTA . n AA . П AT . ПТА . П AG _ 1 . 1 . 3 . 2 . 3 . 1 . 2 . 3 . 1 _ 1
4 nC nT nA nT nA nA nT nA 4 3 4 3 4 4 3 4 256
Функция правдоподобия для марковской цепи щтслеотидов 2-го порядка, используя
Р (СТ )= Р (С )Р (Т|С )= 1 ■ 1 = 1 Ь (2 )= 1
4 4 , вычисляется аналогично: 108 . Функция правдоподобия для цепи 3-го
L (3)_ ^
порядка равна 16 и т.д.
Любая цепь или последовательность характеризуется своими параметрами. Например, последовательность единиц (или букв А) характеризуется одним параметром - единицей (или буквой А). Последовательность случайных чисел характеризуется тремя параметрами: математическим ожиданием, дисперсией и корреляционной (или ковариационной) функцией элементов последовательности.
Цепь Маркова к-го порядка характеризуется е = 3 ■ 4 параметрами. Таким образом, для цепи Маркова 0-го порядка (последовательность независимых оснований или случайных чисел) число параметров равно 3, для
марковской цепи 1-го порядка число параметров равно 12, 2-го порядка 48, а 3-го порядка 192 парш^т])а. Отношение функций правдоподобия следующих друг за другом порядков цепи Маркова обозначим к Ь (к + 1)
- 2 ln r A,) ) 2 (ln L (k )- ln (k + 1 )) r 2
. Величина L ^ + 1 подчиняется распределению с числом степеней
Специальный выпуск: Материалы XIXмеждународного конгресса "Здоровье и образование в XXI веке"
18-20 декабря 2017, г. Москва
свободы равным разности параметров цепей Маркова. Для рассматриваемой модельной последовательности
V2 - 2 in L ( ) . - 2 in -^- . 15 ,6 ~ г
нуклеотидов варианты распределения Л равны: L с ) 262144 с числом степеней свободы
- 2 In т= 1,73 _ 48 - 12 _ 36 - 2in _ 3,82
v _ 12 - 3 _ 9 , L\2> с числом степеней свободы v_ 48 12 _ 36 и L 93 ) с числом
степеней свободы v _ 144.
Для того, чтобы выбрать адекватный порядок цепи нуклеотидной последовательности, отражающий истинный уровень связи нуклеотидов вдоль цепи ДНК (фактически, противодействующий кодированию белков), часто используется информационный критерий Байеса (Bayesian Information Criterion):
BIC (k ) _ Const - 2 in L (k )+ 3 ■ 4 k in nt
nk k +1
где k - число подпоследовательностей длины , находящихся в рассматриваемой последовательности;
n / \
k равно числу элементов последовательности минус k. То значение k, для которого BIC (k ) минимально,
принимается за оценку. Постоянная величина роли не играет, т.к. осуществляется только сравнение критериев BIC (k). Ее можно условно принять равной нулю. Таким образом: BIC (о) _ Const - 2in L (о)+ 3in (9 - 0 )_ 31,54 . BIC (1)_ 36,04 . BIC (2 )_ 102,8. BIC (3 )_ 349 ,6
Естественно, расчет такой короткой последовательности носит в основном иллюстративный характер. Но уже этот расчет показывает, что нужно выбирать 1-й порядок цепи Маркова для адекватного анализа последовательности нуклеотидов. Нулевой порядок цепи неприемлем, т.к. нуклеотиды в ДНК нельзя считать независимыми.
Выводы. Информация в ДНК записывается с помощью генетического кода. Однако на последовательность нуклеотидов накладываются ограничения, связанные с комплементарностью оснований вдоль цепи ДНК. Эти ограничения на уровне последовательности кодонов могут в значительной мере сниматься вырожденностью генетического кода. По-видимому, также ограничения на уровне кодонов снижают мутационную устойчивость цепи ДНК, способствуя эволюционным процессам.
Использование теории цепей Маркова позволяет определить истинный уровень связи нуклеотидов вдоль цепи ДНК, обнаружить наиболее вероятные участки возможного появления патологических генов.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
[1] Вейр Б. Анализ генетических данных. Пер. англ. М: Мир, 1995. 400 с.
USE OF MARKOV'S CHAIN AT RESEARCH OF THE GENOME ORGANIZATION BASES
Volobuev A.N.
Samara State Medical University, Samara, Russian Federation
Annotation. Some principles of the molecules DNA analysis nucleotide sequences at carrying out clinic - genetic diagnostics are submitted. Bases of the information storage with help DNA are considered. Principles of a genetic code construction are investigated. The expediency of the genetic code degeneration is shown. On the basis of application of the Markov's chain theory the analysis concrete nucleotide sequences is given.
Key words: genome, nucleotide sequences, Markov's chain, Bayesian information criterion.
REFERENCES
[1] Weir B.S. Genetic Data Analysis. Sinauer Associates, Inc. Massachusetts, 1990. 400 p.