Оригинальные исследования
89
СТАТИСТИЧЕСКИЕ ЗАКОНОМЕРНОСТИ МОЗАИЧНОЙ ОРГАНИЗАЦИИ ЭУКАРИОТИЧЕСКОЙ ДНК
А.Р.Каюмов 1, А.А. Саетгараева 1, О.А. Маркелов 2, М.И. Богачев 2
1 Казанский (Приволжский) Федеральный университет, Казань, Россия
2 Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина), Санкт-Петербург, Россия
Statistical laws of eukaryotic DNA patchiness
A.R. Kayumov1, AA. Saetgaraeva 1, OA. Markelov2, M.I. Bogachev 2
1 Kazan (Volga region) Federal University, Kazan, Russia
2 Saint-Petersburg Electrotechnical University, Saint-Petersburg, Russia
Активное развитие генной инженерии и экспрессии чужеродных генов в различных модельных организмах выявили необходимость адаптации последовательностей ДНК к генетическому аппарату клетки хозяина. Для этого необходимо приспособление как функциональных элементов кода, так и архитектуры третичной структуры ДНК. Аннотированные геномы организмов, расположенных на разном уровне эволюционного развития и используемых в качестве модельных, были получены с использованием открытой базы данных ГенБанка (ftp://ftp.ncbi.nlm.nih.gov/ genomes). Проводили анализ распределения длин структурных элементов генетического кода и получали функцию плотности вероятности их размеров.
Анализ распределения последовательностей кодирующей (гены и экзоны) и некодирующей (межгенных участков и интронов) ДНК показал, что оно сохраняет универсальный вид в геномах эукариот всех эволюционных ступеней развития, независимо от среднего числа интронов в гене, их длины и размера генома. Это позволяет предположить, что механизмы геномных перестроек в результате инсерций, делеций, мутагенеза, дупликаций и пр. имеют универсальный характер. Размер вновь встраиваемых (удаляемых) участков ДНК находится в прямой зависимости от среднего размера структурных элементов генетического кода (генов, интронов, экзонов), присущих данному организму. Следовательно, при разработке генноинженерных конструкций, где донор и акцептор ДНК находятся на разных уровнях развития, необходимо вносить поправку на их средние размеры для минимизации негативных эффектов перестройки генетического аппарата клетки.
Ключевые слова: ДНК, статистический анализ, геномы, модельные организмы.
Несмотря на то, что нуклеиновые кислоты служат универсальным генетическим материалом, экспрессия чужеродных генов в модельных организмах не всегда оказывается успешной, особенно в случаях, когда донор и реципиент генетического материала находятся далеко по эволюционной лестнице [1]. Активное развитие генной инженерии в регенеративной медицине, биотехнологии, фармацевтике, сельском хозяйстве выявило необходимость адаптации последовательностей к генетическому аппарату клетки хозяина, включая такие аспекты, как регуляторные элементы, генетический код, GC-контент, метилирование и т.д. [2—4]. Кроме того, некоторые организмы способны распознавать и удалять или подавлять экспрессию чужеродных генетических конструкций. Поэтому понимание этих механизмов и стратегий адаптации генетического материала донора к экспрессионной системе реципиента позволит значительно повысить эффективность гетерологичной экспрессии генов [1].
Для разработки алгоритмов адаптации систем гетерологичной экспрессии актуальным является
е-mail: kairatr@yandex.ru
Active development of the genetic engineering and expression of foreign genes in various organisms revealed the requirement of the DNA sequences adaptation to the genetic machinery of a host cell including adaptation of both functional elements of the genetic code and its tertiary architecture. The annotated genomes of organisms at different evolutionary levels that are widely used as models were obtained from the Genbank (ftp://ftp.ncbi.nlm.nih.gov/genomes). The probability density functions of the sizes of structural elements of the genetic code were assessed and analyzed.
The analysis of the distribution of sequences of coding DNA (genes and exons) and noncoding DNA (intergenic sequences and introns) revealed their universal pattern in genomes of all eukaryotes independently of their evolutionary level, the average number of introns in a gene, their sizes and the total genome size. It allows claiming that mechanisms of genomic reorganizations as a result of insertions, deletions, mutagenesis, duplications and others exhibit universal character. The size of inserted/deleted sites of DNA directly depends on the average size of the respective structural elements of a genetic code (genes, introns, exons) of the organism. Therefore the genetic engineering designs where the DNA donor and recipient are located at different evolutionary levels require the structural elements of foreign DNA being adapted to their average sizes of the host to minimize the negative effects from the reorganization of the genetic machinery of the host.
Key words: DNA, statistical analysis, genomes, model organism.
исследование и характеристика архитектуры и функционального строения геномов донора и реципиента. В настоящее время доступны последовательности полных геномов многих организмов, находящихся на различных эволюционных уровнях, от бактерий до человека. Показано, что общее количество генов слабо коррелирует с эволюционным положением организма, в то время как объем некодирующей ДНК значительно отличается [5], возрастая приблизительно в 1000 раз от E. coli к H. sapiens. Недавние исследования показали, что у эукариот изменения размера генома вызваны главным образом дупликациями, генетическими перекомбинациями, вставками и (или) удалениями, которые преимущественно происходят в некодирующей ДНК — интронах и межгенных участках [6—8]. Следовательно, эволюция затрагивает больше некодирующую ДНК, чем кодирующие последовательности [9]. В последние годы структура эукариотического генома экстенсивно исследовалась на разных уровнях [10]. Большинство исследований длин экзонов, интронов, генов и меж-
Гены & Клетки Том IX, № 3, 2014
90
Оригинальные исследования
генных областей посвящено описанию изменения их размеров в зависимости от эволюции организма и размера генома [11, 12]. В данной работе выполнено описание формы распределения длин этих кодирующих и некодирующих последовательностей ДНК с применением математического аппарата интервального анализа.
Материал и методы
Аннотированные геномы организмов, распложенных на разном уровне эволюционного развития и используемых в качестве модельных, были получены с использованием открытой базы данных ГенБанка (ftp://ftp.ncbi.nlm.nih.gov/genomes). Из файлов данных Генбанка (*.gbk) были получены линейные размеры некодирующих последовательностей ДНК — межгенных участков, самих генов (CDSs — кодирующая часть, включающая интроны и экзоны), интронов и экзонов, рассчитаны их средние значения (табл. 1).
Проводили анализ распределения длин структурных элементов генетического кода и получали функцию плотности вероятности их размеров. Строили гистограммы H(l) длин элементов для каждого из геномов, при этом размер карманов гистограммы выбирался возрастающим по степенному закону, таким образом, чтобы значения абсцисс гистограммы l оказывались равноотстоящими при отображении на логарифмической шкале. Оценку плотности распределения вероятности P(l) производили путем нормировки гистрограммы H(l) к ее площади
р (/ )=н (г)/7 н (/).
Для удобства сопоставления характеристик элементов, длина которых существенно (на 1—2 порядка) различается, полученные оценки плотности распределения вероятностей выражали в единицах их средних значений l для данных элементов конкретного организма (табл. 1). Для сохранения нормировки значения плотности распределения домножали на
средние значения l , таким образом получая зависимости вида 1 -р (i/i).
Результаты и обсуждение
Размер некодирующей ДНК находится в степенной зависимости от размера генома. По мере усложнения организмов в ряду от C. elegans до млекопитающих размер генома увеличивается в 35 раз (табл. 1). Увеличение его размера происходит путем возрастания размеров некодирующей ДНК, расположенной в интронах и межгенных участках. Отметим, что размеры интронов и межгенных участков увеличиваются в ряду рассматриваемых организмов в 17 и 30 раз, соответственно. Размер генов увеличивается в 17 раз, как и размер интронов. При этом объем кодирующей ДНК возрастает всего в 3—4 раза, в основном за счет увеличения количества экзонов в одном гене при постоянной его длине [5].
Был проведен анализ зависимости среднего размера межгенных последовательностей и интронов от размера генома (рис. 1). В то время как размер эк-зона практически не изменяется с эволюцией, размеры межгенных участков и интронов (l) находятся в степенной зависимости от размера генома (S): l ~ Sk. Для интронов значения к составляет порядка 0,65, что близко к ранее показанному значению
Рис. 1. Зависимость средней длины кодирующих и некодирующих последовательностей от размера генома
Таблица. Линейные размеры геномов со средними размерами гена, экзонов, интронов и межгенных последовательностей различных организмов
Организм Геном, млн пар оснований Средние значения, тыс. пар оснований
Ген Меж генн. Экзон Интрон
Caenorhabditis elegans 100 2,8 7,26 0,22 0,31
Drosophila melanogaster 130 4,4 14,1 0,37 0,94
Danio rerio 1412 23,4 62,6 0,15 2,79
Mus musculus 3400 36,7 188 0,15 4,52
Rattus norvegicus 3360 34,3 198 0,15 4,45
Macaca mulatta 3140 42,8 189 0,15 5,43
Pan troglodytes 3700 46,2 203 0,16 5,72
Homo sapiens 3500 48,3 218 0,15 5,50
Гены & Клетки Том IX, № 3, 2014
Оригинальные исследования
91
0,51±0,1 [12]. Для размера межгенных участков значение к равно 0,78. Это позволяет утверждать, что закономерности эволюции и накопления некодирующей ДНК, скорее всего, определяются одинаковыми механизмами и в интронах, и в межгенных последовательностях. С другой стороны, увеличение размеров межгенных участков происходит быстрее.
Закон распределения размеров некодирующей ДНК не зависит от эволюции. На следующем этапе мы провели анализ распределения размеров некодирующей ДНК у организмов различного уровня эволюционного развития. На рис. 2 приведены функции плотности распределения длин генов, межгенных участков, а также экзонов и интронов у исследуемых организмов.
Рис. 2. Функции плотности распределения длин кодирующих и некодирующих последовательностей от размера генома
Гены & Клетки Том IX, № 3, 2014
92
Оригинальные исследования
Поскольку размеры данных последовательностей различаются в 20—30 раз, для того, чтобы иметь возможность сравнения форм их функций плотности вероятности, значения нормированы к среднему значению для организма (l /1 ). Как следует из рисунка, независимо от положения организма на эволюционной лестнице, размеров его генома и длин генов и некодирующих последовательностей, форма распределений их кодирующих фрагментов (экзонов) одинакова и затухает по степенному
закону P(l) ~(l/l ) , 8 « 3 (см. рис. 2А). При
этом распределение некодирующих фрагментов характеризуется растянутой экспоненциальной зависимостью вида P(l) ~ e с у « 0,2 для интро-нов (см. рис. 2Б) и у « 0,4 для межгенных участков (см. рис. 2Г). Распределение размеров генов изменяется в зависимости от доли некодирующей ДНК в геноме — для организмов, в геномах которых доминирует некодирующая ДНК, для генов характерно растянутое экспоненциальное распределение -Ш)
P) ~ e c у « 0,3, в то время как для организмов с высокой долей кодирующей ДНК в геномах, наблюдается зависимость, близкая к степенной
P (') ~ ) (см. рис. 2В).
Обсуждение
Значительные успехи в секвенировании ДНК привели к прочтению большого числа полных геномов для организмов разных эволюционных уровней. Их сравнительный анализ выявил резкий рост общего количества и размера некодирующих последовательностей в ДНК высших эукариот [1], в то время как количество белок-кодирующих генов довольно редко превышает 20—25 тыс., несмотря на значительное (в разы) увеличение размера генома [12]. В настоящее время пока остается открытым как вопрос функции некодирующей ДНК, так и механизмов ее накопления и связи с усложнением организма [12, 13].
Наш анализ показал, что по мере усложнения организмов, происходит увеличение размеров межгенных участков в 30 раз, тогда как размеры интронов возрастают в 17 раз, как и размер самих генов. Следовательно, размер генов увеличивается в основном за счет интронов, оставляя кодируемый функциональный белок почти неизменным [1]. Таким образом, наибольший интерес представляет ДНК, не несущая информации об аминокислотных последовательностях и расположенная в межгенных участках и интронах. При этом наблюдается четко выраженная степенная зависимость длин кодирующих и некодирующих последовательностей от размера генома. Другими словами, размер и масштаб геномных перестроек, по-видимому, находится в строгой зависимости от размера генома.
С другой стороны, распределение плотности вероятности длин некодирующей (межгенных участков и интронов) и кодирующей (гены и экзоны) ДНК оди-
наково для всех рассмотренных организмов и, по-видимому, сохраняет универсальный вид в геномах эукариот всех эволюционных ступеней развития, независимо от среднего числа интронов в гене, их длины и размера генома. Это позволяет предположить, что механизмы геномных перестроек в результате инсерций, делеций, мутагенеза, дупликаций и пр. носят универсальный характер.
Следует отметить, что в предположении о статистически случайных механизмах накопления некодирующей ДНК в геноме, теоретически ожидались бы нормальные распределения длин элементов (I) и экспоненциальные распределения интервалов между их положениями в геноме с вероятностью р (I) ~ е Y c y = 1. Полученные же эмпирические распределения имеют y = 0,2 ... 0,4, что свидетельствует о неслучайном характере удлинения генов и некодирующей ДНК. Подобные формы зависимости, описываемые растянутой экспоненциальной функцией, характерны для систем с так называемыми дальнодействующими статистическими связями (long-range correlation), наличие которых в первичной структуре биомолекул (ДНК и белков) неоднократно отмечалось рядом авторов [10, 14— 17]. Наличие подобных связей в структурных элементах генетического кода позволяет утверждать, что существуют статистически значимые факторы, приводящие к неслучайному накоплению некодирующей ДНК в некоторых генетических элементах. Вероятно, это связано с наличием механизма, приводящего к предпочтительному встраиванию последовательностей в участки некодирующей ДНК большей длины, причем вероятность такого встраивания растет с ростом размера генетического элемента быстрее, чем по линейному закону. Это может быть связано с эффектами, описанными в [8, 18], а также с большей вероятностью нарушения функции генома при встраивании мобильного генетического элемента в короткий фрагмент некодирующей ДНК. При этом размер вновь встраиваемых (удаляемых) участков пропорционален среднему размеру структурных элементов генетического кода (генов, интронов, экзонов), присущих данному организму.
Следовательно, при разработке генноинженерных конструкций, где донор и акцептор ДНК находятся на разный уровнях развития, за счет свойства масштабируемости поправка, вводимая для минимизации негативных эффектов перестройки генетического аппарата клетки, может быть сведена к систематической коррекции на отношение их средних размеров.
Благодарности
Работа выполнена при поддержке государственной программы повышения конкурентоспособности Казанского (Приволжского) федерального университета среди ведущих мировых научно-образовательных центров и в рамках проектной части государственного задания № 8.324.2014/K Санкт-Петербургского государственного электротехнического университета.
Гены & Клетки Том IX, № 3, 2014
Оригинальные исследования
93
ЛИТЕРАТУРА:
1. Close D., Tingting Xu, Smartt A. Expression of Non-native genes in a surrogate host organism. Genetic Engineering — Basics, New Applications and Responsibilities. 2012; 3-34.
2. Angov E. Codon usage: Nature's roadmap to expression and folding of proteins. Biotechnol. J. 2011; 6(6): 650-9.
3. Boeger H., Bushnell D.A., Davis R. et al. Structural basis of eukaryotic gene transcription. FEBS Letters 2005; 579(4), 899-903.
4. Chamary J.V., Parmley J.L., Hurst L.D. Hearing silence: nonneutral evolution at synonymous sites in mammals. Nat. Rev. Gen. 2006; 7(2): 98-108.
5. Ahnert S.E., Thomas M.A., Zinovyev A. How much noncoding DNA do eukaryotes require? J. Theor. Biol. 2008; 252: 587—92.
6. Ludwig M.Z. Functional evolution of noncoding DNA. Curr. Op. Genet. Dev. 2002; 12: 634-9.
7. Gregory T.R. Insertion/deletion biases and the evolution of genome sizes. Gene 2004; 324: 15-34.
8. Haddrill P.R., Bachtrog D., Andolfatto P. Positive and negative selection on noncoding DNA in Drosophila simulans. Mol. Biol. Evol. 2008; 25: 1825-34.
9. Castillo-Davis C.I. The evolution of noncoding DNA: how much junk, how much func? Trends in Gen. 2005; 21: 533-6.
10. Arneodo A., Vaillant C., Audit B. et al. Multi-scale coding of genomic information: From DNA sequence to genome structure and
function. Phys. Rep. 2011; 408: 45-188.
11. Vinogradov A.E. Intron-genome size relationship on a large evolutionary scale. J. Mol. Evol. 1999; 49: 376-84.
12. Lynch M., Conery J.S. The origins of genome complexity. Science 2003; 302: 1401-4.
13. Straalen V., Roelofs D. An introduction to ecological genomics. Oxford: Oxford University Press; 2006.
14. Peng C.-K., Buldyrev S.V., Goldberger A.L. et al. Long-range correlations in nucleotide sequences. Nature 1992; 356: 168-70.
15. Arneodo A., Bacry E., Graves P.V. et al. Characterizing long-range correlations in DNA sequences from wavelet analysis. Phys. Rev. Lett. 1995; 74: 3293.
16. Богачев М.И., Каюмов А.Р. Исследование статистических свойств первичной структуры факторов патогенности белковой природы. Биомедицинская радиоэлектроника 2011; 5: 24-7.
17. Богачев М.И., Каюмов А.Р., Михайлова Е.О. Анализ структуры сигналов и функциональной организации биокаталитических систем с использованием математического аппарата интервальных статистик. Известия высших учебных заведений России. Радиоэлектроника 2010; 3: 8-16.
18. Hannan A.J. Tandem repeat polymorphisms: modulators of disease susceptibility and candidates for 'missing heritability'. Trends Gen. 2010; 26: 59-65.
Поступила: 11.08.2014
Гены & Клетки Том IX, № 3, 2014