Научная статья на тему 'Анализ эволюционной новизны последовательностей, экспрессирующихся в опухолях'

Анализ эволюционной новизны последовательностей, экспрессирующихся в опухолях Текст научной статьи по специальности «Биологические науки»

CC BY
200
78
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Экологическая генетика
Scopus
ВАК
RSCI
Область наук
Ключевые слова
ЭВОЛЮЦИОННО-НОВЫЕ ГЕНЫ / ОПУХОЛЕСПЕЦИФИЧЕСКИЕ ТРАНСКРИПТЫ / ОПУХОЛИ И ЭВОЛЮЦИЯ / EVOLUTIONARILY NEW GENE / TUMOR-SPECIFIC TRANSCRIPTS / TUMORS AND EVOLUTION

Аннотация научной статьи по биологическим наукам, автор научной работы — Самусик Николай Анатольевич, Галачьянц Юрий Павлович, Козлов Анрей Петрович

В предыдущих работах мы определили новый класс последовательностей человека, экспрессирующихся преимущественно в опухолях. Здесь мы представляем результаты сравнительно-геномного анализа и анализа консервативности для девяти ранее описанных опухолеспецифических последовательностей. Tри последовательности специфичны для приматов. Для трех последовательностей, имеющих ортологи в геномах млекопитающих, анализ частот нуклеотидных замен и поиск консервативных элементов показал, что они эволюционируют нейтрально. Oставшиеся три последовательности являются консервативными. Эти результаты подтверждают ранее сформулированную нами гипотезу о том, что в опухолях экспрессируются эволюционно новые последовательности.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Evolutionary analysis of sequences expressed in tumors

Earlier we have identified a new class of human genomic sequences expressed preferentially in tumors. Here we use a comparative genomics approach and conservation analysis to study evolutionary specificity of nine human tumor-specific sequences, described previously. Three sequences had originated in the primate lineage. The other three had mammalian orthologs, but conservation analysis has shown that these sequences evolved neutrally. Three sequences were conservative. These data confirm previously formulated hypothesis that evolutionarily new genes are expressed in tumors.

Текст научной работы на тему «Анализ эволюционной новизны последовательностей, экспрессирующихся в опухолях»

генетика популяций и теория эволюции

© H. А. Самусик,

ю. П. Галачьянц, А. П. козлов

Биомедицинский центр, Санкт-Петербург

' В предыдущих работах мы определили новый класс последовательностей человека, экспрессирующихся преимущественно в опухолях. Здесь мы представляем результаты сравнительно-геномного анализа и анализа консервативности для девяти ранее описанных опухолеспецифических последовательностей. три последовательности специфичны для приматов.

Для трех последовательностей, имеющих ортологи в геномах млекопитающих, анализ частот нуклеотидных замен и поиск консервативных элементов показал, что они эволюционируют нейтрально. оставшиеся три последовательности являются консервативными.

Эти результаты подтверждают ранее сформулированную нами гипотезу о том, что в опухолях экспрессируются эволюционно новые последовательности.

' ключевые слова: эволюционноновые гены; опухолеспецифические транскрипты; опухоли и эволюция.

УДК 575.155

АНАЛИЗ ЭВОЛЮЦИОННОЙ НОВИЗНЫ ПОСЛЕДОВАТЕЛЬНОСТЕЙ, ЭКСПРЕССИРУЮЩИХСЯ В ОПУХОЛЯХ

Ранее А. П. Козлов сформулировал гипотезу положительной эволюционной роли опухолей (Kozlov, 1979, 1996; Козлов, 1976, 1983, 1987, 1988). Согласно этой концепции, опухоль может предоставлять условия для экспрессии эволюционно новых и/или «молчащих» последовательностей, которые не экспрессируются в нормальных клетках или тканях. Нейтральная эволюция таких последовательностей в геноме зародышевых клеток и их экспрессия в опухоли может привести к возникновению гена с новой функцией. В свою очередь, реализация новой функции ведет к дифференциации опухолевой клетки в новый клеточный тип.

В статьях А. П. Козлова были рассмотрены экспериментальные доказательства и биологические наблюдения, поддерживающие концепцию положительной эволюционной роли опухолей, а также сделано предсказание, что эволюционно новые и/или «молчащие» последовательности могут быть экспериментально обнаружены в опухолях (Kozlov, 1979, 1996; Козлов, 1976, 1983, 1987, 1988).

В последующих работах был описан новый класс последовательностей, экспрессирующихся преимущественно в опухолях (Евтушенко и др., 1989; Kozlov, 1992; Baranova et al, 2001; Krukovskaya et al., 2005; Kozlov et al., 2006; Palena et al., 2007). Был осуществлен поиск in silico опухолеспецифических транскриптов среди более чем 2 000 000 коротких экспрессирующихся фрагментов (EST), полученных при секвенировании ~4 000 кДНК-библиотек из опухолевых или нормальных тканей человека. При этом было выявлено более 200 транскриптов, экспрессирующихся только в опухолях (Baranova et al, 2001).

Проверка специфичности экспрессии 55 найденных in silico транскриптов в ПЦР-экспериментах на панелях ткане- и опухолеспецифических образцов кДНК показала, что 9 из 55 последовательностей транскрибируются в широком спектре опухолей, но не экспрессируются в нормальных тканях (Krukovskaya, 2005; Palena, 2007). Четыре из этих девяти последовательностей были изучены с помощью Southern-гибридизации, молекулярнофилогенетического и сравнительно-геномного анализа. Было показано, что 3 из них являются эволюционно новыми и/или «молчащими» (Kozlov,

2006). В данной статье мы представляем результаты сравнительногеномного анализа эволюционной новизны и консервативности большего числа описанных ранее опухолеспецифических транскриптов.

МАТЕРИАЛЫ И МЕТОДЫ

Анализируемые транскрипты

Изучаемые последовательности перечислены в таблице 1. Номера сик-венсов, используемые в тексте, соответствуют номерам в первой колонке таблицы 1. Последовательности различаются по своим функциональным Поступила в редакцию 24.02.2009 свойствам и аннотациям (табл. 2). Шесть из девяти сиквенсов являются

Принята к публикации 25.05.2009 либо полноразмерными мРНК (№ 1, 3 и 4), либо длинными сплайсирован-

Рис. 1. Схематическое представление выравниваний геномных последовательностей шимпанзе, макаки, крысы, мыши, собаки и курицы, ортологичных соответствующим геномным последовательностям человека для сиквенсов № 8 (А) и № 1 (Б). По UCSC Genome Browser (http://genome.ucsc.edu/cgi-bin/hgGateway).

Геномные координаты, согласно Human Genome (ver. 17), приведены сверху. Трек мРНК человека показывает картирование аннотированных последовательностей RefSeq, UniProt и GenBank на геном человека. На этом треке прямоугольники и линии соответствуют областям картирования экзонов и интронов генов, соответственно. Стрелки в пределах интронных последовательностей показывают направление транскрипции гена. Анализировавшиеся транскрипты, последовательности которых были использованы для поиска ортологов, выделены рамкой. Ниже трека мРНК находится набор треков сцепленных выравниваний. На каждом из них схематически изображено выравнивание последовательности генома человека с соответствующей ортологичной геномной последовательностью. На этих треках прямоугольники соответствуют областям, гомологичным между геномом человека и анализируемым геномом. Одинарные линии отмечают области разрывов выравнивания, соответствующие инсерциям/делециям в человеческой или парной ей последовательности. Двойные линии показывают области низкой гомологии, в основном являющиеся результатом инверсий в одной из геномных последовательностей (Евтушенко и др., 1989; Kozlov, 1992). На нижнем треке представлены результаты картирования вирусных LTR на последовательность генома человека по данным RepeatMasker. Как для сиквенса № 8, так и для № 1, в ортологичных геномных последовательностях курицы, мыши, крысы и собаки отсутствуют участки, соответствующие инсерции HERV в последовательность генома человека (отмечено серым цветом)

ными EST (№ 5, 7 и 8). Три последовательности (№ 2, 6 и 8) картируются в интроны аннотированных мРНК. При этом последовательность № 8 является трехэкзоной РНК, транскрибирующейся с нити, противоположной мРНК CACNA2D3, в интрон которой она картируется (рис. 1А). Сиквенсы № 2 и 6 — короткие несплайси-рованные EST, секвенированные из кДНК-библиотек, полученных с использованием случайных гексамерных праймеров, поэтому направление их транскрипции a priori определить невозможно. Последовательность № 9 — отдельно стоящая короткая несплайсированная EST, фланкированная повторами, которая картируется в область 23-го повтора межгенного спейсера рибосом-ной ДНК.

Последовательности № 3 и 4 кодируют белки SPRRA1 и T. В последовательностях № 1 и 8 имеются

открытые рамки считывания, хотя соответствующие белки экспериментально не были обнаружены.

Сравнительно-геномный анализ и поиск ортологичных последовательностей

Для определения геномных координат транскрипционных единиц соответствующих последовательностей использовали локальную версию базы данных, содержащую информацию о картировании EST и мРНК на последовательность генома человека (Human Genome version 17, Genome Bioinformatics Group, University of California at Santa Cruz: ftp://hgdownload.cse.ucsc.edu/ goldenPath/hg17).

Для того, чтобы получить информацию о полной структуре исследуемого транскрипта, проводили поиск аннотированных полноразмерных сиквенсов мРНК, эк-

Таблица 1

Список анализируемых последовательностей *

№ Последовательность, использованная для экспериментального подтверждения опухолеспецифичности Номер кластера UniGene «Якорная» последовательность кластера Название кластера UniGene

1 NM_005712* Hs.285026 AF110315 HHLA1: Human HERV LTR Associated 1

2 BE503728 Hs.202247 NM_032109 OTP: Orthopedia homolog (Drosophila)

3 NM_005987 Hs.46320 NM_005987 SPRR1A: Small Proline-Rich Protein 1A

4 NM_003181 Hs.389457 NM_003181 T: T, brachyury homolog (mouse)

5 AI793334 Hs.150166 BX119167 Transcribed locus

6 AI792557 Hs.133107 BC033263 PVT1: Pvt1 oncogene homolog, MYC activator (mouse)

7 BG822407 Hs.633957 BX119057 CDNA FLJ38626 fis, clone HEART2009599

8 DQ445779 Hs. 128594 DQ445779 CACNA2D3: Calcium channel, voltage-dependent, alpha 2/delta 3 subunit

9 AA166653 Hs.426704 BC043008 Human ribosomal DNA complete repeating unit

* Номера кластеров приведены согласно UniGene 210. Якорными последовательностями кластеров являются либо мРНК RefSeq, либо наиболее длинная EST, входящая в кластер. ** Приведены идентификаторы последовательностей в GenBank

таблица 2

Аннотации анализируемых последовательностей

Белок-кодирующие мРНК Длинные сплайсированные транскрипты Короткие несплайсированные транскрипты

Отдельно стоящие транскрипты № 1 (HHLA1, Hs.285026) № 3 (SPRR 1A, Hs.46320) № 4 (T, Brachyury, Hs.389457) № 7 (TrSeq, Hs.633957) № 5 (TrSeq, Hs.150166) № 9 (rRNA repeating unit, Hs.426704)

Транскрипты, картированные в интроны других мРНК № 8 (CACNA2D3, Hs.128594)* № 2 (OTP, Hs.202247) № 6 (PVT1, Hs.133107)

* Последовательность транскрибируется с участка генома, соответствующего интрону гена CACNA2D3. Кодирующая нить транскрипта противоположна кодирующей нити мРНК CACNA2D3

зоны которых имеют на геноме области перекрывания с экзонами последовательностей, использовавшихся нами для экспериментального подтверждения опухо-леспецифичности экспрессии (табл. 1, 2-я колонка). При отсутствии такой аннотированной полноразмерной мРНК в качестве транскрипционной единицы рассматривали совокупность транскриптов, напрямую или косвенно имеющих общие экзоны с анализируемой последовательностью. Если транскрипт картировался в интрон другого транскрипта, но не имел с ним общих экзонов, мы не брали «внешний» транскрипт для анализа, считая, что целевая последовательность транскрибируется независимо.

Ортологичные последовательности в геномах других позвоночных животных определяли на основании геномных координат экзонов полученных транскрипционных единиц и межгеномных сцепленных выравниваний (Genome Bioinformatics Group, University of California at Santa Cruz) (Hardison et al., 2003; Schwartz et al., 2003)

генома человека с геномами следующих видов: рыб фугу (Takifigu rubripes) и полосатого данио (Danio rerio), курицы (Gallus gallus), собаки (Canis familiaris), мыши (Mus musculus), крысы (Rattus norvegicus), макаки (Macaca mulatta) и шимпанзе (Pan troglodytes).

Межгеномные сцепленные выравнивания получаются в результате максимального расширения участков локальной межгеномной гомологии (Hardison et al., 2003). Таким образом, выравнивание заданного геномного локуса с синтеничным участком другого генома представлено наиболее длинным сцепленными выравниваниям, перекрывающим заданный локус. Учитывая, что у высших позвоночных синтения и ортология тесно коррелируют (Schwartz et al., 2003), наиболее вероятно, что синтеничный участок указывает на ортологич-ный геномный локус.

Парные выравнивания анализируемых геномных последовательностей человека с геномными последовательностями позвоночных получали, извлекая соответ-

ствующие участки из наиболее протяженного сцепленного выравнивания, перекрывающего интересующий локус генома человека.

Анализ консервативности последовательностей

Для анализа консервативности последовательностей рассчитывали частоту нуклеотидных замен для каждого парного выравнивания, включающего последовательность генома человека и соответствующий ей ортоло-гичный участок. Расчет частоты нуклеотидных замен проводился с использованием двухпараметрической модели Кимуры (Kimura, 1980).

Для оценки консервативности анализируемых последовательностей сравнивали полученные частоты замен c частотами замен в группах аннотированных геномных областей или позиций. Во-первых, рассчитывали частоту замен в позициях четырежды вырожденных сайтов («4-d sites») белок-кодирующих последовательностей человека и их ортологов. Частота замен в «4-d sites» была рассчитана для тысячи RefSeq-последовательностей. Во-вторых, определяли частоту замен в «предковых повторах» («ancestral repeats»), картированных в пределах 50 т. п. о. от анализируемой последовательности. В-третьих, подсчитывали среднюю частоту нуклеотидных замен в экзонах аннотированных белок-кодирующих последовательностей, использованных для подсчета «4-d sites».

Определение статистической значимости при сравнении значений частот нуклеотидных замен осуществлялось с использованием Т-критерия Стьюдента (а= 0,05). Для оценки Ka/Ks использовали пагет программ K-Estimator 6.0 (Comeron, 1995, 1999), статистическая значимость отличия Ка/К от единицы производилась на основании бутстрэпа (1000 репликаций, а= 0,05).

Графики кумулятивного подобия рассчитывали для каждой анализируемой последовательности и ее ортологов в пределах двадцатинуклеотидного скользящего окна на основе выравниваний.

РЕЗУЛЬТАТЫ

Результаты анализа ортологов опухолеспецифических последовательностей

Анализ структуры ортологов подтверждает, что некоторые из исследуемых транскриптов локализованы в пределах эволюционно новых областей генома человека. На рисунке 1А схематически представлено выравнивание ортологичных последовательностей с последовательностью № 8. У всех ортологов последовательности № 8, кроме ортолога шимпанзе, отсутствуют два и более ортологичных экзона, входящих в последовательность мРНК человека (рис. 1А). Большая часть последовательности шимпанзе, ортологичная первому

и второму экзонам мРНК человека, инвертирована по отношению к геномной последовательности человека. Область, специфичная для геномов человека и шимпанзе, является результатом инсерции последовательности размером 5 т. п. о., гомологичной HERV-H, содержащей ретровирусные LTR.

Похожая ситуация наблюдается для ортологов последовательности № 1, соответствующей гену HHLA1 человека (Kowalski, 1997) (рис. 1Б). Ни в одном из рассмотренных геномов, кроме генома шимпанзе, не было обнаружено последовательности, ортологичной первому экзону HHLA1. Большая часть «нового» эк-зона, специфичного для шимпанзе и человека, состоит из последовательности HERV-H, содержащей LTR, и является результатом инсерции ретровируса в геном предка шимпанзе и человека. При этом структура ортолога HHLA1 у шимпанзе разрушена в результате транслокации половины последовательности.

Таким образом, среди проанализированных геномов не было найдено полных ортологов последовательностей № 1 и 8. Следовательно, эти последовательности уникальны для генома человека.

BLAST-поиск гомологов последовательности № 9 в геномах позвоночных выявил их только в геноме шимпанзе. В этом случае мы не смогли определить ортологичную последовательность, поскольку гены рибосомного локуса имеют в геномах человека и шимпанзе большое количество копий. Тем не менее, можно утверждать, что последовательность № 9 специфична только для высших приматов.

Ортологи последовательностей № 2, 3, 5 и б найдены только в геномах млекопитающих. Ортологи последовательности № 7 найдены в геномах млекопитающих и курицы. При этом куриный ортолог — последовательность длиной ~300 нуклеотидов — имеет слабую гомологию с последовательностью № 7 человека. В геномах рыб мы обнаружили только ортологи для последовательности № 4.

Результаты анализа консервативности опухолеспецифических последовательностей

Мы изучили консервативность шести последовательностей, для которых были найдены ортологи. Известно, что консервативность нуклеотидных последовательностей является результатом действия стабилизирующего отбора и указывает на наличие функции. Как видно из результатов, представленных на рисунках 2Б и 2В, частоты нуклеотидных замен последовательностей № 3 и 4 совпадают с частотами замен в экзонах RefSeq. Следовательно, экзонные области белок-кодирующих последовательностей № 3 и 4 являются консервативными. Для этих последовательностей мы определили Ka и Ks по методу Comeron (Comeron, 1995) и проверили значимость отличия Ka/Ks от 1,0. Для последовательностей № 3 и 4 среднее значение Ka/Ks при сравнении

шимпанзе макака крыса мышь собака шимпанзе макака крыса мышь собака

шимпанзе макака крыса мышь собака шимпанзе макака крыса мышь собака курица

% выровненной последовательности

|.........| В экзонах

В интронах

-----------«ancestral repeats»

- ■ - • - «экзоны RefSeq»

Рис. 2. Частоты нуклеотидных замен для анализируемых последовательностей.

А — № 2, Б —№ 3, В — № 4, Г — № 5, Д — № 6, Е — № 7. На оси абсцисс представлены виды, для геномов которых были найдены ортологичные последовательности. Левая ось ординат относится к столбцам гистограмм и представляет долю выровненной ортологичной последовательности, отнесенной к длине соответствующей анализируемой последовательности человека. Серые столбцы — доля выравнивания в экзонах, заштрихованные — в интронах. Правая ось ординат относится к графикам и соответствует частоте нуклеотидных замен (замены/позицию/год * 109). Сплошные жирные линии соединяют значения частот замен, рассчитанные для пар анализируемая человеческая последовательность — ортологичная последовательность (p = 0,05). Значения частот замен в четырежды вырожденных позициях («4-d sites»), предковых повторах («ancestral repeats») и экзонных белок-кодирующих последовательностях («экзоны RefSeq») соединены пунктирными, штриховыми и штрих-пунктирными линиями, соответственно

Рис. 3. Кумулятивные графики подобия нуклеотидных последовательностей, рассчитанные для последовательностей № 2, 5, 6, 7 и их ортологов.

А — № 2, Б — № 5, В — № 6, Г — № 7. По оси абсцисс отложены относительные координаты соответствующей геномной последовательности в нуклеотидах на « + » — нити ДНК. По оси ординат отложена сумма нуклеотидных совпадений между человеческой геномной последовательностью и ортологичными последовательностями. Прямоугольниками выделены области, использованные в дальнейшем анализе на частоту замен

с ортологичными последовательностями шимпанзе, макаки, крысы, мыши и собаки составляло 0,13 ± 0,02 и

0,12 ± 0,02, соответственно. При этом каждое из значений Ka/Ks достоверно отличалось от 1,0.

Частоты замен для последовательностей № 2 и б (рис. 2А и 2Д), аннотированных как некодирующие, не-сплайсированные транскрипты, картирующиеся в ин-троны других мРНК, по-видимому, близки к нейтральной, как следует из их сравнения с ортологами собаки, крысы и мыши (соответствующие частоты в этих категориях близки как к частотам замен в «4-d sites», так и в «ancestral repeats»). Однако частоты замен, полученные при сравнении последовательности № б с ортологами шимпанзе и макаки, значительно ниже, чем частоты замен в последовательностях, эволюционирующих нейтрально («4-d sites», «ancestral repeats») и близки к частотам замен в консервативных последовательностях

(«RefSeq»). Частоты замен, полученные при сравнении последовательности № 2 с ортологичными последовательностями приматов, также ниже частоты нейтральных замен, хотя разница не значима. Сходная ситуация наблюдается для длинной сплайсированной последовательности № 5 (рис. 2Г). Частота замен, полученная при сравнении с ортологами собаки, крысы и мыши, не отличается от нейтрального контроля, однако становится меньше нейтральной частоты, хотя и незначительно, при сравнении с ортологами шимпанзе и макаки.

Исключая грызунов, частота замен для последовательности № 7 выше частоты замен в RefSeq-экзонах и сходна с частотой нейтральных замен (рис. 2Е).

Для более детального анализа мы выбрали на графиках нуклеотидного подобия ортологичных геномных фрагментов по одному из наиболее консервативных фрагментов последовательностей № 2, 5, 6 и 7 (рис. 3).

Рис. 4. Частоты нуклеотидных замен, рассчитанные для выбранных фрагментов последовательностей № 7, 5, 2 и 6.

А — № 7, Б — № 5, В — № 2, Г — № 6. Обозначения на осях абсцисс и ординат — те же, что на оси абсцисс и правой оси ординат на рисунке 2, соответственно. На графиках представлены частоты замен в исходных последовательностях, в пределах фрагментов, выделенных прямоугольниками на рисунке 3, и в четырежды вырожденных позициях

После этого мы рассчитали частоты нуклеотидных замен в каждом из выбранных участков (рис. 4). Частота замен в пределах сорокануклеотидного консервативного участка последовательности № 7 достоверно отличается от частоты нейтральных замен, рассчитанной для «4-d sites» (рис. 4А). Более того, исключая грызунов, частота замен в этой области достоверно ниже, чем средняя частота замен, рассчитанная для всей последовательности № 7. Однако частоты замен, рассчитанные для наиболее консервативных фрагментов последовательностей № 5, 2 и б, достоверно не отличаются от частот соответствующих нейтральных замен (рисунки 4Б, 4В и 4Г).

Наконец, мы провели анализ последовательностей № 2, 5, б и 7 на предмет поиска консервативных вторичных структур, которые могут свидетельствовать о реализации функции на уровне РНК, используя данные EvoFold (Pedersen et al, 2006). Однако ни для одной из этих последовательностей консервативные вторичные структуры обнаружены не были.

обсуждение

Ранее была сформулирована концепция положительной эволюционной роли опухолей (Kozlov, 1979,

1996; Козлов, 1978, 1983, 1987, 1988). Согласно этой концепции, в опухолях может иметь место экспрессия эволюционно новых и/или «молчащих» последовательностей. Современное состояние концепции о возможной роли опухолей в эволюции представлено в статье А. П. Козлова (Козлов, 2008).

В предыдущих работах мы описали новый класс последовательностей человека, которые экспрессируются преимущественно в опухолевых клетках (Евтушенко и др., 1989; Kozlov, 1992; Baranova et al, 2001; Krukovskaya et al., 2005; Palena et al., 2007). Используя Саузерн-гибридизацию, ПЦР-анализ, молекулярнофилогенетический и сравнительно-геномный подходы мы представили первые доказательства, что по крайней мере некоторые из описанных последовательностей являются эволюционно новыми и/или «молчащими» (Козлов, 2006).

В данной статье мы представляем результаты анализа на эволюционную новизну большего числа опухолеспецифических последовательностей, описанных нами ранее. Кроме того, в дополнение к сравнительногеномному анализу мы провели анализ консервативности, основанный на сравнении скоростей нуклеотидных замен. Целью работы было показать, что описанные нами ранее опухолеспецифические последовательности

возникают в эволюции относительно недавно и/или не содержат консервативных участков, свидетельствующих о наличии функции.

Сравнение областей генома человека, которые кодируют транскрипты № 1 и 8, с синтеничными областями геномов других видов показало, что оба транскрипта специфичны для Hominidae (рис. 1Б и 1А) и произошли в результате инсерций LTR-содержащих последовательностей HERV-H в геном общего предка человека и шимпанзе. Предполагается, что LTR могут служить в качестве промоторов при экспрессии молчащих геномных областей, приводя к возникновению новых транс-криптов. Последовательность № 1 обладает белок-кодирующими возможностями — она содержит ОРС размером 389 аминокислот. Аминокислотная последовательность ОРС не имеет ни белковых гомологов, ни значимого сходства с известными белковыми мотивами согласно поиску в базе данных PFam. В отличие от последовательностей № 3 и 4, среднее значение Ka/Ks для ОРС последовательности № 1 составило 0,85. При этом значимое отличие Ka/Ks от 1,0 не наблюдалось.

Поскольку ОРС последовательности № 1, в отличие от ОРС № 8, удовлетворяет ограничениям, накладываемым механизмом нонсенс-опосредованной деградации, вероятность существования такого белка in vivo достаточно велика. В настоящее время мы изучаем такую возможность.

Известно, что последовательности HERV-H экспрессируются в некоторых типах опухолей, таких как тератокарцинома, рак легкого и яичка (Wilkinson et al., 1990). Компьютерный анализ экспрессии HERV на основе данных EST (Stauffer et al., 2004) показал, что в опухолях тонкого кишечника, костного мозга, мочевого пузыря и шейки матки экспрессируются исключительно последовательности семейства HERV-H. Также было обнаружено, что в опухолях толстой кишки и простаты экспрессия последовательностей HERV-H превалирует над экспрессией других семейств HERV (Stauffer et al., 2004). Белковые продукты генов HERV-H экспрессируются в меланомах и служат в качестве мишеней для таргетинга клеток иммунной системы против опухолевых клеток (Schiavetti et al., 2002). Интересно отметить, что в геномах семейств HERV-H и HERV-W содержатся интактные гены env. При этом последовательности HERV-W являются молчащими в большинстве нормальных клеточных типов (Blaise et al., 2003), кроме клеток плаценты, где продукты ретровирусного гена env служат для формирования синцития (Okhara et al., 2004). Данный факт является примером роли HERV в горизонтальном переносе генов.

механизм транскрипционной активации последовательностей HERV-H в опухолевых клетках может быть опосредован через Sp1. Как известно, Sp1 активирован во многих типах опухолей (Tong et al., 2007) и рассматривается как важный фактор клеточной иммортализа-

ции (Sjottem et al., 1996; Jungert et al., 2006; Kanai et al.

2006). Возможно, опухолеспецифическая транскрипция последовательностей № 1 и 8 является следствием активации Sp 1 в опухолевых клетках, что приводит к инициации транскрипции с LTR-промоторов, контролирующих эти последовательности.

Последовательность № 9 специфична для приматов. Отсутствие надежных совпадений по результатам BLAST-поиска во всех геномах, кроме геномов шимпанзе и человека, может являться следствием того, что данная последовательность картируется на область спейсера в высококопийном локусе рибосомальной РНК. Не имея ортологов, мы не смогли оценить частоту нуклеотидных замен для данной последовательности. Поскольку данная последовательность возникла в эволюционной истории приматов относительно недавно, она является эволюционно новой.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для последовательностей № 2, 5 и б ортологичные последовательности были обнаружены только в геномах млекопитающих. Ни результаты анализа частоты замен (рис. 2А, 2Г и 2Д), ни поиск консервативных фрагментов (рис. 3 и 4) и/или консервативных вторичных структур не предоставили свидетельств о наличии эволюционных ограничений. Таким образом, эти последовательности, по-видимому, эволюционируют нейтрально. Более того, последовательности № 2 и б не выглядят как «нормальные» гены: это короткие (533 и 398 п. о.) одноэкзон-ные последовательности, картирующиеся на интроны других генов (OTP и PVT1, соответственно) (табл. 1). Интересно отметить, что ген PVT1, как было показано недавно, является геном, вовлеченным в апоптотиче-скую деактивацию рака молочной железы (Guan et al.,

2007).

Частоты замен при сравнении последовательностей № 2, 5 и б человека и приматов ниже частот замен в нейтрально эволюционирующих последовательностях, и в некоторых случаях различие достоверно ниже частот замен в нейтрально эволюционирующих последовательностях (рис. 2А, 2Г и 2Д). В соответствии с представлениями о том, что нейтральная эволюция последовательности предполагает отсутствие функции, можно было бы допустить, что эти некодирующие последовательности приобретают некоторую функцию у приматов, следствием чего является снижение частоты замен благодаря действию стабилизирующего отбора. Однако подсчитанные значения частот замен подвержены случайным колебаниям на коротких эволюционных дистанциях, когда наблюдается небольшое число замен в сравниваемых коротких ортологичных последовательностях. В то же время, необходимо учитывать, что нормальное распределение частоты замен на сайт (K), которое мы использовали для оценки достоверности результатов, не столь эффективно для малых значений K. Поэтому вопрос возможного возникновения функции у последовательностей № 5, 2 и

б у приматов будет более глубоко рассмотрен в дальнейших работах.

О природе некодирующей последовательности № 7 известно немного. Ни публикации, ни данные автоматизированной аннотации не содержат указаний на возможную функцию высококонсервативного участка длиной сорок нуклеотидов, локализованного в 5'-экзоне последовательности № 7 (рис. 3Г и 4А). Интересно, что последовательность № 7 — единственный среди проанализированных нами некодирующий сиквенс, имеющий ортологичную область в геноме курицы. Более того, куриный ортолог картируется на участок генома человека, прилегающий к наиболее консервативному участку последовательности № 7, но не перекрывает его (рис. 3Г)! мы предполагаем, что консервативный участок последовательности № 7 может выполнять неизвестную функцию, которая реализуется на уровне РНК. Однако остальная 3'-концевая часть транскрипта № 7 (~б00 п. о.), по-видимому, эволюционирует нейтрально (рис. 2Е и 3Г).

Аннотированные белок-кодирующие последовательности № 3 и 4 обнаруживают все свойства, указывающие на наличие у них функции. Об этом свидетельствуют как анализ частот замен (рис. 2Б и 2В), так и низкое отношение Ka/Ks для обеих последовательностей. Последовательность № 4 является Т-бокс содержащим мезодермальным транскрипционным фактором (T gene). Как известно, экспрессия этого гена повышена во многих опухолях мезодермального происхождения (Gokhale et al., 2000; Palena et al., 2007). Также сообщается, что «Т» является одним из ключевых факторов формирования паттерна мезодермы при эмбриональном развитии позвоночных. Согласно нашим данным, полученным совместно с лабораторией д-ра Шлома (Palena et al., 2007), продукт гена T может оказаться перспективной мишенью при создании противоопухолевой терапевтической вакцины. Последовательность № 3 соответствует гену SPRRA1. Показано, что экспрессия SPRA1 повышена во многих эпителиальных опухолях (Sark et al., 1998). В отличие от последовательности № 4, чьи ортологи были найдены во всех проанализированных нами геномах, ортологи для последовательности № 3 были найдены только у млекопитающих. По этой причине мы рассматриваем последовательность № 3 как относительно эволюционно новую. Данная последовательность приобрела функцию и играет роль в дифференциации клеток ороговевающего эпителия (Sark et al., 1998).

Согласно гипотезе об эволюционной роли опухолей (Kozlov, 1979, 1996; Козлов, 1976, 1983, 1987, 1988, 2008), в опухолевых клетках могут реализовываться условия для экспрессии эволюционно новых и/или «молчащих» последовательностей, которые не экспрессируются в нормальных клетках. «молчащие» последовательности не являются объектом действия

естественного отбора на транскриптомном уровне, поэтому можно допустить, что большая их часть эволюционирует нейтрально. Такие последовательности могут иметь транскрипционный потенциал и открытые рамки считывания, но не являться при этом функциональными. Термин «эволюционно новая последовательность» не предполагает, что вся анализируемая последовательность должна возникать в эволюционной истории совсем недавно. Последовательность может быть нефункциональной и не иметь регуляторных элементов для обеспечения ее специфической экспрессии в течение длительного времени. мы предположили (Kozlov, 1979, 1996; Козлов, 1976, 1983, 1987, 1988, 2008), что опухоли предоставляют условия для экспрессии последовательностей, не транскрибирующихся в нормальных клетках многоклеточных организмов, и что нейтральная эволюция таких последовательностей в геноме зародышевых клеток и их экспрессия в опухолях может привести к возникновению гена с новой функцией. Новый ген, в свою очередь, может привести к дифференцировке опухолевых клеток в соматические клетки нового типа.

В настоящей статье показано, что последовательности № 1, 2, 5, б, 8 и 9 действительно обнаруживают свойства, позволяющие рассматривать их как эволюционно новые последовательности и/или «молчащие» последовательности, эволюционирующие нейтрально. Последовательность № 3 также имеет признаки относительной эволюционной новизны. Большая часть последовательности № 7, за исключением 5'-концевого участка длиной сорок нуклеотидов, эволюционирует нейтрально. Учитывая факт опухолеспецифической транскрипции этих последовательностей, в рамках нашей гипотезы о положительной эволюционной роли опухолей (Kozlov, 1979, 1996; Козлов, 1976, 1983, 1987, 1988, 2008), мы предполагаем, что эти нефункциональные нейтрально эволюционирующие последовательности, «молчащие» в нормальных клетках и активирующиеся в опухолях, являются примером «эволюционного сырья». Опухоли могут играть роль эволюционного «полигона» или «резервуара» экспрессии такого рода последовательностей.

С использованием различных подходов было показано, что значительная доля некодирующих областей эукариотического генома транскрибируется (Baranova et al, 2001; Evtushenko et al., 1989; Kapranov et al., 2007). Хотя биологическое значение этого феномена не полностью объяснено, мы предполагаем, что, по-крайней мере частично, экспрессия некодирующих последовательностей связана активацией транскрипции в опухолях (Евтушенко и др., 1989; Kozlov, 1992; Baranova et al, 2001; Krukovskaya et al., 2005; Palena et al., 2007). Интересно отметить тот факт, что для снятия реплик транскриптома при полногеномном анализе экспрессии

зачастую берутся образцы РНК из опухолевых или им-мортализованных линий клеток.

В последнее время некоторые исследователи склоняются к точке зрения, что именно РНК-транскрипт, а не ген, должен рассматриваться как фундаментальная функциональная единица эукариотического генома (Pennisi, 2007). Данное представление основывается на сложной структуре и регуляции транскрипционных единиц. Эта позиция близка к описываемой в данной статье, в особенности в свете интерпретации происхождения новых генов с новыми функциями.

Гипотезы о механизмах возникновения новых генов выдвигаются с момента зарождения генетики. В первой половине XX века Холдейн (Haldane, 1932) и Мюллер (Muller, 1935) предположили, что дупликация и последующая дивергенция генов может привести к происхождению нового гена. Позднее Оно обосновал в своей классической книге (Ohno, 1970), что дупликация генов является основным механизмом возникновения новых генов. Данная точка зрения является общепринятой в настоящее время. В середине 1980-х был предложен новый механизм возникновения генов, названный «exon shuffling» (перетасовка экзонов). Согласно этой гипотезе, новый ген может возникать в процессе дупликации и делеции экзонов, равно как и в результате объединения экзонов или целых генов (Banyani, 1983; Doolittle, 1985; Patthy, 1985).

Возможность возникновения гена de novo, а не из ранее существовавших генов, не рассматривалась в рамках современной теории молекулярной эволюции, хотя ряд данных свидетельствует в пользу такой возможности (Begun et al., 2006, 2007). Очевидно, что в результате мутационного процесса и геномных перестроек возможно возникновение новых промоторных элементов (например, GC-богатых последовательностей, TATA-боксов или ретровирусных LTR). Активация транскрипции с таких промоторов в опухолях может привести к экспрессии «бессмысленных» последовательностей, в том числе и эволюционно новых. В дальнейшем такие последовательности могут приобрести функцию. Процесс возникновения, эволюции и последующего включения таких последовательностей в функциональные генные сети можно назвать «эволюцией путем приобретения смысла» («evolution by sense acquisition»).

Таким образом, результаты, представленные в этой и предыдущих статьях (Евтушенко и др., 1989; Kozlov, 1992; Baranova et al, 2001; Krukovskaya et al., 2005; Kozlov et al., 2006; Palena et al., 2007), свидетельствуют в пользу того, что в опухолевых клетках действительно могут экспрессироваться эволюционно новые и/или «молчащие» последовательности, что находится в соответствии с предсказаниями гипотезы о возможной эволюционной роли опухолей (Kozlov, 1979, 1996; Козлов, 1976, 1983, 1987, 1988, 2008).

Литература

1. Евтушенко В. И., Хансон К. П., Барабицкая О. В. и др., 1989. Определение верхнего предела величины экспрессии генома крысы // Молекулярная биология. Т. 23, № 3. С. 663—675.

2. Козлов А. П., 1976. Регуляторные механизмы как выражение и результат эволюции конкурентных отношений между генами // Соленостные адаптации водных организмов. Ленинград: Изд-во АН СССР, стр. 237.

3. Козлов А. П., 1983. Принципы многоуровневого развития организмов // Проблемы анализа биологических систем / Ред. Максимов В. Н. Москва, изд-во Московского университета, стр. 48 — 62.

4. Козлов А. П., 1987. Генная конкуренция и возможная эволюционная роль опухолей и клеточных онкогенов // Теоретические и математические аспекты морфогенеза / Ред. Преснов Е. В., Маресин Е. В., Зотин А. И. Москва, изд-во «Наука», стр. 136—140.

5. Козлов А. П., 1988. Принципы сохранения в системе молекулярно-биологических законов. Теоретическая биология: структурно-функциональный подход. Л.: Изд-во ЛГУ. С. 4-21.

6. Козлов А. П., 2008. Опухоли и эволюция // Вопросы онкологии. Vol. 54. N 6. P. 695-705.

7. Banyani L., Varadi A., Patthy L., 1983. Common evolutionary origin of the fibrin-binding structures of fibronectin and tissue-type plasminogen activator // FEBS Lett. Vol. 163. p. 37.

8. Baranova A. V., Lobashev A. V. et al., 2001. In silico screening for tumour-specific expressed sequences in human genome // FEBS Lett. Vol. 508. P. 143-148.

9. Begun D. J., Lindfors H. A., Thompson M. E., Holloway A. K., 2006. Recently evolved genes identified from Drosophila yakuba and D. erecta accessory gland expressed sequence tags // Genetics. Vol. 172. N 3. P. 1675-1681.

10. Begun D. J., Lindfors H. A., Kern A. D., Jones C. D, 2007. Evidence for de novo evolution of testis-expressed genes in the Drosophila yakuba / Drosophila erecta clade // Genetics. Vol. 176. N 2. P. 1131-1137.

11. Blaise S., de Parseval N., Benit L., Heidmann T, 2003. Genomewide screening for fusogenic human endogenous retrovirus envelopes identifies syncytin 2, a gene conserved on primate evolution // Proc. Natl. Acad. Sci. Vol. 1000. N 22. P. 13013-13018.

12. Comeron J. M., 1995. A method for estimating the numbers of synonymous and nonsynonymous substitutions per site // J. Mol. Evol. Vol. 41, N 6. P. 1152-1159.

13. Comeron J. M., 1999. K-Estimator: calculation of the number of nucleotide substitutions per site and the confidence intervals // Bioinformatics. Vol. 9. P 763-764.

14. Doolittle R. F, 1985. The genealogy of some recently evolved vertebrate proteins // Trends Biochem Sci. Vol. 10. P. 233.

15. Evtushenko V. I., Khanson K. P., Barabitskaia O. V. et al., 1989. Determination of the upper limit of the value for rat genome expression // Mol. Biol. (Mosk). Vol. 23. N 3. P. 663-675.

16. Gokhale P. J., Giesberts A. M., Andrews P. W, 2000. Brachyury is expressed by human teratocarcinoma cells in the absence of mesodermal differentiation // Cell Growth. Differ. Vol. 11. N 3. P. 157-162.

17. Guan Y, Kuo W. L., Stilwell J. L. et al., 2007. Amplification of PVT1 Contributes to the Pathophysiology of Ovarian and Breast Cancer // Clin. Cancer Res. Vol. 13. N 19. P. 5745-5755.

18. Hardison R. C., Roskin K. M., Yang S. et al., 2003. Covariation in frequencies of substitution, deletion, transposition, and recombination during eutherian evolution // Genome Res. Vol. 13, N 1. P. 13-26.

19. Haldane J. B. S., 1932. The Causes of Evolution. Longmans & Green, London.

20. Jungert K., Buck A., Buchholz M. et al. 2006. Smad-Sp1 complexes mediate TGFbeta-induced early transcription of oncogenic Smad7 in pancreatic cancer cells //Carcinogenesis. Vol. 27. N 12. P. 2392-2401.

21. Kanai M., Wei D., Li Q. et al. 2006. Loss of Kruppel-like factor 4 expression contributes to Sp1 overexpression and human gastric cancer development and progression // Clin. Cancer Res. Vol. 12. N. 21. P. 6395-6402.

22. Kapranov P., Cheng J., Dike S. et al., 2007. RNA maps reveal new RNA classes and a possible function for pervasive transcription // Science. Vol. 316 (5830). P. 1484-1488.

23. Kimura M., 1980. A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences // J. Mol. Evol. Vol. 16, N 2. P. 111-120.

24. Kowalski P. E., Freeman J. D., Nelson D. T., Mag-er D. L., 1997. Genomic structure and evolution of a novel gene (PLA2L) with duplicated phospholipase A2-like domains // Genomics. Vol. 39, N 1. P. 38-46.

25. Kozlov A. P., 1992. The maximal expression of mammalian genome, the complexity of tumor-specific transcripts and the cloning of tumor-specific cDNAs // Abstracts of Annual Meeting Sponsored by Laboratory of Tumor Cell Biology. Bethesda, MD, USA.

26. Kozlov A. P., Galachyants Y. P., Dukhovlinov I. V. et al., 2006. Evolutionarily new sequences expressed in tumors // Infect Agent Cancer. Vol. 1. P. 8.

27. Krukovskaja L. L., Baranova A. V., Tyezelova T. et al., 2005. Experimental study of human expressed sequences newly identified in silico as tumour specific // Tumour Biol. Vol. 26, P. 17-24.

28. Kozlov A. P., 1979. Evolution of Living Organisms as a Multilevel Process // J Theor Biol. Vol. 81. P. 1-17.

29. Kozlov A. P., 1996. Gene Competition and the Possible Evolutionary Role of Tumours // Medical Hypotheses. Vol. 46, P. 81-84.

30. MullerH. J., 1935. The origin of chromatin deficiencies as minute deletions subject to insertion elsewhere // Genetics. Vol. 17. P. 237-252.

31. Ohno S., 1970. Evolution by gene duplication. Springer, Berlin.

32. Okahara G., Matsubara S., Oda T. et al., 2004. Expression analyses of human endogenous retroviruses (HERVs): tissue-specific and developmental stage-dependent expression of HERVs // Genomics. Vol. 84. N 6. P 982-990.

33. Palena C., Polev D. E, Tsang K. Y. et al., 2007. The human T-box mesodermal transcription factor Brachyury is a candidate target for T-cell-mediated cancer immunotherapy // Clin Cancer Res. Vol. 13, N 8. P 2471-2478.

34. Patthy L., 1985. Evolution of the proteases of blood coagulation and fibrinolysis by assembly from modules // Cell. Vol. 41. P. 657.

35. Pedersen J. S., Bejerano G., Siepel A. et al., 2006. Identification and classification of conserved RNA secondary structures in the human genome // PLoS Comput Biol. Vol. 2. N 4. P. 33-38.

36. Pennisi E., 2007. Genomics DNA study forces rethink of what it means to be a gene // Science. Vol. 316 (5831). P. 1556-1557.

37. SarkM. W., FischerD. F., deMeijerE. et al., 1998. AP-1 and ets transcription factors regulate the expression of the human SPRR1A keratinocyte terminal differentiation marker // J. Biol. Chem. Vol. 273. N 8. P. 24683-24692.

38. Schiavetti F., Thonnard J., Colau D. et al., 2002. A human endogenous retroviral sequence encoding an antigen recognized on melanoma by cytolytic T lymphocytes // Cancer Res. Vol. 62. N 19. P. 5510-5516.

39. Schwartz S., Kent W. J., Smit A. et al., 2003. Human-Mouse Alignments with BLASTZ // Genome Res. Vol. 13. N 1. P. 103-107.

40. SjottemE., Anderssen S., Johansen T., 1996. The promoter activity of long terminal repeats of the HERV-H family of human retrovirus-like elements is critically dependent on Sp 1 family proteins interacting with a GC/GT box located immediately 3' to the TATA box / / J. Virol. Vol. 70. N 1. P. 188-198.

41. Stauffer Y., Theiler G., Sperisen P. et al., 2004. Digital expression profiles of human endogenous retroviral families in normal and cancerous tissues // Cancer Immun. Vol. 4. P. 2.

42. Tong Y., Tan Y., Zhou C., Melmed S., 2007. Pituitary tumor transforming gene interacts with Sp1 to modulate G1/S cell phase transition // Oncogene. Vol. 26. N 38. P. 5596-5605.

43. Wilkinson D. A., Freeman J. D., Goodchild N. L. et al., 1990. Autonomous expression of HERV-H endogenous retroviruslike elements in human cells // J. Virol. Vol. 64. P. 2157-2167.

Evolutionary analysis of sequences expressed in tumors

N. A. Samusik, Y. P. Galachyants, A. P. Kozlov

' SUMMARY: Earlier we have identified a new class of human genomic sequences expressed preferentially in tumors. Here we use a comparative genomics approach and conservation analysis to study evolutionary specificity of nine human tumor-specific sequences, described previously.

Three sequences had originated in the primate lineage. The other three had mammalian orthologs, but conservation analysis has shown that these sequences evolved neutrally. Three sequences were conservative. These data confirm previously formulated hypothesis that evolutionarily new genes are expressed in tumors.

' KEY WORDS: evolutionarily new gene; tumor-specific transcripts; tumors and evolution.

' Информация об авторах

Самусик Николай Анатольевич — Биомедицинский центр. Выборгская ул., д. 8, Санкт-Петербург, Россия, 194044 E-mail: contact@biomed.spb.ru

Галачьянц Юрий Павлович — Лимнологический институт СО РАН. Улан-Баторская ул., д. 3, Иркутск, Россия, 664033 (адрес в настоящее время). E-mail: contact@biomed.spb.ru.

Козлов Анрей Петрович — д. б. н., профессор, директор. Биомедицинский центр.

Выборгская ул., д. 8, Санкт-Петербург, Россия, 194044.

E-mail: contact@biomed.spb.ru

Samusik Nikolay Anatilevich — The Biomedical Center. Vyborgskaya 8, St. Petersburg, Russia, 194044.

E-mail: contact@biomed.spb.ru

Galachyants Yuriy Pavlovich — Limnological Institute SB RAS. Ulan-Batorskaya st., 3, Irkutsk, Russia, 664033 (present address). E-mail: contact@biomed.spb.ru

Kozlov Andtey Petrovich — PhD, professor, director.

The Biomedical Center,

Vyborgskaya st., 8, St. Petersburg, Russia, 194044.

E-mail: contact@biomed.spb.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.