С.Т. ЗОЛЯН
ГЕНЕТИЧЕСКИЙ КОД: ГРАММАТИКА, СЕМАНТИКА, ЭВОЛЮЦИЯ1
1. К постановке проблемы
В свое время Френсис Крик охрактеризовал свое открытие как взаимодействие двух «языков»: «Обнаружение генетического кода действительно является великим достижением. Это, в определенном смысле, ключ к молекулярной биологии, потому что это показывает, как связаны друг с другом два великих полимерных языка: язык нуклеотидов и язык белков» [Crick, 1966 а, p. 9]. В иной связи он описывает этот синтез как перевод с четырехбуквенного языка РНК на двадцатибуквенный -белков [Crick, 1981, p. 70]2. Безусловно, аналогии между языком и генетическим кодом лежат на поверхности; они дали жизнь многочисленным терминам молекулярной генетики (помимо трансляции это код, информация, язык, словарь, алфавит, семантика, транскрипция, чтение, синонимия,
1 «Исследование выполнено за счет гранта Российского научного фонда (проект № 17-18-01536 «Трансфер знаний и конвергенция методологических традиций») в Институте научной информации по общественным наукам Российской академии наук.
2Заметим, что в русском переводе, следуя уже устоявшейся в генетике традиции, возникает «раздвоение» английского «translation» и «translated». Переводчик предпочел использовать разнокоренную пару: «Процесс синтезирования белка с использованием фрагмента информационной РНК в качестве инструкций, который называется трансляцией, обязательно сложнее, так как инструкции написаны на языке РНК, состоящем из четырех букв, а их следует перевести с помощью химического механизма на язык белка из двадцати букв» [Крик, 2002, c. 76]. Принятый в русском термин «трансляция» акцентирует процесс переноса носителей генетической информации из одного участка РНК в другой, но при этом теряется сохраняющееся в английском обозначение процесса преобразования единиц одного языка в единицы другого. Применительно к генетическому коду термин «translation» впервые, видимо, употребил Георгий Гамов, но скорее в семиотическом смысле, а не в лингвистическом смысле: как преобразование чисел («a long number written in a four-digital system») в «слова» («long 'words' based on a 20-letter alphabet»): «Thus the question arises about the way in which four-digital numbers can be translated into such 'words'» [Gamow, 1954, p. 318]. См. также: [Marais, Kull, 2016].
130
транскрипт, редактирование). Обнаружению и описанию этих аналогий посвящены многочисленные исследования, из которых по глубине и систематичности, пожалуй, образцовой все еще остается пионерская статья Романа Якобсона ([Jakobson, 1970]; обзор этих исследований см. в: [Золян, 2016]; [Золян, Жданов, 2016]). Лингвистические аналогии настолько общеприняты, что на них часто основаны учебные схемы представления генетических процессов.
Рис. 1.
Схематическое представление белкового синтеза как коммуникация
Источник: http:hyperphysics.phyastr.gsu.edu/hbase/Organic/gencode.html
Так, рис. 1 представляет генетическую транскрипцию и трансляцию в терминах коммуникации, семантики и синтаксиса. Однако в целом все эти метафоры, начиная с расхожих метафор «язык Бога» или же «Язык жизни»1, применительно к генетическому коду ограничиваются констатацией того, что общие закономерности передачи информации имеют место и в случае передачи наследственной информации. За редкими исключениями подобные аналогии не повлияли на углубление представлений о
1 Так, при торжественной церемонии подведения итогов мегапроекта по расшифровке генома «Геном человека» (2000) Билл Клинтон употребил выражение: «язык, посредством которого Бог создал жизнь». Впоследствие руководитель этого проекта Френсис Коллинз использовал выражения «язык жизни» или «язык Бога» как названия своих научно-популярных книг [Collins 2006; 2009]. Ф. Коллинз не был оригинален: еще Роман Якобсон так откликнулся на книгу с аналогичным заглавием: «The title of the book by George and Muriel Beadle, The Language of Life, is not a mere figurative expression, and the extraordinary degree of analogy between the systems of genetic and verbal information fully justifies the guiding statement of this volume» [Jakobson, 1970, p. 437].
131
лингвистических характеристиках генетического кода и не идут дальше тех, что были отмечены еще Романом Якобсоном [Jakobson, 1970]. Большинство исследований языка генетического кода были ориентированы на его рассмотрение как аналога не естественных, а формальных языков, а также языков программирования. Кроме того, предлагаемые генетиками, в том числе и наиболее выдающимися, языковые модели опирались скорее на расхожие «школьные» представления о языке, нежели на достижения современной лингвистики. Так, хотя Роман Якобсон четко указал на аналогию между минимальной единицей генетического кода и языка - между фонемой и нуклеотидом, - генетики (за исключением собеседника Р. Якобсона, первооткрывателя иноформационной РНК Франсуа Жакоба [Жакоб, 1992]) до сих пор предпочитают говорить о буквах. Между тем генетический код обнаруживает такие фундаментальные свойства, которые не характерны для формальных языков, а присущи естественным, а именно: 1) дуализм абстрактной системы и ее реализации - аналог дихотомии языка и речи, формы и субстанции; 2) контекстуальная зависимость; 3) текстуальность; 4) многозначность и поликодовость. В пользу семиотического характера генетической информации можно указать также и на 5) произвольный характер связи между означающим (тройкой нук-леотидов) и означаемым (аминокислотой) - попытки найти какую-либо мотивацию этой связи в их биохимических свойствах не дали результатов (см.: [Crick, 1981, c. 46]). Кроме того, в случае отличного от канонического генетического кода одни и те же означающие могут кодировать иные означаемые (см. далее раздел 10 «Контекстно зависимые схемы соответствий между нуклеотидами и аминокислотами» и сноски 27 и 28).
Одним из ведущих специалистов в области биоинформатики Вадимом Ратнером уже было высказано предположение, что основные принципы организации генетической информации характеризуется также и такими свойствами, которые не имеют аналогов в биологических и биохимических системах и предполагают рассмотрение генов как знаковых образований: «Гены представляют собой не зачатки биологических структур, а напоминают линейные тексты (участки ДНК), записанные при помощи некоторых правил и несущие генетическую информацию о молекулярных структурах и функциях. И гены, и некодирующие участки -сегменты молекул ДНК, т.е. построены из того же алфавита четырех нук-леотидов. Поэтому различия между такими текстами не в их физической природе, а исключительно - в последовательностях символов-мономеров. В этом ключ информационно-лингвистического подхода. Значит, гены -не физические, а информационные единицы наследственности (курсив наш. - С. З.)» [Ратнер, 2000 а, с. 23].
Сам автор этой идеи, Вадим Ратнер, попытался развить ее эту идею, начав с новаторской в области биоинформатики кандидатской диссертации [Ратнер, 1965] и продолжив ее уже в лингвистическом ключе [Ратнер, 1993 а, б]. К сожалению, подобно многим генетикам, из лингвистики он
132
черпал скорее терминологию, а не методологию. Между тем указанный В. А. Ратнером информационно-лингвистический подход может быть полноценно реализован, если будет основываться на инструментарии лингвистики и семиотики и его спецификации применительно к описанию генетической информации. Поэтому имеет смысл вернуться к уточнению самых основ организации генетической организации и возможности их описания в лингвистических терминах.
В данной статье мы предложим описание генетического кода как лингвистического объекта (языка), состоящего из 1) единиц алфавита, из которых строятся значимые единицы; 2) словаря, включающего значимые единицы и правила соответствия между значимыми единицами различных уровней; 3) грамматики - системы правил формирования значимых единиц, основанных на абстрактных грамматических категориях. Кроме того, можно ввести также и 4) особые правила, своего рода интерфейс между словарем и грамматикой: схемы соответствий между единицами алфавита и характеристиками формируемых единиц словаря. Такое описание не только воспроизводит каноническое описание генетического кода как некоторой комбинаторики из четырех исходных элементов, но и в дополнение к этому позволяет выявить ряд ранее не описанных структурных и семантических характеристик - их упорядоченная совокупность предстает как грамматика и словарь генетического кода. Оговорим, что речь идет не о самих генетических процессах и механизмах, которые, безусловно, есть биохимическая субстанция, а об их метапредставлении. Сами процессы от этого не меняются, но получают новое объяснение. То, что называется «каноническим» генетическим кодом, есть список («словарик») соответствий между набором аминокислот и набором всех возможных трехэлементных сочетаний нуклеотидов (триплетов), которые формируются на основе не ограниченной какими-либо правилами комбинаторики. Между тем лингвистико-информационный подход предполагает иное - это не «альтернативный» генетический код, а описание процессов белкового синтеза (транскрипции и трансляции) именно как языка, т.е. как взаимодействия грамматики и словаря. Это позволяет увидеть не замечаемые ранее системно-структурные характеристики генетических процессов.
При всем многообразии предложенных почти за полвека аналогий между естественным языком и генетическим кодом, как ни парадоксально, оказался незамеченным именно этот аспект - фундаментальное для всех языков, в том числе и формальных, разграничение между грамматикой и словарем. Соответственно, неразграниченными оказывались также и язык и речь, т.е. система абстрактных правил, и их конкретная реализация. Если применительно к генетическому коду эти разграничения признать несущественными, или даже несуществующими, то это сделало бы малопродуктивными какие-либо сопоставления с естественным языком и даже могло привести к отказу от самой аналогии между генетическим кодом и языком и к рассмотрению его именно как кода в узком смысле, не предполагаю-
133
щего каких-либо иных правил, кроме дешифровки. Однако, как мы попытаемся показать, дело обстоит совсем не так - можно указать и на правила, и на категории, но они имеют несколько иной вид. Как ни тривиально это констатировать, но к генетическому коду надо подходить как к языку, который во многом напоминает организацию естественных языков, но тем не менее требует особого подхода и описания.
2. «Канонический» генетический код и его представление
О генетическом коде хотя и принято говорить как о языке, но имея ввиду исключительно кодирующую функцию триплетов. Между тем, если отсутствуют какие-либо правила формирования значимых структур (грамматики), вряд ли корректно говорить о языке. Кроме того, выявленный Ф. Криком генетический код точнее было бы назвать не «переводом» с языка нуклеотидов на язык белков, а описанием двух первых уровней лингво-семиотической организации генома (уровни нуклеотидов и аминокислот) и соответствий между ними. Эти первые два уровня являются базовыми. Ф. Крик описывал их как исчисление образуемых из исходных элементов возможных комбинаций (4 х 4 х 4). Единицы первого уровня -это четыре нуклеотида (нуклеотидных основания): А, аденин; Т, тимин; С, цитозин; О, гуанин (в РНК место тимина занимает урацил, и). Из них формируются тройки нуклеотидов - триплеты (кодоны и антикодоны), которым соответствуют единицы второго уровня - 20 аминокислот1. При таком подходе скорее следует говорить о двух словарях (или коде в узком смысле), а не о собственно языках.
Три нуклеотида (их последовательность может быть любой) составляют триплет, или кодон (антикодон)2: их может быть 64. Из этих 64 кодонов 61 кодируют одну из 20 аминокислот, а три так называемых некодирующих «стоп-кодона» (ИАА, ИАО и ИОА) прекращают процесс трансляции. Они тем самым служат сигналом о том, что создан некоторый минимальный текст - ген (употребляются также и термины цистрон и оперон), который кодирует определенный белок. Есть также кодоны, которые, встречаясь в неначальной позиции, выполняют кодирующую функцию, и они же, в зависимости от контекста, инициируют процесс
1 Кроме 20 описываемых каноническим генетическим кодом есть еще две редко встречающиеся аминокислоты - селеноцистин (8е1епосу81ете) и пирролизин (ругго^те), о которых будет сказано далее.
2 В генетике тройку нуклеотидов, если она находится в ДНК, называют триплетами, а расположенную в РНК - кодонами (в информационной РНК) и антикодонами (в транспортной РНК). Однако в ряде случаев для наших целей такое разграничение несущественно: было бы удобнее оперировать одним термином (тройка или триплет) с указанием его позиции (цепи).
134
трансляции (это основной старт-кодон - AUG, а также GUG и UUG)1. Эти четыре некодирующих кодона, хотя и названы «нонсенсами», являются не «бессмысленными», а текстооформляющими. Являясь начальным или конечным сегментом полипептидной цепи, они служат сигналом начала или конца процесса генетической трансляции, а также играют не рассматриваемую здесь важную роль в мутационных процессах (см.: [Инге-Вечтомов, 1996]).
Поскольку аминокислот значительно меньше (20), чем кодирующих их кодонов (61), возникает ситуация, названная генетиками синонимией (или вырожденностью кода): восемнадцать из двадцати аминокислот кодируются различными кодонами (от двух до шести). Лишь две аминокислоты кодируются полностью отличными триплетами и между кодоном и аминокислотой устанавливается взаимооднозначное соответствие: это триптофан (UGG) и метионин (AUG), хотя последний в определенном контексте служит еще и сигналом начала процесса трансляции.
Подобное понимание генетического кода как комбинаторики можно наглядно представить в виде графа. Для простоты обозначим нуклеотиды цифрами:
1 2 3 4
Идя сверху вниз, мы можем получить цепочки из трех символов, где исходные четыре единицы могут быть расположены в любой последовательности: 111, 112... 232... 341... 444. При таком представлении не может быть речи о грамматике - любой нуклеотид может находиться в любой позиции, следовательно нет никаких ограничений на их сочетаемость между собой.
1 См.: «Стало очевидным, что для узнавания кодона в качестве инициирующего важен не только сам и, может быть, не столько сам кодон, но какой-то контекст, делающий его инициирующим. У эукариот инициация происходит... чаще всего с первого AUG, однако только в том случае, если этот AUG находится в оптимальном контексте: за два нук-леотида до него обязательно должен находиться пурин (A или G), а непосредственно за ним должен следовать G. Если первый AUG в эукариотической иРНК находится не в оптимальном контексте, он пропускается и инициация начинается со следующего AUG. Для такой инициации очень важно также наличие кэп-структуры на 5'-конце иРНК и, как ни странно, поли (А) последовательности на противоположном конце молекулы. Кэп-структура и поли (А)- последовательность узнаются специфическими белками, которые также необходимы для инициации. При таком способе инициации трансляции у эукариот последовательность и РНК как бы просматривается (сканируется) с начала иРНК (от ее кэп-структуры) для поиска кодона AUG в оптимальном контексте» [Овчинников, 1998, с. 13].
135
Что касается семантики (соответствий между триплетами и аминокислотами), то обычно правила соответствия между кодонами и аминокислотами задаются в виде таблицы - рис. 2.
Рис. 2.
Таблица генетического кода
Источник: http://urokbiologii.ru/_si/
То же самое можно с большей наглядностью можно представить в виде трех вписанных окружностей: центр - один из нуклеотидов в первой позиции; вторая окружность включает нуклеотиды во второй; и, наконец, на периферии расположены нуклеодиды в третьей позиции (рис. 3).
Рис. 3.
Таблица генетического кода в сферическом представлении
136
Очевидно, что такое представление генетического кода не может считаться ни системным1, ни лингвистическим. Это скорее лишь более компактное и наглядное представление обычного словарика: списка из 64 триплетов с указанием соответствующих им значений: аминокислот (61 триплет) или же нонсенс-кодонов (три стоп-кодона и один старт-кодон, омонимичный с кодоном метионина).
Поскольку любое возможное сочетание нуклеотидов образует триплет, то, казалось бы, здесь нет каких-либо грамматических ограничений. Дело представляется так, как если бы были заданы словарные единицы (с одной стороны - четыре нуклеотида, с другой - все 64 их возможных трехзначных сочетания), а правила языка сводились бы исключительно к установлению соответствий между ними. Таким образом, в этом языке нет категорий, и знание такого языка сводится к запоминанию соответствий между триплетами, аминокислотами и нонсенсами. Поэтому предлагаемые «грамматики» такого языка являются формальными, описывающими генетические последовательности как формальный язык (ср.: [^еагк, 2002; 2010]). Между тем, как проницательно было отмечено Романом Якобсоном, именно наличие контекстной зависимости отличает генетический код от формальных языков и сближает с естественными2, а это никак не может быть отражено при подобном «бесконтекстном» описании.
Следует указать и на другое обстоятельство, которое в буквальном смысле наглядно видно при представлении генетического кода в форме вписанных окружностей. Так, некоторые сегменты окружности соотносятся с одной и той же аминокислотой. При этом в половине случаев (!) достаточно первых двух окружностей (двух элементов из трех), чтобы соотнести полученный триплет с аминокислотой. Тем самым семантический компонент канонического кода - правила соответствия между нуклеотид-ными триплетами и аминокислотами - проявляет признаки некоторой дополнительной упорядоченности. Это явление было названо вырожденностью генетического кода, или синонимией, - когда одно и то же значение
1 Ср.: «После всех попыток расшифровать его "генетический код" открывшаяся картина вызывала глубочайшее разочарование. Оказалось, что никакого изящного нумерологического решения не было, а код просто вырожден (это значит, что в нем полно излишеств)... Выходило, что в генетическом коде нет никакого порядка, никакой красоты. Этот пример может служить нагляднейшим опровержением мысли, что красота может служить проводником к научной истине... Судя по всему, в основе кода не было и никакой структурной логики: между аминокислотами и соответствующими им кодонами не было ни особой химической, ни особой физической связи. Крик объявил этот удручающий код "застывшей случайностью", и большинство исследователей не могло с ним не согласиться» [Лейн, 2014, с. 77-78].
2 «In contradistinction to the context freedom of diverse formalized languages, the natural language is context-sensitive, and in particular, its words display a variety of dissimilar contextual meanings. The recent observations on changes in the meaning of codons, depending on their position in the genetic message, may be noted as a further correspondence between the two patterns» [Jakobson, 1970, p 439].
137
(аминокислота) передается посредством различных знаков (триплетов). К обоснованности перенесения этого лингвистического термина мы еще вернемся, здесь же отметим, что такая ситуация свидетельствует о функциональном «неравенстве» позиций, - третья позиция в половине случаев оказывается избыточной.
Избыточность генетического кода, как то принято в теории информации, рассматривается как средство, позволяющее избежать помех в процессе коммуникации. Здесь же имеет смысл обратить внимание на внутрисистемный аспект - «неравноправие» позиций свидетельствует о наличии определенной синтаксической организации. Оказывается, что небезразлично, какую позицию займет нуклеотид. Так, в ряде случаев последняя позиция может быть занята любым нуклеотидом, без какого-либо влияния на кодирующие свойства триплета. Между тем первая, и особенно вторая позиция подобного варьирования не допускают - изменение нуклео-тида в этих позициях приведет к изменению кодирующей функции триплета. «Неравноправие» позиций, в том числе и в лингво-семиотическом аспекте, уже отмечалось ранее. Так, по аналогии с лингвистическими структурами, позиции внутри триплета можно сопоставить с частями слова (приставка, корень, окончание - [Румер, 1968; Ратнер 1993 а; 2000 в]), или же с синтаксическими компонентами [Lopez-Garcia, 2005]. Безусловно, основания для таких уподоблений имеются, но они нуждаются в детализации и уточнении. Как мы попытаемся показать ниже, речь идет о схожих, но тем не менее отличных принципах организации.
3. Дихотомия языка и речи применительно к генетическому коду
Прежде всего следует уточнить: если рассматривать генетический код как язык, то действует ли в этом случае фундаментальное разграничение между языком и речью? Если видеть в генетическом коде исключительно кодирующую функцию, не замечая каких-либо правил формирования структур, то не имеет смысла говорить о языке и тем более проводить разграничение между языком и речью. Соответственно, теория кодирования, а не грамматика будет адекватным описанием генетического кода. Между тем еще до открытия генетического кода Э. Шредингер указал на недостаточность «узкого» понимания кода и определил принцип наследственности следующим образом: «Но термин "шифровальный код", конечно, слишком узок. Хромосомные структуры служат в то же время и инструментом, осуществляющим развитие, которое они же и предвещают. Они являются и кодексом законов, и исполнительной властью, или, употребляя другое сравнение, они являются одновременно и архитектором, и строителем» [Шредингер, 2002, с. 28].
138
Сам Шредингер связывал механизмы наследственности с хромосомами, что в дальнейшем оказалось неверным. Тем не менее последующие открытия подтвердили правильность его идеи о функциональной разнородности процесса передачи генетической информации. Так, при осуществлении синтеза белка функции «законодателя» и «исполнителя», или же «архитектора» и «строителя», отведены различным механизмам: в ДНК хранится информация (схема), которая затем дублируется в информационной РНК, на основании которой уже в транспортной РНК происходит распознавание аминокислот. Как видим, в клетке разграничение между языком и речью оказывается не только актуальным, но и материализованным в различных биохимических структурах и локализованным на разных цепях. Примечательно, что хронологически РНК предшествует ДНК, однако в процессе синтеза исходной цепью оказывается ДНК, что также повторяет соотношение между языком и речью: в диахронии речь предшествует языку, в синхронии язык предшествует речи1.
При изучении генома как информационно-семиотического феномена можно, перефразируя Соссюра, исходить из принципа «генетический код - это форма, а не субстанция», разумеется, помня, что эта форма должна быть материализована2. Не биохимическая субстанция, а семиотическая функция оказывается определяющей для всех этапов генетической экспрессии (актуализации записанной в ДНК генетической информации путем ее транскрипции и трансляции в РНК). Тому свидетельство - уже сама возможность замены тимина в триплетах ДНК на урацил в кодонах / антикодонах РНК без какого-либо воздействия на их функциональные характеристики.
Привычный способ описания экспрессии как сложного биохимического процесса мешает увидеть его относительно простую и изящную семиотику. В силу определенных биохимических ограничений кодирующий нуклеотидный триплет из ДНК не может непосредственно быть перенесенным в транспортную РНК, где и происходит выбор соответствующей аминокислоты. Это случается только на конечном этапе многоступенчатого
1 Ситуация с ДНК / РНК отличается от лингвистической дихотомии тем, что в процессе эволюции структуры генетического языка (программы) оказываются определенным образом и даже дважды зафиксированными в ДНК, тогда как единицы языка принято рассматривать как абстрактные сущности, которые не могут быть материализованы иначе, чем в речи. Но можно предложить и другое видение: если рассматривать корпус текстов как аналог текстов РНК, то в результате деятельности лингвистов в истории языка возникает и вторичный корпус - метаописания (грамматики, учебники, компьютерные программы и т.д.) первичного корпуса, своеобразный аналог текстов ДНК.
2 Ср.: «Материальная единица существует лишь в силу наличия у нее смысла, в силу той функции, которой она облечена; этот принцип особенно важен для выделения простых единиц, так как может показаться, будто они существуют только в силу своей материальности... И наоборот... смысл, функция существуют лишь благодаря тому, что они опираются на какую-то материальную форму» [Соссюр, 1977, с. 172].
139
процесса, в течение которого удваиваются нуклеотидные цепи, образовываются двойные спирали и т.п. На каждом этапе триплет (кодон / антико-дон) заменяется на свой двойник-антипод по принципу комплементарности -каждый из составляющих триплет нуклеотидов заменяется на комплементарный ему (в ДНК: А (аденин) заменяется на Т (тимин), С - (цитозин) - на G (гуанин); то же происходит и в РНК, с учетом того, что место тимина здесь занимет U (урацил)). На следующем этапе комплементарный триплет заменяется на исходный, и так несколько раз, пока антикодон транспортной РНК не распознает соответствующую аминокислоту.
Однако если этот крайне сложный процесс белкового синтеза описывать как актуализацию знака в тексте, то он оказывается весьма прост -исходный знак (триплет нетранскрибируемой ДНК, материально совпадающий с кодоном в РНК) реализуется в паре: кодон - антикодон. Кодон и антикодон раздельно не встречаются, они, располагаясь на различных цепях, всякий раз соединяются комплементарными связями и образуют ту же пару. Кодон и антикодон выступают как варианты друг друга, изменяемые в зависимости от того, на какой цепи они расположены. Меняется означающее: каждый из составляющих кодон нуклеотидов заменяется в кодоне на комплементарный ему, меняется направление и, соответственно, позиция (начало одной цепи соответствует концу другой), но сохраняется означаемое: соотнесенность с одной и той же аминокислотой.
Представленная в такой форме ситуация хорошо известна в лингвистике: абстрактный элемент языковой системы - фонема или морфема -по-разному, в зависимости от позиции, актуализируются в речи, сохраняя смысловую и функциональную идентичность. Различающиеся реализации (варианты, манифестации) означающего одного и того же элемента (позиционные варианты) не могут встречаться в одной и той же позиции (например, звуки «и» и «ы» в русском языке: первый встречается только в начале слова или после мягкой согласной, второй - только после твердой). Применительно к нуклеотидам, поскольку речь идет не об отдельном элементе, а об их последовательности, удобнее привести аналогию с алломорфами - это тождественные по значению морфологические единицы, различие между которыми объясняется только их позицией и которые находятся в отношении дополнительной дистрибуции. Например, одна и та же приставка выступает в двух вариантах «раз - рас» в зависимости от того, встречается она перед звонким или глухим согласным; или же супле-тивные формы «я - меня»: первый член встречается в позиции субъекта, второй - объекта.
При генной экспрессии в качестве макроконтекста, в условиях которого происходит преобразование триплета в его комплементарного двойника-антипода, можно рассматривать сответствующие цепи ДНК и РНК. Рассмотрим, как кодируется такая аминокислота, как метионин. Мы выбрали ее как пример потому, что она, как и триптофан, кодируется только одним кодоном-триплетом - AUG (аденин, урацил, гуацин), чем они и от-
140
личаются от остальных 18 аминокислот, которые могут кодироваться посредством различных триплетов-синонимов. Это делает более наглядным то, как проявляется позиционная зависимость элементов генетического кода: одна и та же аминокислота, метионин, кодируется в различных позициях (различных цепях) различными в биохимическом отношении триплетами: ATG (нетранскрибируемая цепь ДНК) - ТАС (транскрибируемая цепь ДНК) - AUG (кодон информационной РНК) - UAC (антикодон транспортной РНК).
При этом существенно, что означающие изменяются не произвольно, а в строгом соответствии с принципом комплементарности и зеркальной симметрии (третий элемент кодона заменяется на первый элемент ан-тикодона, второй - на второй, третий - на первый)1. Происходит материальное (биохимическое) и пространственное изменение означающих при сохранении идентичности знака. Заметим, что для канонической нотации метионина, как и других триплетов, используют ту конфигурацию, которая представлена в информационной РНК, записывая его как AUG. Но если учитывать, что изменения означающего определяются правилами преобразования кодона в антикодон, то оказывается несущественным, какую последовательность нуклеотидов и на какой цепи принять за исходную единицу. Важно, чтобы каждый из триплетов был локализован в определенной - четной или нечетной - цепи (так, метионин на транспортной РНК предстает как антикодон UAC, но эта же последовательность нуклеотидов UAC, расположенная на информационной РНК, кодирует другую аминокислоту - тирозин). Аналогичные трансформации, осложненные синонимией, наблюдаются и в случае кодирования других аминокислот (рис. 4).
В целом это ритмическое повторение комплементарных разнонаправленных триплетов можно рассматривать как реализацию одного и того же знака, означаемым которого будет некоторая аминокислота (в данном случае - метионин), а означающим - парный триплет (кодон и антикодон), который в зависимости от его позиции реализуется или как кодон, или как антикодон. В лингвистических терминах это может быть представлено как результат одновременного применения двух типов трансформаций:
1) перестановки, пермутации, когда тройка элементов заменяется на зеркально симметричную ей: [XYZ] ^ [ZYX];
2) замены, субституции, когда каждый из трех нуклеотидов заменяется на комплементарный ему; в ДНК это А ^ Т, C ^ G, в РНК: А ^ U, C ~ G.
1 Кажущееся исключение при так называемом вобблинге («качании»), когда третьему нуклеотиду кодона могут соответствовать не-комплементарные ему нуклеотиды анти-кодона, мы рассмотрим в разделе 12.
141
АМИНОКИСЛОТА ТРИПЛЕТ ДНК КОДОН информационной РНК AHTUКОДОН транспортной РНК
АЛАНИИ (alanine) CGA, CGG, CGT, CGC GCU, GCC, GCA, GCG CGA, CGG, CGU, CGC
АРГИНИН (argimne) GCA, GC©. GCT. öCt,^ TCT, ТСС CGU,CGC, CGA, BGG,AGA, AGG' GCA, GCG, GCU, GCC UCU, UCC
АСПАРАГИН (asparagine) TTA,TTG AAÍj,¡AA.C UUAÖÜG'
VI I.V'AI'HI : КИСЛОТА (aspartate) СТА, CTG GAU, GAC CUA, CUG
ЦИСТЕИН (cysteine) АШ,АС0- LIGftUGC АСА, AGG
ГЛЮГАМИНОВАЯ КИСЛОТА (glutamate) стт, стс GAA, GAG CUU, cuc
ГЛЮТАМИН (glutamine): GTT, GTC- CAA CAG GUttGUfi
ГЛИЦИН (glycine ) CCA, CCG,:CCT, CCC ЙШ, GGC, GGA GGG GCA. CCG, CCU, CCC
ГИСТИДИН (histidine) GTA, GTÖ ÖAttCAC gua/güg
ИЗОЛЕИЦИН (isoleucirie) TAA, TAG, TAT AUU, AUC, AUA UAA, UAG, UAU
ЛЕЙЦИН (leucine) AAT, AAC, GAA, GAG GAT, GAC uuA, uua.;cuu, eue CUA CUG AAU, AAC, GAA GAG GAU, GAC
ЛИЗИН (lysine) TTT, TTC AAA, AAG UUU,ÖUC
МЕТИОНИН (methionine) TAC EUG UAG
ФЕНИЛАЛАНИН (phenylalanine) AÄ4AAG UUU, UUQ AAA,AA0
ПРОЛИН (proline). GGA GGG, GGT, GGC CCU, CCC, CCA, CCG GGA, GGG, GGU, GGC
СЁ'РИН gfflfcf AGA AGG, AGT, AGG TQAv'TCG UCU UCC, UCA, UCG agu,agc AGA AGG, AQU, AGG UCA, UCG
СТОП-КОДОН (stop) ATG, ATT, ACT UAA,:UAG, UGA: AUG,AUU,AGU
ТРЕОНИН (threonine) TGA, TGG, TGT, TGC ACU,ACC,ACAACG UGA, UGG, UGU, UGC
ТРИПТОФАН (tryptophan) ACC UGG ACC
ТИРОЗИН (tyrosine) ATA, ATG UAU, UAC AUA, AUG
ВАЛИН (valine) CAA,: GAG,: С AT, CAC GUU,; GUG,GUA GUG ■ CAA, CAG, CAU, OM*
Рис. 4.
Соответствия между аминокислотами и кодирующими их триплетами, кодонами и антикодонами
Источник: Wayne's Word: codons. - Режим доступа: http://www2.palomar.edu/users/ warmstrong/ codons.htm
Так, если в вышеприведенном примере тройку обозначающих нук-леотиды символов (ATG - ТАС - AUG - UAC) заменить на имя метионин, то тогда весь процесс передачи генетической информации предстанет как повтор одного и того же знака: метионин (как он кодируется на нетранс-
142
крибируемой цепи ДНК) - метионин (как он кодируется на транскрибируемой цепи ДНК) - метионин (как он кодируется на иРНК) - метионин (как он кодируется на тРНК).
Такая форма нотации перестает отражать биохимический состав триплета, но зато эксплицирует идентичность его семиотической функции. Заметим, что возможны три формы метаязыковой записи: а) исходя из означающего - это описание химического состава нуклеотидного триплета в одном определенном контексте, что частично показано на рис. 3; б) исходя из результата, учитывая химический состав лишь того варианта, который соотносится с аминокислотой в каноническом генетическом коде, -это кодон в иРНК, как на рис. 2; и наконец, в) указывается не обозначающее (биохимический состав триплета во всех возможных контекстах или же в одном определяющем контексте), а не подлежащее изменению означаемое - кодируемая аминокислота. Если первая форма может быть удобнее для описания экспериментальных данных, то при моделировании информационных процессов наиболее адекватной представляется комбинация второй и третьей. Такая форма представления делает явным то, что при синтезе белков определяющим фактором оказывается не биохимический состав триплета, а кодирующая функция, отношение между тройкой нуклеотидов, их позицией, или макроконтекстом (на какой из цепей расположен триплет), и аминокислотой. Иными словами, быть кодоном (или антикодоном) - это определяемая позицией определенная функция, а не собственно биохимическая субстанция. Таким образом, действует закономерность, в свое время несколько удивившая первооткрывателей генетического кода и отмеченная в их Нобелевской статье: «Кодирование зависит не от структуры переносимой кислоты, а от свойств РНК переносчика», почему и может существовать, например, такая ситуация, когда «цистеин превращается в аланин. Тем не менее РНК-переносчик направлял его в то место цепи молекулы белка, где должен находиться цистеин» [Крик, Ниренберг, 1964, с. 156]. С самого начала ими были отмечены и случаи отклоняющихся от канонических контекстнозависимые правила кодирования1. Необычная в биологических системах «алхимия» - достаточно характерное явление в семиотических системах, это контекстная зависимость, когда один и тот же знак в различных позициях характеризуется различными функциональными свойствами. Это явление можно считать определяющим признаком естественного языка и выводимых из него семиотических систем. Как было сформулировано Луи Ельмслевом, «в абсолютной изоляции ни один знак не имеет какого-либо значения; любое знаковое значение возникает в контексте, под которым мы понимаем ситуационный или эксплицитный контекст» [Ельмслев, 1960, с. 303-304].
'Cp.: «...a triplet such as GUG stands for one amino acid, namely methionine, when it initiates a chain, and another amino acid, namely valine, when it is in the middle of a chain» [Crick, 1966 a, p. 7].
143
Как видим, в процессе генетической экспрессии идентичный на уровне языка триплет в речи выступает как упорядоченный набор вариантов, замещающих друг друга в зависимости от их локализации в различных цепях как ДНК, так и РНК. Это можно рассматривать как макроконтекстную зависимость. Но более близкой к языковой форме зависимости будет та, которую можно назвать микроконтекстной, - это зависимости внутри триплета, когда один и тот же нуклеотид в зависимости от позиции приобретает различную значимость. Кроме того, в зависимости от позиции может меняться и значение всего триплета - некоторые триплеты, располагаясь в начале или конце цистрона (это цепочка нуклеотидов, кодирующая один полипептид и эквивалентная гену), выступают как нонсенсы (т.е. выполняют роль сигнала границ минимального текста), а внутри цистрона - как кодирующие определенную аминокислоту1. Отличие между этими типами микроконтекстной зависимости в том, что зависимости внутри триплета обязательны и регулярны, тогда как второй тип относится к частным случаям, характеризуя лишь группу триплетов.
Наше описание будет в основном посвящено моделированию микроконтекстной зависимости. Несколько забегая вперед, отметим, что не только генетическая транскрипция / трансляция, но и сама структурная и семиотическая организация генетического кода может быть описана как проявление различных форм контекстной зависимости, которая применительно к генетическому коду принимает форму регулируемой правилами позиционной (контекстной) зависимости. Это потребует эксплицировать и конкретизировать некоторые ранее не применявшиеся принципы описания генетического кода, которые исходят из разграничения языка и речи.
Прежде всего, подобное разграничение следует применить к описанию формирования самих значимых единиц кода, триплетов, а именно: разграничив абстрактные категории (позиции) и их биохимическую манифестацию в процессе транскрипции и трансляции. Минимальными единицами генетического кода являются нуклеотиды, но категориальную значимость имеют не они сами, а позиции, которую они занимают. Тем
1 Ср.: «Контекст может изменить значение кодона внутри цистрона... Сравнительно недавно, однако, было показано, что аминокислота селеноцистеин (очень редкая, но функционально очень важная аминокислота) непосредственно включается в белок. Возникает закономерный вопрос, как же закодирована эта аминокислота. Ведь значение всех 64 возможных кодонов уже четко определено, и все они используются в кодировании двадцати стандартных аминокислот и сигналов терминации. Исследования показали, что селеноцистеин кодируется UGA (терминирующим кодоном в таблице генетического кода), если за ним находится особая стимулирующая последовательность. Эта последовательность может отстоять от UGA на очень большом расстоянии - иногда она может быть на расстоянии 200 нуклеотидов и находиться в З'-нетранслируемой области мРНК» [Овчинников, 1998, с. 13]. См. также сноску 5, описывающую контекстно зависимый характер семантики кодона AUG.
144
самым и в этом случае элементами языка будут абстрактные единицы (позиции в триплете / кодоне), которые и определяют организацию и функциональную значимость на низших уровнях (нуклеотидов / триплетов и аминокислот) генетического кода. Единицы языка (в первую очередь слово) в большинстве языков обычно совмещают категориальные (структурные) и семантические характеристики1, здесь же они оказываются разъединены, категориальными признаками наделены не сами нуклеотиды, а позиции в триплете.
Поэтому какие-либо функциональные характеристики могут быть приписаны не самим нуклеотидам, а комплексу: «нуклеотид + позиция». Тем самым позиция выступает как приписываемая контекстно обусловленная категория нуклеотида, например: урацил в первой, второй или третьей позиции - в каждой из них данный нуклеотид наделяется различными функциональными характеристиками (естественноязыковым аналогом будет: одно и то же слово в позиции субъекта, предиката или объекта). Это делает необходимым при описании грамматики генетического кода раздельное описание его базовых единиц (нуклеотидов) и базовых категорий (позиций в триплете).
4. Нуклеотиды как базовые единицы
Основной и определяюшей аналогией между языком и генетическим кодом Роман Якобсон, а под его влиянием затем и первооткрыватель информационной РНК Франсуа Жакоб считали то, что минимальные единицы генетического кода, нуклеотиды, сами по себе не обладая значением, служат для разграничения аминокислот, каждая из которых кодируется тройкой нуклеотидов. В этом они видели функциональное сходство между нуклеотидом и фонемой. Ссылаясь на классический труд Николая Трубецкого «Основы фонологии», Р. Якобсон указывал на различительную2 и делимитативную функции3, выполняемые этими минимальными единица-
1 Принято говорить о совмещении лексического и грамматического (категориального) значения: так, слово «дом» в совмещенном виде выражает и семантические, и категориальные характеристики (существительное мужского рода в именительном падеже единственного числа). Но в аморфных языках, где крайне слабо выражены категориальные признаки, их функции выполняют позиции в предложении.
2 «.the submits of the genetic code are to be compared directly with phonemes. We may state that among all the information-carryings systems, the genetic code and the verbal code are the only ones based upon the use of discrete components which, by themselves, are devoid of inherent meaning but serve to constitute the minimal senseful units, i.e. entities endowed with their own, intrinsic meaning in the given code.» [Jakobson, 1970, p. 438].
3 «In the genetic message the 'words' are not separated from each other, whereas specific signals indicate the start and end of the operon and the limits between the cistrons within the op-eron, and are metaphorically described as 'punctuation marks' or 'commas'. They actually corre-
145
ми языка и генетического кода. Эта глубокая идея не получила должного развития, видимо, из-за того, что дальнейшие исследователи предпочитали рассматривать единицы генетического кода по аналогии с буквами, но не со звуками и уж тем более c фонемами. Между тем эта аналогия может быть углублена и дополнена. Противопоставление языка и речи применительно к нуклеотидам проявляется как разграничение биохимической субстанции (собственно нуклеотидов) и тех различительных характеристик, которые существенны для кодирования аминокислот и регуляции синтеза белка.
Дилемма между биохимическим и «интуитивно-семиотическим» пониманием нуклеотида проявляется уже в терминологии. Говоря о белковом синтезе, обычно не разграничивают собственно нуклеотиды и их основания. Вместо термина нуклеотид часто используют более точный -нуклеотидное основание (nuclei base) или просто «основание» (base) - все они обозначают те же четыре основных элемента генетического кода. Здесь вновь уместно вспомнить Соссюра: «В применении к единице принцип дифференциации может быть сформулирован так: отличительные свойства единицы сливаются с самой единицей. В языке, как и во всякой семиологической системе, то, что отличает один знак от других, и есть все то, что его составляет. Различие создает отличительное свойство, оно же создает значимость и единицу» [Соссюр, 1977, с. 154]. Как и в случае ДНК -РНК, здесь можно увидеть разграничение между единицами языка и речи: основание нуклеотида есть единица языка, и только оно играет роль в процессе белкового синтеза, тогда как единицей речи будет нуклеотид в его полном виде, ведь очевидно, что часть нуклеотида не может быть манифестирована самостоятельно, без включающего его основания, что напоминает отношение между характеристиками звука и дифференциальными признаками фонемы.
Указанное свойство также можно считать еще одним доводом в пользу возможности описания генетических информационных процессов как лингвосемиотических по своей природе. Биохимическая структура нуклеотида намного сложнее, но для формирования триплета, его трансформации в кодон / антикодон и распознавания аминокислот все остальные компоненты, кроме основания, оказываются нерелевантными. Более того: даже сами основания представляют биохимический комплекс, реальная сложность которого также несущественна (см. рис. 5). Так, возможность замены разных по структуре тимина в ДНК на урацил в РНК без какого-либо влияния на кодирующие свойства триплетов есть дополнительное свидетельство в пользу семиотического характера единиц генетического кода.
spond to the delimitative devices used in the phonological division of the utterance into sentences and of the latter into clauses and phrases» [Jakobson, 1970, p. 439].
146
Рис. 5.
Слева изображено основание нуклеотида, справа - нуклеотид
Источник: https://en.wikibooks.ord/wiki/Principles_of_Biochemistry/Nucleic_acid_I:DNA_its_ nucleotides
Соотношение между биохимической субстанцией генетического кода и ее семиотикой напоминает отношение между фонетикой и фонологией. Собственно нуклеотид можно соотнести со звуком, его основание - с фонемой. Причем эта аналогия может быть продолжена: уже само нуклео-тидное основание (левая часть рис. 5) может быть абстрагировано от его субстанции и представлено как абстрактная единица - набор двух дифференциальных признаков. Так, из бесчисленных характеристик звука, без которых его нельзя произнести в речи, субъединицы языка (фонемы) включают в себя лишь те, которые способны выполнять (смысло-) различительную функцию1. Аналогично роль нуклеотидов в генетической трансляции определяется исключительно их основаниями, причем и сами нуклеотидные основания сводимы лишь к двум дифференциальным признакам.
Разумеется, все остальные характеристики нуклеотидов будут играть определенную роль в процессах белкового синтеза (как и несущественные для смыслоразличения характеристики звуков могут быть доминантными при иных процессах: например, тембр при пении, высота и долгота при экспрессивной речи и т. п.), но они оказываются нерелевантными, если описывать «генетическое чтение», т.е. формирование триплетов и распознавание аминокислот, как семиотические операции.
При этом сами исходные единицы, четыре нуклеотида (основания), не элементарны. Продолжая аналогию с фонемами, можно выделить их релевантные дифференциальные признаки. Их два: количество водород-
1 Ср.: «Звуки участвуют в фонологических (смыслоразличительных) оппозициях лишь благодаря своим фонологически существенным признакам. И так как каждая фонема обязательно является членом фонологической оппозиции, то она совпадает не с конкретным звуком, а только с его существенными признаками» [Трубецкой, 1960, с. 44-45].
147
ных связей и принадлежность к пуриновой или пиримидиновой группе. Они выделяются на основе синтагматических и парадигматических характеристик, так называемых комплементарных связей, когда при зеркальных преобразованиях пуриновый нуклеотид заменяется на пиримидиновый, и наоборот, а в связке кодон - антикодон пуриновые нуклеотиды соединяются с пиримидиновыми. При этом оказывается значимым число водородных связей: взаимозамены и сочетания возможны между пуринами и пиримидинами с одинаковым количеством водородных связей (две или три). В некоторых случаях (третья позиция) эти признаки могут играть и знакоразличительную роль: благодаря им происходит распознование различных амиокислот. В третьей позиции может происходить и нейтрализация этих признаков (в 32 случаях нерелевантны оба, в 30 случаях нерелевантно противопоставление по числу связей, и только в двух случаях оба они значимы - подробнее ниже).
Таким образом нуклеотиды противопоставляются друг другу, с одной стороны, как пурины (G, А) или пиримидины (С, Т/U), а с другой - по количеству трех (G, С) или двух водородных и связи (А, T/U): G, гуанин - (Пур, 3) А, аденин - (Пур, 2) С, цитозин - (Прд, 3) U, урацил - (Прд, 2)
Безусловно, эти признаки биохимические, т.е. относящиеся к субстанции, но они приобретают парадигматическую и синтагматическую значимость, что проявляется: 1) при приводящей к «синонимии» (в генетическом смысле) нейтрализации - см. ниже; 2) при преобразованиях «кодом ^ антикодон» и формировании комплементарных пар нуклеотидов (пирин заменяется / сочетается с пиримидином, и наоборот). Других признаков, которые каким-либо образом влияли бы на процессы генетического чтения, нет. Семиотические (знакоразличительные) характеристики нук-леотида исчерпываются этими двумя дифференциальными признаками, абстрагированными от всего комплекса его биохимических и структурных характеристик. Это дает основания применительно к процессам генетической трансляции рассматривать нуклеотид как абстрактную единицу системы (генетического кода), состоящую исключительно из двух дифференциальных признаков. Как и применительно к другим знаковым системам, в случае генетического кода действует принцип «язык есть форма, а не субстанция».
5. Позиции как базовые категории
Следующий уровень организации генетического кода демонстрирует еще более высокую степень абстрагирования от биохимической субстанции. Здесь происходит формирование из нуклеотидов значимых единиц
148
следующего уровня - триплетов, поэтому уместны будут аналогии уже не с фонемами, а с композиционными (морфологическими и синтаксическими) функциями и отношениями. Грамматика этого уровня генетического кода основывается не на имеющих биохимическую природу дифференциальных признаках, а на «пустых» позициях, которые должны быть заполнены соответствующими нуклеотидами. Эти позиции уже сами по себе характеризуются определенными функциями и свойствами. Три нуклео-тида формируют единицу следующего уровня (в зависимости от их расположения их называют триплетами, кодонами и антикодонами), где каждая из позиций может быть заполнена любым из нуклеотидов - обозначим их как Х, У, Z. Поэтому может показаться, что на этом уровне нет каких-либо ограничений, т.е. отсутствуют какие-либо принципы организации. Такое впечатление создается, если приписывать категориальную роль «реальным» нуклеотидам. Ситуация меняется, если в качестве главного героя описания этого уровня организации генетической информации выбрать не нуклеотиды, а «пустые» абстракции: позиции.
Безотносительно заполнения тем или иным нуклеотидом позиции выполняют следующие функции:
1) различительную: например, один и тот же набор нуклеотидов А, U и G, но в различной последовательности кодирует различные аминокислоты: AUG (кодон метионина, или же старт-кодон) отлична от AGU (ко-дон серина), GAU (кодон аспарагиновой кислоты), GUA (валин), UGA и UAG (стоп-кодоны); порядок появления нуклеотидов (первая, вторая и третья позиции) отличает одну последовательность от другой. Единственное при данном наборе исключение (UGA и UAG) оказывается проявлением иной закономерности (см. раздел 11);
2) делимитативная: третья позиция есть конечная позиция. Френсис Крик назвал генетический код «кодом без запятых» (code without comma), имея в виду, что между триплетами нет и не может быть промежутков или каких-либо иных элементов [Crick et al., 1957], и это определение повторяется во всех учебниках как одна из определяющих характеристик. Между тем роль «запятой», знака препинания, играет именно третья позиция: она знаменует конец трехэлементной последовательности нуклеотидов, соотносимой с определенной аминокислотой. Для половины последовательностей третья позиция играет только делимитативную роль, для другой половины - и делимитативную, и различительную;
3) структурная функция - эту функцию можно выделить применительно к третьей позиции, если она не имеет различительной силы. В половине случаев третья позиция избыточна с семантической точки зрения, но она необходима как структурная единица, так как дополняет дублет до требуемой триплетной структуры;
4) селективно-синтагматическая функция: ее выполняют все три позиции, когда на очередном этапе образуется комплементарная пара: позиции в зеркальном порядке (первая с третьей, третья - с первой, вторая - со
149
второй) сочетаются с позициями противонаправленного триплета (антико-дона), образуя единицу генетической трансляции («кодон - антикодон») (см. рис. 4).
В ситуации так называемого «вобблинга» третья позиция может потерять селективные характеристики: третья позиция кодона при трансляции «не читается» (здесь не действует принцип комплементарности), она не определяет, какой именно нуклеотид антикодона должен быть прикреплен к ней. В таком случае эта позиция - лишь лишенное какой-либо семантической значимости окончание кодона и «крюк», который призван привязать первый нуклеотид антикодона. Можно считать, что применительно к третьей позиции синтагматическая функция проявляется в «чистом» виде (подробнее см. в разделе 13.2).
Если рассматривать как единицы трехэлементные последовательности позиций (триплеты), то следует говорить также и об основанных на различительной функции двух новых, проявляющихся уже на следующем уровне генетического кода. Это:
5) кодирующая (семантическая) функция - в каноническом генетическом коде триплет (за исключением стоп-кодонов) соотносится с одной и только одной аминокислотой;
6) текстовая функция - некоторые триплеты (так называемые нон-сенсы) служат как сигнал начала и конца операций по созданию цистронов, или полипептидов, состоящих из аминокислот последовательностей, эквивалентных гену. В нескольких контекстно обусловленных случаях кодон либо соотносится с определенной аминокислотой, либо выполняет текстовую функцию.
6. Семантические характеристики позиций
При обращении к кодирующим (семантическим) характеристикам триплетов становится очевидно, что даже между незаполненными позициями есть определенное функциональное различие, что и позволяет выделить их характеристики и наметить некоторые аналогии с языковыми феноменами. Так, еще в 1968 г. акад. Ю.Б. Румер предлагал рассматривать триплет как слово, где две первые позиции ХУ выступают как корень, а третья Ъ - как окончание [Румер, 1968]. В дальнейшем В. Ратнер уточнил эту идею и предложил рассматривать «корень» ХУ как «основу» - сочетание приставки Х и собственно корня У1.
1 Ср.: «Эти термины отражают сходные понятия лингвистики. Корни слов определяют их смысл. Все мутации, затрагивающие корень (у) кодона, также изменяют кодовую серию, т.е. нарушают смысл кодона. Приставки слов тоже участвуют в определении смысла, хотя и не так жестко, а многие их изменения меняют смысл слов. Замены в приставках (х) кодонов чаще всего изменяют их смысл, но иногда являются синонимическими. Окончания
150
Сравнение триплета со словом вполне логично, если исходить из того, что сами нуклеотиды лишены какой-либо семиотической функции, как и было с самого начала указано Р. Якобсоном. Казалось бы, если исходить только из кодирующей функции, то точнее было бы соотнести триплет с морфом как минимальной значимой единицей. Но вместе с тем интуиция как Р. Якобсона, так и Ю.Б. Румера и В.А. Ратнера (и всех, кто соотносил триплет со словом, а не с морфом), безусловно, точнее: морф элементарен и неразложим на компоненты, тогда как слово обладает структурой, компоненты которой функционально различны, что, видимо, и имел в виду В. Ратнер, соотнося их с приставкой, корнем и окончанием. Заметим, что тем самым реинтерпретируется и функция нуклеотида - он в таком случае предстает как аналог не фонемы, а словообразовательного асемантичного (строевого) морфа.
Однако в языке асемантичный морф - достаточно периферийное и даже спорное явление (морф принято определять как минимальную значимую единицу, поэтому введение самого этого понятия может быть расценено как противоречие в терминах). Даже если пренебречь этим обстоятельством, данная аналогия носит лишь частичный характер: в естественном языке корень не может выступать также и как приставка или же окончание, тогда как в генетическом коде один и тот же нуклеотид может находиться в любой из позиций. Морфы и позиции, хотя и определенным образом соотносятся между собой, существуют автономно: раздельно даны инвентарь соответствующих единиц (приставок, корней и окончаний) и набор позиций в слове, в которые они могут быть помещены: начало (до корня), середина (корень) и конец (после корня). Поэтому характер соответствий между нуклеотидами и позициями в триплете напоминает уже скорее синтаксические отношения между словом и семантико-синтаксической функцией. Регулярность этих отношений требует соотнести их не только со словообразованием, но и с синтаксисом. Так, будучи помещенным в позицию субъекта, объекта или предиката, любое слово приобретает соответствующие характеристики. В естественных языках функциональные (семантико-синтаксические) свойства той или иной позиции присущи ей безотносительно лексического заполнения - это характерно для аморфных, но с определенными оговорками верно и в отношении других типов языков. Так, семантико-синтаксические признаки позиции оказываются сильнее, чем лексико-категориальные, - в современной лингвистике это явление получило название coercion - принуждение: лексическая единица «принуждается» к выполнению соответствующей для дан-
слов обычно участвуют в словоизменении, т.е. в синонимических преобразованиях. Аналогично 70% замен в окончаниях (7) кодонов синонимические. Наконец, приставка и корень слова образуют его основу, несущую полную или доминирующую смысловую нагрузку. Основа кодона (ху) тоже играет ключевую роль в особенностях генетического кода» [Рат-нер, 2000, с. 21].
151
ной позиции функции. Что касается связи между функциями и порядком следования позиций, то в естественных языках порядок следования единиц и их семантико-синтаксическая позиция могут достаточно свободно варьироваться, но в целом определяющим является порядок: Субъект -Предикат - Объект (SVO). Это, видимо, послужило основанием для того, чтобы свести отношения внутри триплета к синтаксическим. Так, в [Garcia-Lopes, 2005, p. 98-100] было предложено трактовать позиции в соответствии с так называемой теорией «Х-штрих» (X-bar theory) Ноама Хом-ского как универсальную схему: «спецификатор - вершина - дополнение». Заметим, однако, что и эта аналогия может иметь лишь ограниченный радиус действия.
Как видим, различия между позициями в триплете можно рассматривать и как семантические, и как структурные, и как синтаксические. Думаем, не имеет особого смысла заострять внимание на дискуссии о том, что представляет собой триплет - трехфонемный морф, трехкомпонентное слово или же элементарное предложение. Подобное разграничение зачастую оказывается спорным и применительно к естественным языкам. В случае генетического языка уместнее оказываются аналогии с такими языками, как аморфные, слоговые, инкопорирующие, для которых метаязык греко-латинских грамматик оказывается далеко не всегда адекватным. Единицы в составе триплета при соотнесении с единицами языка демонстрируют синкретизм - так, они, с одной стороны, могут быть соотнесены с такой синкретичной единицей, как фонема / слог в составе слова, а с другой - могут быть рассмотрены как синкретичный морф / слово в составе триплета, который, в свою очередь, также выступает как аналог синкретичного слова-предложения.
Поэтому все аналогии оказываются хоть и верными, но неполными. Однако в этом разнобое можно увидеть и проявление куда более фундаментального общего свойства - это наличие применительно к генетическому коду так называемого двойного членения, семиотического и струк-турного1. С одной стороны, когда речь идет о композиционных правилах формирования триплета, уместны аналогии с такими не-значимыми единицами, как фонема и слог. С другой стороны, следует иметь в виду кодирующие (семиотические) характеристики, благодаря которым нуклеотиды в составе триплетов осуществляют также и (смысло-)различительную функцию, и
1 Термин «двойное членение» был предложен Андре Мартине [Мартине, 1960] для обозначения такого принципа организации естественного языка, в соответствиии с которым языковые единицы каждого из уровней могут быть разложены, с одной стороны, на значимые единицы - морфемы и лексемы (слова); а с другой стороны, - на фонетические: фонемы, слоги, фонетические слова и т.п., не имеющие самостоятельного значения, но обеспечивающие различение значимых единиц. За небольшими исключениями все остальные знаковые системы таким свойством не обладают; они членятся лишь на значимые, двусторонние единицы (иконические языки), или же обладают только формальными свойствами, или же их формальные характеристики совпадают с семантическими (формальные языки).
152
тогда возможны аналогии с морфами и словами - членами предложения. Видимо, именно подобный функциональный синкретизм единиц генетического кода не позволял исследователям обнаружить это фундаментальное сходство между ним и естественным языком: оно становится явным не при сравнении единиц генетического кода с той или иной конкретной лингвистической единицей, а при сравнении совокупностей изоморфных признаков / функций, характеризующих единицы различных языковых уровней.
7. Естественный язык как (бы) генетический код: Модель описания
Прежде чем перейти к описанию грамматики генетического кода, для выбора адекватной модели попробуем произвести обратную операцию -рассмотреть, каким мог бы быть естественный язык, если бы он был организован в соответствии с принципами генетического кода. Представим ситуацию, как то частично имеет место в аморфных языках, что семантико-синтаксическая категориализация единицы определяется исключительно контекстуально - в зависимости от ее позиции в составе единицы более высокого ранга. В естественных языках обычно происходит определенная категоризация единиц словаря в зависимости от выполняемых синтаксических функций, и один и тот же корень в зависимости от этого может приниимать различные по типу формы (ср.: бежать - бег, мать - быть матерью, письмо - писать - писарь). Особенность генетического кода в том, что одна и та же единица в зависимости от позиции приобретает различные функции. Так, если сопоставить триплет с предложением, то функции составляющих его нуклеотидов можно соотнести с семантикой подлежащего, сказуемого и дополнения. Так, в русском языке корневой морф «-уч-» в зависимости от семантико-синтаксической функции будет преобразован в «учить», «учитель», «учеников», и порядок слов в предложении не может повлиять на эти функции (ср.: Учитель учит учеников Учит учеников учитель Учеников учит учитель. - Эти предложения различаются актуальным членением, но не пропозициональной семантикой).
Если же представить себе язык, где первая позиция закреплена за субъектом, вторая - за предикатом, третья - за объектом, то тогда особых морфологических маркеров не потребуется и структура «-уч-»; «-уч-»; «-уч-»; будет соотноситься с предложением русского языка «Учитель учит учеников», где корень «-уч-» в первой позиции приобретает признак «быть агентом», «тот, кто учит», условно «учитель», во втором - «действие» («уч-» + «делать» = «учить»), и наконец, в третьей позиции - «объект / адресат действия» («ученики»). А композиция вроде «Уч уч дети» будет значить «учитель учит детей», «Дети уч уч = Дети учат учителя» и т.п. Одновременно с синтаксической позиционной функцией тем самым выделяется и семантическая: агентивная, предикативная и объектная.
153
Вероятно, в этом отношении наиболее подходящим будет описание, основанное на принципах грамматик Р. Монтегю, когда правила синтаксической формации дублируют семантические. В данном случае это будет простейшая категориальная грамматика, где исходной будет являться идея о том, что позиции в триплете выступают как функциональные категории. В русистике модели категориальной грамматики получили известность в форме так называемых аппликативных грамматик, в свое время успешно разрабатываемых С.К. Шаумяном [Шаумян, 1974].
В данном случае можно предложить грамматику, алфавит которой включает два исходных символа «Х» и «У», все остальные будут описываться как производные. Например Х ^ Y - преобразователь единицы категории Х в категорию У, Х ^ Х - преобразователь единицы категории Х в новую единицу, но той же категории Х и т.д. Так, если символ X проинтерпретируем как предикат, а У - как предложение, то Х ^ У можно интерпретировать как преобразователь предиката в предложение, или как функцию, аргументом которой явится предикат, а значением - предложение. Субъект Х ^ У предстанет как то, что, прибавлясь к сказуемому, преобразует его в предложение, а дополнение - как Х ^ Х, как преобразователь сказуемого в сказуемое. Так, если Х - предикат «бежит», то имя «мальчик» можно рассматривать как такой функтор (оператор), который преобразует его в предложение «мальчик бежит»:
мальчик
(Х ^ У)
бежит I Мальчик бежит;
а дополнение «письмо» - как оператор, преобразующий исходное сказуемое в новое сказуемое:
письмо (Х ^ Х)
пишет i пишет письмо.
При таком подходе категория предстает не как неизменная характеристика некоторого элемента, а как функциональная: так, в отличие от вышеприведенных случаев, та же лексическая единица «мальчик» может выступать и как принадлежащая к категории Х ^ Х:
мальчику
пишет i О пишет мальчику;
а «письмо» может быть отнесено и к категории Х ^У:
письмо
отправлено i О письмо отправлено.
Тем самым все единицы словаря могут быть рассмотрены с точки зрения выполняемой ими функции - как преобразователи исходной единицы в производные комплексы, - и одна и та же лексическая единица в
154
зависимости от выполняемой ею функции будет выступать в различных ипостасях.
Перенесем подобную модель на процесс формирования из нуклеотидов триплетов (кодонов). Тем самым получим возможность, значительно сократив набор метаязыковых символов, описать формирование триплета как контекстно обусловленное преобразование некоторого исходного элемента (используя вышеприведенную модель, условно назовем его «предикатом») в триплет (условно - «предложение»). Это будет двухступенчатая операция (или функция), преобразующая так называемый «предикат» в его комплексном контексте (условно - «предикат в контексте субъект -объект») в триплет («предложение»). Описание генетического кода в этом случае предстанет как правила соответствия, определяющие отношение между нуклеотидом в исходной позиции и соответствующими триплетами (контекстами для данного нуклеотида в исходной позиции). Если использовать аналогии из синтаксиса, это будут правила соответствия между предикатами и их субъектно-объектными контекстами, преобразующами каждый из этих предикатов в предложение. Грамматика предстанет как некоторая модель, описывающая преобразование нуклеотидов в кодоны и соотносящая полученные последовательности нуклеотидов с аминокислотами. Соответственно, правила этой грамматики будут операциями преобразования одних единиц в другие. Содержательно три позиции триплета / кодона можно описать как ступени формирования кодона из нуклеотидов (если продолжить аналогии с предложением, то, например, вторая позиция может быть рассмотрена как сказуемое, первая - как подлежащее, третья -как дополнение). В соответствии с принятыми подходами эта грамматика будет состоять из трех компонентов: 1) правила формации структур кодона; 2) правила заполнения структуры кодона нуклеотидами; 3) правила соотнесения кодонов с аминокислотами.
8. Грамматика генетического кода
8.1. Правила формации триплета
Кодирующий аминокислоту сегмент должен состоять из трех позиций, поэтому две заполненные позиции можно назвать незавершенным триплетом / кодоном (дублетом), а три - завершенным. Исходя из принципов простоты и экономности описания процесс конструирования целесообразно начать не с первой, а со второй позиции, что, кстати, подтверждается ее биохимической значимостью1. Поэтому нуклеотид во второй
1 Ср.: «Все аминокислоты можно распределить по своего рода спектру, начиная от "очень гидрофобных" и заканчивая "очень гидрофильными". Именно этот спектр имеет связь со второй буквой триплетного кода. Пяти из шести самых гидрофобных аминокислот
155
позиции будем рассматривать как основу триплета (корень - по В. А. Ратнеру).
Обозначим вторую позицию в кодоне как Х, а сам кодон - как У. Тогда первая позиция предстанет как Х / (Х / У) - преобразователь исходного нуклеотида во второй позиции Х в дублет (Х / У). Иными словами, это нечто (функтор, функция, оператор, операция, преобразователь -выбор термина несущественен), что в сочетании со второй позицией Х преобразует ее в (Х / У). Тем самым первые две позиции предстают уже не как отдельные единицы, а как составляющие единый комплекс (дублет) Х / У. Соответственно, третья позиция предстанет как (Х / У) У: преобразователь полученного дублета Х; Х / (Х / У) в триплет. Таким образом, в данном случае действуют следующие композиционные правила:
- Х
- Х; Х / (Х / У) * (Х / У)
- (Х / У); (Х / У) У * У.
С учетом последовательности операций и определенной иерархии между операторами процесс формации триплета можно представить как композицию из двух функций Х (Х / У) и (Х / У) / У, соотносящих исходный нуклеотид Х с триплетом У. Совместно первая и третья позиции предстают как двойная композиционная функция - как две ступени преобразования второй позиции Х в обладающий различительной силой знак: триплет (кодон). Функции Х (Х / У) и (Х / У) / У описывают, каким образом из исходного нуклеотида Х в зависимости от его левого или же и левого, и правого контекста формируется тот или иной триплет (кодон) У, который будет соотноситься с определенной аминокислотой или нонсенс-кодоном. (Этот процесс далее будет описан как правила соответствия, или семантические правила генетического кода.)
При таком описании процесс порождения исходных цепочек генетического кода предстанет как операция перехода от исходной второй позиции Х к кодону У, который будет состоять из трех позиций, принадлежащих к соответствующим категориям Х, Х (Х / У) (Х / У) / У. С некоторой долей условности их можно считать основой, преобразователем основы в дублет, преобразователем дублета в триплет:
1 2 3 Х (Х / У) Х (Х / У) У
соответствуют кодоны с буквой Т в середине, а всем самым гидрофильным - кодоны с буквой А в середине. Промежуточным аминокислотам спектра соответствуют кодоны с буквой Г или Ц в середине. Таким образом, чем бы это ни объяснялось, в целом наблюдается сильная и вполне определенная связь между первыми двумя буквами каждого кодона и той аминокислотой, которую этот кодон кодирует» [Лейн, 2014, с. 82]. Именно основываясь на этом свойстве, в: [Garcia-Lopes, 2005] предлагается вторую позицию рассмотри-вать как аналог вершины синтаксической группы, хотя, как нам кажется, не следует смешивать кардинально различные принципы описания.
156
Категории, как и в языковом синтаксисе, выступают не самостоятельно, а как характеристики единиц алфавита / словаря, в данном случае -нуклеотидов. Любой нуклеотид в первой позиции будет принадлежать к категории Х (Х / У), во второй - Х, в третьей - (Х / У) У. Один и тот же нуклеотид, но в разных позициях, оказывается не равен самому себе - в процессе транскрипции / трансляции каждый из нуклеотидов выступает в трех ипостасях, выполняя три различные функции. Например, урацил может выступать как 1) Урацил (х); 2) Урацил х / (х / у); Урацил (х / у) у) -т.е. как основа, как преобразователь основы в дублет и и преобразователь дублета в триплет. Соответственно, один и тот же набор нуклеотидов А, В, С в различных комбинациях кодирует различные аминокислоты не только в силу различной очередности появления этих нуклеотидов, но и ввиду их принадлежности к категориям, различным по их функциональной значимости: (А, В, С) отлично от (С, А, В) не только порядком, но и составом: А х /(х / у) не равен А (х), В (х) не равен В (х / у) / у, С (х / у) / у не равен С х / (х / у).
Ввиду того что порядковый номер позиции строго соответствует ее категории, то в дальнейшем, чтобы упростить описание, вместо категории можно указывать только номер позиции, при этом учитывая, что он отражает не только порядок появления в цепочке, но и структурную категорию: вместо (Х / (Х / У); (Х); (Х / У) / У) категориальную структуру триплета можно отобразить как: (1; 2; 3).
Триплет можно рассматривать не только как сочетание трех позиций, а как иерархически упорядоченную трехкомпонентную структуру, которая формируется посредством композиции позиций: 2; 2 + 1; (2 + 1) + 3 (нуклеотид во второй позиции, дублет, собственно триплет). Чтобы отобразить иерархическую и композиционную структуру триплета, его можно представить в виде дерева непосредственно составляющих. Триплет разлагается на такие структурные единицы, как собственно триплет, дублет и нуклеотид-основа:
Эту структуру можно трактовать и как контекст: при таком представлении становится очевидным, что триплет можно рассматривать как форму контекстно зависимой связи между нуклеотидом-основой и кодируемой аминокислотой (или нонсенсом). Первая и третья позиции в их совокупности выступают как левый и правый контекст для нуклеотида-
3
2 3
/Л
2 1
157
основания. Этот контекст определяет его значимость: какая аминокислота будет приписана нуклеотиду-основе В2 в контексте А1 и С3, где А, В, С -произвольные нуклеотиды. Содержательно это будет явствовать из правил соответствия между триплетами / кодонами и аминокислотами. Тем самым каждый нуклеотид является, с одной стороны, контекстно зависимым (его значимость определяется позицией в триплете), а с другой - изменяющим контекст оператором (левый и правый контексты определяют семиотические характеристики основы, и наоборот, основа оказывается значимой в сочетании только с левым контекстом в 32 случаях и с левым и правым в остальных 32 случаях). Это можно считать конкретизацией введенного ранее понятия микроконтекстной зависимости, в отличие от мак-роконтекстной, под которой понималась зависимость триплета от его положения в той или иной цепи ДНК и РНК.
Обобщая характеристики правил формации триплетов, можно предположить, что именно их изящество и простота привели к обманчивому впечатлению, что якобы на этом уровне нет никаких правил. Это и помешало распознать абстрактную систему, которая регулирует формацию триплетов. Такое впечатление могло создаться ввиду совмещенности таких характеристик, как порядок, категория и контекст. Эта совмещенность проявляется в том, что:
1) порядок позиции в триплете однозначно соотносит нуклеотид с приписываемой ему категорией;
2) контекстная зависимость также определяется позиционно - как правое-левое окружение нуклеотида;
3) поскольку и контекстная зависимость, и категория совмещены с позициями, то они оказываются совмещенными и между собой: контекст (1_3) одновременно является и преобразователем нуклеотида в триплет;
4) категории одновременно являются и функциями некоторой позиции;
5) триплет можно рассматривать не как сочетание трех позиций, а как иерархически упорядоченную трехкомпонентную структуру, которая формируется на основе композиции позиций: 2; 2 + 1; (2 + 1) + 3 (нуклео-тид-основа, дублет, собственно триплет).
Подобный изоморфизм между позициями, составляющими, функциями и категориями позволяет значительно упростить описание, поскольку становится ненужным дублирование различных по характеру правил. Но это не отменяет сущностного различия между этими характеристиками.
8.2. Правила заполнения позиций кодона
Исходя из предложенной модели, категориальную структуру кодона можно описать как последовательность трех позиций: Х / (Х / У); (Х); (Х / У) / У, или, упрощая, как: 1; 2; 3. Каждая из них может быть заполнена любым из нуклеотидов (С, или G, или А, или T / U).
158
Соответствующее правило грамматики может быть представлено следующим образом.
Нуклеотиду А, Т / U, G, C приписывается одна из категорий -(Х / У); (Х); (Х / У / У), которая определит его позицию и соответствующую функцию. В общем виде это можно представить так: нуклеотид (С, или G, или А, или T / U) в его левом Х / (Х / У) и правом (Х / У) У контекстах:
(С, или G, или А, или T / U) и (С, или G, или А, или T / U) и (С, или G, или А, или T / U).
Очевидно, что в соответствии с этой формулой может быть получено 64 сочетания - триплета, каждому из которых будет приписано определенное значение - кодировать определенную аминокислоту (61 триплет, один из которых в зависимости от позиции кодирует и метионин, и старт-кодон) или же быть стоп-кодоном (три триплета).
9. Семантика генетического кода:
Правила соответствия между кодонами и аминокислотами
Основной вопрос, на который мы попытаемся ответить в данном разделе, - это есть ли определенная закономерность при установлении соответствий между кодонами и кодируемыми ими аминокислотами.
Возможны все 64 комбинации, при этом различным комбинациям нуклеотидов (кодонам) могут соответствовать одни и те же аминокисло-ты1, что обычно называют избыточностью, вырожденностью кода или же более привычным для лингвистов термином «синонимия» (о неправомерности такой экстраполяции см. ниже). При этом, несмотря на подобный «переизбыток» синонимии, не входящие в канонический список аминокислоты (селеноцистеин и пирролизин) кодируются не за счет этих избыточных синонимов, а на основе контекстной ресемантизации стоп-кодонов. Обычно правила соответствия между кодонами и аминокислотами задаются в виде таблицы (рис. 2) или же в виде трех вписанных окружностей (рис. 3). Но при этом никак не объясняется, на чем основана подобная классификация. Она не хаотична, но в то же время не регулярна: в ней не обнаруживается какой-либо организующий принцип, генетический код в самом деле предстает как «застывшая случайность» (см. сноску 1, стр. 135).
Получаемые 64 возможные комбинации по типу их соотнесенности с аминокислотами подразделяются на три группы.
Первую группу составляют 32 кодона, в которых третий элемент нерелевантен - эта позиция должна быть заполнена в силу триплетности генетического кода, но без какого-либо различительного эффекта, поскольку
1 Обратная ситуация также возможна, когда одному кодону соответствуют различные аминокислоты или нонсенсы, но она не учитывается в каноническом коде; см.: [Genetic Code, 2008].
159
первые два нуклеотида однозначно соотносятся с той или иной аминокислотой. Третья позиция играет структурную роль - дополняя нуклеотидный дублет до триплета, а также и делимитативную - отграничивая данный кодон от последующего.
Подобный принцип мог быть определяющим, хотя и не единственным: если бы каждому дублету соответствовала определенная аминокислота, то тем самым могли быть закодированы только 16 аминокислот1, а четыре аминокислоты и два нонсенса (стоп-кодон или старт-кодон) могли быть закодированы несколько иначе (например, с учетом третьей позиции). Возможна и более радикальная альтернатива: недостаток шести триплетов мог быть восполнен за счет контекста, подобно тому как в зависимости от позиции триплет AUG соотносится или с метионином, или со старт-кодоном, а «неканонические» аминокислоты пирролизин и селено-цистеин кодируются так же, как и стоп-кодоны.
Но дело не в недостаточности двухэлементного кодирования, а в том, что действует иной принцип, значительно отличающийся как от комбинаторного, так и от принципа взаимно-однозначного соответствия между кодоном и аминокислотой. Кодонам, в которых третья позиция нерелевантна для кодирования аминокислот, соответствуют не 16, а всего всего лишь восемь аминокислот, причем из них только пять аминокислот (ва-лин, пролин, треонин, аланин, глицин) кодируются дублетным способом -четырьмя триплетами (дублет + любой из четырех нуклеотидов в третьей позиции), тогда как «триплетным» способом, когда релевантной оказывается также третья позиция, кодируются 12 аминокислот и четыре нонсенс-кодона. Три аминокислоты (лейцин, серин и аргинин) кодируются и дублетным, и триплетным способами - шестью триплетами, из которых в четырех случаях третья позиция нерелевантна, а в двух релевантна. Такой разнобой в принципах соответствия подсказывает, что определяющей может оказаться не комбинаторика, а позиционные и функциональные характеристики единиц. Для их выявления рассмотрим ситуацию с остальными 32 триплетами. Из них можно выделить вторую группу.
Вторая группа - это те 30 кодонов, где первые две позиции оказываются недостаточными и для кодирования аминокислот третья позиция играет различительнувю роль. Однако оказываются значимыми не сами нуклеотиды, а их дифференциальные признаки (пурин vs пиримидин): кодоны с последней позицией, заполненной пиримидином U либо C, противопоставлены кодонам, заполненным пуринами А и G.
Наконец, третью группу составят всего лишь те два кодона (метио-нин, AUG, и триптофан, UGG), которые кодируются уникальным триплетом, где релевантными оказываются все три позиции, а в третьей позиции -оба дифференциальных признака (в обоих случаях третью позицию занимает
1 С числом 16 мы встретимся и в иной связи - это число возможных триплетов с одинаковым нуклеотидом во второй позиции.
160
гуанин - пурин с тремя связями). При этом в случае кодона метионина даже этот набор оказывается недостаточен: он омонимичен старт-кодону, поэтому для различения релевантной оказывается позиция в цепи РНК.
Тем самым выясняется, что о взаимно-однозначном соответствии между кодоном и аминокислотой можно говорить только в одном случае -применительно к триптофану (UGG), что серьезно подрывает приемлемость использования самого термина «код» - куда уместнее оказываются аналогии с естественным языком с его неоднозначностью и перифрази-руемостью.
Никак не оспаривая мнемотехническую правомерность представления соответствий между кодонами и аминокислотами в виде таблицы или вписанных окружностей, можно предложить несколько иную таксономию, основанную на вышеописанной синтаксической категориализации. Первую и третью позицию можно рассматривать как двойную композиционную функцию - как две ступени преобразования основы (второй позиции) в знак (кодон). Тем самым вместо не обладающей объяснительной силой комбинаторики мы попытаемся описать соответствия между триплетами (кодонами) и аминокислотами как позиционно и функционально обусловленные контекстно зависимые характеристики.
10. Контекстно зависимые схемы соответствий между нуклеотидами и аминокислотами
Что может следовать, если рассматривать триплет не как результат произвольной комбинации из трех нуклеотидов, а как результат (значение) функции от нуклеотида во второй позиции? От каждого из четырех нук-леотидов (С2, А2, U2, G2) в зависимости от их правого / левого контекста можно образовать 16 триплетов. Если проследить, как они соотносятся с аминокислотами и нонсенсами, то выясняется, что каждый из них (С2, А2, U2, G2) кодирует аминокислоты особым, только ему присущим способом. При этом строгую, хотя и различную регулярность проявляют триплеты, где второй нуклеотид - цитозин и аденин, в двух других случаях ситуация более разнообразна. Но и в этих случаях можно выделить определенные схемы контекстной детерминированности. Тем самым семантический уровень (соотнесение определенного кодона с аминокислотой) выявляет зависимость кодирования от конкретных характеристик нуклеотида. Понимая необходимость дальнейших уточнений, уже при первом приближении можно выявить зависимость между дифференциальными признаками нук-леотида (принадлежность к пуриновой или пиримидиновой группе, количество водородных связей) и его синтактико-семантическими характеристиками в составе триплета.
161
Как было ранее сказано, общий принцип формирования триплета описывается как композиция двух функций (первая и третья позиции) от аргумента - второй позиции: Х2 (Х1 (Х3))1. В зависимости от того, какой из нуклеотидов оказывается аргументом, это общая схема реализуется в трех основных версиях; по имени нуклеотида во второй позиции их можно назвать цитозиновой, адениновой и гуанин-урациловой. Триплеты с одинаковым вторым нуклеотидом образуют группы, каждая их которых требует отдельного рассмотрения.
1. ЦИТОЗИН (пиримидиновая группа, три водородные связи). Для триплетов, где вторую позицию занимает С (цитозин), в сочетании с первой возможны четыре варианта СС, АС, UC, GC, что, в зависимости от заполнения третьей позиции, приводит уже к 16 вариантам:
CC (С, или U, или А, или G);
АС (С, или U, или А, или G);
UC (С, или U, или А, или G);
GC (С, или U, или А, или G).
Если же обратиться к кодирующей, т.е. различительной функции, то выясняется, что третий элемент нерелевантен, он выполняет исключительно структурную (дополнение дублета до триплета) и делимитативную (указание на конец кодона) функции. Первые два нуклеотида достаточны для кодирования той или иной аминокислоты, поэтому третий можно обозначить как нулевой (любой) - 0. Тем самым правила соответствия могут быть записаны как:
(C)C0 - пролин; (А) C0 - треонин; (U)C0 - серин и (G)C0 - аланин.
Данную запись можно проинтерпретироавать следующим образом: С в контексте С - кодирует пролин: С в контексте А - треонин и т.д.; символ 0 может пониматься и как обозначение пустой позиции, и как возможность постановки любого нуклеотида.
Первые два позиции, дублет («корень» по Ю. Румеру, «основа» по В. Ратнеру), кодируют только одну аминокислоту, а третья позиция («окончание», по Румеру-Ратнеру, комплемент по Гарсиа-Лопесу): 1) служит сигналом границы между кодонами и 2) приобретает синтагматическую значимость на следующем уровне, когда образуется парная единица трансляции «кодон - антикодон» (первая позиция антикодона составляет пару с третьей позицией кодона, при этом она, в нарушение привычной схемы, может быть заполнена нуклеотидом, не комплементарным по отношению к третьему элементу кодона, что приводит к так называемому
1 Как было уже отмечено ранее, для упрощения записи, ввиду совпадения категориальных и позиционных характеристик, можно, памятуя о разнице между ними, пожертвовать технической точностью и вместо того чтобы отдельно указывать позицию и категорию нуклеотида (например, нуклеотид цитозин в позиции один и принадлежащий к категории х (х ^ у)) ограничиться указанием на позицию нуклеотида (С1) или же на его место в последовательности (ССА).
162
«вобблингу» - см. раздел 12.1). Что касается семантической (кодирующей и смыслоразличительной функции), то в случае С2 код оказывается дублетным - первые два нуклеотида достаточны для опознания аминокислоты.
2. АДЕНИН (пурин, две связи). Другой принцип оказывается задействованным в тех случаях, когда вторая позиция занята аденином. Если судить по разнообразию результатов кодирования, в этом случае получается, казалось бы, наиболее пестрая картина: кодируются семь канонических аминокислот и один стоп-кодон (он к тому же может кодировать еще одну, «не каноническую» аминокислоту - селеноцистеин). Но если рассмотреть способ, посредством которого происходит знакоразличение, то он оказывается столь же регулярен, что и в предыдущем случае. Разница в том, что в случае аденина третья позиция становится релевантной - здесь происходит своего рода «апофеоз» оппозиции «пиримидин - пурин», приобретающей в третьей позиции различительную значимость: кодон соотносится с различными аминокислотами в зависимости от того, занята ли третья позиция нуклеотидом пуриновой (аденин или гуанин) или пирими-диновой (цитозин или урацил) группы:
а) (U) А (пиримидин) - тирозин:
(U) А (пирин) - стоп-кодон
б) (C) А (пиримидин) - гистидин
(C) А (пирин) - глутамин
в) (А) А (пиримидин) - аспарагин
(А) А (пирин) - лизин
г) (G) А (пиримидин) - аспарагиновая кислота
(G) А (пирин) - глутамининовая кислота.
Обратим внимание на то, что эта регулярная схема дополняется еще одной: первая позиция оказывается релевантной для отграничения аспараги-на и глутамина от, соответственно, аспарагиновой и глутаминовой кислоты.
GA (пирин) - глутамининовая кислота; СА (пирин) - глутамин;
GA (пиримидин) - аспарагиновая кислота; АА (пиримидин) - аспарагин.
В обоих случаях замена гуанина в первой позиции на другой нук-леотид оказывается существенной для отграничения исходной аминокислоты (глутамининовой или аспарагиновой) от получаемой из нее (глутамин; аспарагин). Рассмотрение этого явления увело бы нас от основной темы, оно частично будет затронуто в разделе о роли первой позиции при диахронической (эволюционной) классификации аминокислот. Здесь же имеет смысл отметить это явление как свидетельство того, что сочетание нуклеотитодов, по крайней мере в данных триплетах / кодонах, есть результат не комбинаторики, а деривации. Возникает нечто вроде класса родственных аминокислот, где первая позиция служит для различения «материнской» и «дочерней» аминокислот.
Хотя применительно к другим контекстам ситуация со второй позицией оказывается не столь единообразной, но и здесь можно заметить различные формы проявления тех же схем контекстной зависимости. Когда
163
во второй позиции оказывается урацил, и, или гуанин, О, то могут иметь место как оба вышеописанных (цитозиновый и адениновый), так и дополнительные способы кодирования. Цитозиновая схема контекстной детерминации, т.е. та, при которой третья позиция оказывается нерелевантной и дублет однозначно соотносится с определенной аминокислотой, действует тогда, когда первая позиция занята гуанином или цитозином (это комплементарные нуклеотиды, обладающие тремя водородными связями и сочетающиеся друг с другом при образовании пары кодон - антикодон). В других случаях действует адениновая или же осложненная адениновая схема. Рассмотрим все эти случаи по отдельности.
3. УРАЦИЛ (пиримидин, две связи). Если во второй позиции оказывается урацил, то из 16 вариантов
(С, или И, или А, или О) И (С, или И, или А, или О), в тех восьми случаях, когда первая позиция занята нуклеотидом с тремя водородными связями, гуанином или цитозином, третья позиция оказывается нерелевантной: (О)И => валин; (с)и^^ лейцин.
Однако для остальных восьми контекстов, когда первая позиция занята нуклеотидом с двумя водородными связями, третья позиция также оказывается релевантной. При этом, если первая позиция занята урацилом, то воспроизводится та же адениновая схема. В контекстах ИИ (_) третья позиция может быть занята пиримидиновым основанием (И или С), и тогда эти два кодона ИИИ и ИИС будут кодировать фенилаланин. Если же они заняты пуриновым основанием (А или О), то они будут кодировать лейцин (как и вышеприведенные четыре кодона формы (С)И^). Это может быть отображено как:
ИИ _pd => фенилаланин;
ИИ _рг лейцин. (_pd и _рг - нуклеотид пиримидиновой или, соответственно, пуриновой группы).
Уникальная ситуация возникает если первая позиция занята адени-ном. К двум схемам контекстной зависимости добавляется третья, когда в третьей позиции релевантными оказываются оба дифференциальных признака. Адениновый триплетный тип, предполагающий симметричное разбиение группы на две пары с пуриновой или пиримидиновой третьей позицией, осложняется еще одним противопоставлением, уже внутри пуриновой группы. В контексте АИ (_) изолейцин кодируется кодонами с пиримидином в третьей позиции АИ (И или С), но в дополнение к этому также и кодоном АИ (А), где третья позиция занята пурином с двумя связями. Если же третья позиция занята гуанином (пурин с тремя связями), то этому кодону АИО будет соответствовать метионин - но только когда этот кодон встречается не в начале кодоновой цепочки. Но если же он появляется в начале, причем только в особом окружении, то он является старт-кодоном и сигнализирует о начале операции белкового синтеза (см. снос-
164
ку 2, стр. 134). Тем самым этот кодон также выполняет делимитативную функцию, но более высокого, текстуального порядка - он отделяет новую значимую цепочку кодонов (цистрон, оперон, ген) от предыдущих. (Здесь напрашивается аналогия с инициальным символом в порождающих грамматиках.)
Это один из двух случаев, когда в третьей позиции различительную роль играют оба признака: «пурин У8 пирамидин», а внутри пуринов - количество водородных связей (2 У8 3). Эти соответствия можно отобразить как:
Аи (_pd или _рг 2) => изолейцин;
Аи (_рг 3) ^метионин (внутри цистрона);
АИ (_рг 3) ^старт-кодон (в начале цистрона).
Существенным оказывается не только «внутрикодонный», но и внешний контекст: предшествует ли кодону АИО какой-либо иной, или же он находится в начальной позиции. Таким образом, в случае, когда во второй позиции оказывается урацил, получаемые кодоны соотносятся с аминокислотами довольно причудливым способом: шесть кодонов соотносятся с лейцином, три - с изолейцином, четыре - с валином, два - с фенилала-нином и один кодон-омоним, в зависимости от позиции это либо кодирующий метионин, либо старт-кодоном.
Столь разнообразное поведение кодонов, где вторая позиция занята урацилом, можно тем не менее обобщить. Так, все шесть случаев кодирования лейцина сводятся к схеме:
с
и
/ \
0
-Рг
А вся схема контекстного детерминирования принимает следующий вид:
165
Такая форма представления подсказывает содержательную интерпретацию того, как соотносятся между собой аргумент и функция: урацил во второй позиции, U2, и класс кодонов, в которых урацил занимает вторую позицию. Предложенное описание - это исчисление контекстов для U2, где левый и правый контексты выступают как функторы, оно выявляет также и семантическую (смыслоразличительную) значимость композиционных правил. Правила синтаксиса и семантики дублируют друг друга.
На первом шаге путем присоединения левого контекста (первой позиции) из U2 получаются два смыслоразличительных дублета, достаточных для различения восьми кодонов, затем - к этому дублету присоединяется правый контекст, где релевантной оказывается принадлежность к пиримидиновой или пириновой группе; и последний шаг для смыслораз-личения уже внутри пуриновой группы - это количество водородных связей. Для полноты картины добавляется еще один принцип смыслоразли-чения - обусловленность внешним контекстом. Как видим, в случае U2 представлен весь спектр возможностей, которые могут быть схематически описаны и как изящная схема бинарного разбиения:
1) U
2) GU vs (~G)U - гуанин в первой позиции кодирует валин, в отличие от всех других аминокислот, где первая позиция занята каким-либо другим нуклеотидом (не-гуанином, ~G); не-гуаниновые триплеты, в свою очередь, распадаются на две группы;
3) CU vs (~C)U - цитозин в первой позиции кодирует лейцин, все остальные не-цитозиновые левые контексты также распадаются на две группы;
4) UU (pr) vs UU (pd)&AU (0) - т.е. на кодирующие тот же лейцин и кодирующие остальные аминокислоты; при этом вторая группа UU (pd)&AU (0) в свою очередь распадается на две
5) UU (pd) - кодирующая фепилапин, и вторую группу, AU (0), которая также распадается на две асимметричные;
6) AU (~ PR3) vs AU (PR3) - дублет AU с любым, кроме гуанина, нуклеотидом в третьей позиции кодирует изолейцин;
7) при ее заполнении гуанином (пурином с тремя связями) кодон AUG - 1) в начальной позиции гена (цистрона), причем только в строго определенном контексте, является старт-кодоном; 2) во всех остальных позициях кодирует метионин.
Как видим, замысловатая и кажущаяся хаотичной ситуация кодирования в случае урацила во второй позиции основана на достаточно строгой бинарной логике, допускающей весьма последовательное семантико-композиционное описание.
4. ГУАНИН (пурин, три связи). Сходная ситуация наблюдается и в случае, когда вторая позиция триплета / кодона оказывается заполнена гуанином, почему и возможно аналогичное описание. Шесть кодонов этой
166
группы кодируют аргинин, четыре - глицин, по два - серин и цистеин, один - триптофан, и один является стоп-кодоном.
Как и в предыдущем случае, если первая позиция заполнена имеющими по три водородных связи гуанином или цитозином, то третья позиция оказывается нерелевантной. При заполнении первой позиции гуанином все четыре кодона будут кодировать глицин:
Ш0 = глицин;
при заполнении цитозином - аргинин:
СО0 = аргинин.
Если первая позиция занята аденином, то приобретает значимость третья позиция - заполнена она пириновым или пиримидиновым основанием:
АО (_pd) = серин;
АО (_рг) = аргинин.
Как и в случае с кодированием лейцина, второй и третий контексты можно объединить: О2 в левом контексте С (при любом правом контексте) или левом контексте А (при правом контексте, занятом пуриновым нук-леотидом) кодируют аргинин. Отличие от предыдущего случая, когда вторая позиция была занята урацилом, лишь в замене в первой позиции ура-цила на аденин:
О2 / \ С А / \ 0 _рг
Если же первая позиция занята урацилом, то возникает примерно та же разнородная картина, что и в предыдущем (урацил во второй позиции) случае. Если третья позиция заполняется пиримидиновым основанием, то получаемый в результате кодон кодирует цистеин:
ИО (пиримидин) = цистеин.
Если же в третьей позиции находится пурин, то вновь релевантным оказывается количество водородных связей: если это гуанин (пурин с тремя водородными связями), то ИОО кодирует триптофан; если аденин (пурин с двумя связями), то ИОА - это реализующий текстовую функцию стоп-кодон.
Как видим, отличие от предыдущего («урацилового») случая в том, что: 1) в схеме меняются ролями урацил и аденин в первой позиции1;
1 Если во второй позиции гуанин, а в первой - аденин, то действует адениновая схема (дуплет + РКЭ / Рг); а если в первой позиции урацил, то для третьей позиции оказываются релевантными оба признака (дуплет + (РКЭ У8 (Рг (3 У8 2). Если О2, то А1 О 2 = > дуплет + РКЭ/Рг; И1 О2 = > (дуплет + (РРБ У8 (Рг (3 У8 2).
Если во второй позиции урацил, а в первой - аденин, то для третьей позиции оказываются релевантными оба признака: дуплет + (РКЭ У8 (Рк (3 У8 2), но если в первой пози-
167
2) отсутствует омонимия между нонсенсом (стоп-кодоном) и кодирующим триптофаном - различие в количестве водородных связей оказывается достаточным и дополнительный контекст не требуется. В остальном схема повторяет предыдующую вплоть до деталей:
2-я позиция
1 -я позиция
3-я позиция
Глицин
РгЗ Рг 2
Аргзаош Серин Цисте:и:н: Триптофа:
стоп-кодон
Столь очевидное структурное сходство между этими описаниями свидетельствует о наличии единого принципа организации. Случай с ура-цилом во второй позиции вбирает все структурные типы организации, добавляя к ним также и принцип контекстной зависимости внутри гена (цис-трона). Описание всех четырех случаев может быть обобщено:
Дублетный: Х1 Х2^
Триплетный синонимичный: Х1 Х2 (Х3: пирин или пиримидин).
Триплетный уникальный Х1 Х2 (Х3: пирин, 2 или 3 связи).
При этом заполнение тем или иным нуклеотидом оказывается существенным как для выбора той или иной схемы - цитозиновый или адени-новой или же их совмещения, - так и для типа кодирования аминокислоты (посредством шести, четырех, двух или же одного кодона). Констатируя этот факт, мы оставляем вне рассмотрения возможности его соотнесения с биохимическими характеристиками нуклеотидов.
При всем кажущемся разнообразии для всех четырех случаев действует единый композиционный принцип - левый и правый контексты Х1 и Х3 выступают как операторы, преобразующие исходный Х2 в триплет. Разница между всеми случаями лишь в длине контекста: для смыслораз-личения может быть достаточным лишь левый контекст (цитозиновый тип), либо же нужны оба контекста. При этом, если релевантен также и правый контекст, то может быть достаточен лишь один дифференциальный признак (адениновый тип), либо же - для двух уникальных кодонов -
ции урацил, то действует адениновая схема (дуплет + PRD / Pir) - Если U2. то A1 U2 = > дуплет + (PRD vs (Pir (3 vs2), U1 U2 => (дуплет + PRD / Pir).
168
оба дифференциальных признака (триптофан) или даже внешний контекст (метионин - старт-кодон). Примечательно, что последние два случая есть результат эволюции, которая шла по пути семиотического усложнения. В митохондриальной ДНК человека эти две аминокислоты кодируются по адениновой схеме, триплетным синонимичным способом [Barell et al., 1979]; поэтому эта версия генетического кода была названа «идеальной» -здесь нет отклонений и все триплеты делятся на две равные группы 32 + 32.
При наличии общей схемы поведение каждого из нуклеотидов достаточно индивидуализировано: каждый обладает особым контуром микроконтекстной зависимости, коррелирующей с его дифференциальными признаками. Так, два «чистых» типа были названы цитозиновым и адени-новым: в одном случае для кодирования аминокислоты оказывался достаточным дублет, во втором - дублет и дифференциальный признак. Сами эти нуклеотиды противоположны по своим признакам: цитозин - это пиримидин с тремя водородными связями, а аденин - пирин с двумя.
Но и третий, смешанный тип, урацил-гуаниновый, также образован нуклеотидами с противоположными признаками: пиримидином с двумя водородными связями (это - урацил) и пирином с тремя (гуанин). При этом при установлении соответствия между кодоном и аминокислотой оказываются задействованы оба дифференциальных признака. В случае U2 и G2 действует один и тот же принцип: если первая позиция занята нуклеотидом с тремя связями (С1 или G1), то третья позиция оказывается нерелевантной: дублеты CU и GU кодируют, соответственно, лейцин и валин, а дублеты CG и GG - аргинин и глицин. В двух остальных случаях, когда первая позиция занята нуклеотидами с двумя водородными связями, аденином или урацилом, происходит осложнение адениновой схемы: релевантными оказываются не только один из признаков третьей позиции (группы UU_ и AG_), но и оба этих признака (AU_ и UG_) - при с симметричной замене урацила на аденин в первой позиции (см. сноску 1, стр. 159).
Как видим, формирование триплета на основе нуклеотида во второй позиции одновременно и индивидуализировано, и регулярно. Это вовсе не свободное распределение нуклеотидов внутри триплета, определяемое лишь комбинаторикой. Кажущееся случайным распределение 64 кодонов на группы (32 + 30 + 2) есть результат разнообразия, «индивидуализации» поведения каждого из четырех нуклеотидов во второй позиции. Оно определяется тремя схемами: цитозиновой, адениновой и распадающейся на два подтипа урацил-гуаниновой (или дублетной, триплетной синонимичной, триплетной уникальной). При этом дублетная схема соответствует цитозиновой схеме, триплетная синонимичная - адениновой. Внутри ура-цил-гуаниновой возможны все три схемы - но и здесь действует та же логика. Другое дело, что релевантными для определения схемы становятся уже не только сами нуклеотиды и позиции, но и их дифференциальные признаки. Так, если левый контекст - первая позиция - заполнен нуклео-тидом с тремя водородными связями, то действует дублетная, цитозиновая
169
схема. В других случаях, когда в первой позиции оказывается нуклеотид с двумя связями, приобретает значимость правый контекст (третья позиция): при заполнении пиримидиновым основанием задействованным оказывается адениновый тип (триплетный синонимичный), а при пириновым - триплет-ный уникальный, с последующей дифференциацией по числу связей.
Ошибочное впечатление «застывшей случайности» или даже хаотичности создается вследствие игнорирования индивидуальных, категориальных и контекстуальных характеристик. Обобщая данный раздел, можно выделить следующие принципы организации генетического кода:
1) синтаксические правила формирования значимых единиц (триплетов / кодонов) совпадают с семантическими правилами соотнесения кодонов с аминокислотами;
2) в основе как синтаксических, так и семантических правил лежит принцип контекстной зависимости;
3) категории выступают как позиции, а позиции - как категории. Триплет есть не набор нуклеотидов, а структура, внутри которой существует иерархия между позициями, почему и существенен не только состав, но порядок следования нуклеотидов;
4) дифференциальные признаки нуклеотидов - это не только характеристики их биохимического субстрата. Они выступают как значимые субъединицы, определяющие тот или иной тип формирования триплетов и их семантико-синтаксические характеристики (цитозиновый, адениновый, смешанный). Кроме того, применительно к третьей позиции нуклеотиды выполняют смыслоразличительную функцию (различение по пириновым / пиримидиновым основаниям, а в двух случаях, внутри пириновых, - по наличию трех или двух связей). Они же оказываются опредяющими для формирования синтагм в процессе трансляции (кодон + антикодон): сочетаются нуклеотиды с тем же числом связей, но принадлежащие к различным группам.
Кажущаяся аномалия - когда для отличения аминокислоты от нон-сенс-кодона имеющихся средств оказывается недостаточно и требуется обращение уже к более широкому контексту - очень важна для понимания того, что механизмы различения не ограничиваются триплетом, а могут потребовать и обращения к позиции в гене (цистроне) или даже более широкому контексту, предполагающему выход в некодирующую часть генома. Это еще одна характеристика организации генетической информации: контекст выступает как дополнительный механизм, на данном уровне достаточно ограниченный по сфере действия, но который, возможно, на более высоких уровнях, относящихся к так называемым вторичным генетическим кодам1, явится определяющим. Случай кодирования метио-
1 Ср.: «Все приведенные примеры нарушения общих правил кодирования так или иначе связаны с существованием определенного контекста в мРНК. Этот контекст или перекодирующие сигналы иногда называют вторым генетическим кодом» [Овчинников,
170
нина и старт-кодона посредством одного и того же триплета показывает, что задаваемая генетическим кодом система кодирования не замкнута и может быть расширена за счет семантизации новых контекстных связей уже имеющихся триплетов. Таким способом кодируются такие экзотичные аминокислоты, как селеноцистеин и пирролизин. При выходе в неко-дирующую часть ДНК они могут кодироваться теми триплетами, которые обычно кодируют стоп-кодоны1. Контекст выступает как дополнительнй механизм различения. Разумеется, разговор о кодировании аминоксилот в некодирующей части ДНК может показаться противоречием в терминах, если не предположить, что и там существуют основанные на еще не выявленных контекстуальных связях семантико-синтаксические механизмы.
Предложенное описание исходило из принципов, которые основаны на семиотических, а не биофизических или биохимических характеристиках. В первую очередь это относится к принципу контекстной зависимости. Если же говорить о заимствованной генетиками терминологии, то она должна быть уточнена. Поскольку она преимущественно относится к аналогиям со словом, ограничимся лексическими параллелями. То, что применительно к генетическому коду называют синонимией, если следовать лингвистическому подходу, есть достаточно разнородное явление, которое нуждается в дифференциации. Если рассматривать как класс кодоны, выражающие одно и то же значение (кодирующие одну и ту же аминокислоту), то точнее было бы говорить об словоформах. Так, при кодировании аминокислот следует разделить случаи, напоминающие:
- «словоизменение» - один и тот же корень и приставка (один дублет), окончание не существенно; это все триплеты, образованные по цито-зиновой схеме; как его подвид можно рассматривать:
- один и тот же корень и приставка (дублет) и частично релевантное окончание - это кодирующие одну и ту же аминокислоту триплеты, образованные по адениновой схеме;
- «словообразование», где также возможны два подвида - одна и та же основа (первая и вторая позиция), но различные суффиксы - отличающиеся по третьей позиции триплеты, кодирующие различные аминокислоты, - осложненный адениновый тип. Примечательно, что эти два случая -кодирование метионина и триптофана - есть результат эволюции, в митохондриальном геноме такого не наблюдается;
1998, с. 14]. Заметим, что подобных дополнительных кодов к настоящему времени выявлено более десятка, и все они названы «вторыми»; см.: [Trifonov, 2008].
1 Так, если за кодирующим участком гена следует особая последовательность нук-леотидов, которая называется SECIS (selenocysteine insertion sequence), то стоп-кодон UGA интерпретируется как кодирующий селеноцистеин. Эта последовательность может отстоять от UGA на очень большом расстоянии - иногда она может быть на расстоянии 200 нуклеотидов и находиться в нетранслируемой области иРНК. Аналогично, но уже посредством другого стоп-кодона (UAG), кодируется пирролизин [Genetic Code, 2008], см. также: [Ингве-Вечтомов, 1996].
171
- второй подвид «словообразования» - один и тот же корень (вторая позиция) и отличные приставки (первая позиция) - лейцин и аргонин;
5) собственно синонимия - когда корни отличны, но значение одинаково - ограничивается лишь двумя случаями (серин и стоп-кодоны);
6) кроме того, можно говорить об омонимии (триплеты одинаковы, их значение различно). Это одинаково кодируемые метионин и старт-кодон, а при рассмотрении и неканонических случаев это еще и совпадающие со стоп-кодонами кодоны селеноцистеина и пирролизина.
11. Семантические характеристики нуклеотидов во второй позиции триплета
Предыдущие наблюдения позволяют подойти к рассмотрению генетического кода с противоположной позиции. Если до этого нас интересовали композиционные характеристики второй позиции, ее роль в формации триплетов и смыслоразличении внутри кодонов, то теперь сосредоточимся на функциональных возможностях соотнесения кодона во второй позиции непосредственно с классами аминокислот. Тем самым попытаемся, в дополнение к синтаксической роли, определить также и семантическую роль, которую приобретает нуклеотид во второй позиции и которая затем подлежит контекстной дифференциации.
Не вникая в их биохимические характеристики, заметим, что достаточно строго выполняются соответствия между нуклеотидом во второй позиции и тем или иным классом кодируемых аминокислот. Каждому из четырех нуклеотидов будет соответствовать 16 контекстов, которым, за исключением валина, соответствуют непересекающиеся классы аминокислот.
1. Так, цитозин во второй позиции будет кодировать четыре аминокислоты: АС - треонин; ОС - аланин; ИС - серин; СС - пролин.
2. Аденин - семь аминокислот и стоп-кодон (АА - лизин и аспара-гин; ОА - аспаригиновая кислота, глютаминовая кислота; ИА - тирозин и стоп-кодоны; С А - гистидин и глютамин).
3. Гуанин - пять аминокислот и стоп-кодон (АО - серин, аргинин; ОО - глицин; ИО - цистенин, триптофан, стоп-кодон; СО - аргинин).
4. Урацил - пять аминокислот и старт-кодон (АИ - изолейцин, метио-нин, старт-кодон; ОИ - валин; ИИ - фенилаланин, лейцин, СИ - лейцин).
Как видим, уже на основании одного элемента во второй позиции определяются классы аминокислот, и уже внутри этого класса происходит дальнейшая дифференциация на основе первой или первой и третьей по-зиции1. Единственное пересечение - это серин (когда во второй позиции
1 Заметим, что приведенное распределение лишь частично соотносится с принятой классификацией аминокислот по семействам:
172
может быть и С, и О) и стоп-кодоны, где во второй позиции могут быть и О, и А). Относительно первого случая мы ограничимся лишь его констатацией. Что касается стоп-кодонов, то, как нам кажется, нонсенсы должны быть рассмотрены отдельно. Они выполняют не кодирующую, а текстоор-ганизующую функцию. Можно предположить, что вследствие выполнения столь специфической роли нонсенсы по типу организации могут отличаться от кодирующих триплетов. Так, во-первых, все нонсенсы образуются путем различных сочетаний одних и тех же нуклеотидов: И, О и А (это оказывается справедливым и для митохондриального генома). Во-вторых, для различения нонсенсов между собой (а не отличения от других кодонов) определяющей может оказаться не вторая, а первая позиция. Во всех трех стоп-кодонах начальная позиция занята урацилом: ИАА, ИАО, ИОА, тогда как в старт-кодоне он стоит во второй позиции. Тем самым и в этом случае вырисовывается контекстно зависимая семантика урацила - он не только соотносится с классом из пяти аминокислот, но и служит для разграничения стоп-кодонов (урацил в первой позиции - ИАА, ИАО, ИОА) и старт-кодонов (урацил во второй: АИО). В пользу такого предположения говорит и то, что в не канонических случаях инициация может начинаться и с других кодонов, - так, у некоторых прокариотов (доядерных одноклеточных организмов) стартовыми кодонами также являются ОИО, АИИ, СИО, ИИО, и во всех них в качестве второго нуклео-тида выступает урацил1. Поэтому имеет смысл вынести нонсенсы из вышеприведенной схемы соответствий и задать для них дополнительные правила:
- урацил в первой позиции - класс стоп-кодонов;
- урацил во второй позиции - класс старт-кодонов (включая не канонические случаи).
- семейство аспартата: аспартат, аспарагин, треонин, изолейцин, метионин, лизин;
- семейство глутамата: глутамат, глутамин, аргинин, пролин;
- семейство пирувата: аланин, валин, лейцин;
- семейство серина: серин, цистеин, глицин;
- семейство пентоз: гистидин, фенилаланин, тирозин, триптофан;
- фенилаланин, тирозин, триптофан иногда выделяют в семейство шикимата.
При этом все семейство серина кодируется кодонами с гуанином во второй позиции: из шести подобных аминокислот это: AG - серин; GG - глицин; UG - цистенин, тогда как все шикаматные аминокислоты имеют кодоны с урацилом в первой позиции (также три из шести): UGG - триптофан, UUU, UUC - фенилаланин, UAU, UAC - тирозин. В остальных случаях подобной регулярности не наблюдается. Однако при их диахроническом рассмотрении подобных соответствий оказывается намного больше, поскольку приведенная классификация основана на происхождении аминокислот. См. раздел 12.2.
1 Ср.: «Оказалось, что первый метионин в белке в некоторых случаях включается не на метиониновом кодоне AUG, а на кодоне GUG, который соответствует в таблице генетического кода аминокислоте валину. Иногда инициация с метионина может происходить и на других кодонах: AUA и AUU (кодонах изолейцина), UUG и, возможно, CUG (кодонах лейцина)» [Овчинников, 1998, с. 13].
173
Как видим, именно за урацилом оказывается закреплена текстовая функция - формировать сигналы начала или конца полипептидной цепи (нонсенс--кодоны). При этом, как было уже отмечено, нонсенсы составляют как бы резервный фонд для кодирования, почему они в определенных контекстах могут кодировать и аминокислоты (регулярно - метионин, в редких случаях - пирролизин и селеноцестеин; близок к подобной омонимии случай с триптофаном, еще больше таких случаев можно встретить в митохондриальном геноме1).
12. Семантические характеристики второй и третьей позиций
Вышесказанное позволяет еще раз вернуться к функциональным характеристикам позиций внутри нуклеотида, дополнив выводы, приведенные в разделе 5 (Позиции как базовые категории). Помимо того что они задают линейный порядок, в котором появляются нуклеотиды, все они выполняют еще одну общую для всех них композиционную функцию: нуклеотид, попадая в определенную позицию, преобразует своего «соседа» в компонент более сложной структуры. Кроме того, все они обладают синтагматической функцией - при образовании пары кодон - антикодон они образуют комплементарные пары: А ^ и, С ^ О.
В дополнение к этому можно выделить также и специфические для каждой из них семантические функции.
Вторая позиция - протозначима, или многозначна, - нуклеотид во второй позиции определяет некоторое множество аминокислот (от четырех до семи), каждая из которых кодируется соответствующими кодонами (единственное пересечение - серин, который может кодироваться и цито-зином, и гуанином во второй позиции). Многозначность второй позиции
1 Ср.: «...у 16 типов организмов генетический код отличается от канонического. Например, многие виды зеленых водорослей Acetabularia транслируют стандартные стоп-кодоны UAG и UAA в аминокислоту глицин. Представители почти всех трех доменов живых организмов иногда прочитывают стандартный стоп-кодон UGA как 21-ю аминокислоту селеноцистеин, не относящуюся к 20 стандартным. Селеноцистеин образуется при химической модификации серина на стадии, когда последний еще не отсоединился от тРНК в составе рибосомы. Аналогично у представителей двух доменов (архебактерий и бактерий) стоп-кодон UAG прочитывается как 22-я аминокислота пирролизин» [Фриленд, Херст, 2004, с. 61]; «Кодирующие последовательности (кодоны) митохондриального генома имеют некоторые отличия от кодирующих последовательностей универсальной ядерной ДНК. Так, кодон AUA кодирует в митохондриальном геноме метионин (вместо изолейцина в ядерной ДНК), кодоны AGA и AGG - терминаторные кодоны (в ядерной ДНК кодируют аргинин), стоп-кодон UGA в митохондриальном геноме кодирует триптофан ... стартовым кодоном у эукариотических организмов является триплет AUG в мРНК, кодирующий метионин, с которого начинается образование полипептидной цепи в процессе трансляции. У некоторых прокариотов стартовыми кодонами также являются GUG, AUU, CUG, UUG» [Митохондриальная ДНК. - Режим доступа: https://ru.wikipedia.org/wiki/].
174
снимается контекстом - первой или первой и третьей позициями в совокупности.
Первой позиции можно, в дополнение к ранее выделенным, приписать ряд функций. Основная из них - это функция соотнесения исходного элемента (протозначимый элемент) с
а) значимым дублетом, достаточным для идентификации аминокислоты в 32 случаях. Из некоторого класса (четырех или пяти) аминокислот благодаря нуклеотиду в первой позиции происходит выбор одной;
б) квазизначимым дублетом - компонентом триплета, значимым, но недостаточным для разграничения аминокислот, - 30 случаев.
Кроме того, как особую функциональную характеристику первой и второй позиций можно отметить, что как в «канонических», так и «не канонических» стоп-кодонах урацил занимет первую позицию, а в старт-кодонах - вторую.
Наиболее разнообразными оказываются функции третьей позиции. Хотя в половине случаев она не релевантна для знакоразличения, это восполняется обилием других функций: оказываются актуализированы аналоги синтаксической, словообразовательной, просодической (эквивалент паузы) и в ряде случаев и знакоразличительной. Основная функция - это структурная, дополнение дуплета до целого триплета, которая одновременно есть делимитативная - указывать на границу между триплетами. Кроме того, в 30 случаях благодаря третьей позиции происходит идентификация квазизначимых дуплетов - четырем триплетам ставятся в соответствие по две аминокислоты, поэтому можно говорить о неполном зна-коразличении. В двух случаях третья позиция оказывается полностью различительной, выделяя единственную соответствующую данному триплету аминокислоту (триптофан, метионин).
Произведенный анализ позволяет вновь вернуться к вопросу о том, какая из позиций оказывается определяющей для формирования триплетов и их соотнесения с аминокислотами. Мы исходили из того, что простота и экономичность описания делают предпочтительнее выбор второй позиции в качестве исходного элемента, в отличие от принятых схем, в которых описание начинается с первой позиции. В литературе можно встретить аргументы, обосновывающие важность как первой, так и второй позиции. Первая позиция также семантизирована, и к ней могут быть привязаны определенные классы аминокислот. Особенно наглядна связь между классом аминокислот и нуклеотидом в первой позиции при эволюционном рассмотрении генетического кода. Однако внутрисистемный анализ показывает, что подобное свойство нуклеотидов в первой позиции влиять на тип соответствия является дополнительным по отношению ко второй позиции и имеет место только в случае смешанных типов, но не наблюдается в случае «чистых» (аденинового или цистеинового). Первая позиция специализирована быть уточняющей - какая именно из некоторого класса аминокислота соотносится с данным триплетом. Это можно проверить,
175
сопоставив типовые соответствия между аминокислотами и триплетами, сформированными по адениновой схеме А2 (релевантность третьей позиции, различающиеся триплеты) и цитозиновой С2 (дублетность, нерелевантность третьей позиции). И в том и в другом случае нахождение аде-нина или же цитозина во второй позиции оказывается определяющим для выбора соответствующей схемы.
Несколько иначе можно сравнить силу позиций при смешанном типе, U2 или G2. Цитозиновый тип формирования триплетов имеет место и при смешанном, урацил-гуаниновом типе, если этот нуклеотид занимает первую позицию. И в этом случае третья позиция оказывается нерелевантной, а код становится дублетным. Но если вторая позиция занята аде-нином, то и в случае С1 реализуется адениновая схема. Как видим, при формировании триплета сила цистеина в первой позиции ниже, чем аде-нина во второй. И наоборот - в ситуации, когда первая позиция занята аденином, реализуется адениновая триплетная схема - за исключением случаев А1 С2 (CA + пурин кодирует гистолиз; СА + пиримидин - глицин). Как видим, при смешанном типе аденин и урацил определяют тип формирования и соотнесения триплета, занимая не только вторую позицию, но и первую, если только один из них не занимает вторую позицию. Эти случаи можно обобщить так: первая позиция может определить тот или иной тип, если только он не до конца определен второй позицией.
Обращение к дифференциальным признакам позволяет еще точнее определить условия формирования триплетов при смешанном типе. Ура-цил и гуанин во второй позиции не обладают собственным типом - триплеты с U2 и G2 привязаны к первой позиции и модифицируют уже имеющиеся цитозиновый или осложненный адениновый тип. При смешанном типе к реализации цистеиновой, дублетной схемы приводит заполнение первой позиции также и другим нуклеотидом, гуанином, подобно цистеину обладающим тремя водородными связями. Если же первая позиция занята нуклеотидом с двумя связями, то возникает адениновый тип, причем обе осложненные формы этого типа - метионин и триптофан -имеют в качестве третьего нуклеотида гуанин. Это также есть демонстрация того, что в смешанных типах, как и в обоих «чистых», первая позиция есть дополнительная характеристика, посредством которой из некоторого заданного второй позицией набора выбирается конкретная аминокислота. Можно, наряду с основными типами, ввести и понятие действующих внутри смешанного типа дополнительных схем, привязанных к первой позиции, - дополнительной цитозиновой, когда первая позиция занята нуклеотидом с тремя водородными связями, и дополнительной аденино-вой схемы, когда нуклеотид в первой позиции характеризуется двумя связями. При адениновом типе, как основном, так и дополнительном, окончательное различение возможно только с учетом третьей позиции. При «чистом» адениновом типе первая позиция может служить также для разграничения «материнских» и «дочерних» аминокислот, что можно считать
176
реликтом прежнего дублетного кода (подробнее см. в разделе 12.2.). Что касается нонсенсов, то в этих случаях урацил в первой и второй позиции служит для разграничения стоп-кодонов и старт-кодона.
12. Дублетная форма представления генетического кода
На основе вышеописанного о семантических характеристиках первой и второй позиций можно предложить дублетное представление генетического кода (рис. 6), где, в отличие от принятого, в центральной части будет помещен нуклеотид не в первой, а во второй позиции.
Рис. 6.
Дублетная форма представления генетического кода
В этом случае оказывается нагляднее, как соотнесены между собой нуклеотидный состав триплета (синтаксис генетического кода) и соответствующие ему аминокислоты (семантика). Лишь в одном случае возникает пересечение (серин кодируется кодонами, в которых во второй позиции может быть и цитозин, С, и гуанин, О), тогда как при традиционном представлении таких пересечений, не считая стоп-кодонов, оказывается три (это все те амикокислоты, которые кодируются шестью кодонами). Предложенное дублетное представление легко перевести в триплетное, добавив в третьей окружности там, где релевантной оказывается и третья позиция, символы соответствующих нуклеотидов.
177
12.1. Дублетный код, третья позиция и правило «два из трех»
Особенности третьей позиции позволяют дать достаточно простое объяснение такому ключевому и достаточно необычному явлению, как «вобблинг» («гипотеза качания») [Crick, 1966 b], или же правило «два из трех» [Lagerquist, 1978]. Как было отмечено выше (раздел 3. Дихотомия языка и речи - применительно к генетическому коду), в процессе транскрипции / трансляции происходит замена триплета на зеркально симметричный ему: третьей позиции кодона будет соответствовать первая анти-кодона и т.д. При этом нуклеотид заменяется на комплементарный: А ^ U, C ^ G. Однако при трансляции третий нуклеотид кодона не опознается - вместо «полагающегося» по правилам комплементарного нук-леотида может появиться иной1. Это значит, что на финальной стадии ко-дону информационной РНК могут соответствовать различные антикодоны транспортной РНК. В половине случаев, когда дублет однозначно соотносится с той или иной аминокислотой, ошибки быть не может: любой третий нуклеотид кодона может быть спарен с любым первым нуклеотидом антикодона. Другая половина случаев, когда третья позиция является смыслоразличительной, казалось бы, чревата нежелательными мутациями, поскольку отклоняющийся антикодон выберет не ту аминокислоту, которая запрограммирована в ДНК. Если считыванию подлежат лишь две позиции из трех, стало быть, синонимия и избыточность присутствуют в системе генетического кода, но не в процессе его трансляции. Кодон однозначно детерминирует только вторую и третью позицию антикодона, т.е. некоторый дублет («антидублет»), который в ряде случаев соотносится с двумя различными аминокислотами. Это ставит перед канонической теорией трансляции вопрос - поскольку третий элемент не подлежит считыванию, то постоянно возникает неоднозначность и, стало быть, возможность ошибки. Решение, вытекающее из предложенной У. Лагерквистом гипотезы [Lagerquist, 1978, p. 1760], сводится к тому, что ошибки маловероятны, поскольку связаны с низкочастотными кодонами. Это, однако,
1 Урацил в антикодоне может быть связан не только с «полагающимся» ему адени-ном из кодона, но и с гуанином, а гуанин - не только с цитозином, но и с урацилом. Обратные замены не встречаются. В транспортной РНК в первой позиции антикодона может появиться и инозин - он может спариваться с аденином, урацилом и гуанином, т. е. выступать как своего рода «комплементарный джокер» [Crick, 1966 b, p. 553]. Подобные ограничения сужают круг рассмотрения, однако в данном случае это несущественно - во избежание излишней детализации мы будем исходить из того, что третий нуклеотид кодона может быть связан с любым другим, кроме такого же как он. Подобная ситуация имеет место в митохондриях: «В митохондриях обычные правила спаривания кодонов с антико-донами соблюдаются менее строго, и многие молекулы тРНК способны узнавать любой из четырех нуклеотидов в третьей (неоднозначной) позиции» [Молекулярная биология, 1994, с. 490-491]. Напомним, что в генетическом коде митохондрий нет уникальных триплетов, так что там степень избыточности выше.
178
даже если не вдаваться в вероятностную модель, приводит к неудовлетворительному выводу о фатальной уязвимости всей системы белкового синтеза, поскольку она не защищена от пусть и маловероятных, но крайне опасных ошибок.
Однако ошибки практически не происходят - выбирается именно нужная аминокислота, как если бы считывались все три позиции кодона. Предложенный нами подход [Золян, 2016], исходящий из разграничения языка и речи, кода и трансляции, позволяет конкретизировать эту идею и найти довольно простое решение. Единицей языка будет триплет ДНК, реализуемый в речи, или тексте (тРНК - иРНК). Единицей трансляции, которая соотносится с аминокислотами, явится пара «кодон - антикодон». При таком рассмотрении кодон не является самостоятельной единицей генетического текста. Его следует рассматривать в сочетании с дополняющим его зеркальным отражением - антикодоном, вместе с которым они образуют двойную спираль. Антикодон - это макроконтекстный вариант кодона, его отражение на т-РНК, причем отражение не четкое - третья позиция не читается.
Обратимся еще раз к рис. 4, где дан список кодонов и антикодонов. Запишем их вместе с учетом того, что третья позиция может не читаться, по следующей схеме:
(А, В, 0) & (~0 ~В, ~А), где ~В ~А - комплементарные В и А друг другу нуклеотиды, 0 и ~0 - любые, но не тождественные нуклеотиды. Иногда этот ~ф получает воплощение в «джокерной» форме - как инозин.
Покажем это на примере уникального кодона - триптофана, ИОО, отличающегося от стоп-кодона ИОА только третьей позицией. Предположим, забыв об ограничениях, указанных в сноске 72, что в данном случае первая позиция антикодона может быть заполнена не только их «каноническими» двойниками АСС и АСИ, но и всеми вариантами ~0 - для триптофана это АСС, АСА и АСи, а для для стоп-кодона это АСи, АСО, АСС. Из этих шести антикодонов четыре (они выделены курсивом) оказываются идентичными. Если бы кодирование основывалось на антикодоне, то постоянно возникали бы сбои при реализации генетической программы -вместо триптофана появлялся бы прекращающий синтез стоп-кодон, и наоборот. Но если не обособлять антикодон как единицу кода, а рассматривать как единицу речи (текста) - как пару «кодон - антикодон», или как шестиэлементную последовательность (А, В, 0, ~0, ~В, ~А), - то подобного смешения не происходит: триптофан будет кодироваться как шести-элементная цепочка ИОО (С или И или А) СА, а стоп-кодон - как ИОА (И или С или О) СА: даже при совпадении четвертой позиции третья продолжает различать их.
Тем самым столь странное явление, как «вобблинг», или правило «два из трех», получает достаточно простое структурно-семиотическое объяснение - это нейтрализация дифференциальных признаков нуклеоти-да в третьей позиции при реализации ею синтагматической функции, вы-
179
званная тем, что при подобном спаривании четвертая позиция оказывается избыточной - она без ущерба для однозначного распознования аминокислоты может быть заполнена любым нуклеотидом. Хотя в реальности есть ряд ограничений на ее замещение, но ими можно пренебречь. Подобное решение вновь напоминает о дублетном характере генетического кода, но уже на уровне речи. Правило «два из трех» приводит к такому описанию, что на уровне речи уже знакоразличительными характеристиками наделяется триплетный кодон, тогда как у антикодона знакоразличительной ока-зывывается его дублетная основа, а третий элемент (отражение третьей позиции кодона) обладает лишь структурной и синтагматической. При этом вторая позиция как для кодона, так и антикодона явится определяющей для распознавания той или иной аминокислоты.
12.2. Дуплетный код с эволюционной точки зрения
Произведенный структурно-семиотический анализ можно соотнести с основной гипотезой о происхождении генетического кода. Данные синхронного анализа достаточно хорошо соотносятся с диахронией. Имеющиеся реконструкции древнейшего состояния делают еще более очевидными соответствия между структурными и семиотическими характеристиками нуклеотидов и позиций: на более ранних этапах они были более простыми и однозначными и непосредственно соотносились с биохимическими. При этом, как то было указано еще Ф. де Соссюром, результаты диахронического и синхронического анализа могут не совпадать и являться дополнительными по отношению друг к другу. В первую очередь это относится к функциональной неравнозначности позиций: в эволюционной перспективе характеристики аминокислоты в большей мере определяются нуклеотидом в первой позиции.
Принято считать, что триплетный код возник как расширение ду-плетного. Как пишет видный британский биохимик Ник Лейн, «возможно, код первоначально был дублетным и лишь потом расширился до триплет-ного в результате "присвоения кодонов": аминокислоты могли соперничать друг с другом за третью букву. Древнейшие аминокислоты, вероятно, получили "нечестное" преимущество в борьбе за "прикарманивание" три-плетных кодонов, и очень похоже, что так оно и было. Например, те пятнадцать аминокислот, которые, скорее всего, кодировались первоначальным дублетным кодом, загребли себе 53 из 64 возможных триплетов (в среднем 3,5 кодона на аминокислоту), в то время как оставшиеся пять "позднейших" аминокислот разделили между собой лишь восемь кодонов (в среднем 1,6 на аминокислоту)» [Лейн, 2013, с. 83].
Можно предположить, что первоначально генетический код был куда ближе к биохимической субстанции, если только не совпадал с нею. Указанное ранее свойство второй позиции разграничивать гидрофильные
180
и гидрофобные аминокислоты явно связано со средой, в которых происходило их формирование. Что же касается первой позиции, тот или иной нуклеотид в первой позиции кодировал класс аминокислот, имеющих общего предка: триплеты с одинаковыми первыми основаниями (приставками кодонов) кодируют аминокислоты с близкими путями биосинтеза [Tailor, Coates, 19891. Эта гипотеза нашла продолжение в: [Сор1еу et al, 2004], где была предложена реконструкция древнего дублетного кода (рис. 7).
first
position__second position
G с A U
G Gly Ala Asp/Glu Val
Gly Ala Asp/Glu Val
nh2 Ун О nh2 Гон 0 0 nh2 ho<K\oh 0 0 nh2 hoVyoh o nh2 Yr
a-ketoglutarate С Arg Pro Gln Leu
Orn Pro Gln ?
О О nh2 НгМ^^^Л^ОН О «-NH Is^As^OH 0 nh2 0 0 ?
oxaloacetate А Ser / Arg Thr Asn lie
Dab Hsr Asn lie
О О -oW" О nh2 0 nh2 ho^Voh 0 o nh2 h2N^Vh 0 nh2 «Yr
pyruvate и Cys Ser Tyr/stop Leu
Cys Ser ? Leu
о -V" о nh2 HSv^Y°H 0 nh2 0 ? Î NH2 o
Рис. 7.
Реконструируемый древний генетический (дублетный) код
Источник: [Сор1еу а1, 2004, р. 4446].
Как следует из вышеприведенной таблицы, в трех случаях наблюдается полное соответствие между кодированием реконструируемого «прародителя» группы и его дублетного потомка: дублеты с цитозином в первой позиции С1 кодируют класс аминокислот, образованных от кетоглютара-та, с аденином А1 - оксалоацетатом и урацилом - пуриватом. Для аминокислот, кодируемых дублетами с гуанином в первой позиции, общий предок не идентифицирован, но и они образуют единый класс. Первая
181
позиция - своего рода «отчество», обозначающее принадлежность к общему предку. Вторая позиция дублета служит для разграничения родственных аминокислот уже внутри группы. Эволюционный подход требует переосмыслить функциональное соотношение между первой и второй позициями, но не затрагивает сам принцип: одна из позиций триплета определяет класс кодируемых аминокислот, другая - уточняет член класса.
Усложнение форм жизни приводит к появлению новых аминокислот и новых принципов их структурирования. Дублетный код преобразуется в триплетный, и явное функциональное неравноправие третьей позиции соотносится с ее позднейшим возникновением, уже после того как были сформированы функциональные характеристики первых двух позиций. В половине случаев появление третьей позиции не является семантически значимым (цитозиновый тип), но для другой половины (адениновый тип) окончательное смыслоразличение происходит уже только благодаря третьей позиции. Некоторые другие признаки (нечитаемость третьей позиции при трансляции, смыслоразличение посредством лишь одного из двух дифференциальных признаков) также можно рассматривать как свидетельство незавершенности, промежуточности процесса триплетизации генетического кода.
По мере усложнения субстанции биохимические закономерности дополняются (или даже уступают место) лингво-семиотическим. Кодирование перестает определяться биохимическим субстратом, возникают отношения, напоминающие те, которые характерны не столько для биологических, сколько для семиотических систем (произвольность знака, контекстная зависимость, аналог лексико-семантических отношений, не рассмотренные нами здесь характеристики текстуальности). Если к этому добавить то, что, помимо канонического, существуют и другие варианты (диалекты) генетического кода, то можно подвергнуть сомнению уместность метафоры, с которой мы начали наше изложение. Генеческий код -не есть нечто извечно и неизменно существующее («Язык бога, язык жизни»), из которого затем происходит все живое, а сам есть продукт эволюции, приводящей к появлению различных синхронических и диахронических вариантов генетического кода и по мере усложнения - к изменению механизмов его организации, сближающих их с принципами организации естественного языка.
Список литературы
Молекулярная биология клетки: В 3 т. / Албертс Б., Брей Д., Льюис Дж, Рэфф М.,
Роберте К., Уотсон Дж. - М.: Мир, 1994. - Т. 1. - 517 с. ГельфандМ.С. Коды генетического языка и естественный язык // Вопросы языкознания. -
М., 1990. - № 6. - С. 60-70. Жакоб Ф. Лингвистическая модель в биологии // Вопросы языкознания. - М., 1992. -№ 2. - С. 135-143.
182
Золян С. Т. Вновь о соотнесенности языка и генетического кода // Вопросы языкознания. -М., 2016. - № 1. - С. 114-132.
Золян С. Т., Жданов Р.Г. Геном как (гипер) текст: От метафоры к теории // Критика и семиотика. - М.; Новосибирск, 2016. - № 1. - С. 60-84.
Ельмслев Л. Пролегомены к теории языка // Новое в лингвистике. - М.: Изд-во иностр. лит., 1960. - С. 215-262.
Инге-Вечтомов С.Г. Трансляция как способ существования живых систем, или в чем смысл «бессмысленных» кодонов // Соросовский образовательный журнал. Биология. -М., 1996. - № 12. - С. 2-10.
Крик Ф. Жизнь как она есть: Ее зарождение и сущность / Пер. с англ. Е.В. Богатыревой. -М.: Институт компьютерных исследований, 2002. - 160 с.
Крик Ф., НиренбергМ. Генетический код // Успехи физических наук. - М., 1964. - Т. 82, Вып. 1. - С. 133-160.
Мартине А. Основы общей лингвистики // Новое в лингвистике / Сост., ред. и вступ. Статьи В.А. Звегинцева. - М.: Изд-во иностр. лит., 1963. - Вып. 3. - С. 366-568.
Овчинников Л.П. Что и как закодировано в мРНК // Соросовский образовательный журнал. Биология. - М., 1998. - № 4. - С. 10-18.
РатнерВ.А. Генетические управляющие системы: Автореф. дис. ... канд. биол. наук / АН СССР. Сибирское отделение. Объединенный совет по биологическим наукам. - Новосибирск, 1965. - 23 с.
Ратнер В. Генетический язык: Грамматика, предложения, эволюция // Генетика. - М., 1993. - № 29. - С. 709-719.
Ратнер В. Сравнительный иерархическая структура генетического языка // Генетика. - М., 1993 в. - № 29. - С. 720-739.
Ратнер В.А. Генетический код как система // Соросовский образовательный журнал. Биология. - М., 2000. - Т. 6, № 3. - С. 17-22.
Ратнер В.А. Хроника великого открытия: Идеи и лица // Природа. - М., 2000. - № 6. -С. 22-30.
Румер Ю.Б. Систематизация кодонов в генетическом коде // Доклады Академии наук СССР. - М., 1968. - Т. 183, № 1. - С. 225-226.
Соссюр Ф. де. Курс общей лингвистики // Соссюр Ф. де. Труды по языкознанию. -М.: Прогресс, 1977. - С. 31-274.
Трубецкой Н.С. Основы фонологии / Пер. с нем. А.А. Холодовича; ред. С.Д. Кацнельсона. -М.: Изд-во иностр. лит., 1960. - 372 с.
Фриленд С., Херст Л. Закодированная эволюция // В мире науки. - М., 2004. - № 7. - С. 55-63.
Шаумян С.К. Аппликативная грамматика как семантическая теория естественных языков. -М.: Наука, 1974. - 203 с.
Шредингер Э. Что такое жизнь? Физический аспект живой клетки. - М.; Ижевск: НИЦ «Регулярная и хаотическая динамика», 2002. - 92 с.
BarrellB.G., BankierA.T., Drouin J. A different genetic code in human mitochondria // Nature. -L., 1979. - N 282. - P. 189-194.
Crick F. The Genetic Code - Yesterday, Today, and Tomorrow // Cold Spring Harbor Symposia on Quantitative Biology 31. - 1966 а. - P. 3-9.
CrickF. Codon-anticodon pairing: the wobble hypothesis // J. Mol. Biol. - 1966 b. - N 19. -P. 548-555.
CrickF. Life Itself: Its Origin and Nature. - L.: Simon & Schuster, 1981. - 192 p.
Crick F.H, Griffith J.S, Orgel L.E. Codes without commas // Proc. Natl. Acad. Sci. U S A. -1957. - Vol. 43(5). - P. 416-421.
Collins F.S The language of God. - N.Y.: Free Press, 2006. - 294 р.
Collins F.S. The language of life: DNA and the revolution in personalized medicine. - N.Y: Harper-Collins, 2009. - 368 р.
183
Cоpley S.D., Smith D.E., MorowitzH.G. A mechanism for the association of aminoacids with their codons and the origin of the genetic code // Proc. Natl. Acad. Sci. USA. - 2005. -Vol. 102. - P. 4442-4447.
Gamow G. Possible Relation between Deoxyribonucleic Acid and Protein Structures // Nature. -L., 1954. - N 173. - P. 318.
Genetic Code Supports Targeted Insertion of Two Amino Acids by One Codon / Turanov A.A., Lobanov A.V., Fomenko D.E., Morrison H.G., Sogin M.L, Klobutcher L.A., Hatfield D.L, Gladyshev V.N. // Science. - 2008. - Vol. 323. - P. 259-261.
Jarnbson R. Linguistics. Relationship between the science of language and other sciences // Main trends of research in the social and human sciences. - The Hague: Mouton, 1970. - P. 419-453.
Lagerkvist U. «Two out of three»: An alternative method for codon reading // Proc. Natl. Acad. Sci. USA. - 1978. - N 75. - P. 1759-1762.
Lopez-Garcia A. The grammar of genes: How the genetic code resembles the linguistic code. -Frankfurt: Peter Lang, 2005. - 182 p.
Marais R., Kull R. Biosemiotics and translation studies / Gambier Yves; van Doorslaer Luc (eds) // Border Crossings. Translation Studies and Other Disciplines. - Amsterdam; Philadelphia: John Benjamins. - P. 170-188.
Trifonov E. Codes of biosequences. Codes of life. The rules of macroevolution / Barbieri M., Hoffmeyer J. (eds.) // Biosemiotics. - 2008. - Vol. 1. - P. 3-14.
PatelA. The triplet genetic code had a doublet predecessor // Journal of Theoretical Biology. -2005. - Vol. 233, Issue 4. - P. 527-532.
SearlsD.B. The language of genes // Nature. - L., 2002. - N 420 (6912). - P. 211-217.
Searls D.B. Molecules, Languages and Automata // Grammatical Inference: Theoretical Results and Applications. Lecture Notes in Computer Science. - 2010. - Vol. 6339. - P. 5-10.
184