№4(22)2009
Е. Л. Калишенко, К. В. Кринкин
Система топологического моделирования структуры белковых молекул
В статье рассматривается архитектура программной системы для моделирования и анализа пространственной структуры белка; обсуждается применение формализма конечной машины состояний для воспроизведения его известных структур; предлагается реализация модели молекулярной векторной машины как компилятора ДНК; проводится сравнение с известными аналогами.
Введение
Биоинформатика — одна из дисциплин биологии, рассматривающая использование компьютеров для решения биологических задач. Под биоинформатикой понимают любое использование компьютеров для обработки биологической информации. Основная линия в проектах биоинформатики — это использование математических средств для извлечения полезной информации из «шумных» или слишком объемных данных о структуре ДНК и белков, полученных экспериментально.
Белок — высокомолекулярное органическое вещество, состоящее из соединенных в цепочку аминокислот. Аминокислота — главный строительный материал для синтеза белков, состоит из основной части (одинаковой для всехаминокислот) и боковой цепи (рис. 1).
N )—( С
Рис. 1. Аминокислота
В организме человека около 60 аминокислот. Однако в состав белков входят только 20 аминокислот, называемых иногда природными. Технические средства позволяют определять не только последовательность аминокис-
114 V
лот белка, но и его пространственную структуру. В наши дни любой заинтересованный исследователь имеет возможность получить доступ к открытым базам данных, содержащим результаты экспериментального исследования сотен тысяч белков. Однако число определенных последовательностей в тысячи раз меньше исследованных пространственных структур.
Основные биохимические свойства белка определяются его пространственной структурой. На рис.2 показаны различные уровни структур белков. Основной задачей системы является моделирование третичной структуры белка.
Биосинтез белка
Синтез белка протекает в три этапа (рис. 3).
1. Синтез информационной РНК происходит в ядре клетки. Молекула ДНК, как имеющая двойную спираль, в определенные моменты раскручивается, и на одной из нитей ДНК строится молекула информационной РНК, которая служит переносчиком генетической информации,т. е. матрицей, по которой строится белок.
2. Для каждой аминокислоты имеется своя транспортная РНК, к которой присоединяется определенная аминокислота, и такой комплекс переносится к рибосомам.
3. На молекуле информационной РНК выделяются определенные триплеты (кодоны). По мере передвижения информационной РНК по рибосоме происходит присоединение транспортной РНК своими антикодонами к ко-
№4(22)2009
Первичная (цепочка аминокислот)
Вторичная (альфа-спираль)
Третичная
Четвертичная (клубокбелков)
00 I
Л
Рис. 2. Структуры белка
Белок
Рис.3. Синтез белка
115
№4(22)2009
донам информационной РНК. Соединенные аминокислоты взаимодействуют между собой, образуя полипептидную цепь, специфичную для данного белка, т. е. его первичную структуру. В дальнейшем она подвергается спирализа-ции и определенной «упаковке» в пространстве, в результате чего формируются вторичная и третичная структуры данного белка.
Задача моделирования топологической структуры белка
Понимание механизмов функционирования живых систем, а значит, и возможность влиять на них, например, с помощью лекарственных средств, требует знания структуры белковых молекул и глубокого понимания их функций.
Знание пространственной организации белковых молекул является ключом не только к пониманию их функций и механизма работы, но и основой для разработки эффективных и безопасных лекарственных средств. В то же время определить структуру белков в прямом эксперименте не всегда возможно или целесообразно — из-за сложности, дороговизны и ог-ц раниченности возможностей эксперименталь-а ных методик. Однако иногда удается преодо-| леть эти сложности, подойдя к проблеме «с § другого конца»: структуру биомакромолекул | можно «предсказать», используя теоретиче-,2 ские подходы — основанные на физических или эмпирических приближениях.
С термодинамической точки зрения самосворачивание белка является переходом бел-§ ковой молекулы в наиболее статистически ве-| роятную конформацию (что практически можно § приравнять к конформации с наименьшей потенциальной энергией). Ограниченность пони-<§ мания механизмов фолдинга (сворачивания | белков) связана стем, что его сложно наблюдать экспериментально: это достаточно быстрый ди-§; намический процесс, «разглядывать» который § нужно на уровне отдельных молекул [4]. | Целью разрабатываемой системы является § построение трехмерной структуры белка, мак-§ симально приближенной к той, которая вос-§ создается в живой клетке на основе синтезиро-5 ванной первичной структуры белка.
В настоящее время существуют две основных системы предсказания структуры белков.
1. Rosetta. Чтобы предсказать форму, которую специфический белок принимает в природе, выполняется поиск сворачивания с самой низкой энергией. Проект использует кластер из узлов сети Интернет. Каждый может установить на свою домашнюю машину легкий интернет-клиент и в фоновом режиме проводить часть вычислений. Кратко алгоритм работы Rosetta выглядит так:
• начать с полностью развернутой цепочки аминокислот;
• переместить часть цепочки, чтобы создать новую форму;
• вычислить энергию новой формы;
• принять или отклонить движение в зависимости от изменения энергии;
• повторять со 2 по 4 шаг, пока каждая часть цепочки не будет перемещена много раз [5].
2. Tasser. Короткие структурные фрагменты «собираются» в специализированном силовом поле, а результат (модель, предположительно близкая к нативной) выбирается из ансамбля предсказаний с помощью идентификации наиболее плотного структурного кластера, являющегося, по мнению исследователей, «гнездом» физически реалистичных моделей [4].
В рамках разрабатываемой системы был выбран менее «физичный» метод предсказания структуры молекул — использование абстракции МВМ (Молекулярной Векторной Машины), суть которого описана ниже.
Молекулярная векторная машина
МВМ — абстракция процесса последовательного синтеза белка из 20 различных аминокислот, представляющая формирование пространственной структуры белка через действие физических операторов. Физический оператор (ФО) — абстракция аминокислоты, представляющая ее боковую цепь как инструмент воздействия на сформированную ранее структуру белка через усиление/ослабление возникающих в процессе синтеза водородных связей. Область действия физических операторов — водородная связь между крайними
звеньями четырехзвенного цикла в цепи полимера (рис. 4). Длина структурного ребра соответствует константе к5 и для цепного полимера является постоянной величиной (ее можно принять за 1), а ребра связности — константе кс, которая может варьироваться в пределах 0 — к¡. Может существовать несколько констант кс. В зависимости от свойств боковых цепей аминокислот выделяются:
• операторы связности — обеспечивают дополнительную фиксацию четырехзвенного фрагмента полимера; боковая цепь имеет на конце группы, способные к образованию укрепляющих водородных связей;
• операторы антисвязности — препятствуют формированию замкнутого четырехзвенного цикла, не допускают образования водородной связи.
№4(22)2009
.0
¿ЯЛ-
с
-и
\
& со
I
3 а
Л
Рис. 5. Схема МВМ
/-3
Рис. 4. Четырехзвенный цикл аминокислот
Геометрической интерпретацией МВМ является додекаэдр (рис.5). Рассмотренный на рис. 4 четырехзвенный фрагмент цепного полимера на рис. 5 преобразован так, чтобы в область связи между (/-1 )и(/-4) элементами стало удобно помещать МВМ. С помощью додекаэдра, имеющего 20 вершин, заданы 20 направлений векторов. Размеры додекаэдра определились исходя из параметров четырехзвенного фрагмента полимера. Для того чтобы задать вектор, необходимо знать положение двухточек — начальной, из которой исходит вектор, и конечной, куда он направлен. В нашем случае за начальную точку всех векторов можно принять центр додекаэдра, а конечными точками будут вершины додекаэдра [1].
Таким образом, действие физического оператора определяется действием МВМ на связь посредством вектора, исходящего из центра додекаэдра. Рассмотрим алгоритм работы МВМ при построении такой структуры как «альфа-спираль» подробно (рис. 6).
1. Считывание триплета — три нуклеотида (триплет) ДНК однозначно кодируют аминокислоту. Одну аминокислоту могут кодировать несколько триплетов, однако обратное неверно.
2. Определение аминокислоты — простое табличное сопоставление «триплет — аминокислота». Если на входе аминокислота Пролин, цепь прерывается, так как Пролин является оператором антисвязности и не может сформировать четырехзвенный цикл с участием водородной связи.
3. Продолжение спирали — в случае прихода Глицина, спираль продолжается без изменений, так как Глицин в модели МВМ — нейтральный элемент.
4. Поворот структуры — определяется действием ФО, т. е. образование водородной связи или ее разрыв неизбежно приводит к изменению положения атомов последнего цикла.
5. Добавление аминокислоты — «полноценная» установка пришедшей аминокислоты на свое место.
117
№4(22)2009
Рис. 6. Алгоритм МВМ
§
€
■о «о
I
3
I
§ §
«о
о §■
о € о
о §
§
а
§
МВМ как компилятор ДНК
Выше была рассмотрена работа МВМ в рамках одного вида структуры белка — альфа-спирали. Теперь пришло время распространить модель МВМ на всю входную последовательность. Очевидная аналогия последовательности аминокислот с входной цепочкой компилятора, МВМ — с обработчиком токенов, а белка — с выходной цепочкой позволяет представить процесс моделирования структуры белка как исполнение машины состояний, схема которой представлена на рис. 7.
Свободное состояние этой машины служит для накопления достаточного количества ами-
нокислот, чтобы четко определить, в рамках какого вида структуры белка должна работать МВМ. На начальных этапах работы системы обработка свободного состояния может заключаться в использовании заранее известной разметки структур белка. А для более точного моделирования в рамках конкретных видов структур свободное состояние позволяет пропускать виды структур, с которыми система работать еще не научилась.
Коэффициенты модели МВМ для разных видов структур будут отличаться, поэтому машина состояний предусматривает работу МВМ в рамках какой-либо одной известной структуры.
Рис.7. Компилятор ДНК
118
№4(22)2009
По состоянию на 25 марта 2008 года число структур в Брукхэйвенском банке белковых структур (Protein Data Bank, PDB) составляло около 10 000, что соответствует приблизительно 1-2% от общего числа практически важных белков. Все эти экспериментальные данные находятся в свободном доступе и являются основными входными данными разрабатываемой системы. Кроме того, существует дополнительная разметка белков по структурам, которая может понадобиться на начальных этапах работы системы для упрощения ее обучения. Таким образом, на вход системы поступают:
• набор экспериментально определенных пространственных структур макромолекул или комплексов молекул; одна запись в банке данных (один файл) соответствует одному эксперименту; в файле содержатся координаты атомов в некоторой произвольной системе координат, аннотации, первичная и вторичная структура белков и т. д.
• разметка структуры белка — метаинфор-мация, позволяющая определить, какая структура получается при добавлении к цепи очередной аминокислоты (альфа-спираль, бета-структура и т. д.).
Архитектура системы
Архитектура системы представлена на рис. 8.
Рассмотрим используемые сторонние разработки.
Bioclipse — основанная на Eclipse RCP (от англ. Rich Client Platform — среда разработки приложений) платформа для исследований в области биоинформатики, визуализации химической и биологической информации. Имеет следующие возможности:
• 20-редактирование и 30-визуализация молекул;
• расчет различныххимических коэффициентов;
• преобразование форматов данных;
• работа со спектрами (NMR, MS);
• встроенный скриптовый язык, основанный на Mozilla Rhino;
• встраивание плагинов с использованием стандартного механизма расширений и точек расширений Eclipse RCP.
Проект призван обеспечивать исследователей единой программной средой с открытым исходным кодом и, как следствие, возможностью модифицировать/дополнять заложенные в систему алгоритмы.
Jmol — 30-визуализатор молекулярных структур (рис. 9). Поддерживает множество форматов (более 20), возможно использование скриптов, использование в качестве Java-аппле-та. Среди базовых функций можно выделить:
• вращение молекулы;
BIOCLIPSE
Модуль визуализации
JMol
Модуль анализа результатов
И
Подсистема обучения
№
База данных белков (Protein Data Bank)
Рис. 8. Архитектура системы
119
& од
id I
3 а
Л
№4(22)2009
• изменение масштаба изображения;
• различные способы изображения и раскраски молекул.
§
.о
00
I
VO
s
i
i
о &
Sí
o o
Рис.9. Молекула
Chemistry developement kit — библиотека Java-классов для разработки химического ПО. Содержит основные абстракции предметной области (молекулы, валентности, заряд и т. д.) и алгоритмы работы с этими объектами. CDK содержит методы загрузки данных из принятых международных форматов, таких как PDB.
UniMod — программный пакет для разработки объектно-ориентированных приложений на основе автоматного подхода. Содержит набор инструментов, позволяющих визуально проектировать и реализовывать программы. При этом первоначально строится схема связей, состоящая из источников событий, системы управления и объектов управления, в которых реализованы вызываемые из автоматов выходные воздействия и опрашиваемые автоматами входные переменные. Частью UniMod является Java Finite State Machine Framework — система построения и исполнения конечных автоматов. В разработке для создания машины состояний используется плагин к Eclipse, позволяющий визуализировать процесс создания и отладки машин состояний.
Рассмотрим назначение и принципы работы каждого из модулей системы.
Машина состоянии
Применение формализма машины состояний к моделированию пространственной структуры белков позволяет сопоставить входной цепочке последовательность аминокислот, а операциям в различных состояниях — действие физических операторов на оконча-
ние уже построенной белковой структуры. С помощью программного средства UniMod была построена машина состояний с правилами переходов между состояниями и операциями внутри состояний.
Описание правил перехода и вызова соответствующих методов можно увидеть на изображении графа состояний. Java Finate State Machine Framework обеспечивает вызов одного из методов контролируемого объекта (рис. 10).
Таким образом, машина состояний контролирует процесс моделирования структуры белка применением нужной модели к различным белковым структурам. Если рассмотреть систему моделирования с позиции шаблона проектирования MVC (Model-View-Controller), то машину состояний можно считать контроллером (Controller), хранилища данных и внут-ринние структуры — моделью (Model), визуализацию процесса моделирования — отображением (View).
Молекулярная векторная машина
Модуль обеспечивает:
• возможность визуализации модели МВМ;
• анализ корректности перемещения оператором окончания цепи, в зависимости от пришедшей аминокислоты и, как следствие, наложенных ограничений на создание/разрушение водородных связей;
• хранение коэффициентов текущей модели для каждой аминокислоты (для определения воздействия достаточно хранить два угла поворота и изменение расстояния до центра додекаэдра);
• сохранение последовательности операций пользователя для возможности их воспроизведения;
• реализацию алгоритмов корректировки коэффициентов модели.
Модуль визуализации
Процесс моделирования требует наличия возможности видеть как моделируемую, так и экспериментальную структуры белка. Это достигается благодаря параллельному размещению двух областей визуализации. Ê обеим
120
№4(22)2009
Рис.10. Машина состояний:
х1 — предсказать структуру белка по принятой аминокислоте; z0 — подготовить структуры данных при первом запуске машины; z1 — завершить работу; z2 — применить МВМ к бета-спирали; z3 — применить МВМ к альфа-спирали; z4 — применить МВМ
к3.10-спирали
областям предъявляются следующие требования:
• выбор между отображением текущей структуры белка и всем построенным на этот момент полимером;
• возможность выделения и идентификации аминокислот;
• измерение расстояний между атомами;
• масштабирование модели;
• синхронное вращение областей визуализации;
• выбор отображения только альфа-углеродных атомов.
Визуализация МВМ накладывает дополнительные требования:
• отображение модели додекаэдра;
• возможность физичного изменения оператором положения последних пяти аминокислот;
• визуализация корректности применения МВМ (например, в случае увода добавляемой аминокислоты в недопустимую область).
Модуль анализа результатов
Система, рассчитанная на моделирование чего бы то ни было, должна предоставлять средства оценки корректности своих результатов. Входными данными модуля являются две сложных пространственных структуры белка — экспериментальная и смоделированная — представленные в виде координат атомов в произвольной трехмерной системе координат. Сложность сравнения таких структур более обусловлена необходимостью их качественного, а не количественного анализа: простого учета соответствующего положения атомов в моделях здесь недостаточно.
Представим себе, что смоделированная структура повернута относительно экспериментальной на неизвестный угол. Уже в этом случае простое сравнение координат атомов перестает работать. Еще хуже дело обстоит в ситуации, которая неизбежно возникает в процессе моделирования. Относительное
V 121
№4(22)2009
§
€
■о «о
I
положение атомов полученной структуры может отличаться от экспериментального, хотя качественно структуры могут быть полностью идентичны.
Таким образом, процедура анализа результатов должна быть направлена на глубокий анализ структурной похожести белковых молекул. Сравнение смоделированной и экспериментальной белковых структур производится с применением трех подходов.
1. Визуальное сравнение. Исследователь имеет возможность наглядно сравнить результат моделирования и экспериментальные данные, проводить операции вращения и масштабирования для визуальной оценки корректности параметров примененной модели.
2. Оценка СКО. СКО в молекулярном моделировании используется в качестве меры пространственной близости двух моделей: низкое СКО обозначает близость двух структур. Позволяет количественно ценить похожесть относительного расположения атомов в имеющихся структурах.
3. Сравнение структур как узлов. Проекция трехмерной структуры белка на плоскость представляет собой сложный узел (рис.11). Теория узлов позволяет представить запутанные структуры в виде полинома, причем качественно одинаковые структуры описываются одинаковыми полиномами. При таком подходе происходит абстрагирование от меры изогнутости в пользу анализа структурной похожести объектов.
Рис. 11. Узел
Познакомимся немного ближе с теорией узлов. Существует ли алгоритм, с помощью которого по любой паре диаграмм можно узнать, эквивалентны они или нет? Теорема звучит следующим образом: «Два узла эквивалентны тогда и только тогда, когда от диаграммы одного узла к диаграмме другого можно перейти с помощью четырех операций». Теорема Рейдемейстера сводит трудную пространственную задачу определения эквивалентности двух узлов к более простой «плоской» задаче о превращении одной диаграммы узла в другую с помощью трех известных операций [5].
Английский математик Дж. Конвей постулировал, что каждой диаграмме узла или зацепления поставлен в соответствие полином (многочлен) от переменной х с целыми коэффициентами [3].
Таким образом, используя полином Кон-вея, возможно представить пространственную структуру белка (ее проекцию) в виде полинома. При этом незначительное смещение координат атомов смоделированной структуры от экспериментальной не приведет к ошибочному результату. Как сказано выше, одинаковые по структуре узлы имеют одинаковые полиномы Конвея. Более того, при таком подходе отпадает необходимость приведения структур к одному углу поворота и наклона — построение полинома Конвея позволит сравнить структуру узлов на качественном уровне.
Модуль обучения
Наличие тысяч белков, на которых может проводиться обучение системы и постепенное приближение коэффициентов модели МВМ к реальности, требует введения в систему механизма самообучения. На ранних этапах работы ручное обучение системы необходимо для целей как отладки модели, так и определения ее начальных коэффициентов. Однако приближение модели к реальности не может обойтись без тестирования системы на большом наборе входных данных.
Принцип коррекции коэффициентов модели после каждого предъявления нового белка хорошо отражается в алгоритмах, основанных
122
№4(22)2009
на обучении нейронных сетей. Для улучшения обучаемости системы можно применить:
• генетические алгоритмы — как инструмент обучения нейронных сетей;
• сеть Хопфилда — так как в процессе работы динамика таких сетей сходится к одному из положений равновесия, что можно считать минимальной энергией белковой структуры. Кроме того, поскольку сети такого типа можно интерпретировать как ассоциативную память, логично ожидать улучшения работы нейронной сети при обработке участков структур, встречавшихся ранее.
Процесс моделирования
Система предусматривает два варианта моделирования.
1. Ручное: оператор при добавлении каждой аминокислоты в интерактивном режиме корректирует положение атомов окончания белковой цепи, тем самым корректируя коэффициенты модели МВМ, что при следующем добавлении такой же аминокислоты позволит расположить ее более корректно.
2. Автоматическое: после нескольких циклов ручного моделирования возможно проводить автоматическое моделирование белковых структур с применением самообучения системы. Начальные коэффициенты модели МВМ, полученные в процессе ручного моделирования, могут быть существенно изменены предоставлением большого числа известных структур белков для обучения системы.
Потоки данных
Система моделирования получает данные из двух типов источников: внешних и внутренних. Внешними по отношению к системе являются следующие источники.
Аминокислоты белка — хранилище экспериментально полученных структур белков в формате РРБ. Основные данные, поставляемые этим источником и используемые в системе — последовательность аминокислот (используется при последовательном моделировании пространственной структуры) и ко-
ординаты атомов (используются для оценки результатов моделирования и корректировки параметров модели).
Структура белка — хранилище метаин-формации о белковых структурах. Отсюда система извлекает данные о разметке белка — указание вида белковой структуры (вида спирали), в рамках которого сейчас происходит моделирование. В зависимости от типа структуры параметры модели изменяются.
Внутренний источник данных системы — Параметры модели — предназначен для:
• получения начальных параметров модели, основанных на теоретических расчетах и скорректированных за время предыдущих сеансов моделирования;
• сохранения результатов корректировки модели, получаемых после моделирования структуры очередного белка;
• сохранения последовательности преобразований, выполненных системой при моделировании структуры конкретного белка, с целью иметь возможность воспроизвести процесс моделирования в автоматическом режиме.
В системе можно выделить два основных потока данных — поток экспериментальных данных и поток параметров модели (рис. 12).
Поток экспериментальных данных обеспечивает:
• сбор статистики — определение числа аминокислот каждого типа и их общего количества;
• отображение экспериментальной структуры — визуализация экспериментальной структуры белка с использованием трехмерных координат атомов;
• определение типа структуры — выделение текущей аминокислоты и выделение из хранилища структур белка вида моделируемой спирали;
• применение модели МВМ — экспериментальные координаты атомов используются для начального расположения молекулы аминокислоты;
• сравнение и отображение результатов — результат работы системы моделирования сравнивается с экспериментально определенной пространственной структурой белка.
I
3 а
Л
123
№4(22)2009
Структура белка
Аминокислоты белка
Координаты
— . атомов белка
Аминокислоты
Определение типа структуры
тип спирали
Получение и отображение экспериментальной структуры
Аминокислота 9 определенной структуре
* 1
Применение модели молекулярной векторной машины
I §
€
■о «о
I
3
I §
§
«о
о §■
5
о € о
0 §
§ а
1 §
,э
Сбор статистики
Экспериментальная структура белка
Получение и отображение смоделированной структуры
>ч О.
ь
Сравнение и отображение результатов
Начальные параметры модели
Корректировка
параметров
модели
Скорректированные параметры модели
Исследователь
Параметры модели
Рис.12. Диаграмма потоков данных
Поток параметров модели обеспечивает:
• применение модели МВМ — начальные параметры модели, взятые изхранилища«Пара-метры модели», используются для корректировки начального положения текущей аминокислоты и окончания построенной белковой цепи.
• обучение системы — на основе ручной корректировки параметров модели и на основе анализа результатов происходит изменение параметров модели и их сохранение.
Результаты
В итоге модель молекулярной векторной машины реализована как исполнение конечного автомата. Реализован прототип системы, позволяющий проводить ручное моделирова-
ние пространственной структуры белка. Информация о проекте и исходные коды доступны по адресу ht:tp:/osll.spb.ru/wiki/genecode.
СПИСОК ЛИТЕРАТУРЫ
1. Карасвв В. А., Лучинин В. В. Введение в конструирование бионических наносистем. М: Физмат-лит, 2009.
2. Карасвв В. А. Генетический код: новые горизонты. СПб.: Тесса, 2003.
3. Сосинский А. Б. Узлы и косы. М.: МЦНМО,2001.
4. http:Zbiomoiecuia.ru
5. http:Zwww.ams.org/featurecoiumn/archive/kn ots-dna.html
6. http:Zboinc.bakeriab.org/rosetta
124