Научная статья на тему 'Компьютерная программа predicto @ designer для прогнозирования и проектирования вторичных структур белка: upgrade III. Алгоритмы поиска пентафрагментов в базах данных и методы коррекции прогнозирования вторичной структуры белка'

Компьютерная программа predicto @ designer для прогнозирования и проектирования вторичных структур белка: upgrade III. Алгоритмы поиска пентафрагментов в базах данных и методы коррекции прогнозирования вторичной структуры белка Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
74
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОМПЬЮТЕРНАЯ ПРОГРАММА / COMPUTER PROGRAM / БАЗЫ ДАННЫХ ПЕНТАФРАГМЕНТОВ / DATABASE OF PROTEINS PENTAFRAGMENTS / АЛГОРИТМЫ ПОИСКА ПЕНТАФРАГМЕНТОВ / SEARCH ALGORITHMS OF PENTAFRAGMENTS / ПРОГНОЗИРОВАНИЕ / МЕТОДЫ КОРРЕКЦИИ / METHODS OF CORRECTION OF PREDICTED PROTEIN STRUCTURE / ВТОРИЧНАЯ СТРУКТУРА БЕЛКА / PREDICTION OF SECONDARY PROTEIN STRUCTURE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Карасев Владимир Александрович, Калинин Станислав Борисович

В целях повышения эффективности прогнозирования и проектирования вторичной структуры белка проведено совершенствование алгоритмов поиска пентафрагментов (ПФ) во вновь созданных базах данных (БД) ПФ. В табличной форме предложены списки кодовых номеров для поиска начальных ПФ и последующих ПФ для прогнозирования вторичной структуры белков. Из предложенных методов коррекции прогнозирования наиболее эффективной оказалась замена аминокислот в ПФ, позволяющая, при наличии в БД ПФ архетипов белков, предсказывать вторичную структуру родственных белков с высокой точностью.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Карасев Владимир Александрович, Калинин Станислав Борисович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Computer program PREDICTO @ DESIGNER for prediction and design of protein secondary structures: UPGRADE. III. Search algorithms of pentafragments in databases and methods for correcting prediction of the protein secondary structure

In order to improve the efficiency of predicting and designing the protein secondary structure we refined search algorithms of pentafragments (PF) in newly created databases. Lists of code numbers in the tabular form were proposed for searching the initial and subsequent PF in the database to predict the secondary structure of proteins. Of all the considered methods for predicting correction the method of amino acid substitutions in the PF proved the most effective one. It makes feasible high accuracy prediction of the secondary structure of related proteins provided PF of proteins-archetypes are available from the database.

Текст научной работы на тему «Компьютерная программа predicto @ designer для прогнозирования и проектирования вторичных структур белка: upgrade III. Алгоритмы поиска пентафрагментов в базах данных и методы коррекции прогнозирования вторичной структуры белка»

iii. Алгоритмы поиска пентафрагментов в базах данных и методы коррекции прогнозирования вторичной структуры белка

Ключевые слова: компьютерная программа, базы данных пентафрагментов, алгоритмы поиска пентафрагментов, прогнозирование, методы коррекции, вторичная структура белка.

Keywords: computer program, database of proteins pentafragments, search algorithms of pentafragments, prediction of secondary protein structure, methods of correction of predicted protein structure.

В целях повышения эффективности прогнозирования и проектирования вторичной структуры белка проведено совершенствование алгоритмов поиска пентафрагментов (ПФ) во вновь созданных базах данных (БД) ПФ. В табличной форме предложены списки кодовых номеров для поиска начальных ПФ и последующих ПФ для прогнозирования вторичной структуры белков. Из предложенных методов коррекции прогнозирования наиболее эффективной оказалась замена аминокислот в ПФ, позволяющая, при наличии в БД ПФ архетипов белков, предсказывать вторичную структуру родственных белков с высокой точностью.

Введение

Вопросы прогнозирования и проектирования над-молекуярной структуры белков для бионической наноэлектроники являются не менее актуальными, чем для биоинформатики и молекулярной биологии, так как белки могут рассматриваться как органические электронные устройства [1]. Для создания бионических наноустройств необходимо уметь предсказывать структуру белков, а также конструировать их надмолекулярную структуру путем задания последовательности аминокислот в первичной структуре. На решение этих проблем направлены многочисленные разработки [2, 3].

Развиваемый нами подход к прогнозированию вторичной структуры белков [4] основан на использовании способности пентафрагментов (ПФ) белков к образованию Н-связей и находится в рамках этого направления. Если проводить нарезку белка на ПФ путем трансляционного сдвига вдоль первичной структуры с сохранением расположения в ПФ Н-связей, то такие ПФ способны восстанавливать вторичную структуру белка с исходными Н-связями. При разработке метода прогнозирования [4] эта способность была учтена нами при создании баз данных (БД) [5] из ПФ. В этих БД ПФ рассортированы в файлы, в названия которых с помощью 10-знач-ных чисел введена информация о расположении

Н-связей во вторичной структуре ПФ. Программа [6] сканирует первичную структуру исходного белка, производит быстрый поиск ПФ в БД и выводит результаты прогнозирования в файлы в виде 10-значных чисел, описывающих вторичную структура белка.

Для реализации способа [4] была создана БД ПФ белков [5], первоначально учитывавшая только связи типа NjH...Oj_4 (БД4). В процессе совершенствования способа были созданы БД, учитывающие и другие типы Н-связей (БД34) [7], а также теоретическая БД (БДР) [8].

Компьютерная программа PREDICTO @ DESIGNER [6] (написана на языке С++), использующая полученные БД, имеет существенные преимущества по сравнению с известными подходами [2, 3]. Так, на белках, взятых для создания БД, она предсказывает вторичную структуру белка с точностью, близкой к 100 %. Кроме того, подробное описание структуры Н-связей в структуре позволяет осуществить ее визуализацию на экране.

Появление новых БД потребовало разработки более совершенных алгоритмов поиска ПФ, а также методов коррекции прогнозирования вторичной структуры. Целью настоящей работы является подробное изложение результатов, полученных нами в этом направлении.

1. Этапы, предваряющие использование программы

1.1. Структура базы данных пентафрагментов

внутри программы

Исходные файлы ПФ. Использование программы возможно лишь при наличии специальным образом построенной БД. Напомним, что исходная БД представляет собой систему папок с файлами, пронумерованными в соответствии с описанием водородных связей в ПФ [3—5]. Например, файл 0000000000 содержит ПФ, полученные из участков Р-структуры, файл 1111111111 — ПФ из а-спиралей, 0101010100 — из переходных участков и т. д. В файлах ПФ расположены последовательно

Таблица l Вид пентафрагментов в файлах баз данных пентафрагментов

Базы данных БД4 и БД34 БДР

1BCO 287 PRO 286 ARG 285ILE 284 VAL 283 ASP PAIVA 5 PRO 4 ARG 3 ILE 2 VAL 1 ASP

Таблица 3

Нумерация аминокислот, используемая для вычисления поля number

АК Номер AK Номер AK Номер AK Номер

GLY G THR 5 PHE Ю GLN 15

PRO 1 CYS 6 TYR 11 ARG 16

ALA 2 MET 7 ASP 12 LYS 17

LEU 3 HIS 8 GLU 13 VAL 18

SER 4 TRP 9 ASN 14 ILE 19

друг под другом (табл. 1). В БД4 и БД34 в индексе ПФ находится четырехзначный код белка, полученный в Protein Data Bank; ниже следуют аминокислоты (АК) ПФ, причем номера АК белка, из которого получен ПФ, идут снизу вверх. В БДР все АК файла нумеруются одинаково, снизу вверх от 1 до 5, а в индексе использованы однобуквенные обозначения тех же АК из ПФ.

Преобразование БД в SQLite. Полученные БД были преобразованы во встраиваемые реляционные базы данных SQLite, которые являются едиными файлами и используются программой для хранения и поиска ПФ (табл. 2).

В качестве примера приведем результат преобразования ПФ 1BCO (табл. 1) в формат SQLite:

id number PF i code sfile

200382 295972 PROARGILEVALASP 287 0000000007 1BCO

Значение поля number — обеспечение алгоритмически более удобной реализации различных опе-

раций (поиска, сортировки и др.) по сравнению с реализацией этих же операций для строковых переменных. Его численное значение вычисляется для ПФ как число в двадцатеричной системе по формуле:

4

number = ^ iVAK • 20*,

i=0

где Nak — номер AK от G до 19 (табл. 3).

Для ПФ PRO ARG ILE VAL ASP получаем:

number = 1 • 2G4 + 16 • 2G3 + 19 • 2G2 + + 18 • 2G1 + 12 • 2GG = 295972.

В поле code Ю-значные числа расположены так же, как номера файлов в папках исходной БД — сверху вниз, в порядке возрастания ^м. табл. 2). Формат SQLite существенно ускоряет поиск ПФ,

Таблица 2 1 Фрагмент базы данных SQLite

Id number PF i code sfile

61 63926G LEUILEVALLEUGLY 1Ю 0000002700 3M1M

62 145654G TRPALAPROMETGLY 66 0000002730 1KIT

63 27564G9 LYSSERTYRGLYTRP 416 0000002730 2O9T

64 88488G THRPHEASPSERGLY 183 0000002730 3HR9

65 25528GG GLNILEALAGLYGLY 128 0000002730 3HEF

66 188946G TYRARGLEUGLUGLY 189 0000002737 1BYB

67 3128782 ILETYRPROILEALA 157 0000003130 1BCC

68 29G8G44 VALLEUPHEALASER 2G5 0000003130 1TCG

69 17G9492 PHEGLUGLUASNASP 586 0000003130 1xfw

7G 29GG985 VALALAASPTRPTHR 97 0000003130 3CSG

Н а з н а ч е н и е п о л е й: id — порядковый номер (уникальный идентификатор) записи; number — эквивалентное десятичное представление (код) поля PF; PF — пентафрагмент, трехбуквенное обозначения АК, записанное подряд от старшей к младшей; i — номер старшей АК в белке; code — кодировка типов связей (соответствует 10-значному описанию вторичной структуры ПФ в исходных файлах БД); sfile — четырехзначный код белка (согласно Protein Data Bank).

поскольку отсутствуют переходы из одного файла в другой, и полностью обеспечивает надежное хранение ПФ.

1.2. Форматы исходных файлов и результатов

прогнозирования

Для прогнозирования вторичной структуры белка были использованы файлы в текстовом формате. Для программы PREDICTO @ DESINGER им был придан вид и расширение *.dbk (табл. 4). Они формируются программой на основе имеющихся в домене http://www.ncbi.nlm.nih.gov/ банков данных — GENE, GENOME, PROTEIN, STRUCTURE (формат *.pdb). Информация о структуре белка из файлов формата *.pdb переносится в формат *.dbk и может быть использована для сопоставления результатов прогнозирования с данными эксперимента.

Как следует из табл. 4, формат файла ххх.dbk содержит пять основных граф. В графе «Номер АК» записаны номера АК в порядке снизу вверх, как при биосинтезе белка. Сами АК в однобуквенном и трехбуквенном вариантах записаны в графах «АК 1» и «АК 3». Под номером 0 всегда записывается аминокислота Мет. Если начальный ПФ (НПФ) находится в начале цепи, то она является сигналом начала прогнозирования и задает направление поиска ПФ снизу вверх. Если НПФ обнаруживается в середине цепи, то рамка ПФ движется сверху вниз и Мет служит стоп-сигналом. Он обращает перемещение рамки ПФ в направлении снизу вверх.

Сигналом окончания прогнозирования служат знаки Z и STP (стоп-сигналы), расположенные в конце белкой цепи. Если для прогнозирования используются банки данных GENE, GENOME, то триплеты ДНК или РНК записываются в графе «Триплет» и далее перекодируются в АК.

Результаты прогнозирования выводятся в файл формата *.dbkx (табл. 4). В ней приводится 10-знач-

ное число, соответствующее описанию структуры Н-связей найденного ПФ, а в «Примечании» — информация о методах коррекции результатов и об источнике выделения ПФ (для БД4 и БД43).

2. Прогнозирование вторичных структур

2.1. Процедура прогнозирования для БД4

База данных ПФ (БД4) учитывает только H-связи NjH...Oj—4 = C, и поэтому описание вторичной структуры белка вполне обеспечивается бинарной номенклатурой, т. е. числами: 0 — отсутствие Н-связи, 1 — наличие Н-связи типа NjH...Oj—4 = C [3, 4]. В процедуре прогнозирования на основе БД4, описанной в патенте [5], выделены два этапа: поиск начального ПФ (НПФ) и поиск последующих ПФ путем перемещения от НПФ. Необходимость выделения и поиска НПФ обусловлена разнообразием ПФ в файлах и наличием сходных ПФ в различных типах структур, что может приводить к неправильному прогнозированию.

2.1.1. Поиск начального ПФ

Для поиска НПФ, как было найдено в [5], достаточно задать всего два кодовых номера — code (в исходной БД4 — это имена двух файлов) — 0000000000 (они присвоены ПФ, выделенным из участков Р-структуры) и 1111111111 (ПФ выделенным из а-спиралей). На первом этапе в файле *.dbk программа объединяет в ПФ первые пять идущих подряд АК и проводит его поиск в БД4 с учетом кодовых номеров. Если ПФ найден в БД4 согласно одному из заданных кодовых номеров, то программа производит сдвиг вверх на одну АК, повторное выделение ПФ и его поиск в БД с учетом полу-

Таблица 4 1 Общий вид исходного файла формата и результирующего файла *.dbkx

Формат ххх.dbk Формат ххх.dbkx

Номер АК Триплет АК 1 АК 3 10-значное число Номер АК Триплет АК 1 АК 3 10-значное число Примечание

N TGA Z STP 1B8A MWD

bbbbbbbbbb 1B8A MWD

7 TGG W TRP bbbbbbbbbb 7 TGG W TRP 2111113201 1B8A 1MWD

6 GAG E GLU bbbbbbbbbb 6 GAG E GLU 1111320101

5 GGG G GLY bbbbbbbbbb 5 GGG G GLY 1132010102

4 GAT D ASP bbbbbbbbbb 4 GAT D ASP bbbbbbbbbb

3 AGT S SER bbbbbbbbbb 3 AGT S SER bbbbbbbbbb

2 CTC L LEU bbbbbbbbbb 2 CTC L LEU bbbbbbbbbb

1 GGG G GLY bbbbbbbbbb 1 GGG G GLY bbbbbbbbbb

0 ATG M MET 0 0 ATG M MET bbbbbbbbbb

ченного на предыдущей стадии кодового номера. Алгоритм поиска НПФ работает до тех пор, пока не будут получены кодовые значения для всех ПФ на протяжении четырех стадий.

Первый из выделенных ПФ считается начальным, и заданный кодовый номер записывается в файл *^Ькх на той же стадии, на которой он был обнаружен. Если же на одной из четырех стадий выделенный ПФ не найден, то после сдвига ПФ на одну стадию его поиск в БД повторяется на основе тех же заданных кодовых номеров.

В результате НПФ может быть найден в БД4 либо в начале, либо в середине цепи белка, подлежащего прогнозированию. Если НПФ найден в начале цепи, то далее поиск ПФ осуществляется снизу вверх (термин прямой ход) до появления сигнала БТР в конце цепи. Если же НПФ найден в середине цепи, то поиск ПФ проводится сначала сверху вниз (термин обратный ход) — до сигнала 0 Мет (начало цепи), а затем снизу вверх — до сигнала БТР в конце цепи.

2.1.2. Поиск последующих ПФ в БД4

Задание рамки поиска ПФ. Первоначально рамка поиска ПФ задавалась одинаково при движении ее как сверху вниз от НПФ, так и снизу вверх [3, 4]. При выделении ПФ первая сверху АК считалась в качестве ь-й, и далее производился поиск ПФ в БД4. К каким-либо заметным ошибкам в прогнозировании такое выделение не приводило, до тех пор пока мы не приступили к введению процедуры коррекции прогнозирования на основе замены аминокислот в ПФ. Было обнаружено, что при прогнозировании структуры сверху вниз, при обратном ходе, такой поиск ПФ приводил к ошибкам (см. раздел 3.3). После исправления ошибки поиск ПФ при обратном ходе стал проводиться на основе выделения ь—4-й АК в качестве первой, далее следовали ь—3-я — ь-я АК. В дальнейшем процедура поиска ПФ в «обратном ходе» была использована на всех БД. В процессе продвижения рамки ПФ производился дальнейший поиск ПФ в БД4.

Задание пар переменных для поиска ПФ в БД4 при обратном ходе. Поскольку исходно были заданы два кодовых номера для поиска НПФ (0000000000 и 1111111111), в зависимости от исходного номера с НПФ программа генерирует две группы кодовых номеров, по четыре варианта в каждой группе. Первые две группы номеров, генерированные программой для поиска ПФ, даны в табл. 5 (обратный ход).

После нахождения в ПФ с одним из сгенерированных кодовых номеров программа записывает этот номер в результирующий файл в одной строке с ь-й АК выделенного ПФ, производит трансляционный сдвиг вниз на одну стадию (одну АК) и выделяет очередной ПФ в прогнозируемой последовательности белка. Последующий поиск ПФ при обратном ходе программа производит на основе ге-

нерации следующей группы кодовых номеров. Для этого к исходному кодовому номеру найденного ПФ на каждой последующей стадии справа добавляется одна пара переменных (для случая, когда кодовый номер НПФ 0000000000) - 00, 10, 01 или 11, слева удаляется также пара переменных, после чего снова проводится поиск ПФ на основе сгенерированной группы кодовых номеров и т. д. Генерация кодовых номеров и поиска ПФ производится до момента появления в ¿—4-м положении ПФ аминокислоты Met, находящейся в положении 0 белковой цепи, после чего поиск ПФ обращается в прямой ход.

Задание пар переменных для поиска ПФ в БД4 при прямом ходе. Генерация кодовых номеров от НПФ при прямом ходе показана в табл. 5 (прямой ход). Он аналогичен обратному ходу и состоит в следующем. К кодовому номеру найденного ПФ слева добавляются пары переменных 00, 01, 10 или 11, удаляется пара переменных справа и производится поиск ПФ на основе сгенерированных номеров. После нахождения ПФ с одним из номеров этот номер записывается в i-ю строку результирующего файла. Далее производится трансляционный сдвиг на одну АК вверх, в прогнозируемой последовательности АК выделяется новый ПФ, а на основе предыдущего кодового номера генерируется следующая группа кодовых номеров и т. д. По достижению сигнала STP, который попадает в i-е положение ПФ, прогнозирование вторичной структуры белка заканчивается, и программа выдает информацию о записи результирующего файла в той же папке, в которой находится исходный файл *.dbk.

Бифуркации. Нами было обнаружено, что в процессе поиска один и тот же ПФ независимо от направления хода прогнозирования может иметь одновременно два и более различных кодовых номера. Это связано с тем, что формирование вторичных структур определяется не только последовательностью АК, но и типом предшествующей структуры. По этой причине часть ПФ с одинаковой последовательностью АК в процессе получения БД оказались в нескольких папках с разными 10-значными описаниями структуры. В момент преобразования в файл SQLite эти ПФ получили разные кодовые номера. Такая ситуация была обозначена нами термином

Таблица 5 Кодовые номера, генерируемые программой для поиска ПФ в БД4

Обратный ход Прямой ход

Исходные кодовые номера для поиска НПФ

0000000000 1111111111 0000000000 1111111111

№ Кодовые номера, генерируемые программой

1 0000000000 1111111111 0000000000 1011111111

2 0000000010 1111111101 0100000000 0111111111

3 0000000001 1111111110 1000000000 0011111111

4 0000000011 1111111100 1100000000 0011111111

«бифуркация». Это поставило перед нами проблему выбора пути дальнейшего прогнозирования.

Эту проблему было предложено решить на основе наблюдения, что прогнозирование для каждого кодового номера, который имеет искомый ПФ, происходит по-разному. В частности, было выведено правило, что если на протяжении четырех стадий генераций кодовых номеров от исходного номера процедура поиска не прерывается (находятся все ПФ, выделяемые в белке), то программа считает выбранный кодовый номер правильным. Если в течение последующих четырех стадий хотя бы один раз не удается получить кодовый номер для ПФ, то программа производит возврат к точке бифуркации и меняет в ней кодовый номер. Эта процедура обычно приводит к удачному прогнозированию вторичных структур белка.

Однако использование только одного варианта связей (N^...0^4) снижало точность прогнозирования вторичной структуры белка. По этой причине была разработана база данных БД34, учитывавшая наличие в белках спиралей 3ю (связи N^...0^3) и другие типы структур и связей [7], а для расширения прогностических возможностей — база БДР (теоретическая БД) [8]. Разнообразие папок с 10-значным описанием структуры ПФ при этом в обоих случаях существенно увеличилось, что потребовало разработки новых, более сложных вариантов алгоритмов поиска ПФ.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2.2. Алгоритмы прогнозирования для БД34 и БДР

Базы данных БД34 и БДР (получена на основе БД34) имеют много общего [7, 8]. Различия в этих БД касаются в основном вида ПФ, а также количества ПФ в файлах SQLite. В силу этого их удобнее рассматривать вместе, делая акцент на ту или другую БД при рассмотрении конкретных этапов прогнозирования.

2.2.1. Поиск начального ПФ

Учет в БД34 и БДР связей типа N^...0^3 и других вариантов привел к необходимости введения новых, не бинарных, обозначений этих связей [7, 8]. Так, обозначение связей N^...0^4 осталось без изменения — 01, связь ^Н...О;+4 получила обозначение 70, связи типа N^...0^3 были обозначены бинарным сочетанием 03, ^Н...О;+3 — 60, связи ^Н...0;_4...0;_3 были обозначены как 02, а ^Н...

—0£+4™01+3 — как 4°.

Это создало предпосылки к использованию для поиска НПФ в файлах SQLite не только на основе кодовых номеров 0000000000 и 11111111111, но и других номеров. Кроме того, существенное увеличение числа ПФ под номерами 0000000000

Таблица 6 Задание кодовых номеров при поиске НПФ в БД34 и БДР

Стадия Пары переменных для поиска НПФ

4 00 01 01 00 30 31 06 30 06 00

3 00 01 01 00 00 01 00 00 00 00

2 00 01 02 00 00 01 00 00 00 00

1 01 70 02 40 03 60 00

0 0000000000

4 10 13 10 10 20 20 21 10 10 11

3 10 13 10 10 10 11 10 12 11

2 10 13 10 10 11 12 11

1 10 13 12 11

0 1111111111

и 11111111111 в БДР увеличило вероятность возникновения ошибок при поиске НПФ. Учитывая это, на основе анализа вариантов вторичных структур были предложены ряды пар переменных для задания кодовых номеров при поиске НПФ (табл. 6).

Начальными кодовыми номерами, на основе которых проводится поиск НПФ, являются 0000000000 и 1111111111 (строки 0, табл. 6). Последующие кодовые номера для поиска НПФ задаются путем добавления пары переменных слева и удаления пары справа от исходного 10-значного числа.

В зависимости от того, от какого кодового номера ищется НПФ, последовательность задаваемых пар переменных различается. Если это номер 0000000000, то на первой стадии создаются номера путем добавления слева пар 01, 07, 02, 40, 03, 60 и, в последнюю очередь, 00. Проводится поиск ПФ под заданными кодовыми номерами. При нахождении ПФ под одним из перечисленных номеров задаются кодовые номера последующих четырех стадий согласно табл. 6. Если же первый ПФ ищется под кодовым номером 1111111111, кодовые номера задаются иначе: на первой стадии — 10, 12, 13 и 11, а на последующих четырех стадиях — в зависимости от кодового номера обнаруженного ПФ согласно табл. 6. Если на всех четырех стадиях ПФ найдены под заданными кодовыми номерами, то считается, что кодовый номер начального ПФ определен правильно и с него начинается поиск последующих ПФ.

2.2.2. Поиск последующих ПФ в БД34 и БДР

Поиск последующих ПФ в БД34 и БДР может происходить как при обратном ходе, так и при прямом ходе рамки ПФ. Порядок проводимых процедур для обоих направлений описан в табл. 7.

Номера для поиска ПФ можно задавать как их перечислением, так и генерацией на основе введения

Таблица 71 Алгоритмы поиска ПФ для обратного и прямого хода для БД34 и БДР

№ п/п Обратный ход Прямой ход

1 Обратный ход задается, если начальный ПФ (НПФ) найден в середине белковой цепи Прямой ход задается, если НПФ найден в начале белковой цепи или после завершения обратного хода

2 Поиск ПФ производится в сторону начала белковой цепи до обнаружения сигнала 0 Met Поиск ПФ производится в сторону конца белковой цепи до обнаружения сигнала БТР.

3 Чтение ПФ производится снизу вверх — с ¿-4-й до i-й АК Чтение ПФ производится сверху вниз - с Ь-й до Ь-4-й АК

4 На каждой стадии одна пара переменных добавляется в 10-значное число кодового номера справа, а одна пара переменных удаляется слева На каждой стадии одна пара переменных добавляется в 10-значное число кодового номера слева, а одна пара переменных удаляется справа

Таблица si Задание кодовых номеров для поиска ПФ в БД34 и БДР

АК Обратный ход

0000000000

i 10 07 17 17 10 07 30 06 36 00 00 00 10 00 30 10 00 03

i-1 00 00 00 30 30 06 00 00 00 00 10 20 20 20 10 10 13 10

i-2 00 00 00 00 00 00 00 00 00 00 10 10 10 10 10 13 10 10

i-3 00 00 00 00 00 00 03 60 63 00 10 10 10 10 13 10 10 10

i-4 01 70 71 72 02 40 00 00 00 00 10 13 12 13 10 10 10 10

0000000000 1111111111

Дополнительный поиск: 20, 21, 22, 23, 30, 31, 32, 06, 16, 26, 36, 07, 17, 27, 37, 40, 04, 11, 00

1111111111

i 11 11 21 11 11 12 01 31 11 21 11 11 12 11

i-1 01 31 01 01 02 01 31 01 21 11 11 12 11 11

i-2 01 01 01 02 01 01 01 01 11 11 12 11 11 11

i-3 01 01 02 01 01 01 01 00 11 12 11 11 11 11

i-4 01 02 01 01 01 01 03 03 12 11 11 11 11 11

0000000000 1111111111

Дополнительный поиск: 20, 21, 22, 23, 30, 31, 32, 06, 16, 26, 36, 07, 17, 27, 37, 04, 11, 00

Прямой ход

0000000000 1111111111

i+4 10 07 17 17 10 07 00 00 00 00 11 11 21 11 11 12 01 31

i+3 00 00 00 30 30 06 30 06 36 00 01 31 01 01 02 01 31 01

i+2 00 00 00 00 00 00 00 00 00 00 01 01 01 02 01 01 01 01

i+1 00 00 00 00 00 00 00 00 00 00 01 01 02 01 01 01 01 00

i 01 70 71 72 02 40 03 60 63 00 01 02 01 01 01 01 03 03

0000000000

Дополнительный поиск: 01, 02, 12, 03, 13, 60, 61, 62, 63, 70, 71, 72, 73, 40, 00

0000000000 1111111111

i+4 00 00 10 00 30 10 00 03 11 21 11 11 12 11

i+3 10 20 20 20 10 10 13 10 21 11 11 12 11 11

i+2 10 10 10 10 10 13 10 10 11 11 12 11 11 11

i+1 10 10 10 10 13 10 10 10 11 12 11 11 11 11

i 10 13 12 13 10 10 10 10 12 11 11 11 11 11

1111111111

Дополнительный поиск: 01, 02, 12, 03, 13, 60, 61, 62, 63, 70, 71, 72, 73, 40, 00

пар переменных, перечисленных в табл. 8 (с учетом п. 4 табл. 7).

Из табл. 8 следует, что как для прямого, так и для обратного хода поиска ПФ имеется по четыре варианта кодовых номеров при переходе из одного типа структур в другой: из 0000000000 — в 0000000000 и 1111111111, а из 1111111111 — в 0000000000 и 1111111111. Эти кодовые номера заданы в таблице в виде рядов пар переменных, распоженных сверху вниз (при обратном ходе) или снизу вверх (при прямом ходе). При этом прямой ход, как следует из табл. 8, полностью идентичен обратному ходу и по последовательности переменных, и по связям пар переменных. При обратном ходе направление ввода переменных идет сверху вниз. При переходе от кодового номера 0000000000 к номеру 0000000000 с парами 10, 07, 17 в положении ^4 связаны переменные 01, 70, 71; с парами 30, 06 и 36 в положении ^3 связаны переменные 03, 60, 63; с последовательными парами 10, 30 и 07, 06 связаны пары 02 и 40, а при переходе от номера 0000000000 к номеру 1111111111 с парой 20 — последовательно пары 13, 11. При прямом ходе порядок ввода переменных идет снизу вверх и номера связанных стадий меняются на i+3, i+4. Эта та-

блица может служить основой для задания рядов кодовых номеров при поиске ПФ в БД34 и БДР. В случае отсутствия ПФ в заданных рядах программа переходит к их поиску на основе пар переменных из групп дополнительного поиска (табл. 8).

3. Коррекция прогнозирования вторичной структуры белка

3.1. Смысл методов коррекции, используемых в программе

На основе развиваемого подхода, как упоминалось ранее [7, 8], хорошо прогнозируются лишь те структуры белков, ПФ которых имеются в базе данных. В тех же случаях, когда в БД имеется лишь часть ПФ или их вообще нет, эффективность прогнозирования резко снижается. Смысл обсуждаемых в этом разделе методов коррекции связан не с исправлением результатов прогнозирования, а с повышением степени прогнозирования белков в целом. В программе предложены три вида коррекции. Для демонстрации методов коррекции использованы ми-оглобины позвоночных (табл. 9),

Таблица 9 Прогнозирование вторичной структуры миоглобинов без коррекции и с коррекцией на основе замены аминокислот в ПФ

Без коррекции Коррекция по AK

Свинья Аллигатор Аллигатор

141 xxx D Asp 1111111111 142 xxx D Asp 1111111111 142 xxx D Asp 1111111111

140 xxx N Asn 1111111111 141 xxx N Asn 1111111111 141 xxx N Asn 1111111111

139 xxx R Arg 1111111111 140 xxx R Arg 1111111111 140 xxx R Arg 1111111111

13В xxx F Phe 1111111111 139 xxx F Phe 1111111111 139 xxx F Phe 1111111111

13Т xxx L Leu 1111111111 13В xxx L Leu 1111111121 13В xxx L Leu 1111111111

13б xxx E Glu 1111111111 13Т xxx E Glu 13Т xxx E Glu 1111111111

135 xxx L Leu 1111111111 13б xxx L Leu 13б xxx L Leu 1111111111

134 xxx A Ala 1111111111 135 xxx A Ala 135 xxx A Ala 1111111111

133 xxx K Lys 1111111111 134 xxx K Lys 134 xxx K Lys 1111111111

132 XXX S Ser 1111111111 133 XXX R Arg 133 XXX R Arg 1111111111 ASN

131 xxx M Met 1111111101 132 xxx M Met 132 xxx M Met 1111111101

130 xxx A Ala 1111110101 131 xxx A Ala 131 xxx A Ala 1111110101

129 XXX G Gly 1111010101 130 XXX A Ala 130 XXX A Ala 1111010101 GLY

128 XXX Q Gln 1101010101 129 XXX Q Gln 129 XXX Q Gln 1101010101

127 XXX A Ala 0101010110 128 XXX S Ser 128 XXX S Ser 0101010110 ALA

12б xxx D Asp 0101011000 12Т xxx D Asp 12Т xxx D Asp 0101011030

125 xxx A Ala 0101100000 12б xxx A Ala 12б xxx A Ala 0101103000

124 xxx G Gly 0110000010 125 xxx G Gly 125 xxx G Gly 0110300000

123 xxx F Phe 1000001011 124 xxx F Phe 124 xxx F Phe 1030000012

122 xxx D Asp 0000101110 123 xxx D Asp 123 xxx D Asp 3000001210

121 XXX G Gly 0010111010 122 XXX A Ala 0200000000 122 XXX A Ala 0000121010 GLY

120 xxx P Pro 1011101011 121 xxx P Pro 0000000000 121 xxx P Pro 0012101010

119 XXX H His 1110101111 120 XXX Y Tyr 120 XXX Y Tyr 1210101011 HIS

биотехносфера

I № 2(44)/201Б

Продолжение табл. 9

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Без коррекции Коррекция по AK

Свинья Аллигатор Аллигатор

118 XXX K Lys ююппп 119 XXX K Lys 0000000000 119 XXX K Lys 1G1G1G1111 ARG

117 XXX S Ser 1011111111 118 XXX E Glu 118 XXX E Glu 1010111111 SER

116 XXX Q Gln 1111111111 117 XXX A Ala 0000000000 117 XXX A Ala 1011111111 HIS

115 XXX L Leu 1111111111 116 XXX I Ile 116 XXX I Ile 1111111111 LEU

114 XXX V Val 1111111111 115 XXX V Val 115 XXX V Val 1111111111

Их структуру (первичную и третичную) легко получить по ключевым словам в домене http:// www.ncbi.nlm.nih.gov/ баз данных (см. раздел 1.2.). В табл. 9 в качестве примеров приведены лишь фрагменты миоглобинов свиньи и аллигатора, хотя их количество можно существенно приумножить. Из таблицы видно, что без коррекции фрагмент свиньи, структура которого использована для получения ПФ в БД, прогнозируется полностью, а большая часть фрагмента миоглобина аллигатора при этом не прогнозируется вовсе.

3.2. Прогнозирования на основе БДР с использованием БД34

Как было описано в работе [8], для создания БДР были использованы не все варианты ПФ БД34,

а лишь наиболее распространенные. Начальный объем таких файлов составил около 90 % от объема БД34. Использование БДР повышает процент прогнозирования, однако иногда приводит к появлению пропусков в прогнозировании из-за отсутствия в БДР ПФ с нужными кодовыми номерами. Для программы нами был предложен метод коррекции, который в случае отсутствия ПФ с нужными кодовыми номерами в БДР позволяет автоматически переключаться на БД34. Метод реализован в виде строки «Использование БД34» в иконке «Корректоры». Информация о переключении в БД34 записывается в рабочем поле и в результирующем файле справа от 10-значных чисел. В табл. 10 в качестве примера приведены фрагменты результирующих файлов миоглобина лошади без коррекции и с коррекцией с помощью БД34 (Б). Видно, что коррекция с использованием БД34 восполняет недостающие в БДР ПФ.

Таблица 10 Результаты прогнозирования структуры миоглобина лошади на основе БДР

Без коррекции БД34 Коррекция с помощью БД34

3G XXX I ILE 1111111111 XXXX 3G XXX I ILE 1111111111 XXXX

29 XXX L LEU 1111111111 XXXX 29 XXX L LEU 1111111111

28 XXX V VAL 1111111111 XXXX 28 XXX V VAL 1111111111 XXXX

27 XXX E GLU 1111111Ю1 XXXX 27 XXX E GLU 11111111G1

26 XXX Q GLN 11111ЮЮ1 XXXX 26 XXX Q GLN 111111G1G1 XXXX

25 XXX G GLY 111ЮЮ111 XXXX 25 XXX G GLY 111ЮЮ111 XXXX

24 XXX H HIS 24 XXX H HIS 1101011101 BD34

23 XXX G GLY 23 XXX G GLY 0101110110 BD34

22 XXX A ALA 22 XXX A ALA 0111011010 BD34 XXXX

21 XXX I ILE 21 XXX I ILE 1Ю1ЮЮ21 BD34

2G XXX D ASP 2G XXX D ASP 0110102130 BD34

19 XXX A ALA 19 XXX A ALA Ю^^И BD34

18 XXX E GLU 18 XXX E GLU ^^1112 BD34

17 XXX V VAL 17 XXX V VAL 213G111212 BD34

16 XXX K LYS 16 XXX K LYS 3011121210 BD34 XXXX

15 XXX G GLY 15 XXX G GLY 111212Ю11 BD34

14 XXX W TRP 14 XXX W TRP 1212Ю1111 BD34

13 XXX V VAL 12ЮШШ XXXX 13 XXX V VAL 12Ю11Ш1 XXXX

12 XXX N ASN ютит XXXX 12 XXX N ASN ютит XXXX

11 XXX L LEU 1111111111 XXXX 11 XXX L LEU 1111111111

3.3. Замена аминокислот в ПФ, отсутствующих в базе данных

Предположим, что на какой-то ий стадии программа выделила для поиска ПФ, который не обнаружен под кодовым номером, заданным на основе алгоритма для поиска. На предыдущей, ^1-й стадии такой ПФ обнаруживался. Значит, все дело в АК, появившейся в ПФ на ий стадии. Такие изменения (называемые обычно мутациями) часто наблюдаются для белков одного типа, но выделенных из разных видов организмов.

Примерами могут служить миоглобины свиньи и аллигатора (табл. 9). В них жирным шрифтом выделены стадии, на которых наблюдаются мутационные изменения. Поскольку поиск ПФ с отсутствующей ий АК должен проводиться под тем же кодовым номером, что и другие ПФ аналогичной структуры, но с другими АК в ьм положении, можно временно подменить поиск исходного ПФ на поиск ПФ аналогичной структуры, но с измененной в ьм положении АК. В процессе прогнозирования исходная ья АК будет отсутствовать в ПФ еще на четырех стадиях. По этой причине еще на четырех стадиях должен производиться поиск ПФ с АК, измененной в положениях ^1, ^2, ^3, ^4. Очевидно, что на всех этих стадиях искомые ПФ должны храниться в памяти программы.

Этот способ подмены АК реализуется так. На каждой стадии в соответствии с алгоритмом производятся выделение ПФ и его поиск на основе заданного кодового номера. Если ПФ не обнаруживается, то он запоминается, ья АК выделяется на рабочем поле красным цветом (или курсивом) и ведется поиск ПФ с тем же кодовым номером, но с другой АК в положении i. Если подходящий ПФ найден, то новая ^я АК запоминается и записывается на рабочем поле справа от колонки цифр. Далее производятся сдвиг на следующую стадию ^ + 1-ю) и поиск нового ПФ. В нем вместо отсутствующей в ^1-м положении АК из ячейки памяти записывается новая ья АК, заменившая исходную на предыдущей стадии. Так повторяются четыре стадии, пока не появится ПФ с заданным кодовым номером.

Мы рассмотрели простейший вариант этого метода с одной заменой. Однако в программе предус-

мотрены и более сложные варианты с заменой двух и трех АК одновременно. Во избежание ошибочных замен при отсутствии АК четыре раза подряд в программе предусмотрена блокировка. При этом производится сброс данных и начинается поиск начального ПФ. Пример применения предложенного метода коррекции приведен в табл. 9.

Как следует из таблицы, фрагмент миоглобина аллигатора на стадиях 118, 120 и 122 (он соответствует фрагментам миоглобина свиньи на стадиях 117, 119 и 121) без применения коррекции не прогнозируется. В то же время после замены 118 Glu ^ ^ Ser, 120 Tyr ^ His, 122 Ala ^ Gly этот участок успешно прогнозируется. В этом же миоглобине предсказывается также фрагмент после замен на стадиях: 128 Ser ^ Ala , 130 Ala ^ Gly.

Сам факт существенного повышения степени прогнозирования для родственных белков, имеющих общий архетип структуры, позволяет высказать идею, что для повышения прогностических возможностей программы необходимо осуществить целенаправленный подбор в БД уникальных архетипов белков.

3.4. Достраивание структуры с помощью пар переменных

Метод достраивания вторичной структуры с помощью пар переменных состоит в том, что если имеется фрагмент структуры с пропуском не более четырех стадий, то этот пропуск успешно достраивается на основе анализа 10-значных чисел, стоящих перед пропуском и после пропуска фрагмента. Эти пропущенные четыре стадии однозначно предсказываются (табл. 11).

Коррекция для четырех стадий обусловлена однозначной логикой появления пар переменных (01, 01, 01, 11, 11). В то же время при пропуске пяти стадий (пример в правой колонке) однозначную логику применить не удается. В дальнейшем было найдено, что большая часть пропусков при прогнозировании вторичной структуры связана с отсутствием ПФ в БД. После появления метода замен АК коррекция пробелов путем достраивания структуры в основном утратила свое значение. Таким образом, приведен-

Таблица 11 Результаты прогнозирования структуры миоглобина лошади на основе БДР

Стадия До коррекции Ввод пар переменных После коррекции Не корректируется

i + 6 00010000000

i + 5 1111010101 11 1111010101

i + 4 11 1101010101

i + 3 01 0101010100

i + 2 01 0101010000

i + 1 01 0101000000

i 0100000000 0100000000 0100000000

Нанотехнологии и наноматериалы

ные методы коррекции позволяют повышать качество и степень прогнозирования используемых для работы белков.

Заключение

В работе изложены результаты по дальнейшему совершенствованию компьютерной программы PREDICTO @ DESIGNER, предназначенной для прогнозирования и проектирования вторичной структуры белков. Описана структурная организация файлов БД ПФ в формате SQLite, встроенных в программу. Созданные ранее БД [7, 8] потребовали совершенствования алгоритмов поиска ПФ в БД и разработки методов коррекции прогнозирования. В форме таблиц предложены списки кодовых номеров для поиска начальных ПФ, а также кодовых номеров, присваиваемых последующим ПФ в процессе прогнозирования вторичной структуры белков. Из предложенных методов коррекции, как было найдено и показано, наиболее эффективным оказался метод замены аминокислот в ПФ. При наличии в БД ПФ архетипов белков метод позволяет с высокой точностью предсказывать вторичную структуру функционально сходных белков, полученных из различных видов организмов, что показано на примере миоглобинов свиньи и аллигатора. Этот результат предполагает целенаправленное формирование БД с максимальным разнообразием архетипов белков, что может существенно расширить прогностические возможности нашей программы.

Литература

1. Карасев В. А., Лучинин В. В. Введение в конструирование бионических наносистем. М.: Физматлит, 2009. 463 с.

2. Liang Dai, Yuedong Yang, Hyung Rae Kim. Yaoqi Zhou Improving computational protein design by using structure-derived sequence profile //Proteins. 2010. Vol. 78. P. 23382348.

3. Карасев В. А. Принципы топологического кодирования цепных полимеров и структура белков. СПб.: СПбГЭТУ «ЛЭТИ», 2014. 239 с.

4. Пат. РФ № 2425837. Способ прогнозирования вторичной структуры белка / В. А. Карасев, В. В. Лучинин. 2011.

5. Карасев В. А., Беляев А. И., Лучинин В. В. База данных пентафрагментов белков. Свидетельство о государственной регистрации базы данных в ФС по ИС № 2010620364 от 7.07.2010 г.

6. Калинин С. Б., Карасев В. А., Лучинин В. В. Компьютерная программа для прогнозирования вторичной структуры белков и конструирования первичной структуры белков с заданной вторичной структурой (PREDICTO @ DESIGNER). Свидетельство о государственной регистрации программы для ЭВМ в ФС по ИС № 2015622295 от 17.02.2015 г.

7. Карасев В. А., Калинин С. Б. Компьютерная программа PREDICTO @ DESIGNER для прогнозирования и проектирования вторичных структур белка: UPGRADE. I. База данных пентафрагментов белков, учитывающая N{H...O{_3, ЯгН...ОЬ4, и другие типы Н-связей во вторичных структурах белков // Биотехносфера. 2016, № 1. С. 49-55.

8. Карасев В. А., Калинин С. Б. Компьютерная программа PREDICTO @ DESIGNER для прогнозирования и проектирования вторичных структур белка: UPGRAGE. II. Принципы создания теоретической базы данных пентафрагмен-тов белков // Биотехносфера. 2016. № 2. C. 29-38.

Центр микротехнологии и диагностики Санкт-Петербургского государственного электротехнического университета «ЛЭТИ» им. В. И. Ульянова (Ленина) представляет:

Г. З. Гареев В. В. Лучинин

ТЕРАГЕРЦОВЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ Обзор современного состояния

Представлены основные достижения на конец первого квартала 2015 года в области разработки терагерцовых излучателей, приемников, компонентов радиотрактов, а также систем радиовидения и спектроскопии. Рассмотрены основные области применения терагерцовых систем в научных исследованиях и разработках в сфере нанотехнологий, в биологии и медицине, а также в телекоммуникационных системах и аппаратуре для обеспечения безопасности.

Издание содержит большой объем иллюстративного материала и ссылок на электронные литературные источники для обеспечения более высокого уровня профессиональных компетенций в области разработки, создания и практического применения терагерцовых систем и технологий.

Книга может быть полезна научным сотрудникам и инженерам, специализирующимся в области разработки, изготовления и применения терагерцовых систем и технологий на основе современных достижений радиотехники, электроники и фотоники, а также преподавателям, аспирантам и студентам, участвующим в образовательном процессе по направлениям: «Электроника и наноэлектроника», «Радиотехника», «Приборостроение», «Нанотехнологии и микросистемная техника», «Фотоника и оптоинформатика».

Приобрести книгу возможно в Центре микротехнологии и диагностики СПбГЭТУ «ЛЭТИ» им. В. И. Ульянова (Ленина).

Тел.: (812) 234-16-82

J1

i Надоели баннеры? Вы всегда можете отключить рекламу.