УДК 004.42+577.322.4+577.29 В.А. Карасев, С. Б. Калинин
Компьютерная программа PREDICTO @ DESIGNER для прогнозирования и проектирования вторичных структур белка: UPGRADE
I. База данных пентафрагментов белков, учитывающая ^Н...Ог_3, ^Н...Ог-4 и другие типы Н-связей во вторичных структурах белков
Ключевые слова: компьютерная программа, вторичные структуры белка, прогнозирование, проектирование, пента-фрагменты белка, база данных.
Keywords: computer program, secondary protein structure, prediction, design, database of proteins pentafragments.
В целях улучшения компьютерной программы PREDICTO @ DESIGNER, предназначенной для прогнозирования и проектирования вторичных структур белка и работающей на основе базы данных (БД) белковых пентафрагментов (ПФ), предложен новый вариант БД, учитывающий NH—O1-3, NtH.Oi_4: и другие типы Н-связей во вторичных структурах белков. Порядка 3000 белковых файлов Protein Data Bank были преобразованы в текстовые файлы, из которых получено 630 000 ПФ. Последние были сортированы в 12 300 файлов, обозначены 10-значными числами, кодирующими различные типы Н-связей, и разнесены в 38 папок. Данная БД позволила почти со 100%-ной точностью прогнозировать положение вторичных структур и различных типов водородных связей белков, использованных для ее получения.
Введение
К числу актуальных проблем бионической на-ноэлектроники, молекулярной биологии и биоинформатики относятся прогнозирование и проектирование белковых структур. В частности, если рассматривать белки в качестве наноэлектронных устройств [1], то необходимо не только уметь правильно предсказывать их вторичные структуры, но и конструировать аминокислотные последова-
тельности с заранее заданной вторичной структурой.
В современных подходах по конструированию третичных структур белка встречаются варианты, в которых используются базы данных пентафрагмен-тов (ПФ) белков [2]. Однако их применение носит скорее случайный характер и не имеет глубокого теоретического обоснования. В отличие от подхода, изложенного в работе [2], разрабатываемый нами подход [3] основан на представлениях о действиях боковых цепей аминокислот в пределах ПФ белка в качестве физических операторов. В рамках этого подхода ПФ являются важными элементами белковых структур.
Созданная нами компьютерная программа PREDICTO @ DESIGNER [4], основная на этих представлениях, состоит из двух частей: часть PREDICTO работает в области прогнозирования вторичных структур белка, а часть DESIGNER служит для конструирования последовательностей аминокислот, принимающих после синтеза заданную вторичную структуру.
Основой работы программы является база данных ПФ белков, полученных путем нарезки с трансляционным сдвигом в одну аминокислоту на основе сканирования файлов с двумерным описанием водородных связей основной цепи белка. Мы обозначили эту базу как БД4, имея в виду, что в ней использован только один тип Н-связей — NiH...Oi_4. Использование ПФ из БД4 позволяет воссоздавать
исходные описания вторичной структуры белка в виде последовательности 10-значных чисел [3, 5]. Эти числа в ПФ были заданы таким образом, что в каждой из его пяти пар переменных наличие водородной связи, например NjH...Oj_4, обозначали цифрой 1, а ее отсутствие — цифрой 0 [3, 5—7]. Таким образом, всего было выделено четыре варианта пар переменных: 00, 01, 10 и 11. На основе обработки порядка 2500 белковых файлов, скачанных из Protein Data Bank, было получено более 600 000 ПФ, составивших БД4 [6].
Способ прогнозирования вторичной структуры белка [5], разработанный на основе полученной в работе [6] БД4, использует поиск ПФ, выделяемых в прогнозируемой последовательности аминокислот, в БД4 и считывание 10-значных чисел, которые записаны в названиях файлов, содержащих найденные ПФ. Прогнозируемая структура имеет вид последовательности 10-значных чисел. Этот способ дает правильную картину (с точностью, близкой к 100 %) расположения a-спиральных и Р-структурных участков во вторичной структуре белков, но только тех, которые были использованы для получения исходной БД.
Однако в процессе использования подхода выявился ряд недостатков.
1. Описание связей с помощью только 0 и 1 не охватывает всего многообразия возможных типов связей во вторичной структуре белка. При этом полностью выпадают из рассмотрения связи NjH...Oj_3 (спирали 3ю), которые часто обнаруживаются в начале и в конце a-спиральных участков и в изгибах Р-структур. Это приводит к неточностям в прогнозировании вторичной структуры ряда белков.
2. В основной цепи встречаются и обращенные типы Н-связей (Oj.-.H^N, Oj.-.H^N), которые хотя и выявляются на основе бинарного подхода, но в значительной степени маскируются этим описанием, что создает дополнительные проблемы для адекватной визуализации такого типа структур с помощью нашей программы.
3. Отмеченные недостатки препятствуют разработке универсальной БД, которая бы позволила правильно прогнозировать вторичную структуру любого природного белка.
В целях модернизации компьютерной программы PREDICTO @ DESIGNER предложен новый вариант БД, названный БД34, в котором учитываются Н-связи NjH...Oj_3 и NjH...Oj_4, а также другие варианты Н-связей во вторичных структурах белков.
1. Объекты исследования и методы их получения
1.1. Описание исходных файлов
Ранее, в работе [6], нами были описаны файлы, которые содержат водородные связи типа NjH.-.O^,
Таблица 1 Фрагменты текстовых файлов
микробной синтазы (1IGS)
с различными типами Н-связей
Связи N;H...O¡—4 Связи N;H...O¡—4 + N;H...Oi—3
82 ILE
82 ILE 81 SER
81 SER 80 LEU
80 LEU 79 GLY
79 GLY 78 VAL
78 VAL 77 ALA N — 73 MET O
77 ALA N — 73 MET O 77 ALA
77 ALA 76 TYR N — 73 MET O
76 TYR 76 TYR
75 ARG 75 ARG
74 GLU N - 70 SER O 74 GLU N — 70 SER O
74 GLU 74 GLU
73 MET O - 77 ALA N 73 MET O - 77 ALA N — 76 TYR N
73 MET N — 69 TYR O 73 MET N — 69 TYR O
73 MET 73 MET
72 PHE N - 68 GLU O 72 PHE N — 68 GLU O
72 PHE 72 PHE
71 LYS N - - 67ILE O 71 LYS N — 67 ILE O
71 LYS 71 LYS
70 SER O - 74 GLU N 70 SER O — 74 GLU N
70 SER N - 66 PRO O 70 SER N — 66 PRO O
70 SER 70 SER
69 TYR O - 73 MET N 69 TYR O — 73 MET N
69 TYR N — 65 ASP O 69 TYR N — 65 ASP O
69 TYR 69 TYR
68 GLU O - 72 PHE N 68 GLU O — 72 PHE N
68 GLU 68 GLU
67 ILE O — 71 LYS N 67 ILE O — 71 LYS N
67 ILE 67 ILE
66 PRO O - 70 SER N 66 PRO O — 70 SER N
66 PRO 66 PRO
65 ASP O — 69 TYR N 65 ASP O — 69 TYR N
65 ASP 65 ASP
64 ARG 64 ARG
63 GLU 63 GLU
62 VAL 62 VAL
61 ASP 61 ASP
60 LEU O - 56 SER N 60 LEU O — 56 SER N
60 LEU 60 LEU
59 GLY 59 GLY
58 SER 58 SER
57 PRO 57 PRO
56 SER N — 60 LEU O 56 SER N — 60 LEU O
56 SER 56 SER
55 LYS 55 LYS
полученные с помощью компьютерной программы Preotein 3D [8] на основе PDB-файлов. Файлы, содержащие дополнительно связи N¿H...O¿_3, имеют сходное строение. В качестве примера в табл. 1 приведены фрагменты текстового файла микробной синтазы (1IGS), содержащие связи N¿H...O¿_4 и NjH...O¿_4 + NjH.Oj-3.
Из сопоставления этих фрагментов видно, что принципиально они очень похожи, но во втором варианте появляется дополнительно связь N¿H...O¿_3 (76 TYR N - 73 MET O, выделена жирным шрифтом). Кроме того, в области связи 56 SER N — 60 LEU O находится инвертированный a-изгиб.
1.2. Введение новых обозначений для различных типов Н-связей в основной цепи белка
Как было рассмотрено во введении, необходимость применения дополнительных обозначений, кроме 0 и 1, для описания структуры ПФ обусловлена большим разнообразием типов Н-связей в основной цепи белка. С этой целью для описания Н-связей в получаемых ПФ в БД34 были введены дополнительные цифровые обозначения (табл. 2).
Из табл. 2 следует, что четыре пары переменных для обозначения связей в а-спирали остались неизменными (00, 01, 10, 11). В то же время Н-связи в обращенной а-спирали обозначаются парами переменных, содержащими цифру 7: 70, 07 и 77. Н-связи в спирали 310, учитываемые в БД34, получили обозначения с цифрой 3: 03, 30, 33, а в обращенной спирали Зю они содержат цифру 6 и обозначены как 60, 06 и 66. Наконец, редко встречающиеся двойные Н-связи для сочетаний а-спирали и спирали З10 содержат в обозначениях цифру 2: 02, 20 и 22, а обращенные сочетания а-спирали и спирали Зю содержат цифру 4: 40, 04 и 44. Других типов связей в результате проведенных сортировок нами не обнаружено.
Отметим, что использование дополнительных цифр в этой номенклатуре не меняет принципа бинарности обозначений: отсутствие Н-связей все равно обозначается цифрой 0, а наличие Н-связи —
какой-либо другой цифрой, отличной от нуля. Как мы убедились в процессе создания БД34, более дифференцированные обозначения приводят к значительно большему разнообразию 10-значных чисел.
1.3. Процедура получения пентафрагментов
Как и в работе [6], для создания БД34 нами использованы pdb-файлы белков Protein Data Bank, отражающие весь спектр разнообразных типов вторичных структур. Получаемые с помощью программы Protein 3D [8] текстовые файлы содержали описание Н-связей одновременно двух типов: NjH...Oj_3 и NjH...Oj_4. Общий вид таких файлов показан в табл. 1. Следует отметить, что в отличие от БД4 при получении текстовых файлов в нашей работе для белков, содержавших несколько вариантов субъединиц (например, субъединицы A и B в гемоглобинах), были получены текстовые файлы для всех типов субъединиц. В результате на основе 2500 PDB-файлов получено около 3000 текстовых файлов. Текстовые файлы обрабатывали с использованием компьютерных мини-программ, часть из которых была написана ранее программистом А. И. Беляевым [6]. Для настоящей работы были специально написаны варианты программ, учитывающие введенные выше обозначения связей в ПФ.
Таблица 2 1 Кодировка типов Н-связей в виде бинарных сочетаний для БД34
Бинарные сочетания
Тип связи Количество связей Код Количество связей Код Количество связей Код Количество связей Код
Связи в а-спирали
NiH.Oi_4 0 00 0 01 1 10 1 11
Oj-4...HNj 0 1 0 1
Связи в обращенной а-спирали
NjH...Oi+4 0 00 1 70 0 07 1 77
Oj...HNi_4 0 0 Связи в спирали 3ig 1 1
NjH.Oj-3 0 00 0 03 1 30 1 33
Oj-3—HNi 0 1 0 1
Связи в обращенной спирали З^д
NjH...Oj+3 0 00 1 60 0 06 1 66
Ot...HNt_3 0 0 1 1
Сочетание связей а-спирали и спирали З^д
NiH.Oi-4.Oi_3 0 00 0 02 2 20 2 22
Oi-4...HNj...HNi_i 0 2 0 2
Сочетание связей в обращенных а-спирали и спирали З^д
NiH.Oi+4.Oi+3 0 00 2 40 0 04 2 44
Ot...HNt_4...HNt_3 0 0 2 2
2
Нанотехнологии и наноматериалы
Таблица 3 Примеры пентафрагментов и обозначений файлов, в которых они содержатся, до и после симплификации
Структура ПФ Номер файла
0003030010 7310300000
До упрощения 1XYF 277 GLY 276 SER О - 279 THR N 276 SER 275 ARG О - 278 ASP N 275 ARG 274 TRP 273 SER N - 269 ARG О 273 SER 1ECL 132 ALA 131 ASP О - 134 TYR N 131 ASP 130 ASP О - 133 ARG N 130 ASP 129 GLY 128 GLY N - 124 ARG О 128 GLY 1EVF 85 ASP N - 89 ASP О 85 ASP О - 88 GLY N 85 ASP 84 ALA N - 80 TRP О 84 ALA 83 TRP N - 80 TRP О 83 TRP 82 GLU 81 ASP 2EGJ 15 ASP N - 19 ILE О 15 ASP О - 18 GLY N 15 ASP 14 THR N - 10 GLN О 14 THR 13 GLU N - 10 GLN О 13 GLU 12 TYR 11 PHE
После упрощения 1XYF 277 GLY 276 SER 275 ARG 274 TRP 273 SER 1ECL 132 ALA 131 ASP 130 ASP 129 GLY 128 GLY 1EVF 85 ASP 84 ALA 83 TRP 82 GLU 81 ASP 2EGJ 15 ASP 14 THR 13 GLU 12 TYR 11 PHE
Обработка исходных PDB-файлов состояла в следующем.
1. С помощью программы Protein 3D получили текстовые файлы, описывающие структуру систем пептидно-водородных связей основной цепи белка №Н...О;-з и NiH...Oi-4).
2. Программа Invertor переводила запись в файле в направлении снизу вверх. Такое направление моделирует процесс синтеза белка, который происходит от N-конца к C-концу путем удлинения хвостовой части.
3. С помощью программы Cutter проводили нарезку всех файлов на ПФ, начинающихся с заданной аминокислоты, причем для каждой из 20 аминокислот, содержащихся в белке, эта процедура повторялась. В результате мы получали 20 групп ПФ, которые в окончательном виде объединяли в один файл.
4. Последующую сортировку ПФ в файлы по числу строк, с одновременным 10-значным обозначением получаемых файлов, проводили с помощью написанной нами программы Separator-2. В результате сортировки ПФ, имевшие сходные связи, оказывались в одном файле с общим 10-знач-ным обозначением. Использование этой программы обеспечило обработку огромного массива информации (см. п. 2).
5. Завершающий этап получения и сортировки ПФ состоял в упрощении их структуры, которое осуществляли с помощью программы Simplificator. В результате 10-значная нумерация всех файлов оставалась неизменной, а в структуре ПФ сохранялись только код белка (четыре знака вверху ПФ), порядковые номера аминокислот ПФ и названия аминокислот. В качестве примера в табл. 3 приведены виды нескольких ПФ и обозначения файлов, в которых они содержатся до и после упрощения.
2. Результаты и их обсуждение
2.1. Систематизация файлов
В результате проделанной работы получено 12 300 файлов с общим объемом 33,3 Мб (порядка 630 000 ПФ). Попытка использовать для их систематизации предложенную ранее систему файлов ПФ с обозначениями первой и последней пары переменных [6, 7] оказалась неприменимой к БД34, так как в цифровых обозначениях накладываются нескольких типов Н-связей. По этой причине полученные на этапах 4 и 5 файлы ПФ с 10-значными номерами были рассортированы вручную на папки, в названия которых входил только номер первой пары переменных, общий для всех помещенных туда файлов, а вместо последней пары было оставлено ХХ.
Результаты этой работы приведены в табл. 4. Из таблицы видно, что всего получилось 38 папок с ПФ, образующих семь групп. В процессе обработки для каждой папки были выделены файлы, имевшие не менее пяти ПФ, отнесенных к часто встречающимся. Столбцы с этими данными также приведены в таблице и обозначены как «более 1 кБ». Оказалось, что количество файлов с часто встречающимися ПФ составляло, за редким исключением, лишь 15—30 % от их общего числа. Однако из сопоставления объемов папок следует, что количество часто встречающихся ПФ составляет более 90 % от общего числа ПФ каждой из папок.
Как следует из табл. 4, в составе сортированных программой Берага^г-2 семи групп файлов были обнаружены все закодированные в табл. 2 типы связей. Из них наиболее полно представлены группы папок, содержащие в обозначениях первую цифру 0, 1 и 3 (по семь вариантов). Несколько
Таблица ^ 1 Сортировка и характеристика файлов базы данных БД34
Номер папки Количичество файлов Объем папок, Мб Номер папки Количество файлов Объем папок, Мб
Всего Более Всего Более Всего Более Всего Более
1 кб 1 кб 1 кб 1 кб
00-ХХ 2257 697 16,7 16,5 10-ХХ 1170 671 3,57 3,48
01-ХХ 1393 528 3,25 3,17 11-ХХ 1262 706 5,60 5,56
02-ХХ 651 143 0,53 0,49 12-ХХ 664 217 0,43 0.39
03-ХХ 515 98 0,46 0,42 13-ХХ 519 142 0,26 0,23
04-ХХ 5 0 0,002 0 14-ХХ 5 0 0,0003 0
06-ХХ 16 5 0,070 0,070 16-ХХ 1 0 0,0002 0
07-ХХ 77 20 0,125 0,120 17-ХХ 18 4 0,024 0,023
30-ХХ 794 213 0,766 0,715 20-ХХ 762 203 0,45 0,403
31-ХХ 464 113 0,320 0,291 21-ХХ 488 151 0,287 0,263
32-ХХ 218 34 0,053 0,039 22-ХХ 268 60 0,056 0,041
33-ХХ 166 23 0,039 0,026 23-ХХ 231 43 0,040 0,028
34-ХХ 2 1 0,0004 0,0003
36-ХХ 9 2 0,054 0,053
37-ХХ 8 2 0,006 0,005 27-ХХ 4 0 0,0005 0
60-ХХ 75 10 0,071 0,065 70-ХХ 69 5 0,045 0,039
61-ХХ 9 1 0,001 0,0007 71-ХХ 17 1 0,012 0,011
62-ХХ 4 0 0,0005 0 72-ХХ 29 1 0,010 0,008
63-ХХ 47 5 0,053 0,049 73-ХХ 72 12 0,058 0, 052
66-ХХ 1 0 0,0005 0 77-ХХ 1 0 ,0001 0
40-ХХ 6 0 0,0004 0
43-ХХ 1 0 0,0001 0
Таблица 51 Файлы ПФ, отражающие стадии вариантов изгибов в-структуры
Стадия Изгибы а-спирали Объем, кБ Изгибы спирали 3ю Объем, кБ Изгибы а + 3ю спиралей Объем, кБ
г + 9 0000000010 542 0000000010 542
г + 8 0000001000 110 0000000030 227 0000001030 89
г + 7 0000100000 102 0000003000 227 0000103000 86
г + 6 0010000000 97 0000300000 205 0010300000 75
г + 5 1000000001 99 0030000003 199 1030000002 79
г + 4 0000000100 99 3000000300 203 3000000200 74
г + 3 0000010000 109 0000030000 218 0000020000 82
г + 2 0001000000 110 0003000000 218 0002000000 77
г + 1 0100000000 482 0300000000 232 0200000000 206
Стадия Инвертированные изгибы а-спирали Объем, кБ Инвертированные изгибы спирали 3Ш Объем, кБ Инвертированные изгибы а + 3ю спиралей
г + 9 0000000007 97
г + 8 0000000700 31 0000000006 58
г + 7 0000070000 32 0000000600 60
г + 6 0007000000 33 0000060000 63
г + 5 0700000070 34 0006000060 66 В чистом виде эти варианты не найдены
г + 4 0000007000 34 0600006000 66
г + 3 0000700000 33 0000600000 63
г + 2 0070000000 31 0060000000 60
г + 1 7000000000 35 6000000000 58
меньше, всего по пять вариантов, содержат группы, начинающиеся с 2, 6 и 7. Наконец, группа папок, начинающихся с цифры 4, имела всего два варианта. Наибольшее число файлов было найдено для папок с первыми цифрами 0, 1, 2 и 3 в сочетании со вторыми цифрами 0, 1, 2 и 3. Эти же папки, как видно из табл. 4, имеют наибольшее количество ПФ, о чем можно судить по объему папок. В то же время количество файлов с сочетаниями первых и вторых цифр 4, 6 и 7 на несколько порядков меньше.
2.2. Представительность полученной выборки файлов ПФ
Заслуживает специального рассмотрения вопрос о том, все ли варианты файлов представлены в БД34. В отличие от БД4 [6, 7] в БД34 имеется много файлов, содержащих один — пять ПФ. Это указывает на то, что степень полноты представленных файлов очень высока, хотя точный критерий, к сожалению, предложить не удается. В то же время можно попытаться оценить степень полноты выборки на основе отсутствия пропусков в типичных структурах. В качестве примера в табл. 5 представлены варианты папок изгибов вторичной структуры: a-спиральных, 3ю, двойных Н-связей для прямых a-спиральных + спиралей 3ю, инвертированных a-спиральных и 3ю изгибов, полученные в процессе их последовательной обработки. К сожалению, в чистом виде варианты инвертированных a-спиральных + 3ю изгибов не были найдены.
Из таблицы следует, что для каждого варианта изгибов в выборке БД34 имеются файлы ПФ всех переходных стадий, причем в большом количестве. Больше всего найдено файлов ПФ изгибов a-спирали и спирали 3ю. За ними следуют изгибы с двумя Н-связями, инвертированные изгибы спирали 3io и a-спирали.
2.3. Сопоставление результатов прогнозирования вторичных структур с помощью БД4 и БД34
Алгоритм прогнозирования вторичной структуры, разработанный для БД4 [3, 5], оказался применим для БД34 практически без доработки. Для обсуждения результатов прогнозирования вторичной структуры белка программой PREDICTO @ DESIGNER на основе каждой из баз данных нами был использован файл микробной синтазы (1IGS), фрагменты которого были представлены в табл. 1. Результаты прогнозирования с помощью обеих баз данных приведены в табл. 6.
Из сопоставления табл. 1 и 6 следует, что область инвертированного a-изгиба (56 SER N — 60 LEU O) на основе БД4 прогнозируется как изгиб, начинающийся с переменной 10. Это может вно-
Таблица б Прогнозирование вторичной структуры микробной синтазы (1IGS.pdb) с использованием баз данных пентафрагментов БД4 и БД34
Прогнозируемый фрагмент БД4 БДЗ4
B2 XXX I ILE 0000000000 0000000000
B1 XXX S SER 0000000010 0000000010
BO XXX L LEU 0000001000 0000001030
79 XXX G GLY 0000100000 0000103000
7B XXX V VAL 0010000010 0010300010
77 XXX A ALA 1000001011 1030001012
7б XXX Y TYR 0000101110 3000101210
75 XXX R ARG 0010111010 0010121010
74 XXX E GLU 1011101011 1012101011
73 XXX M MET 1110101111 1210101111
72 XXX F PHE 1010111101 1010111101
71 XXX K LYS 1011110101 1011110101
70 XXX S SER 1111010101 1111010101
б9 XXX Y TYR 1101010101 1101010101
6B XXX E GLU 0101010100 0101010100
б7 XXX I ILE 0101010000 0101010000
66 XXX P PRO 0101000000 0101000000
65 XXX D ASP 0100000000 0100000000
64 XXX R ARG 0000000001 0000000007
63 XXX E GLU 0000000100 0000000700
62 XXX V VAL 0000010000 0000070000
61 XXX D ASP 0001000000 0007000000
60 XXX L LEU 0100000010 0700000070
59 XXX G GLY 0000001000 0000007000
5B XXX S SER 0000100000 0000700000
57 XXX P PRO 0010000000 0070000000
56 XXX S SER 1000000000 7000000000
55 XXX K LYS 0000000000 0000000000
сить путаницу как в интерпретацию этой связи, так и при ее визуализации. В то же время использование обозначения пары переменных 70 однозначно определяет этот тип связи как инвертированный a-изгиб.
Из табл. 1 также следует, что MET 73 O образует две водородные связи: с 77 ALA N (связь i — i + 4) и 76 TYR N (связь i — i + 3), тогда как в табл. 1 имеется только связь i — i + 4, а связь i — i + 3 отсутствует. В процессе прогнозирования на основе БД4 выявляется только связь i — i + 4, тогда как на основе БД34 — две водородные связи у MET 73 O. При этом сначала прогнозируется пара переменных 12, а затем переменные 10 и 30, что полностью соответствует экспериментальным данным.
В целом, как показали многочисленные проверки, использование БД34 существенно увеличивает точность прогнозирования и описания вторичных структур и облегчает проблему правильной их визуализации.
2.4. Перспективы дальнейшего
использования БД34
Как мы убедились (см. табл. 4), несмотря на большое количество найденных файлов с ПФ, большая их часть (более 90 %) находится в файлах, содержащих пять и более ПФ. Этот факт открывает перспективу для разработки подходов и методов создания теоретической базы данных, направленных на расширение исходной базы ПФ. Для ее получения можно использовать только файлы с часто встречающимися ПФ, составляющими обычно около 15—30 % от их общего числа, а редкими файлами — пренебречь. В случае отсутствия редких ПФ в прогнозируемых файлах можно применить методы коррекции.
Большая и разнообразная выборка ПФ, полученных в БД34, может послужить также основой для систематизации вторичных структур с использованием 10-значных обозначений. Предполагается, что такая систематизация может способствовать разработке подходов к созданию теоретической базы данных.
Заключение
В целях качественного улучшения работы компьютерной программы PREDICTO @ DESIGNER предложена база данных пентафрагментов белков (БД34), учитывающая связи NjH...Oj_3 и NjH.-.O^ и другие типы Н-связей во вторичных структурах белков.
Как следует из материала статьи, поставленную цель удалось достигнуть добавлением улучшающих элементов.
Была введена система обозначений различных типов Н-связей во вторичной структуре белка, сохранившая предложенный ранее бинарный подход (отсутствие Н-связи — 0, наличие Н-связи — какая-либо арабская цифра). С помощью компьютерной программы Protein 3D на основе около 3000 PDB-файлов, скачанных из Protein Data Bank, были получены соответствующие текстовые файлы, содержащие двумерное представление вторичной структуры с описанием NjH...Oj_3 и NjH.-.O^ и других типов связей, из которых с использованием ряда мини-программ было получено около 630 000 ПФ. С помощью программы Separator-2, написанной в настоящей работе, ПФ были рассортированы в 12 300 файлов, которые обозначены
10-значными числами, описывающими их Н-связи во вторичной структуре.
В процессе последующей обработки файлы были рассортированы в 38 папок, обозначенных на основе первой пары 10-значных чисел, закрепленных в названиях файлов ПФ. Показано, что полученные папки можно подразделить на семь подгрупп: три подгруппы с семью папками, три подгруппы с пятью и одна подгруппа с двумя папками. Найдено, что более 90 % всех ПФ содержится в файлах, составляющих 15—30 % от суммы полученных файлов. На примере изгибов вторичной структуры показано, что полученная выборка файлов БД34 является вполне представительной и не имеет пробелов. На конкретном примере (фрагменте структуры микробного фермента синтазы) показано, что БД34, как и БД4, правильно предсказывает положение инверсного a-спирального изгиба и a-спирального участка, но дает более точную картину положения водородных связей по сравнению с БД4. Предполагается, что созданная база данных, после детального анализа закономерностей ее структуры, может послужить основой для последующей разработки теоретической базы данных пентафрагментов, способной существенно расширить прогностические возможности этого подхода.
Литература
1. Карасев В. А., Лучинин В. В. Введение в конструирование бионических наносистем. М.: Физматлит, 2009. 463 с.
2. Improving computational protein design by using structure-derived sequence profile / Dai Liang, Yang Yuedong, Rae Kim Hyung, Zhou Yaoqi // Proteins. 2010. Vol. 78. P. 2338-2348.
3. Карасев В. А. Принципы топологического кодирования цепных полимеров и структура белков. СПб.: СПбГЭТУ «ЛЭТИ», 2014. 239 с.
4. Калинин С. Б., Карасев В. А., Лучинин В. В. Компьютерная программа для прогнозирования вторичной структуры белков и конструирования первичной структуры белков с заданной вторичной структурой (Predicto @ Designer). Свидетельство о государственной регистрации программы для ЭВМ в ФС по ИС № 2015622295 от 17.02.2015.
5. Патент РФ № 2425837. Способ прогнозирования вторичной структуры белка / В. А. Карасев, В. В. Лучинин. 2011.
6. Карасев В. А. О принципах построения цепных полимеров. III. Минорные элементы и полная пространственная структура пентафрагментов на гиперкубе B4 // Биотехносфера. 2011. № 1-2. С. 66-74.
7. Karasev V. A., Stefanov V. E. 10-digits boolean system in description of protein pentafragments // Symmetry: Culture and Science. 2013. Vol. 24. P. 275-293.
8. Демченко Е. Л., Карасев В. А. Компьютерная программа «Декодер надмолекулярной структуры белка — Протеин 3Д». СПбГЭУ. РАПО РФ. 05.03.1998. № 980143.