Научная статья на тему 'Алгоритм форматирования баз данных белков для процесса масс-спектрометрической идентификации'

Алгоритм форматирования баз данных белков для процесса масс-спектрометрической идентификации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
109
46
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Стрекалов А. А., Лисица А. В., Гусева Е. В.

Работа посвящена созданию модуля подготовки/ форматирования базы данных белков, который является частью программы идентификации белка по методу пептидного фингерпринта. Данный программный продукт позволяет сократить время и трудоемкость сложного процесса идентификации белка. Представлен разработанный алгоритм модуля.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Стрекалов А. А., Лисица А. В., Гусева Е. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

This work is devoted to the creation of preparation/ structuring module of proteins database which is the part of protein identification program complex basing of peptide fingerprint methods. The module allows to decrease the time and labor intensiveness complex process of protein identification. The developed algorithm of this module is presented.

Текст научной работы на тему «Алгоритм форматирования баз данных белков для процесса масс-спектрометрической идентификации»

11. Ronning P.O., Mikkelsen O., Kolboe J. // in Materials Res. Soc. 12th Int. Conf. Cat. on Zeolites. 1999. P. 1057.

12. Рябин В. А., Остроумов М.А., Свит Т.Ф., Термодинамические свойства веществ. Л.: Химия, 1977. 392 с.

13. Chang CD. // Chem. Eng. Sci. 1980. V. 35. P. 619.

14. Gayubo AG., Aguayo A.T., Alonso A., Atutxa A., Bilbao J. // Cat. Today. 2005. V. 106. P. 112.

15. Терентьев Г. А., Тюков В. М., Смаль Ф. В., Моторные топлива из альтернативных сырьевых ресурсов. М.: Химия, 1989. 272 с.: ил.

16. Вишнецкая М. В., Романовский Б. В. // Нефтехимия. 1992. Т. 32. № 3. С. 195.

УДК: 681.3:002.5:661.12

1 2 1 А.А. Стрекалов , А.В. Лисица , Е.В. Гусева

1 - Российский химико-технологический университет им. Д.И. Менделеева, Москва, Россия

2 - Институт биомедицинской химии им. В.Н. Ореховича РАМН, ГУ НИИ, Москва, Россия

АЛГОРИТМ ФОРМАТИРОВАНИЯ БАЗ ДАННЫХ БЕЛКОВ ДЛЯ ПРОЦЕССА МАСС-СПЕКТРОМЕТРИЧЕСКОЙ ИДЕНТИФИКАЦИИ

This work is devoted to the creation of preparation/ structuring module of proteins database which is the part of protein identification program complex basing of peptide fingerprint methods. The module allows to decrease the time and labor intensiveness complex process of protein identification. The developed algorithm of this module is presented.

Работа посвящена созданию модуля подготовки/ форматирования базы данных белков, который является частью программы идентификации белка по методу пептидного фингерпринта. Данный программный продукт позволяет сократить время и трудоемкость сложного процесса идентификации белка. Представлен разработанный алгоритм модуля.

В настоящее время в России бурно развивается такое новое научное направление как протеомика (от англ. protein - белок). Развитие протеомики и биоинформатики в России ставит новые задачи в усовершенствовании методов исследования.

В протеомике очень важную роль играют методы идентификации белка с помощью масс-спектрометрии. На западе и в США было написано множество программ, которые позволяют идентифицировать белок при помощи масс-спектра, используя имеющуюся базу данных белков [1]. Алгоритмы этих программ прошли много этапов модернизации и оптимизации. К сожалению, эти лицензионные программные продукты имеют достаточно высокую цену для российских пользователей, поэтому актуальной стала задача разработки отечественного программного обеспечения, которое стало бы конкурентом иностранным аналогам.

Важное место в таком программном пакете занимает модуль подготовки/форматирования баз данных белков, который должен иметь очень высокое быстродействие и требовать незначительные затраты оперативной памяти компьютера. Без проведения такой подготовки процесс идентификации невозможен.

В рамках данной работы был разработан модуль подготовки БД белков для процесса масс-спектрометрической идентификации. Данный программный продукт позволяет сократить время и трудоемкость сложного процесса идентификации белка. Данный модуль был разработан на языке программирования С++ в среде C++ Builder 6.0. Он имеет Web-интерфейс, реализованный на языке Perl. Используемые программы при этом - Apache HTTP Server 2.0.xx, Perl Express 2.4.5.

Исходная информация для форматирования представляет собой обычный текстовый файл с определенной структурированной информацией по белкам (далее база данных по белкам). Размер таких файлов варьируется от сотен килобайт до сотен мегабайт. Чтобы избежать бесполезной траты ресурсов системы, необходимо перейти к таким типам переменных, которые наиболее быстро и легко обрабатываются процессором, а именно - числовым переменным. Скорость обработки числовых переменных процессором на несколько порядков выше, чем текстовых. Основная задача - это переход от текстовых переменных базы данных белков к обычным массивам чисел.

В данном модуле был реализован алгоритм, который позволяет получать конечный результат модуля форматирования - пептидную карту всех белков из базы данных, работая в основном с числами и не загружая оперативную память компьютера. При этом процесс протекает очень быстро и почти незаметно для пользователя. Важным моментом остается в данном случае только время выполнения команд программы.

Упрощенная схема алгоритма представлена на рис. 1

Web-интерфейс представляет собой удобное графическое меню, расположенное непосредственно в окне браузера, где пользователь, используя навигацию или кнопки переходов браузера, может совершать какие-либо действия.

Польза и необходимость использования Web-ориентированной оболочки очевидна, так как продуктами такого типа широко пользуются ученые и исследователи по всему миру. Любой человек, где бы они ни находился, может набрать в адресной строке браузера адрес программы и попасть в меню заполнения запросов пользователя. При создании Web-приложения учитывались все необходимые условия и безопасность передачи данных при удаленном присоединении к серверу, а также коррекция и правильность передачи параметров от Web-приложения в модуль форматирования баз данных белков для процесса масс-спектрометрической идентификации.

В модуле форматирования предлагается всего 3 класса: protein, modifications и kusok. Каждый из классов имеет свои свойства, например, класс kusok представляет собой описание образовавшегося в результате действия фермента на белок кусочка пептидной цепи, который имеет свой порядковый номер в пептидной цепи, определенную длину, определенную массу - среднюю или изотопную и т.д.

Таким образом, каждый класс отвечает за конкретное описание каждого элемента модуля форматирования.

Кроме того, из алгоритма видны 4 основные функции модуля, которые называются split_piece, generetic_pieceList, FixedPieceList и VariablePieceList. Каждая из этих функций совершает определенные действия над аминокислотной последовательностью белка. Рассмотрим каждую из них по отдельности.

1. Функция split_piece: она «нарезает» аминокислотную последовательность белка, которая представляет собой набор латинских заглавных букв (например, «KLFHOPVNK.. .»), по определенным аминокислотным остаткам. При этом происходит запись начальной позиции «куска», его длина и масса (средняя или по изотопу) в массив данных. Пока еще не перешел переход к обработке строк, все действия осуществляются только с цифрами - позиции букв в последовательности.

2. Функция generetic_pieceList: входящим параметром является массив данных из функции split_piece. Она формирует структурированный массив, который включает всю информацию из первой функции и, кроме того, моделирует протеолитические пропуски, которые образуются в результате не разрезания цепи аминокислот.

3. Функция FixedPieceList: входящим параметром является массив из функции generetic_pieceList. Моделирует фиксированные модификации белковых последовательностей при помощи классов kusok и modifications и записывает их в массив.

Рис. 1. Алгоритм форматирования базы данных белков для процесса масс-спектрометрической идентификации

4. Последняя функция VariablePieceList: входящим параметром является массив данных из функции FixedPieceList. Моделирует вероятностные модификации и записывает их в массив.

Выполняя все вышеупомянутые функции в цикле, модуль записывает их в файл и, завершив цикл, передает этот файл с расширением «cшfe» в модуль сравнения экспериментальных и теоретических данных.Допустим, у нас есть последовательность MNKOPR. В качестве фермента используется Трипсин. Количество протеолитических недорезов рав-

но 1. Образуется фиксированная модификация - ацетилирование лизина (Acetyl K), и вероятностная модификация - окисление метионина (Oxidation M) (рис. 2).

На первом этапе происходит программное моделирование действия фермента на последовательность. Он «режет» последовательность по остаткам K и R. Таким образом, образуются два пептида MNK и OPR. Здесь же происходит вычисление массы пептидов - 373.18 и 253.16 Да, соответственно.

На следующем этапе моделируются протеолитические недорезы [2]. Их количество равно 1, значит, в цепи произошел один возможный пропуск «разрыва». Таким образом, в список имеющихся пептидов добавляется еще один пептид MNKOPR с массой 626.34 Да. Количество дополнительных пептидов легко вычисляются по следующей формуле: из общего количества пептидов, образовавшихся после моделирования действия фермента, вычитают указанное количество протеолитических недорезов.

На третьем этапе моделируются фиксированные модификации. В данном случае происходит ацетилирование лизина K (Acetyl K). Сам по себе лизин имеет массу 128 Да. После модификации он будет иметь массу 170 Да. Таким образом, во всех пептидах, где есть остаток К, происходит повышение массы на Дт = 179 - 128 = 42Да. В списке поменяли массу только первые 2 пептида: MNK (масса изменилась с 373.18 до 415.18 Да) и MNKOPR (масса изменилась с 626.34 до 668.34 Да). В список пептидов при этом ничего не добавляется.

MNKOPR

I 1

Пептид Масса

MNK 373.18

OPR 253.16

1 2

Пептид Масса

MNK 373.18

MNKOPR 626.34

OPR 253.16

I 3

Пептид Масса MNK 415.18 MNKOPR 668.34 OPR 253.16 ^ 4

Пептид Масса MNK 415.18 MNK 431.18 MNKOPR 668.34 MNKOPR 684.34 OPR 1 253.16

Пептидная карта белка: 415.18, 431.18, 668.34, 684.34, 253.16

Рис. 2. Пример работы алгоритма модуля форматирования баз данных белка на примере одной последовательности

На четвертом, последнем этапе, происходит генерирование вероятностных модификаций. В данном случае, вероятностная модификация - окисленный метионин, его масса 147 Да. Масса простого метионина 131 Да. Поскольку вероятностные модификации образуются с вероятностью меньше 1, то к списку пептидов добавляются такие же

пептиды, только с изменившейся массой на Am = 147 - 131 = 16 Да. К списку добавляются пептиды MNK и MNKOPR (зеленый цвет на рис. 2).

Получившийся список масс пептидов и есть пептидный фингерпринт или пептидная карта белка. Такую же карту получают после проведения масс-спектрометри-ческого анализа образца в лаборатории. Пептидная карта записывается в файл, и модуль переходит к следующему белку для совершения тех же операций. После того как модуль форматирования обработает все белки в базе данных подобным образом и запишет их пептидные карты в файл, формируется список параметров для передачи ядру программы.

Разработанный алгоритм позволяет программно получить пептидные карты всех известных белков из базы данных при тех же лабораторных условиях, в которых проводился опыт. Таким образом, имея экспериментально полученную пептидную карту неизвестного белка, можно идентифицировать белок путем сравнения пептидных карт данного белка с пептидными картами известных белков из базы данных. Такие же данные можно было бы получить, проведя несколько тысяч опытов с каждым известным белком, что заняло бы не один месяц непрерывной работы. Алгоритм позволяет это сделать за секунды. Например, база данных, состоящая из 3000 белков, форматируется за 15 секунд. Такая высокая скорость была достигнута почти полным отказом в программе от строковых переменных и переходом к числовым. Кроме того, в модуле были реализованы принципы объектно-ориентированного программирования.

Этот модуль является частью одной будущей программы для идентификации белка MSA, которая позволит распознать белок с высокой скоростью и точностью. Это даст в будущем возможность автоматизации процесса построения белковых карт человека, которые уже широко применяются в медицине для диагностики и лечении заболеваний.

Список литературы

1. Cottrell John Database Searching for Protein Identification and Characterization // 2005. - P. 3-6.

2. Lim H., Eng. J., Yates J.R.3r, Tollaksen S.L., Giometti C.S., Holden J.F., Adams M.W., Reich C.I., Olsen G.J., Hays L.G. Identification of 2D-gel proteins: a comprasion of MALDI/TOF peptide mass mapping to ц LC-ESI tandem mass spectrometry // J.Am.Soc. Mass Spectrom.,14 2003. - P. 957-970.

УДК: 663.1: 576.8.095.6

ИВ. Казеев, НИ. Воронова, ЕВ. Гусева, Н.В. Меньшутина

Российский химико-технологический университет им. Д.И. Менделеева, Москва, Россия

ИЗУЧЕНИЕ КИНЕТИКИ СИНТЕЗА РЕКОМБИНАНТНОГО А2-ИНТЕРФЕРОНА В КЛЕТКАХ ESCHERICHIA COLI

The influence of aeration and agitation on production of rhIFN-a has been studied. The analyzer ProLine was applied for the estimation of respiratory metabolism of culture. This equipment allows to measure the concentration of waste gases from fermenter. On the basis of experimental data the general direction for process bee determined.

Были проведены экспериментальные исследования процесса получения альфа-2 интерферона при помощи E.coli при различных условиях аэрации и перемешивания. Для оценки дыхательного метаболизма штамм-продуцента был использован анализатор ProLine, позволяющий измерять концентрации отходящих газов из ферментера. На основе анализа экспериментальных данных было определено основное направление оптимизации процесса (высокая скорость перемешивания при лимитировании по кислороду).

i Надоели баннеры? Вы всегда можете отключить рекламу.