ISSN 0868-5886
НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2006, том 16, № 3, c. 107-112
. МАСС-СПЕКТРОМЕТРИЯ ДЛЯ БИОТЕХНОЛОГИИ. ИНТЕРПРЕТАЦИЯ ДАННЫХ, МЕТОДОЛОГИЯ, ПРИМЕНЕНИЕ
УДК 621.384.668.8: 577.112.6
© В. В. Макаров, Я. И. Лютвинский, А. Н. Веренчиков
АЛГОРИТМ 1РЕХ-2Б ДЛЯ ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ О КОМПОНЕНТАХ ПРОБЫ ИЗ МАССИВОВ ДАННЫХ (ВЭЖХ-МС)-ЭКСПЕРИМЕНТОВ ПРОТЕОМИКИ
Описан алгоритм обработки хромато-масс-спектрометрических данных с целью извлечения информации о молекулярных массах, времени хроматографического элюирования и интенсивности сигналов компонентов пробы. Алгоритм адаптирован для обработки масс-спектров многокомпонентных смесей пептидов, характерных для экспериментов протеомики. Описан исследовательский комплекс программ, в котором реализован данный алгоритм. Приводятся результаты тестирования алгоритма на масс-спектрометрических данных, полученных в модельном эксперименте по идентификации белка.
ВВЕДЕНИЕ
Особенностью масс-спектрометрических экспериментов протеомики является высокая сложность анализируемых смесей (порядка 105-106 компонентов с содержанием в диапазоне от 1015 до 10-4 М). Поэтому перед проведением масс-спектрометрического анализа проба, как правило, подвергается предварительному фракционированию и разделению методами двумерного гель-электрофореза и (или) высокоэффективной жидкостной хроматографии.
Перспективные разработки в области масс-спек-трометрической техники нацелены на создание приборных комплексов с многоступенчатым разделением пробы, на повышение скорости разделения, разрешающей способности и чувствительности масс-спектрометрического анализа. Повышение этих характеристик сопряжено с ростом потоков экспериментальных данных, что в свою очередь требует повышения производительности методов первичной обработки и интерпретации масс-спектрометрических данных. Выполнение этих операций должно производиться за время, сопоставимое с продолжительностью самого эксперимента.
Ключевой задачей обработки масс-спектро-метрических данных является извлечение аналитически значимой информации о компонентах пробы, на основе которой производится химико-биологическая интерпретация данных. Существующие алгоритмы либо встроены в коммерческие продукты и недоступны, либо доступны, но недостаточно эффективны, т. е. обладают низкой производительностью и плохо приспособлены для автоматической обработки масс-спектров многокомпонентных проб. Актуальной является разработка нового класса алгоритмов, обладающих высокой производительностью и позволяющих автоматизировать процесс обработки данных.
Важной инженерной задачей является создание программной среды для разработки и тестирования алгоритмов, в которой должны быть эффективно организованы хранение и доступ к масс-спектрометрическим данным, а также их визуализация.
В настоящей работе описан алгоритм IPEX-2D, предназначенный для обработки массива хромато-масс-спектрометрических данных с целью извлечения аналитически значимой информации о компонентах пробы. Приводится описание комплекса программ "Масс-процессор", в котором реализован данный алгоритм.
АЛГОРИТМ
Для решения задачи извлечения аналитически значимой информации из масс-спектра смеси пептидов был разработан алгоритм IPEX (сокращение от "Isotopic Pattern Extraction" — извлечение изотопных мультиплетов), подробно описанный в наших предыдущих работах [1-3]. Алгоритм IPEX-2D является модификацией алгоритма IPEX для массива данных (ВЭЖХ-МС)-эксперимента, задача обработки которого несколько отличается от обработки одиночного масс-спектра.
При (ВЭЖХ-МС)-эксперименте производится последовательная регистрация масс-спектров в процессе хроматографического элюирования компонентов пробы. Период регистрации Atch выбирается с таким расчетом, чтобы за время выхода хроматографического пика компонента пробы было зарегистрировано как минимум 7-10 масс-спектров. Это позволяет фиксировать форму хромато-графического пика данного компонента пробы с точностью, достаточной для определения положения центроида (центра тяжести пика).
Сигнал каждого из компонентов пробы распределен между несколькими последовательно зарегистрированными масс-спектрами, поэтому перед обработкой алгоритмом IPEX производится суммирование фрагментов сигнала, относящихся к каждому из компонентов пробы. Это позволяет повысить соотношение "сигнал/шум" и улучшить качество масс-спектрометрических данных.
Методы избирательного суммирования хрома-то-масс-спектрометрических данных разрабатывались в работах [4, 5] в приложении к приборным комплексам "газовый хроматограф—масс-спектрометр". Непосредственное применение данных методов для обработки массива (ВЭЖХ-МС)-данных затруднено необходимостью учета изотопных и зарядовых распределений ионов. Для обработки таких данных более эффективным является подход, предложенный в [6] для решения аналогичной задачи и основанный на "скользящем суммировании" массива масс-спектров.
На рис. 1 представлена схема обработки массива хромато-масс-спектрометрических данных. На начальном шаге производится расчет суммы масс-спектров, зарегистрированных на промежутке времени, равном времени элюирования хрома-тографического пика = Тл . Время Тл может быть рассчитано на основе характеристик используемого хроматографа и характеристик вещества, либо известно из предыдущих экспериментов. Далее осуществляется последовательная обработка массива масс-спектров £, на каждом шаге которой к сумме [7] добавляется масс-спектр, соот-
ветствующий времени элюирования ¿сЬ = + +Дtch • (7 +1), и вычитается масс-спектр времени элюирования 1сЬ = Д1сЬ • 7 .
Каждый из суммарных масс-спектров [7] обрабатывается алгоритмом IPEX (шаг 2, рис. 1). Результатом обработки является список параметров компонентов пробы, элюированных в промежутке времени (Д1сЬ • 7 ; Д1сЬ • 7 + ). Данная информация включается в массив предварительных результатов обработки данных С .
Поскольку каждый из выделенных компонентов массива С [7] может присутствовать в результатах обработки предшествующих и последующих суммарных масс-спектров, массив С* содержит многократно дублированные результаты по каждому из компонентов пробы. Для устранения этого дублирования на массиве С* решается задача кластерного анализа, в результате чего дублирующие друг друга элементы группируются в кластеры. Кластеры массива С* имеют характер цепочек, элементы которых распределены по времени хро-матографического выхода и сгруппированы по молекулярной массе. Для объединения компонентов в кластеры применяется невзвешенный цен-троидный метод, согласно которому компонент
С [7] с молекулярной массой т * присоединя-
С [7]
ется к кластеру, расстояние до центра которого
тС - тс\ 7]
имеет минимальную величину.
А
-1±ь
Б
£
- ^
о
Б л1±
^ c а.е.м.
Шаг 1 Шаг 2 Шаг 3
Рис. 1. Схема обработки массива хромато-масс-спектрометрических данных алгоритмом IPEX-2D
т, а. е. м.
АЛГОРИТМ 1РЕХ-2Б ДЛЯ ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ.
109
Рис. 2. Структурная схема комплекса программ
Присоединение компонента С [1] к кластеру С[3] производится в том случае, если разность соответствующих им молекулярных масс не выходит за пределы, определяемые разрешающей способностью масс-спектрометра Я, а разность времени элюирования меньше установленного значения Т__ :
тс-[1] - тС[3]
т_
С [г]
Я
(1)
< Тт
После присоединения очередного компонента положение центра кластера (тС, 1С) пересчитыва-ется для учета параметров нового компонента:
(тС )п =
тС • 'С + тС-{1 ] • 1С'У] 1С + 'с-1 ]
(С )п = ^ • • ^] , ('С )п = 'С + '
'С + 'с*[ 1]
С*[1 ] :
где индекс п обозначает обновленные значения параметров кластера.
В случае, если условие (1) не выполняется ни для одного из существующих кластеров, результат С [1] выделяется в отдельный кластер.
По завершении обработки кластеры тестируют-
ся на предмет достоверности. Кластер признается достоверным, если его элементы покрывают диапазон времени элюирования шириной не менее ТЕ/ 2, в противном случае кластер отбраковывается. Это позволяет исключить кластеры, состоящие из неправдоподобно малого количества элементов, подавляющее большинство которых являются ложноположительными результатами.
После выполнения этих операций массив С содержит только достоверные кластеры, соответствующие сигналам компонентов пробы. Молекулярная масса и среднее время элюирования каждого из компонентов пробы вычисляются как средневзвешенные значения на множестве элементов кластера:
X тсГ,]'1
тС [1 ] =
С [3]еС[1-]
[ 3 ] С [3 ]
2 'с,]
С [3]еС[г]
2 Счл'с
(С [г ]
С [3]еС[г]
[ 3 ] С*[ 3 ]
2 '
С [3 ]еС[1 ]
С [ 3 ]
Суммарная интенсивность сигнала ионов компонента пробы определяется по элементу кластера с максимальной интенсивностью:
'с[ 1 ] = *тах ('с*[ ]).
[ ] С [3 ]ес[1 ] с [3]
РЕАЛИЗАЦИЯ АЛГОРИТМА
Для реализации и тестирования алгоритма IPEX-2D и других алгоритмов обработки масс-спектрометрических данных был разработан исследовательский комплекс программ "Масс-процессор". Создание данного комплекса программ позволило унифицировать форматы хранения и процедуры доступа к хромато-масс-спектрометрическим данным, а также реализовать инструменты их визуализации.
В состав комплекса (рис. 2) входят следующие функциональные блоки.
1. Реляционная база данных формата Microsoft SQL Server для хранения хромато-масс-спектрометрических данных и результатов их обработки.
2. Программа "Масс-процессор", в которой реализован графический интерфейс пользователя, средства доступа к данным, инструменты обработки данных, отображения и сохранения результатов.
3. Библиотеки методов обработки хромато-
масс-спектрометрических данных.
4. Набор вспомогательных модулей для импортирования данных, полученных на оборудовании различных производителей.
Модульная структура графического интерфейса позволяет напрямую связать алгоритмы обработки данных с инструментами визуализации, обеспечить гибкость и расширяемость комплекса программ. Графический интерфейс программы "Масс-процессор" представлен на рис. 3. Доступ к базе экспериментальных данных организован в окне 1 в виде структуры. Визуализация масс-спектра осуществляется на одномерной диаграмме 2, в окне которой реализован стандартный набор инструментов масштабирования и выбора отображаемого диапазона шкалы. Для визуализации массива хромато-масс-спектрометрических данных разработан инструмент двумерной растровой диаграммы 3, которая строится в осях "Отношение массы иона к заряду—Время хроматографического элюирования", где логарифм интенсивности сигнала кодируется оттенками серого цвета различной плотности.
Рис. 3. Графический интерфейс программы "Масс-процессор". Пояснение в тексте
АЛГОРИТМ IPEX-2D ДЛЯ ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ... 111
Рис. 4. Фрагменты массива хромато-масс-спектрометрических данных, представленного на рис. 3, и соответствующие суммарные масс-спектры
В графическом интерфейсе программы "Масс-процессор" на рис. 3 представлен массив хромато-масс-спектрометрических данных гидролизата модельной смеси белков (bovine serum albumin, bovin thyroglobulin, chicken ovalbumin, horse ferritin, fructose-bisphosfate aldolase, l-lactate dehydrogenase). На рис. 4 приведены результаты обработки данных алгоритмом IPEX-2D, иллюстрирующие способность алгоритма к выделению информации о компонентах пробы, сигналы которых претерпевают наложения в силу близких значений времени хроматографического элюирования и отношения массы к заряду. При визуальном анализе масс-спектров правильное выделение компонентов с молекулярными массами 1474.678, 1475.681, 1832.844, 1221.545 а.е.м. представляет значительные трудности по причине наложения спектральных пиков. При использовании алгоритма IPEX-2D данные компоненты были успешно выделены. Для каждого из перечисленных компонентов были обнаружены изотопные мультиплеты ионов нескольких зарядовых состояний, что свидетельствует о высокой достоверности выделения.
ИСПОЛЬЗОВАНИЕ АЛГОРИТМА IPEX-2D В ЭКСПЕРИМЕНТЕ ПО ИДЕНТИФИКАЦИИ БЕЛКА
Для тестирования алгоритма IPEX-2D был поставлен модельный эксперимент по идентификации белка методом пептидного массового картирования. В качестве модельного белка был выбран бычий сывороточный альбумин (БСА), широко
используемый для тестирования аналитических характеристик масс-спектрометрических приборов.
Препарат БСА (Sigma, США) был гидролизо-ван трипсином, затем полученная смесь пептидов анализировалась методом ВЭЖХ-МС. Масс-спек-трометрический анализ проводился на времяпро-летном масс-спектрометре МХ-5303 с источником ионов "электроспрей" (разработка Института аналитического приборостроения РАН). Предварительное разделение пробы производилось на жидкостном хроматографе "Милихром А-02" (производства ЗАО Институт хроматографии "Эконова", г. Новосибирск), работающем в режиме прямой стыковки с источником ионов.
В результате масс-спектрометрического эксперимента был получен массив из 569 масс-спектров, регистрация которых производилась в течение 21 мин с периодом около 2 с.
Массив экспериментальных данных был обработан алгоритмом IPEX-2D. Список из 367 компонентов пробы, полученный в результате обработки, был направлен в программу Mascot, доступную в сети Интернет по адресу http://www.matrix-science.com для интерпретации по методу пептидного массового картирования. Проба была верно интерпретирована как гидролизат БСА. Данный вариант интерпретации оценен наивысшим значением рейтинга, в то время как оценки прочих гипотез лежат ниже порога достоверности, вычисляемого программой Mascot.
Пептиды, обнаруженные в пробе, в совокупности покрывают 71 % аминокислотной последова-
тельности белка, что является высоким показателем для метода пептидного массового картирования. Высокая достоверность идентификации белка свидетельствует о качественном решении задачи извлечения аналитически значимой информации из масс-спектрометрических данных.
ЗАКЛЮЧЕНИЕ
Представленный алгоритм позволяет автоматизировать обработку хромато-масс-спектрометри-ческих данных экспериментов протеомики. Высокая производительность алгоритма позволяет использовать его в программном обеспечении масс-спектрометрических приборов, разрабатываемых в настоящее время. Способность алгоритма к выделению информации о компонентах пробы, сигналы которых претерпевают наложения, позволяет успешно анализировать смеси с большим количеством компонентов, что особенно актуально для задач протеомики.
Авторы выражают благодарность Александру Подтележникову, Екатерине Подольской и Александру Новикову за предоставленные данные (ВЭЖХ-МС)-экспериментов.
СПИСОК ЛИТЕРАТУРЫ
1. Макаров В.В., Лютвинский Я.И., Савельев С.К., Веренчиков А.Н., Краснов Н.В. Алгоритм извлечения аналитически значимой ин-
формации из масс-спектрометрических данных экспериментов протеомики // Научное приборостроение. 2006. Т. 16, № 2. С. 92-100.
2. Makarov V.V., Saveliev S.K. Data mining method for electrospray mass spectra of peptide mixtures // Proceedings of SPIE. 2005. V. 6251. P. 355-362.
3. Макаров В.В., Самокиш А.В., Лютвинский Я.И. Метод извлечения значимой информации из масс-спектров пептидов // Научное приборостроение. 2004. Т. 14, № 2. С. 96-104.
4. Biller J.E., Biemann K. Reconstructed мass Spectra: A novel approach for the utilization of gas chromatograph-mass spectrometer data // Analytical Letters. 1974. V. 7, N 7. P. 515-528.
5. Dromey R.G., Stefik M.J., Rindfleisch T.C., Duf-field A.M. Extraction of mass spectra free of background and neighboring component contributions from gas chromatography/mass spectrometry data // Analytical Chemistry. 1976. V. 48, N 9. P. 13681372.
6. Pearcy J.O., Lee T.D. MoWeD, a computer program to rapidly deconvolute low resolution elec-trospray liquid chromatography/mass spectrome-try runs to determine component molecular weights // J. Am. Soc. Mass Spectrom. 2001. V.12, N 5. P. 599-606.
Институт аналитического приборостроения РАН, Санкт-Петербург
Материал поступил в редакцию 30.05.2006.
IPEX-2D: DATA MINING ALGORITHM FOR MASS SPECTRA OF LC-MS EXPERIMENT
V. V. Makarov, Ya. I. Lutvinsky, A. N. Verentchikov
Institute for Analytical Instrumentation RAS, Saint-Petersburg
An algorithm is described for extraction of analytically significant information from spectra of LC-MS experiment. The algorithm is adjusted for mass spectra of complex peptide mixtures, which are typical for pro-teomics experiments. The algorithm has been implemented in the research-grade software and tested in the example protein identification.