Научная статья на тему 'Сравнительный анализ связанных рядов: длин ортологичных белков и их приращений'

Сравнительный анализ связанных рядов: длин ортологичных белков и их приращений Текст научной статьи по специальности «Математика»

CC BY
78
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОРТОЛОГИЧНЫЕ БЕЛКИ / БАЗИСНЫЙ БЕЛОК / СВЯЗАННЫЕ РЯДЫ / ДЛИНА БЕЛКА / КЛАСТЕРНЫЙ АНАЛИЗ / МЕТОД ГЛАВНЫХ КОМПОНЕНТ / КОРРЕЛЯЦИЯ / РЕГРЕССИЯ

Аннотация научной статьи по математике, автор научной работы — Истомина Светлана Николаевна

Работа посвящена изучению длин ортологичных белков четырех организмов, один из которых базисный. Параллельно проводился анализ приращений длин белков относительно длин базисного. Представление данных в виде матриц, из рядов длин упорядоченных по базисному белку со строками по четыре, позволило выделить кластеры длин с различным свойствами рядов по кластерам, для обоснования этого использованы также метод главных компонент и корреляционный анализ.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Истомина Светлана Николаевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Сравнительный анализ связанных рядов: длин ортологичных белков и их приращений»

Истомина С.Н.

Московский авиационный институт (национальный исследовательский университет), Москва, Оршанская ул., д. 3, к.х.н., доцент кафедры Прикладная математика, информационные технологии

и электротехника (495)-141-95-57, pm@mati.ru

СРАВНИТЕЛЬНЫЙ АНАЛИЗ СВЯЗАННЫХ РЯДОВ: ДЛИН ОРТОЛОГИЧНЫХ

БЕЛКОВ И ИХ ПРИРАЩЕНИЙ

КЛЮЧЕВЫЕ СЛОВА

Ортологичные белки, базисный белок, связанные ряды, длина белка, кластерный анализ, метод главных компонент, корреляция, регрессия.

АННОТАЦИЯ

Работа посвящена изучению длин ортологичных белков четырех организмов, один из которых базисный. Параллельно проводился анализ приращений длин белков относительно длин базисного. Представление данных в виде матриц, из рядов длин упорядоченных по базисному белку со строками по четыре, позволило выделить кластеры длин с различным свойствами рядов по кластерам, для обоснования этого использованы также метод главных компонент и корреляционный анализ.

В работе [1] приведены значения длин для большого числа разных ортологичных генов -белков (от 260 до 350 значений каждый ряд) у четырех организмов, один из которых является базисным. Но исследование проводилось отдельно для пар рядов приращений длин белков относительно базисного.

В данной работе все необходимые в ходе исследования расчеты проводились при одновременном изучении четырёх рядов длин ортологичных белков аналогично связанным рядам динамики. В качестве связующего рассматривался ряд из длин белков базисного организма S.

Методы статистической обработки анализа многомерных данных применялись для определения взаимосвязей этих рядов для четырёх организмов 5, Т, Р и N. Изучаются группы, составленные из четвёрок длин или их приращений, соответствующих белкам из 5, которые обозначаются соответственно А1 и А2.

Э

Рисунок 1. Гистограмма частот длин ортологичных белков 3 1. Результаты кластерного анализа

Распределение длин ортологичных белков для каждого отдельного ряда с большой

о-

,00

200,00 400,00 600,00 800,00 1000,00 1200,00

достоверностью можно считать нормальным. Например, на рисунках 1 и 2 приведены

Рисунок 2. Гистограмма частот приращений длин ряда ^

Статистические характеристики значений длин белков и их приращений для рассматриваемых рядов, представлены в таблице 1.

Таблица 1. Статистические характеристики значений длин белков и их приращений для рассматриваемых

рядов

Ряд Среднее значение Среднее квадратическое отклонение Значение дисперсии

S 393,3 228,41 52174,34

T 575,8 372,87 139034,31

N 521,6 358,66 128639,38

P 504,3 348,85 121698,33

^ 182,5 229,27 52567,33

P-S 128,3 200,04 40016,89

N-S 110,9 175,91 30945,64

Таким образом, рассматриваются две группы с одинаковым числом наблюдений длин и их приращений. Однородность значений каждой группы (4 столбца по 198 значений) проверена по критерию Кочрена, гипотеза об их однородности принимается.

Если рассматривать ряды каждой группы, как связанные через базисный ряд, упорядоченный по убыванию значений, то порядок значений трех рядов зависит от порядка базисного ряда. Отсюда возникает предположение о возможном наличии для четвёрок белков, которые мы будем называть объектами исследования, разбиения группы на кластеры.

Для проверки такого предположения проведён кластерный анализ, чтобы с помощью группировки объектов и расчётов расстояний между объектами, выделить компактные и удалённые кластеры.

В качестве меры расстояния использовали квадратичную евклидову метрику, способствующую увеличению контрастности кластеров, и наиболее распространенный иерархический агломерационный метод.

Чтобы определить оптимальное число кластеров, необходимо определить, в какой момент мера расстояния между двумя кластерами увеличивается скачкообразно. Используя программный

пакет SPSS, мы по шагам получили обзорные таблицы агломерации и дендрограммы, отображающие процесс слияния и образования кластеров.

В результате для первой группы А1 длин белков получены 3 кластера, а для второй группы А2 длин приращений 2 кластера.

Принадлежность объекта к конкретному кластеру выясняли методом k-средних кластерного анализа, основанного на процедуре оптимального разбиения начальных данных на известное число кластеров. Эта процедура перемещает объекты из одного кластера в другой, чтобы минимизировать внутрикластерную и максимизировать межкластерную дисперсию.

Распределение по кластерам объектов группы А.1 показано в таблице 2.

Таким образом, группа А1 образует 3 кластера: первый из 158 строк - белки от самых малых до средних и больших, второй из 37 строк - белки, длины которых заметно больше средних и третий кластер из трех строк значений длин.

Таблица 2. Распределение по кластерам объектов группы А.1

Номер кластера Количество объектов Номера объектов в группе А1

1. 158 Номера объектов, не вошедшие в кластеры 2 и 3

2. 37 3,4,5,6, 8,9, 11, 14, 16, 19, 21, 23, 24, 27,29, 37, 46, 49, 52, 54, 62, 66, 84, 86, 100, 102, 103, 104, 107,108, 117, 118, 132, 150, 156, 191, 195

3. 37 1, 2, 10

Для группы А.2 тем же методом было получено два кластера: один кластер из 195 строк, а другой из 3 строк, тех же, что и в третьем кластере таблицы 4. Далее этот кластер не анализировался из-за малого числа объектов. ш

Отметим, что три объекта, выделенные в малочисленный кластер - одни и те же в матрицах А.1 и А.2, и выделяются также после ортогонального преобразования методом главных компонент.

2. Результаты метода главных компонент

Для проверки результатов кластерного анализа использован метод главных компонент на основе ортогонального преобразования исходных данных. Его результаты представляют упорядочение объектов, которое задаётся коэффициентами линейных комбинаций - главными компонентами.

Для расчётов использовался тот же пакет IBM SPSS Statistics.

В результате, как для рядов длин ортологичных белков, так и для рядов их приращений получена только одна главная компонента - одна линейная комбинация, характеризующая связь длин исчерпывающим образом. Эта компонента объясняет примерно 91% совокупной

дисперсии для длин белков и около 68% совокупной дисперсии для приращений белков.

Эта главная компонента имеют вид для длин белков:

Y=0,933*S+0,954*T+0,968*N+0,965*P

и для приращений длин:

Y =0,618*S+0,890*(T-S)+0,898*(N-S)+0,859*(P-S).

Отметим, что в первом случае коэффициенты всех четырёх рядов приблизительно равны, а во втором случае коэффициенты приращений также приблизительно равны.

Таблица 3. Диапазоны значений главных компонент для рядов длин исходных белков сучетом кластеризации

Кластер Количество наблюдений Минимальное значение Максимальное значение Среднее значение

1 158 281,16 3106,48 1441,8803

2 37 1958,11 5172,01 3459,8920

3 3 6511,72 7467,00 7105,965

Эти результаты можно интерпретировать, в частности, как оценку специфичности длин ортологичных белков в разных кластерах, что выражается чёткой отделённостью значений главной компоненты каждого кластера, см. Таблицу 3 для группы А1.

Отметим, что эти результаты хорошо согласуются с наличием кластеров, которым в качестве совокупной характеристики входящих в них четверок, можно присвоить указанные средние значения главной компоненты.

3. Результаты корреляционного анализа длин рядов по кластерам

Корреляционный анализ проведен для рядов длин и их приращений, указанных в таблицах А1, А2, как без учёта разделения на кластеры, так и отдельно по двум первым кластерам.

Для таблицы А1 получены весьма высокие значения парных коэффициентов корреляции и определена значимая автокорреляция рядов длин. Авторегрессия этих рядов ожидаемо оказалась значимой, что, как правило, означает наличие ложной корреляции (из-за общей связи с базисным рядом). После удаления авторегрессии определены уточнённые парные коэффициенты корреляции и получены линейные регрессии, адекватно описывающие связи рядов по кластерам, которые приведены на рис. 3-6.

Связь длин белка T с длинами белка 5 по каждому из двух кластеров (номер в индексе) описывается уравнениями регрессии: Т = 1,015 + 130,81 и Т2 = 0,605 + 588,14. Гипотеза об адекватности этих уравнений не отвергается по критерию Фишера: Fl = 146 при п = 158 и F2 = 10,58 при П2 =37.

0 200 400 600 800 1000 1200 1400

S

Рисунок 3. Графики уравнений регрессии по двум кластерам длин белков Т и 5 и точки с координатами,

равными значениям длин этих белков На рисунке 3 представлены графики этих уравнений и эмпирические точки, координаты которых равны длинам соответствующих белков.

Отметим, что угловой коэффициент прямой по первому кластеру примерно равен 1, то есть в среднем длины белков Т и базисного ряда отличаются на одну и ту же величину: величину свободного члена уравнения.

1600 1400 1200 1000 800 600 400 200 0

* • • * ■ >

• 1 •

• >>

• • •ЛУ ЧГ" •

* шяг^ Г

1 • ^ г* •

200

400

600

800

1000

1200

1.400

Рисунок 4. Графики уравнений регрессии по кластерам длин белков Р и 5 и точки с координатами, равными

значениям длин этих белков По второму кластеру при почти втрое большем свободном члене имеем угловой коэффициент регрессии заметно меньше 1. Это может означать, что во втором кластере белки

более длинные, но имеют меньший относительный прирост.

Для следующего организма Р связь длин с длинами белка 5 по каждому из двух кластеров описывается уравнениями регрессии: Рг = 1,055 + 44,35 и Р2 = 0,81^ + 391,88. Гипотеза об адекватности этих уравнений не отвергается по критерию Фишера: Fl = 223,75 при щ = 158 и F2 = 32,08 при П2 =37.

На рисунке 4 представлены графики этих уравнений и эмпирические точки, координаты которых равны длинам соответствующих белков аналогично рисунку 1.

По рисунку 4 видно, что изменение длин белка Р подобно изменению длин белка Т.

Изменение длин белков организма N по сравнению с длинами базисного организма имеет примерно ту же картину, что видно на рисунке.

1800 1600 1400 1200 1000 2 800 600 400 200 0

0 200 400 600 800 1000 1200 1400

S

Рисунок 5. Графики уравнений регрессии по кластерам длин белков N и 5 и точки с координатами, равными

значениям длин этих белков

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1400 1200 1000 800 600 400 200 0

0 200 400 600 800 1000 1200 1400

Рисунок 6. Графики регрессий, описывающих зависимости Т(5), Р(5), N(5) в одной системе координат

Для наглядности на рис. 6 приведены графики проведённых выше регрессий в одной системе координат.

На рисунке 6 показана биссектриса первого координатного угла, на которой находятся

» • • • * \ к

• • • • ы 9Г- г

• А

точки с длиной белков базисного организма.

Чтобы показать результаты корреляционного анализа длин для пар ортологичных белков между собой приведем подробно регрессию длин рядов T и N по каждому из двух кластеров: Т = 0,98Ы + 64,45 и T2 = 0,76N + 262,39. Гипотеза об адекватности этих уравнений не отвергается по критерию Фишера: Fl = 54,27 при П1 = 158 и F2 = 10,16 при П2 =37.

На рисунке 7 представлены графики этих уравнений и эмпирические точки, координаты которых равны длинам соответствующих белков.

N

Рисунок 7. Графики уравнений регрессии рядов N и T и точки с координатами, равными значениям длин этих

белков

Отметим, что между парами длин ортологичных белков характер связи несколько отличается от их связей с длинами базисного белка, например, отличается от предыдущих меньшим разрывом значений между кластерами.

Для таблицы А2 корреляционный анализ приращений длин ортологичных белков не обнаружил автокорреляции и значения парных коэффициентов корреляции не имеют ложной корреляции. Результаты анализа, как и уравнения регрессии оказались вполне соответствующими результатам, полученным в работе [1] при анализе приращений длин ортологичных белков взятых парами, причем множества таких пар для организмов Т и N было гораздо больше. Поэтому эти результаты мы не приводим в данной работе.

Работа выполнена за счёт гранта Российского научного фонда (проект № 14-50-00150).

Литература

1. A.V. Seliverstov, O.A. Zverkov, S.N. Istomina, S.A. Pirogov, P.S. Kitsis, Comparative Analysis of Apicoplast-Targeted Protein

Extension Lengths in Apicomplexan Parasites, BioMed Research International, 2015, Vol. 2015, Article ID 452958.

i Надоели баннеры? Вы всегда можете отключить рекламу.