Научная статья на тему 'О классификации живых организмов на основе характеристик строя их ДНК'

О классификации живых организмов на основе характеристик строя их ДНК Текст научной статьи по специальности «Математика»

CC BY
106
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О классификации живых организмов на основе характеристик строя их ДНК»

УДК 004.8 : 575

Н.Н. Поздниченко

Омский государственный технический университет, г. Омск

О КЛАССИФИКАЦИИ ЖИВЫХ ОРГАНИЗМОВ НА ОСНОВЕ ХАРАКТЕРИСТИК СТРОЯ ИХ ДНК

В работе произведены таксономии 29 живых организмов по характеристикам их ДНК, взятых в разных представлениях.

Использование при таксономии непосредственно символьных последовательностей, отображающих ДНК, затруднено неопределенностью построения соответствующего им признакового пространства. В связи с этим для классификации живых организмов используются разного рода характеристики, вычисляемые на основе знакового представления нуклеотидных цепей. Совокупность этих характеристик составляет пространство информативных признаков, на котором строится классификация объектов.

В настоящее время практически отсутствуют адекватные средства формального анализа структуры нуклеотидных последовательностей, которая, по нашему мнению, наиболее естественно отображается оригинальным порядком следования элементов, представляющим организованное целое.

В дальнейшем будем называть строем цепи событий (сообщений, знаков и т.д.) особого рода кортеж (упорядоченное множество), в котором каждому компоненту данной цепи поставлено в соответствие натуральное число, причем идентичные по выбранному признаку компоненты отображены одним и тем же числом. Самый первый компонент такого кортежа - единица, а все остальные первые встречные разные натуральные числа (представляющие вместе с единицей алфавит строя) возрастают на единицу. В соответствии с теоретикомножественным определением вектора назовем такой специфически организованный кортеж «вектор строя» [1].

Ниже, в первой строке таблицы 1, приведена произвольная знаковая последовательность нуклеотидов; во второй строке - полный строй этой цепи; в третьей строке выделена однородная цепь цитозина; в четвертой строке представлена соответствующая однородная цепь строя.

Определим значения «интервалов» Д/г- между соседними знаками в выделенной однородной цепи (А21=5; Д22=1; А2э=4; Д24=1; Л25=1).

Таблица 1

О с Т А А А с с Т А О с с с

1 2 3 4 4 4 2 2 3 4 1 2 2 2

- с - - - - с с - - - с с с

- 2 - - - - 2 2 - - - 2 2 2

Для описания строя полной неоднородной знаковой цепи интервалы выделяются для всех у-ых однородных цепей (где у = 1, 2, ..т, где т - мощность алфавита знаковой цепи; в случае нуклеотидных цепей т = 4). Значения этих интервалов используются для вычисления разнообразных характеристик строя, представленных в [1]. В данной работе интервалы используются для вычисления среднего геометрического интервала, средней удалённости и ре-

272

гулярности одинаковых компонентов в знаковой цепи, которые определены соответственно в виде

лГ

П

/

g = log Ag r = Ag D

где V - объем цепи, О - число описательных информаций (по Мазуру [2]), определяемые в виде

V = ПП A,

D = П

n n

j=1

i=1

j=1n j

где ц - число вхожденийу-го компонента. Кроме того, используется характеристика глубины цепи С=1о§ V.

В настоящее время при построении классификаций живых организмов всё чаще используются филогенетические деревья, основанные на сравнении нуклеотидных последовательностей и отражающие родственные связи организмов, вместо фенотипических классификаций, основанных на внешних признаках организмов. При этом для построения автоматических классификаций требуются средства для сравнения генетических последовательностей и нахождения «расстояния» между ними.

В настоящее время широко распространены три способа сравнения и соответствующие им меры сходства: статистические методы, информационно-энтропийные и редакционного расстояния. Как отмечено выше в нашей работе используются числовые характеристики взаимного расположения элементов в цепи и сформулированные на их основе меры сходства этих цепей, которые учитывают удалённость, регулярность и глубину.

Для таксономии организмов по их ДНК использовался алгоритм кластеризации X-КЯЛВ, описанный в [3], отличительной особенностью которого является использование нелинейного нормированного Х-пространства, учитывающего не только расстояние между объектами, но и характеристику локальной плотности объектов.

Были выполнены разбиения на таксоны с опорой на нуклеотиды и с опорой на триплеты выборки из 29 организмов.

n

n

m j

m

1 опыт Название объекта 2 опыт

2 Candidatus N.m - бактерия 1

2 B.anthracis - Сибирская язва 1

1 Th.thermophilus - микроорганизм 1

1 Th.thermarum - микроорганизм 1

2 S.pyogenes - Стрептококк 1

2 P.humanus cap - блоха 1

2 N.g гонорея 1

2 M.pneumoniae - атипичных пневмоний 1

З M.musculus - мышь 1

2 I.persulcatus - Искодовые клещи 2

З H.s - человек 2

З G.gallus - курица 2

З C.crocodylus - Крокодил 2

З C.familiaris - Собака 2

2 B.burgdorferi - боррелиоз 2

3 A.calva - рыба 2

2 Zebrias zebra - Рыба 2

3 Sus scrofa - Кабан 2

3 Rattus norvegicus - Серая крыса 2

3 Mus musculus - Домовая мышь 2

2 Kareius bicoloratus - двухцветная камбала 2

3 Homo sapiens - Человек разумный 2

3 Gallus gallus - Банкивская джунглевая курица 2

3 Erinaceus europaeus - Обыкновенный ёж 2

2 Crocodylus niloticus - Нильский крокодил 2

3 Cricetulus griseus - серый хомячок 2

3 Bos taurus - Дикий бык 2

2 O.moubata - клещи 2

2 M.domestica - муха 2

Результаты кластеризации

0.74

н

и

о

а

Ь

с.

0.73

3

4 =

н

0

0J

>,

X

1

2 0.71

0.72

0.7

0.6Э

0.68

■■ • ♦ ■ *- "ь Кластер 1 Кластер 2 Кластер 3 ♦ ♦

♦ ♦ ♦ ♦

: : ¥

■ ■

■ ■ ш ■ а ■

1.4 \А 25 Ь *5 1.4 75 1 5 1.5 25 1.55

Среднегеометрическая удаленность К началу Нуклеотиды

274

Ниже приведена проекция таксономии по трём характеристикам: удалённости, регулярности и глубине.

Результаты кластеризации

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4,000

3.750

_ 3,500

х

н

Ш

с

* 3,250

S

т 3,000 пй

ГЙ

- 2,750 х

£

2,500

2,250

2,000

■■ • Кла ♦ Кл с ■- істер 1

♦ ->

♦ « ***** ♦

♦ ♦ ♦ ♦ ♦ ♦

ф # + < ►

• • • • • •

*

0.5

0.52 0.54 0.56 0.58

Регулярность К началу Триплеты

0.6

Характеристики триплетного представления хотя и дают другую картину разбиения, но при этом представляют дополнительную информацию о свойствах организмов и взаимосвязях между ними.

Данные предварительные исследования позволяют сделать вывод о том, что классификация с опорой на разные структурные единицы даёт разные представления таксономии. По нашему мнению, для получения правильной классификации, необходимо выбрать адекватные структурные единицы естественных цепей. Открытым остаётся вопрос поиска таких структурных единиц (естественных слов) для генетических текстов.

Библиографический список

1. Гуменюк, А. С. Алгоритмы анализа структуры сигналов и данных : монография /

А. С. Гуменюк [и др.] ; под науч. ред. д-ра техн. наук Ю.Н. Кликушина. - Омск : Изд-во

ОмГТУ, 2G1G. - 212 с.

2. Мазур, М. Качественная теория информации / М. Мазур. - М. : Мир, 1914.

3. Загоруйко, Н. Г. Прикладные методы анализа данных и знаний / Н. Г. Загоруйко . -

Новосибирск : Изд-во ин-та математики, 1999. - 21G с.

i Надоели баннеры? Вы всегда можете отключить рекламу.