Научная статья на тему 'Вурф-классификация генетических текстов организмов'

Вурф-классификация генетических текстов организмов Текст научной статьи по специальности «Математика»

CC BY
171
47
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
АЛГОРИТМ / ВУРФ / ГЕНЕТИЧЕСКИЙ ТЕКСТ / КЛАССИФИКАЦИЯ / GENETIC TEXTS / WURF / TEXT LONG / CLASSIFICATION

Аннотация научной статьи по математике, автор научной работы — Кликушин Юрий Николаевич

Описан алгоритм классификации генетических текстов организмов, использующий преобразование чисел вхождения соответствующих нуклеотндов в длины отрезков условной прямойКлассификация производится по двум параметрам, один из которых измеряется, а другой вычисляется. В качестве измеряемого параметра используется длина генетического текста, в качестве вычисляемого отношение длин отрезков вформе вурфа.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Кликушин Юрий Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The Wurf-classiflcatlon of the genetic texts

The algorithm of the Cenetic Texts Classification is described. There are two classification parameters. The first is the Text Long and the second is (he Wurf

Текст научной работы на тему «Вурф-классификация генетических текстов организмов»

ОМСКИЙ НАУЧНЫЙ 8ЕС1НИК № і <8Ї> 2009

УДК 004:57

Ю. Н. КЛИКУШИН

Омский государственный технический университет

ВУРФ-КЛАССИФИКАЦИЯ ГЕНЕТИЧЕСКИХ ТЕКСТОВ ОРГАНИЗМОВ

Описан алгоритм классификации генетических текстов организмов, использующий преобразование чисел вхождения соответствующих нуклеотидов в длины отрезков условной прямой. Классификация производится по двум параметрам, один из которых измеряется, а другой — вычисляется. В качестве измеряемого параметра используется длина генетического текста, в качестве вычисляемого — отношение длин отрезков в форме вурфа.

Ключевые слова: алгоритм, вурф, генетический текст, классификация.

Вопросы построения систем классификации организмов в биологии вообще и в генетике в частности занимают приори тетное место в научных исследованиях. Стремление создать для организмов универсальную классификацию, подобную периодической системе Д. И. Менделеева для химических элементов, подкрепляется естественным желанием понять «физический смысл» существования жизни на Земле. В последние годы системы классификации, построенные па основе эволюционной теории Ч. Дарвина, стали подвергаться сомнениям, поскольку появилось множество фактов, говорящих о том, что непрерывность и последовательность организмов па эволюционной лестнице в ряде случаев нарушаются. Для проверки этих фактов было выдвинуто несколько новых идей создания классификационных систем, основанных, например, нафрактальном анализе генетических текстов (1|. Интересна и перспективна также идем, связанная с анализом нуклеотидных последовательностей методом измерения строя цепи событий, первоначально использованная в матема тической лингвистике при исследовании свойств целостной завершенности литературных произведений [2, 3|.

Генетическим текстом будем назмватмюследова-■телыгость нуклеотидов тина А (аденин), С (цитазин), С (гуанин) иТ(тизин), присущую данному организму. С количественной стороны, генетический текст характеризуется числами (Г^а, »М1., N (, N,1 вхождения соответствующих нуклеотидов, сумма которых N —

= N» + Nr+ N1( + N, образует длину генетического текста.

Пример фрагмента генетического текста некоторого организма приведен на рис. 1.

Наиболее простой путь построения классификационных алгоритмов связан с частотным (статистическим) анализом генетического текста по числам вхождения. Однако при этом не учитывается наличие взаимосвязи (корреляции) между числами вхождения, хотя такая связь несомненно существует.

В данной работе предлагается такой алгоритм классификации генетических текстов, который учитывает корреляцию между числами вхождения в виде количественною показателя, называемого нурфом (от немецкого «прыжок» или «скачок»).

Моделью вурфа служат три примыкающих друг к другу отрезка прямой (рис. 2), концы которых обо значены буквами М, О, Р, О.

Чтобы связать с вурф-моделыо числа (Nn, N , N(|. N,) вхождения, необходимо их проранжировать по возрастанию. Тогда, начальная (М) и конечная (О) точки будут определяться через операции взятия минимума М = min(NJt Nc, NtJ, N,) и максимума 0 = — max(No, Ni;, N(|, Nt) соответственно. Промежуточные точки определяются аналогично, с учетом того, что при последующем взятии операций min() и шах() останутся только два числа из четырех. Например. если N, = 447, N( = 281, N(J — 436, N, = 373, то порядок следования нуклеотидов, после сортировки чисел

GCTAAACCTACCCCCAAACCCACTCCACCTTACTACCAGACAACCTTAAC

CAAACCAnTACCCAAATAAAGTATAGGCGATAGAAATTGAAACCTGGC

GCAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTATAACCAAGCA

TAATATAGCAAGGACTAACXrCCTATACCrrrrGCATAATGAArTAACTAG

AAATAACFTTGC

Рис. I. Фрагмент генетического текста организма

U- mln|Na . Не . Ид . №)

О Р

-I----------Ь

О* швх(Нл , Не , IIд , III)

W-[|P-MXQO)1IHP-OXQ-UH

246

Рис. 2. Модель пурфа

бссп(пса) бак (осс) 1

позв (часть; позп (чисть)]

7 С 5“,н /

Ч/ Вых.1 Овсл ^ Оык.2 Бек Оых.з Позе

Рис. 3. Алгоритм вурф-класснфикации генетических текстов организмов

вхождения, будет таким: С’ТСА и. соответственно, М = N,=281, 0 = N, = 373, ^=N„ = 436, О = N, = 447. Отсюда можно вычислить оценку ДЛ/для вурфа:

|Р-М)(0 - 0) = (436 - 281) (447 - 373) (Р-О)Ю М) (436-373)(447 281)

155*74

63-166

* 1.0968.

Таким образом, вурф позволяет учесть корреляцию нуклеотидов в виде отношений длин отрезков.

11ри этом имена нуклеотидов, образующих концы отрезков, будут индивидуальны для разных организмов. Следовательно, в такой постановке вурф выступает как числовой показатель, учитывающий связь общею (через расчетную формулу) и специфичного (через расчетное значение). Поэтому его можно использовать как классификационный параметр.

Задача классификации рассматривается в следующей постановке. Имеется группа из 1- — 30 организмов (табл. 1), принадлежащих 3-м видам: бактериям (бак), беспозвоночным (бесп) и позвоночным (позв). Числа ([.бак, Ьбесн, [.позв) представителей этих видов моутбытьразными, но, влюбомслучае, выполняется условие Ьбак+ ЦЗесп I 1_позв. Требуется: синтезировать такой алгоритм классификации, который при любых Ь (Ьбак, Ьбесп, 1-позв) обеспечивал бы разделение организмов натри указанных вида.

В общепринятом смысле под классификацией понимается разделение группы объектов на некоторые части — подгруппы (кластеры, таксоны), внутри которых объекты имеют общие (в определенном смысле) свойства. 13 познавательном отноцкч ши сложность процедуры классификации состоит в том, что. с одной стороны, необходимо объекты разделить на отдельные отличающиеся кластеры, а с другой — надо сделать гак, чтобы в один и тот же кластер попали объекты, имеющие нечто общее. Данное противоречие приводит к тому, что классификация становится оптимизационной процедурой и ее «правильность» во многом зависит от принятых пользователем критериев оптимизации. Болес того. если учесть, что

классификационные задачи обладают высокой степенью априорной неопределенности, становится понятным. почему решение подобных задач не. может бы ть однозначным. В частности, рассматриваемая задача осложняется тем, что даже представители одного и того же вида и подвида, например, человека, имеют индивидуальные нуклеотидные последовательности.

В качестве основной, была принята гипотеза отом, что из всех измеренных (М. Ка, N0, N9, N1) и вычисленных (М, О, Р, О, М') классификационных параметров достаточно использовать два: вурф (МО и длину (ГМ) генетического текста, чтобы разделить 30 организмов потрем видам: бактериям (бак), беспозвоночным (бесп) и позвоночным (позв).

Первоначальное состояние базы данных (БД) (табл. 1) характеризуется перемешанными записями (именами файлов) организмов, принадлежащих разным видам. Конечное состояние БД должно представлять набор списков организмов, каждый из которых включает один вид (бак, бесп, позв). Работа с БД включает: 1) разделение общего списка на кластеры (операция классификации); 2) фильтрацию списка организмов внутри кластера по значениям идентификационных параметров с целью выделения отдельных видов организмов (операция идентификации); 3) обь-единение отдельных списков, принадлежащих одному виду в общевидовой кластер (операция интегрирования). Указанные операции производятся с использованием аппарата реляционной алгебры и в простейшем виде представляют собой сортировку и фильтрацию записей по полям (N. \У) идентификационных параметров.

щыо сортировки и фильтрации записей БД по вурф-параметру. Применение вурф-фильтра по условию «\Л/<1,09 ОЯ \У>3?» позволило выделить два смешанных кластера: а) «беси» -Ь часть «позв» и б) «бак» I + часть «позв».

Операции идентификации производилась внутри этих кластеров с использованием операций сортировки и фильтрации записей ужо подлине генетических текстов N. С помощью фильтра по условию «N<1800?»

ОМСКИЙ КАУЧКЫЙ 8СС1НИК № 3 1*1) 2004

ИНФОРМАЦИОННЫ! ТЕХНОЛОГИИ ОМСКИЙ НАУЧНЫЙ ВЕСТНИК М*1 (()) 2009

248

База данных классификационных плрамегроп орглишмоп

Nt RloNiimo Тур* Class N N а Nc Ng N1 М О Р О W

1 onlhrac.txt On к ГМК 1506 384 341 464 317 317 341 384 464 1.303749

2 bmyilorl.txl 6flK бак 1537 •147 281 436 373 281 373 436 447 1.096768

3 calva.lxl позв риби 1708 606 415 317 370 317 370 415 606 1.778393

4 candidat.txt блк блк 1452 379 326 434 313 313 326 379 434 1.111492

5 ciocwlyl.ixt ІІОЗІІ ропт 1592 568 414 274 336 274 336 414 568 1,416361

G doitwslic.lxl fiC'ClI муха 1723 484 340 416 488 340 416 184 488 1.030207

7 familtii.txt ИОЗВ МЛОК 1580 577 334 275 394 275 334 394 577 1.595861

В qilllllS.tXl ІІОЗВ ІІ7МК 1620 542 453 205 330 2D5 330 453 512 1.102531

9 h.vtxt 1ІОЗВ млек 1559 547 308 270 344 270 344 398 547 1.737131

10 humnn Ixi боси UOUJb 1493 374 342 435 342 342 342 374 435 1

1! moubot-lxt Oecn КЛОІЦ 1790 455 427 483 425 425 427 455 483 1.034483

12 muscul.txt ІЮЗВ млок 1582 606 304 256 417 256 304 417 605 1.228821

13 inj.lxl бак бак 1516 372 353 485 306 306 353 372 485 2.5616

14 persul.txl decii площ 1771 443 405 4ВВ 435 405 435 443 488 3.033133

15 pneumo.lxt бак бак 1487 433 280 401 370 280 370 404 433 1.50173

16 pyogun.txt бак блк 1335 351 300 402 2В2 282 300 351 402 1.15

17 ihcrmar.lxl 6.1K Смк 1471 316 403 524 228 228 31G 403 521 1.413482

IB lhormoph.txt блк бик 1.517 310 429 546 232 232 310 429 546 1.244233

19 Ьояілмшк.іхі ікші МЛО к 1873 418 497 553 405 405 418 497 553 1.062265

20 crlcetulus.txl позо млу к 1871 420 493 550 408 40В 420 493 550 1.065985

21 criiMcius.txt НОЗІ» МЛ6К 1825 40У 48G 538 392 392 409 486 538 1.078634

22 yo)lus-2.«xl позо ІІІИЦ 185) 419 506 540 386 386 419 506 540 1.083744

п homtxsdpi.lxl 1103)1 млек 1869 418 499 550 402 402 418 499 550 1.068068

24 kareius.ixl поза рыба 1823 434 450 516 423 423 434 450 516 1.487903

2:*, miiscul-2.txt ІІОЗВ млек 1870 418 497 551 404 404 4IR 197 551 1.065099

26 nilolcroc.lxt пози рент 1776 416 460 509 391 391 416 460 509 1.23594

27 rabbit.txt позп млек 1853 423 tna 530 402 402 423 498 530 1.07

28 radux.lxl позп млек 1874 423 408 546 407 407 423 498 546 1.073669

29 SllS.tXl ІІОЗВ млек 2302 477 717 666 442 442 477 666 717 1.034343

.10 zebra.lxt ПОЛИ млок 1837 434 462 521 420 420 434 462 521 1.292079

удалось отделить нсех «беси» отчасти «позв». Подобный же фильтр но условию «N<1545?» отделил всех «бак» от части «позп».

Представляет собой объединение частных списков организмов на выходах классов в общевидовые списки. В данном случае объединить надо было только два частных списка класса «позв».

В связи с использованием данною алгоритма классификации. возникает интересный вопрос об упорядочении групп видовых признаков организмов. Хотя

данная задача автором подробно не исследовалась, все же п качестве первою приближениями ее решения была рассчитана средняя длина нуклеотидной последовательности по всем организмам данного вида. При этом оказалось, что: МО(бак) = 1478. МО(бесп) = 1690. N0(11031!) = 1792. Таким образом, порядок (в виде рангов после упорядочивания показателя N0) следования видовых групп полностью согласуется с общепринятой в биологии теории эволюционной лестницы.

Является ли данный результат случайным или нет, покажут дальнейшие исследования.

Вурф-классификация позволяет решить еще одну задачу, например, задачу упорядоченного группирования организмов внутри класса позвоночных. В БД (табл. 1) позвоночные представлены следующими подвидами: млекопитающие, рыбы, птицы и рептилии. Если исключить млекопитающих, то оставшиеся позвоночные будут строго упорядочены С ПОМОЩЬЮ вурф-параметра в следующей последовательности: шпицы (И'=1,08..1,11) — рептилии (\У=!,2.. 1,42) — рыбы (\М=148.. 1.8). В классе беспозвоночных вурф-сортировка выделяет подвид клещей.

Чтобы подтвердить «правильность» и устойчивость предложенного алгоритма классификации, необходимо использовать более обширный статистический материал. В частности, предполагается провеет анализ множества генетических текстов людей разных полов, рас, национальностей, возрастов, а также наших ближайших «родственников» из группы приматов.

БнОлиографпчоский список

I. Задорожникои К.Г. Генетическая система как носитель принципа гармонии. Открытие Золотого Вурфа генетической

системы // М. : Академия Тринитарнама», Эл К-> 77*6567. публ.11739,24.12.2004.

2. Гуменюк А.С.. Шнынов С.Н., Морозенко ІЇ.ІЗ-. Родио-нон И.11. Пример применения средств интервального анализа для ерЛПНРПИЯ строи НуКЛСОТИДНЫХ П0СЛЄДОШ»ТІ*ЛМІОС:ТОЙ и кластеризации организмов // Мат-лы XVI Всероссийского семинара мНейроинформіггикп. <•« приложения и анализданных»; иод ред. .АН. Горбаня и В.М. Мнркеса. - Красноярск : Изд-во ИВМ СО РАН. 2008. - С. 166 —170.

3. Гумеикж Л.С. О средствах описания и анализа строя цепи событий //СИБРЕСУРС-11-2005 : доклады 11-й науч.-иракт. ковф.. Барнаул. Томск: Том. гос. ун-т, 2005. - С. 234 —239.

КЛИКУШИН Юрий Николаевич, доктор технических наук, доцент, профессор кафедры «Технология электронной аппаратуры».

Адрес для переписки: 64*1050, г. Омск, пр. Мира, 11.

Статья поступила в редакцию 25.09.200*» г.

V) Ю. Н. Клнкушнн

004:57 Д. Н. МАТВИЕНКО

Омский государственный технический университет

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ИННОВАЦИОННЫЕ МЕТОДОЛОГИИ

ПЕРЕПРОЕКТИРОВАНИЯ

«УНАСЛЕДОВАННЫХ»

ПРОГРАММНЫХ СИСТЕМ_____________________

Приводится описание опьпа команды разработчиков, решающей задачу внедрения механизмов тест-ориентироаанной разработки (Test-Driven Development, TDD) в существующий проект (СУБД «Деканат», ОмГТУ), первоначально не адаптированный к использованию TDD-инструментария. Проведен анализ возможностей и ограничений, возникающих при необходимости внесения изменений на уровне методологии проектирования системы, подчеркивается необходимость оптимизации процесса документирования требований к проекту.

Ключевые слова: тест-ориентированная разработка, методология, тестирование, документирование.

Постановки задачи

С целью научно-практического исследования возможностей ТРО-архитектуры была поставлена задача преобразования студенческого проекта (СУБД «Деканат»: язык РНР, база данных МуБОЬ) в систему, разработаннуюсучетом промышленных требований к контролю качества программного обеспечения 111. 11а первый взгляд, это означает переписывание исходного кода «с чистого листа». Покажем на примере, ч то задача может быть решена менее радикальными способами.

О методиках разработки

Анализ «унаследованного» проекта показывает, что система разрабатывалась в рамках классической

методологии построения программных средств (ПС), известной под названием «Модель водопада».

Следуя модели водопада, разрабо тчик переходит от одной стадии к другой строго последовательно. Сначала полностью завершается этап определения требований. Далее происходит переход к проектированию, в ходе которого создаются документы, подробно описывающие для программистов способ и план реализации указанных требований. Программистами выполняется создание исходного кода проекта. На следующей стадии процесса происходит интеграция отдельных компонентов, разрабатываемых различными командами программистов, Заключительная стадия — тестирование и отладка продукта: устраняются все недочёты, допущенные на предыдущих этапах. После этого программный продукт внедряется и обеспечивается его поддержка, внесение

ОМСКИЙ НАУЧНЫЙ IfCIHUK N1 3 <83, №» ИНФОРМАЦИОННА ИХНОЛОГИИ

i Надоели баннеры? Вы всегда можете отключить рекламу.