Научная статья на тему 'Разработка программных средств для получения строя высокого порядка и строя на основе разнородных цепей'

Разработка программных средств для получения строя высокого порядка и строя на основе разнородных цепей Текст научной статьи по специальности «Физика»

CC BY
38
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НУКЛЕОТИДНАЯ ПОСЛЕДОВАТЕЛЬНОСТЬ / СТРОЙ ЭЛЕМЕНТОВ / ХАРАКТЕРИСТИКИ СТРОЯ / GC-СОСТАВ / АСИММЕТРИЯ НУКЛЕОТИДНОГО СОСТАВА

Аннотация научной статьи по физике, автор научной работы — Поздниченко Н.Н., Гуменюк А.С., Керов М.П.

В настоящее время не существует общепринятых методов обработки символьных последовательностей, которые бы непосредственно учитывали расположение компонентов в них. В рамках данной работы предлагается развитие представленных ранее средств формального описания и анализа строя (ФОАС). В частности, рассматриваются два новых метода преобразования строя, учитывающие не только интервалы между элементами, но и расположение самих интервалов: строй второго (высокого) порядка и разнородный строй. Представлены алгоритмы и программные средства для осуществления вышеуказанных преобразований, проведена их апробация и показана адекватность для исследования расположения компонентов в символьных последовательностях

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по физике , автор научной работы — Поздниченко Н.Н., Гуменюк А.С., Керов М.П.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Разработка программных средств для получения строя высокого порядка и строя на основе разнородных цепей»

УДК 0С4.942

ИССЛЬДОВАНИЬ НУК/ hül И/ЖЫХ 11 OC.JI ЬЛОВА I = JIЬНСС I hPl Г ПОМОЩЬЮ ХАРАКТЕРИСТИК СТРОЯ АНАЛОГИЧНЫХ СТАТИСТИЧЕСКИМ ХАРАКТЕРИСТИКАМ

Н. Н. Поздииченко. А. С. Гуменюк. М. П Керов

Омский государственный тех7/:песхий уииаерсхянет, г. Россия

Аниотвцгш Подавляющее большинство существующих методов анализа иуклеотидных цепей опп рается на множество статистических подходов исследования групп нуклеотпдов, которые оценивают состав последовательности, н лишь немногие косвенно оценивают расположение компонентов. Объектом исследования в ланной работе являются нуклеотидиые последовательности и характеристики, пс-iiiuihtVHMKie .чин кмчнс iphiivi инишнений к h>IlIhiiih;ihiim шпике ihhip|i>k:i ikihhihi ни милнкул ДНК и РНК. Представлены общепринятые и определены новые числовые характеристики нуклеотндных последовательностей. Разработаны программные средства для вычисления характеристик. Получены числовые £ыачьн11я хнракифжлш: длм 367 ivhumub p.i¡.шчных Dpi .ши^шк, ирииеаени сравнение ллрак! ерн-стик строя со статистическими характеристиками.

Ключевые слова: нуклеотидная последовательность, строи элементов, характеристики строя, GC-состав. асимметрия нуклеотнлного состава.

I. Вньдьниь

Методы вычисления (jO н А'1 -асимметрии, приведенные в работах LI. 2J. не учитывают порядок следования элементов в последовательностях, и основаны больше на эг-гтроппЯно-ннформацн энных подходах рассмотрения последовательностей. Также в работе |3J применяется «гсомегрнчсскнй подход ) к нзученню гснстнчсекнх последовательностей

Лпалго генетических последовательностей с помощыо статистических характеристик, общепринятых в бионкформатнке. не вссгда ?£фск7ивен. D ргботс предлагается использовать подход, который непосредственно

учитывает взаимно? расположение элементов знаковых последовательностей, называемый анализом строя цепи событии произвольной природы [4]. Данный подход к исследовании любых массивов данных (генетических, музыкальных. литературных н прочих текстов) разработан А. С. Гуменюком на основе понятий, определений и формализмов теор!ш информашш М. Мазура. работ К. Шеписиа [5].

При помощи аппарата строя оыли разработали характеристики строя нуклеотндкых последовательностей, аналогичные статистическим характеристикам. К таким характеристикам, в частности, относятся GC-состав. СС-асимметрия. RY-асимметрия и т.д.

ТТ ПОСТАНОВКА ЗАДАЧИ

Целью данной работы являлась разработка программных средств для вычисления значений характеристик и проведение сравнительных исследований характеристик строя и статистических характеристик нуклеотндных последовательностей для обнаружения предполагаемой корреляции.

Ш. ОПРЕДЕЛЕНИЕ ОШШШПМТЫХЧНСЛООЬК ХАРАКТЕРИСТИК 1Г/КЛЕЭТИДПЫХ ПОСЛ2ДОЗАТЕШ1ССТГЙ

П ХАРАКТЕРИСТИК ИХ СТРОЯ Рассмотрим основные характерно тики, используемые для анализа нухлестняных последовательностей в

(жеинформи! ИКГ И МПОДК1 ИХ КМЧИГЛГИИН OiO Г1МТ1ИК (или Д11ЛЯ СггС Д11Л* СК7) 11{ГДГ1аК11МГ(111 К П]И;ЦГН1НОМ

гоптноптении и может был. кьтчкглен по формуле-

ПО%-^*100 (1)

где G + С сумма всех гуанинов н цэтошнов. L длина всей цепи ДНК в нухлеотидпх: L = A-j-T + G-?-C. Также GC-состав можно представшь как отклонение суммы GC пар пс отношение к AT парам:

G€=C^. (2)

А+Т

где А + Г - сумма всех адешшов и тнмииов.

Для вычисления GC- н АТ-аснммстрнк используются следующие формулы:

Gr4krw_|l£ (Я)

AT *krw- £ (4)

Для вычисления смещения в нуклеотнднем сосгоес также применяются следующие производные характеристики:

SW-acmiMcipnH 'ошон-енис суммы всех гуаншшв и umuiHHJt (G+C) к сумме аленинов л хшшной (А~Т)

ИЛИ НИоПсрОг) RY-ИСИММГфИИ (пшнигннг НСГХ liy[]HHIWhlX IK ионии и й (G+A) к ниримидииокк М (ГН-Т)). МК-

асимметрия (отношение суммы всех цитозннов и адеников (С—А) к сумме гуанинов н тнмиков (G+T) или наоборот);

SW skew = s"w (Ь)

RY skew- -j-, (6)

MKskew-CO Все данные характеристики учитывают только число вхождений различных нуклеотидов. но никак не учитывают их расположение.

Рассмотрим аппарат к характеристики строя, которые были использованы при анализе последовательностей. Характеристика средней удалённости однородной цепи вычисляется как

1

g; "logA--2>gzV (8)

ы

ГДГ Я —ДПИНИ 11;КЛГД<>ИИ1ГЛМ-М>Г I И Д^ — <11ГДНГГ Щ1МЛ11)НЧП:К(Ж КГГХ ИН1ГрШЫК>К 1КК'ЛГЛОК»1Г,ЛЬН1К'1М Хн1»ИК-

теристика удатенности инвариантна к длине последовательности и характеризует только расположение компонентов.

Заменив э статистических характеристиках (1WY) числа вхэждеош пуклестидов на средние удаленности однородных цепей (г?г). которые вычисляются по формудс (SJ). мы подучим похожие лс форме характеристики строя нухлеотндных последовательностей (9V-(15).

АЯСК.'%= Ео + 2сх100 (У)

AR GC/AT ratio = ^^ (1С)

AR GC skcw= 83 ' * (11)

AR AT skew = (12)

AR SW skcw = (13)

AR RY skew = (14)

ARMKskcw=^£- (15)

IV. АИР0ЬАЦИЯ11Р01 РАММНЫХ СПДСШ ДЛИ ВЫЧИСЛЕНИИ СТАТИСТИЧЕСКИХ. ХАРАКТЕРИСТИК.

И АКАЛОГИЧНЬГС ИМ ХАРАКТЕРИСТИК СТРОЯ

Разработан программный модуль для вычисления характеристик иуклеотидкых последовательностей. Модуль был интегрирован в программный комплекс Libiada [б] При разработке программы за основу были взяты существующие в биоикформагске формулы для вычисления асимметрии нуклеотиднего состава цепочек, которые являются стандартом :<де-факго» при исследовании генетических текстов. Разработанные характеристики строя ранее не использовались.

На рис 1 приведен пример интерфейса программы для расчета характеристик. Для расчета характеристик нуклеотидных последовательностей пользователю необходимо выполнить следующие действия:

- на странице вычисления интегральных характеристик выбрать цепочку или несколько цепочек для исследования. Пользователь должен выбрать хотя бы один объект исследования из таблицы;

- далее, выбрать характеристику или несколько характеристик для вычисления и дополнительные параметры (тнп исследуемого участка - нуклеогнды, привязка - для характеристик, вычисляемых с помощью удаленности;;

- запустить вычисление характеристики.

LibodaVÄa

ЛТНсн

HTMIÍCIKUJI

1>И» (ЬтЬпЪ

Avcwye СЧ|Дсч C-WAT" y>C*v

Ckfcfc cha-rtkrefc

O Reut« leqienccs стакан?

СоЫК

Рис. 1. Интерфейс выбора интегральных характеристик для вычисления

Вычислении значений характеристик Дмх проведения исследований нуклеощлных. последовательностей необходимо было для иослецовагельно-сгсй 16s н 18s РНК организмов, вычислить значения разработанных статистических характеристик и аналогичных характеристик строя.

ТАБЛИЦА 1

ЗНА'1ЬШ1Х (ЛАШСШ'ШСКИХ ХА1»АК1Ы'ИС1 Ilk И XAl'AKlti'HLTHK С'И'ОЯ

ДЛЯ ГРУПП ОРГАНИЗМОВ

Название организма GC ratio g GC ratio

Rickettsia typhi s*. B9991CWPP 2S,92C>1649 309,8444323

Rickettsia typhi s:r. Wilmington 23.9194023 309.8375531

Rickettsia prowazekii si. GvV257 25,9870-191 308,89.1110

^ii'lcrlLsia ¡п(1Ш/к1п su Knlsuiyi/iii 78,9998506 308,8014479

Rickettsia prowazekn st. Madrid t 29,0002996 308, /983828

^ii'lcrlLsia ¡noutttyrln sei Oimuikova ?.9,0060??7 3087361874

Rickettsia prowazekii si. Breinl 29,00b /133 308,/109193

Oiin li.i lsiilsii£,Hituishi SlT Tlribl 30,5137863 299,2017181

Oner.tia tsutsugamushi sir. Borvong 30.5310498 299.1005609

Rickettsia australis str. Cutlack 32,2546215 285,6102513

Rickettsia japomca YI[ 32.3500277 235.1875736

Rickettsia parkeri str. Portsmouth 32,4336774 284,5671667

Caiman crocodihis 43.2160804 232.5555517

Gallus gall us GU261702,1 45,1728395 219,3469758

Boiiclia aizelii PKo NR_D74840.1 46.5191932 215.4404907

Borreha afzeln HLJOl | NR 074662 1 46,6535433 215,4271587

Bouelia bissellii siiaiu DN127 | NR_114707.1 46.5576005 215.0299141

Borreha bissettü strain DN127 | NR_102S56 1 4 6,714 $'189 214,914839$

BuiikIím 1СЧ unniiis A1 I NR_0748fjfí 1 47,6933073 717,7919910

Borreha miyomotoi LB-2U01 NJK. 121757.1 4/,69928/1 212,2056820

Bcnirli» и11чп1ш BA7 |KR_1?.I775 1 47,8431373 7.11,991458?

Borreha reeurrentis strain Al | At 10/36/. 1 A /,868852b 211,9298017

Borreha mricatae 9LEI35 NR 102958.1 47,8688525 211,5288208

Borreha crocidurac strain Achcma NR_102961.1 43.0655738 211.2385484

Borreha duttomi strain Lv AFI07364 1 48,1311475 210,6659588

Cricctulu3 griscus 55.7455906 135.6723780

Ratr.is norvegica NR_046237,1 55,7097118 185,3153941

Lrinaceus europaeus | AJ311675.1 55.1095890 135.1S972C6

3os taurus 55,0597971 154,9451968

Mus Hiusculus duuieslicus 55.0427807 1S4.51401S7

В табл. L представлены значения характеристик для нескольких организмов, относящихся к разным царствам жизни Онн упорядочены по убыванию характеристики строя g GC" Ratio, которая однозначно классифицирует организмы. При зтом по аналогичной статистической характернстаке (GC Ratio) организмы внутри группы Rickettsia разделяются менее точно

2. Сравнительное исследование характеристик (распределения орсакизмое)

Па рис. 3 представлено распределение организмов по характеристикам средней удаленности GC-состава (AR GC Ratio) н сташсшческии характеристике (GC Ratio). Точхи на i рафике соотеплвукн зна-кгниям ларак-iqiwiHi; дли 367 jim.iit-iHKix -.)[:■ ?1ничмоч Такжг шк цхк-ны ржщж-дглгни! дли ;ц1угих иир хирикггрисI ик

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Распределение оргаинзмсв по характеристикам GC-состава демонстрирует соответствие между характеристиками строя н статистическими характеристиками, расхождение между ннмн обусловлено особенностями расположения компонентов, которые фиксируют характеристики строя и пе фиксирует статистические харак терпелскл. ири малых значениях характеристики строя распределение организмов по статистической харакге рнешке имеет больший разброс значений. Таким образом, статистическая характеристнка более чувствительна в этом дкапазоне. и наоборот, при малых значениях статистической харакгеристнкк. характеристика строя имеет большую чувствительность.

Г.,.0« * •

\V.

Ш.ОМ 1

Tí.

'W, ■Л .

+Í..É4*

ш т • ■-.

* Щ-

X« . ■ . -

J-5..9W •"'.ТП > !

¡Ъ*,>№ IHJH ,¿41. ft« ^.Élt /-HI.™ líf.MA V,*«H IU «É4 17S.BW .ÍV Жй

GC Knie

Рис 3. Распределение организмов по характеристикам средней удаленности и статистической характеристике GC-co става

v. Обсуждение результатов

Характеристики строя позволяют точно классифицировать организмы не только в рамках отдельных царств, но н внутри семейства организмов (Rickettsiaceae). Такнм образом, средства формального анализа строя мигут применяться для оценки расположения нуклеотндов в полноразмерных геномах и отдельных его компонентах, а также систематизации организмов.

Для всех рассмотренных пар характеристик наблюдается зависимость между значениями на данной выборке, что подтверждает гипотезу о том. что характеристики строя отображают свойства статистических характеристик и связаны с ними. Однако характеристики строя учитывают не только состав, но и расположение компонентов в нуклеотнднон цепи, в отлнчне от общепринятых в бионнформатнке характеристик.

VT 'Заключение

Разработаны программные средства для оценивания расположения компонентов в нуклеотндных последовательностях характеристиками строя и общепринятыми — статистическими. Получены числовые значения характеристик для 367 геномов различных организмов, проведено сравнительное исследование характеристик строя со статистическими характеристиками.

Проведенные исследования н сравнение статистических характеристик с характеристиками строя показывают, что характеристики строя являются адекватным средством описания и сравнения нуклеотндных последовательностей.

Список литературы

1. Lobiy J. R. Asymmetric substitution patterns in the two DNA strands of bacteria И Molecular biology and evolution. 1996. Vol. 13, no. 5. P. 660-665.

2. Giigoriev A Analyzing genomes with cumulative skew diagrams .7 Nucleic acids research. 1998. Vol. 26: no. 10. P. 22SÓ-2290

3. Zhang С. Т., Zhang R, Ou H. Y. The Z curve database: a graphic representation of genome sequences И Bioinformatics 2003 Vol. 19: no. 5. P. 593-599.

4. Гуменюк A. C.: Ктикушнн Ю. H.. Кобенко В. Ю.. Цыганенке В. Н. Алгоритмы анализа структуры сигналов н данных: моногр. / под науч. ред. д-ра техн. наук Ю.Н. Клнкушина. Омск: ОмГТУ, 2010. 272 с.

5. Мазур М. Качественная теория информации М.: Мнр, 1984 280 с.

6. Скнба А. А., Поздниченко Н. Н. О разработке программного комплекса для вычисления характеристик строя упорядоченных массивов данных i i Информационные технологии н математическое моделирование: материалы 12 Всерос. науч.-практ. конф. с междунар. участием им. А.Ф. Терпутова, 29-30 ноября. Томск, 2013. 4.1. С. 50-55.

i Надоели баннеры? Вы всегда можете отключить рекламу.