Научная статья на тему 'Классификация и распознавание структур генетических последовательностей'

Классификация и распознавание структур генетических последовательностей Текст научной статьи по специальности «Математика»

CC BY
91
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
последовательность / генетическая последовательность / рекуррентное определение последовательности / Z-рекуррентное определение последовательности / рекуррентная форма / Z-рекуррентная форма / классификация последовательностей / распознавание последовательностей. / sequence / geneticsequence / recurrentdefinitionofasequence / Z-recursivedefinition of a sequence / recurrent shape / Z-recurrent shape / classification of sequences / recognition of sequences.

Аннотация научной статьи по математике, автор научной работы — Твердохлебов Владимир Александрович, Карякин Денис Алексеевич

Для решения проблемы определения связей свойств организмов со свойствами соответствующих им генетических последовательностей в статье рассматривается метод классификации последовательностей и распознавание принадлежности исследуемой последовательности конкретному классу. Впервые предлагается классификация последовательностей на основе числовых показателей рекуррентных и Z-рекуррентных форм, определяющих структуры функциональных связей элементов последовательностей. Для числовых показателей рекуррентных и Z-рекуррентных форм вводится классификация, которая распространяется на классификацию генетических последовательностей. Каждому рассматриваемому в задаче распознавания классу последовательностей, имеющему содержательную интерпретацию в приложениях, сопоставляется числовая характеристика, обобщающая числовые показатели рекуррентной или Z-рекуррентной формы, определяющих структуру последовательностей класса. При распознавании полученная числовая характеристика класса сравнивается с числовой характеристикой рекуррентной или Z-рекуррентной формы, соответствующей исследуемой генетической последовательности. При классификации последовательностей на основе числовых показателей рекуррентной и Z-рекуррентной форм, определяющих структуры функциональных связей элементов в последовательностях, причинно-следственные связи в генетических последовательностях, заменяются формальными функциональными зависимостями между элементами последовательностей. Задача распознавания рассматривается в двух формах: в форме принадлежности последовательности заданному конкретному классу последовательностей и в форме определения, какому из заданных классов последовательностей принадлежит исследуемая последовательность. Основные математические трудности при решении указанных задач распознавания связаны с определением рекуррентных и Z-рекуррентных форм, по числовым показателям которых исследуемая последовательность и классы последовательностей различаются. Для преодоления этих трудностей разработан спектр числовых показателей рекуррентных и Z-рекуррентных форм, с использованием которого рекуррентно и Z-рекуррентно определены последовательности. Классификация и распознавание иллюстрируются примером, в котором рассматриваются три класса генетических кодов организмов, каждый из которых представлен пятью генетическими последовательностями. Для уточнения и расширения классификации последовательностей и повышения эффективности методов распознавания вводится Z-рекуррентное определение последовательностей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Classification and Recognition of Structures of Genetic Sequences

For solving problems of determining the relationships between the properties of organisms and the properties of the corresponding genetic sequences, we proposed a classification of genetic sequences based on numerical indicators of recurrent and Z-recurrent shapes, which define the structure of functional relationships of elements in sequences. For numerical indicators of recurrent and Z-recurrent shapes, we introduce a method of classification of genetic sequences. We compared a numerical characteristic that generalizes numerical values with a numerical characteristic of recurrent or Z-recurrent shapes which determine the structure of a sequence for each sequence of a biological rank considered in the recognition problem, which has a meaningful interpretation in the application area. The problem of recognition is considered from two points of view: when we determine belonging of a sequence to a specific rank of sequences, and when we determine which group of sequences contains the experimental sequence. Basic mathematical difficulties in solving these recognition problems are associated with the search difference in numerical representation of recurrent and Z-recurrent shapes of experimental sequences. To overcome these difficulties we created a spectrum of numerical indicators of recurrent and Zrecurrent shapes. Classification and recognition of sequences are illustrated by an example with three ranks of genetic codes of organisms, each of them represented by 5 sequences. Z-recurrent shape is introduced to define and extend the classification of sequences and increase the efficiency of recognition methods.

Текст научной работы на тему «Классификация и распознавание структур генетических последовательностей»

УДК 501.1

Классификация и распознавание структур генетических последовательностей

В. А. Твердохлебов, Д. А Карякин

Твердохлебов Владимир Александрович, доктор технических наук, профессор, главный научный сотрудник, Институт проблем точной механики и управления РАН, Россия, 410028, г. Саратов, ул. Рабочая, д. 24, [email protected]

Карякин Денис Алексеевич, аспирант, Саратовский национальный исследовательский государственный университет имени Н. Г. Чернышевского, Россия, 410012, г. Саратов, ул. Астраханская, д. 83, [email protected]

Для решения проблемы определения связей свойств организмов со свойствами соответствующих им генетических последовательностей в статье рассматривается метод классификации последовательностей и распознавание принадлежности исследуемой последовательности конкретному классу. Впервые предлагается классификация последовательностей на основе числовых показателей рекуррентных и Z-рекуррентных форм, определяющих структуры функциональных связей элементов последовательностей. Для числовых показателей рекуррентных и Z-рекуррентных форм вводится классификация, которая распространяется на классификацию генетических последовательностей. Каждому рассматриваемому в задаче распознавания классу последовательностей, имеющему содержательную интерпретацию в приложениях, сопоставляется числовая характеристика, обобщающая числовые показатели рекуррентной или Z-рекуррентной формы, определяющих структуру последовательностей класса. При распознавании полученная числовая характеристика класса сравнивается с числовой характеристикой рекуррентной или Z-рекуррентной формы, соответствующей исследуемой генетической последовательности. При классификации последовательностей на основе числовых показателей рекуррентной и Z-рекуррентной форм, определяющих структуры функциональных связей элементов в последовательностях, причинно-следственные связи в генетических последовательностях, заменяются формальными функциональными зависимостями между элементами последовательностей. Задача распознавания рассматривается в двух формах: в форме принадлежности последовательности заданному конкретному классу последовательностей и в форме определения, какому из заданных классов последовательностей принадлежит исследуемая последовательность. Основные математические трудности при решении указанных задач распознавания связаны с определением рекуррентных и Z-рекуррентных форм, по числовым показателям которых исследуемая последовательность и классы последовательностей различаются. Для преодоления этих трудностей разработан спектр числовых показателей рекуррентных и Z-рекуррентных форм, с использованием которого рекуррентно и Z-рекуррентно определены последовательности. Классификация и распознавание иллюстрируются примером, в котором рассматриваются три класса генетических кодов организмов, каждый из которых представлен пятью генетическими последовательностями. Для уточнения и расширения классификации последовательностей и повышения эффективности методов распознавания вводится Z-рекуррентное определение последовательностей.

Ключевые слова: последовательность, генетическая последовательность, рекуррентное определение последовательности, Z-рекуррентное определение последовательности, рекуррентная форма, Z-рекуррентная форма, классификация последовательностей, распознавание последовательностей.

Поступила в редакцию: 12.04.2018 / Принята: 22.02.2019 / Опубликована: 31.08.2019 Статья опубликована на условиях лицензии Creative Commons Attribution License (CC-BY4.0) DOI: https://doi.org/10.18500/1816-9791-2019-19-3-338-350

ВВЕДЕНИЕ

При анализе структур и функций генетического материала в решениях проблем наследственности и патологий живых организмов, а также в профилактике и лечении наследственных патологий явно или неявно используются классификации и задачи распознавания генетических последовательностей. Существенное применение имеет математический аппарат.

В данной статье предлагается новый подход построения классификации на основе числовых показателей структур генетических последовательностей и излагаются методы распознавания генетических последовательностей по числовым показателям их структур. Предлагаемые классификация и методы распознавания структур основываются на различных вариантах рекуррентных и Z-рекуррентных определений последовательностей, интерпретируемых как генетические последовательности [1,2]. Примеры использования рекуррентных определений последовательности в задачах распознавания содержатся в работе [3].

Первоначальными характеристиками генетических последовательностей являются порядки (числовые показатели) рекуррентных форм в рекуррентном определении последовательностей. Числовые показатели рекуррентных определений последовательностей систематизированы в 5-уровневый спектр. На каждом из уровней спектра генетическая последовательность определяется числовой структурой (числом, набором чисел, набором наборов чисел), соответствующей взаиморасположению нуклеотидов в последовательности. С использованием числовых показателей спектра определяются формальные классы генетических последовательностей, которые в ряде случаев могут совмещаться с классами генетических кодов, определяемыми свойствами, имеющими интерпретацию в генетике. Определение классов генетических последовательностей по числовым показателям рекуррентных определений является компактным, классы определяются с использованием простых вычислительных процедур и при решении задач определения класса, которому принадлежит исследуемая генетическая последовательность, применяется простая вычислительная процедура. Практическая эффективность разработанных числовых моделей генетических последовательностей и методов распознавания таких последовательностей по их числовым показателям зависит от меры совпадения формальных классов и представляемых ими классов содержательно определенных в генетике классов. Впервые разработанные основные положения, модели и методы, изложенные в данной статье, апробированы только на некоторых примерах, которые следует рассматривать с точки зрения их логической непротиворечивости и принципиальной возможности использования.

Предлагаемые для исследования свойств генетических последовательностей модели и методы следует рассматривать как разработку формального аппарата, позво-

ляющего строить числовые характеристики генетических последовательностей и множеств генетических последовательностей, а также разрабатывать достаточно простые и логически понятные алгоритмы вычисления формальных показателей, соответствующих генетическим последовательностям и множествам генетических последовательностей.

Спектр числовых показателей рекуррентных определений последовательностей изложен в работах В. А. Твердохлебова [1,2] и параграфах 1, 2 данной статьи. Алгоритмы и программы, позволяющие определять числовые показатели по трем уровням спектра, разработаны Д. А. Карякиным. Для иллюстрации моделей и методов получения числовых показателей Д. А. Карякиным проведен вычислительный эксперимент, результаты которого изложены в параграфах 3, 4. Анализ полученных результатов написан В. А. Твердохлебовым и Д. А. Карякиным.

1. ЧИСЛОВЫЕ ПОКАЗАТЕЛИ РЕКУРРЕНТНЫХ ОПРЕДЕЛЕНИЙ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

Генетические последовательности рассматриваются как последовательности знаков без их содержательной интерпретации. Свойства генетических последовательностей представляются числовыми показателями структур последовательностей в форме функциональных зависимостей в формальных представлениях последовательностей. Для этого рассматриваются варианты рекуррентных определений последовательностей и показатели используемых рекуррентных форм. Каждое рекуррентное определение последовательности определяет класс последовательностей, в который входят последовательности с взаимно однозначными переобозначениями (с взаимно однозначным преобразованием) элементов. На основе этого предположения формальный класс последовательностей, соответствующий множеству генетических последовательностей, имеет характеристику точно одной числовой структуры, состоящей из целого положительного числа, или набора целых положительных чисел, или набора наборов целых положительных чисел.

Спектр О числовых показателей рекуррентных определений последовательностей, предложенный в работах [1, 2], определяется числовыми показателями на пяти уровнях О0, Ох, О2, О3, О4. Характеристика последовательности на каждом из следующих уровней спектра является более точной относительно предшествующих уровней.

В спектре числовыми значениями представлены порядки рекуррентных форм, длины отрезков последовательности, определяемые отдельными рекуррентными формами, и количество смен рекуррентных форм.

По определению О0(С) = т0(С), где т0(С) — наименьший порядок рекуррентной формы, определяющей всю последовательность С. На уровне Ох(С) спектра О(С) расположено т0 чисел (т0 е М+), определяющих для порядков от 1 до т0 размеры наибольших определяемых начальных отрезков последовательности С.

Уровень О2(С) содержит т0 чисел, показывающих, сколько раз для рассматриваемого порядка рекуррентных форм потребовалось заменять рекуррентные формы при определении последовательности С. На уровне О3 (С) каждое число смен рекуррентных форм, показанное на уровне О2(С), заменено последовательностью чисел, представляющих длины отрезков, определяемых отдельными рекуррентными формами.

По построению спектр динамических показателей определения последовательности состоит из числовых значений:

- наименьшего порядка т0(С) рекуррентной формы, определяющей всю последовательность £;

- набора наименьших длин ^(£ (£),..., ¿то (£), префиксов последовательности £, задаваемых рекуррентными формами соответственно порядков 1,2,..., т0;

- набора чисел г1 (£), г2(£),..., гто(£), смен рекуррентных форм порядков 1,2,..., т0, задающих всю последовательность;

- набора наборов длин

¿1 (£ М1 (£),..., ¿1, ({)+1 (£);

¿1 (£ М2 (£),..., ¿2» (£)+1 (£);

¿Г (£) = 1£ I

отрезков последовательности £, где ¿т(£) — длина з-го отрезка в определении рекуррентной формой порядка т последовательности £.

Для любой последовательности £ е наименьший порядок рекуррентной формы, определяющей последовательность £, будем обозначать т0(£). Для любой последовательности £ е и" и т е где 1 < т < т0(£), наибольшую длину начального отрезка последовательности £, определяемого рекуррентной формой порядка т, будем обозначать ¿т(£). Для любой последовательности £ е и" и т е , где 1 < т < |£| — 1, число смен рекуррентных форм порядка т, требующихся при определении последовательности £, будем обозначать гт(£). Для любой последовательности £ е и т е , где 1 < т < т0(£), и з, где 1 < з < гт(£), длину з-го отрезка в определении последовательности £ будем обозначать ¿т(£).

Используя введенные обозначения, определим спектр параметров, характеризующих последовательность, как следующую структуру:

00 (£) = <т0 (£)>;

01 (£ ) = (£), ¿2(£),..., (£ )>;

02 (£ ) = <г1 (£), г2 (£),..., га (£ )>;

03 (£ ) = <03 (£), О2 (£),..., (£ )>;

04 (£ ) = ©_(0з(£ )),_ _ _ _

где а = т0(£) и 03(£) = <¿1 (£), ¿2(£),..., (£)> (пз — номер последнего отрезка в определении последовательности £ как последовательности отрезков, определяемых отдельными рекуррентными формами порядка з), © — оператор замены в 03(£) величин длин отрезков весами использованных рекуррентных форм для определения отрезков.

Четвертый уровень 04(£) спектра 0(£) к характеристике последовательности £ по количеству изменений правил, определяющих взаиморасположение элементов в последовательности, и величинам областей действия правил, представленной на уровнях 01 (£) — 03(£), добавляет оценки сложности правил и величины области использования правил. В достаточно общем случае можно вводить веса правил (рекуррентных форм) и веса реализации правил, используемых при определении отрезка. Например, для каждого шага применения рекуррентной формы ¥, ,..., ¿т) = *т+1, т- е. для набора , ,..., ¿т), задается вес ©(¿°, ,..., ¿т)

в числовой форме и сумма весов всех шагов применения рекуррентной формы для последовательности полагается весом последовательности.

Первые четыре уровня О0 (С), Ох (С), О2 (С) и О3(С) спектра О(С) характеризуют алгоритмические свойства определения последовательности С и ее строение, так как рекуррентные формы являются правилами построения порядка следования элементов. Эти отдельные, базовые, правила сменяют одно другое по общему критерию достижения границы применимости рекуррентной формы.

Расширим спектр О до спектра О, где О содержит уровни О0, О1, О2, О3, О4 и уровни О5 (С) = О0 (С-1), О6 (С) = Ох (С-1), О7 (С) = О2 (С-1), О8(С) = О3(С-1), О9 (С) = О4(С-1). Проведенный анализ показал, что для использования в представлении неравенства последовательностей С1 = С2 числовых показателей последовательностей могут выполняться следующие отношения: С1 = С2, О«(С1) = О«(С2) и ОДСГ1) = О«(С-1). Для определения числовых показателей последовательностей по уровням спектра существуют простые алгоритмы.

2. ^-РЕКУРРЕНТНОЕ ОПРЕДЕЛЕНИЕ ГЕНЕТИЧЕСКИХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

Классическое рекуррентное определение последовательностей, устанавливающее функциональную связь каждого (т + 1)-го элемента последовательности от предшествующих т элементов, является простейшим и допускает принципиальное усовершенствование.

^-рекуррентное определение последовательностей предполагает использование двух процедур: процедуру покрытия последовательностей набором элементов и процедуру установления в каждом наборе покрытия функциональных связей.

Как процедура покрытия, так и определение структуры функциональных связей в каждом наборе из покрытия представляют большие возможности для интерпретации в области приложений причинно-следственных связей элементов в генетических последовательностях.

^-рекуррентные определения последовательностей, рассматриваемых как формальные структуры, обладают свойствами, которые можно представить в следующих утверждениях.

Теорема 1. Для последовательности длины С, С е и величин а + в ^ С существует Ю вариантов возможных Z-рекуррентных форм рангов вида (¿1, ¿2,... , ¿2,... , ) для Z-рекуррентного определения, где

а+в-1

Ю = П (С - (а + в - 0).

¿=1

Теорема 2. Если для двух последовательностей С1 ,С2 длины С, С е , выполняется условие С1 = С2, то во множестве вариантов Z-рекуррентных форм существует рекурретная форма, Z-рекуррентно определяющая только одну из последовательностей.

Генетические последовательности живых организмов определяются последовательностями элементов из множества знаков М = {А,Т, С, С}.

Ряд важных свойств живых организмов определяются на основе анализа таких последовательностей, включая рассмотрение структур генетической последовательности, т. е. с использованием взаиморасположения элементов в последовательности.

В данной статье предлагаются модели и метод определения числовых показателей, характеризующих варианты рекуррентного определения последовательностей, соответствующих генетическим последовательностям.

С использованием так полученных числовых показателей рекуррентных определений последовательностей ставятся и решаются следующие задачи:

- задача 1 классификации генетических последовательностей по значениям числовых показателей рекуррентных определений последовательностей;

- задача 2 определения принадлежности рассматриваемой генетической последовательности к классу последовательностей по значениям числовых показателей рекуррентного определения рассматриваемой последовательности;

- задача 3 разработки числовых показателей рекуррентного определения последовательностей, представляющих организм, специфических, т.е. разграничивающих классы организмов.

Эффективность для приложений решений задач 1-3 ограничивается полнотой и точностью, с которыми содержательные свойства организмов представлены формальными структурами последовательностей.

Работы [4-14] дают характеристику области возможных приложений полученных в статье результатов для решения задач, связанных с проблемой определения связей свойств организмов со свойствами соответствующих им генетических последовательностей.

На основе исходного рекуррентного определения последовательности числовыми показателями разработан спектр 0 вариантов числовых показателей рекуррентных определений.

Спектр О в работах [1,2] определен как 5-уровневый спектр О = {00, 01, 02, 03, О4 }.

Простейшей числовой характеристикой расположений элементов в последовательности полагается порядок рекуррентной формы, используемой для рекуррентного определения последовательности.

Числовые структуры следующих уровней спектра строятся на основе рекуррентных определений частей последовательностей. Классификация генетических последовательностей определяется на основе принадлежностей числовых показателей рекуррентных определений последовательностей выбранным интервалом изменений числовых показателей рекуррентных определений.

Для развития средств числового представления структур генетических последовательностей разработано ^-рекуррентное определение последовательностей.

Для моделей и методов, используемых в решениях задач 1-3, Д. А. Карякиным разработаны алгоритмы и программы, реализующие методы, а также проведены вычислительные эксперименты, иллюстрирующие решения задач в частных случаях.

Решения задач 1-3 иллюстрируется на примерах, в которых рассматриваются 15 генетических последовательностей имеющих следующую содержательную классификацию:

- последовательности £"д,£п2,...,£1,5, представляющие префиксы длины п генетических последовательностей, соответствующие бактериям;

- последовательности £Цд ,£Ц2,..., £1,5, представляющие префиксы длины п генетических последовательностей, соответствующие вирусам;

- последовательности £Цд,£Ц2,...,£Ц5, представляющие префиксы длины п генетических последовательностей, соответствующие животным.

С использованием алгоритмов и программ задача 1 решена в вариантах:

- для уровней О е {О0, О1, О2, О3} определено число п0, для которого выполняются неравенства г (С?0) = г (С]10), где 1 < V,< = . и г (С) — числовой показатель, соответствующий г уровню.

Рассмотрим задачу построения числовых показателей рекуррентного определения последовательности из множеств последовательностей М1, М2, М3, по которым элементы разных множеств не пересекаются. Анализ процессов распознавания последовательностей по числовым показателям их рекуррентного определения проведен в двух направлениях:

- построением с фиксированием уровня спектра и увеличением длины последовательностей;

- с переходом вычислений показателей по уровням спектра.

Для того, чтобы решать задачи распознавания генетических последовательностей по числовым показателям их рекуррентных и Z-рекуррентных определений, требуется найти эффективную рекуррентную или Z-рекуррентную форму. Общий подход предполагает первоначальное использование рекуррентных форм нулевого уровня. Если для конкретных анализируемых множеств генетических последовательностей числовые показатели нулевого уровня спектра оказываются не достаточными, то проверке на эффективность подвергаются числовые показатели следующих первого, второго, третьего уровней. При этом установлено, что имеются случаи, когда распознавание генетических последовательностей может быть осуществлено на основе применения числовых показателей рекуррентных форм для обращений исследуемых последовательностей. Более сложная методика требуется для поиска Z-рекуррентных форм, позволяющих с их использованием распознавать генетические последовательности. В случае поиска эффективной Z-рекуррентной формы можно пользоваться следующим методом.

Для исследования генетической последовательности С рассмотрим варианты покрытия последовательности подпоследовательностями длин 2, 3,..., С, где С — длина исследуемой последовательности. В множестве подпоследовательностей длины К, К < С, образующих покрытие С, проводится анализ с целью поиска определения наборов целых положительных чисел (г1, г2, ...,га) и ,.2 ,...,¿6), удовлетворяющих условиям.

В каждой подпоследовательности с первым элементом а^ рассмотрим покрытия последовательности С. Элементы последовательности , а*+]-2,..., а4+]-ь функционально соответствуют (функционально связаны) элементам а^, а^2 . Если для последовательности С имеется Z-рекуррентное определение Z-рекуррентной формой порядка (г1?г2,..., га,.,¿2,...,¿6), то этот порядок рассматривается как числовая форма характеристики, по которой определяется последовательность С для решения задач распознавания.

Если генетические последовательности С1 и С2 имеют Z-рекуррентное определение Z-рекуррентной формой одного и того же порядка (г1, г2, ...,га ,.2, ...,76), то поиск новой пригодной для распознавания последовательности С1 и С2 Z-рекур-рентной формой может быть продолжен как поиск новых наборов, составляющих порядок (г1, г2,..., га ,.2, ...,76), так и на основе поиска новых покрытий последовательностей.

3. РАСПОЗНАВАНИЕ ГЕНЕТИЧЕСКИХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ПО ЧИСЛОВЫМ ПОКАЗАТЕЛЯМ РЕКУРРЕНТНЫХ ОПРЕДЕЛЕНИЙ

Рассмотрим примеры распознавания генетических последовательностей по числовым показателям их рекуррентных определений. Для этого из классов генетических последовательностей, соответствующих бактериям, вирусам, животным, выберем по пять представителей длины 10 000 и построим числовые показатели их рекуррентных определений их префиксов длины 100, 1000, 5000, 10 000.

Исследованные последовательности взяты из банка генетических последовательностей NCBI Genome [15]. В связи с большими размерами рассматриваемых генетических последовательностей и их префиксов их конкретная форма в данной статье не приводится.

Для проведения вычислительного эксперимента разработаны алгоритмы и составлены программы, с использованием которых получены результаты, представленные в табл. 1-9.

Используются следующие обозначения: К, К2, К3 — классы генетических последовательностей, К = К и К2 и и К3 — универсум генетических последовательностей.

Таблица 1 / Table 1 Числовые показатели рекуррентного определения последовательностей по Q1 из K\ Numeric indicators of recurrent definition of sequences by Q1 from K1

Длина

100 1000 5000 10 000

¿1,1

8 15 20 64

¿1,2

8 12 49 49

¿1,3

8

23 81 81

¿1,4

8 12 23 23

¿1,5

15 15 25 41

Таблица 2 / Table 2 Числовые показатели рекуррентного определения последовательностей по Q1 из K2 Numeric indicators of recurrent definition of sequences by Q1 from K2

Таблица 3 / Table 3 Числовые показатели рекуррентного определения последовательностей по Q1 из K3 Numeric indicators of recurrent definition of sequences by Q1 from K3

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Длина ¿2,1 ¿2,2 ¿2,3 ¿2,4 ¿2,5

100 7 9 6 8 8

1000 12 11 10 14 16

5000 14 12 14 15 16

10 000 16 15 15 73 16

Длина ¿3,1 ¿3,2 ¿3,3 ¿ 4 ¿ ,

100 7 7 12 14 8

1000 12 250 19 14 14

5000 20 378 19 19 17

10 000 40 378 60 25 17

Таблица 4 / Table 4

Числовые показатели рекуррентного определения последовательностей по Q2 из K1 Numeric indicators of recurrent definition of sequences by Q2 from K1

Длина ¿1,1 ¿1,2 ¿1,3 ¿1,4 ¿1,5

100 5, 7, 26, 31, 100 6, 17, 44, 100 4, 6, 11, 24, 58, 78, 100 4, 8, 20, 23, 38, 62, 100 4, 8, 14, 56, 100

Таблица 5 / Table 5

Числовые показатели рекуррентного определения последовательностей по Q2 из K2 Numeric indicators of recurrent definition of sequences by Q2 from K2

Длина ¿2,1 ¿2,2 ¿2,3 ¿2,4 ¿2,5

100 4, 9, 12, 33, 56, 100 5, 9, 16, 46, 78, 100 3, 10, 57, 100 2, 5, 14, 38, 75, 92, 100 3, 7, 17, 19, 35, 100

Таблица 6 / Table 6

Числовые показатели рекуррентного определения последовательностей по из K3 Numeric indicators of recurrent definition of sequences by from K3

Длина 6,1 6,2 6,3 £ , 4 6,5

100 5, 16, 28, 3, 8, 11, 40, 3, 8, 10, 14, 3, 5, 9, 39, 5, 17, 58,

66, 100 100 23, 100 90, 100 86, 100

Таблица 7 / Table 7

Числовые показатели рекуррентного определения последовательностей по О3 из Ki Numeric indicators of recurrent definition of sequences by 03 from K1

Длина £1,1 £1,2 £1,3 £1,4 £1,5

100 65, 61, 36, 10, 7, 3, 1, 0 67, 59, 34, 19, 8, 2, 1, 0 49, 52, 45, 29, 14, 7, 2, 0 76, 67, 32, 12, 4, 1, 0 60, 52, 31, 16, 6, 2, 1, 0

Таблица 8 / Table 8

Числовые показатели рекуррентного определения последовательностей по О3 из K2 Numeric indicators of recurrent definition of sequences by 03 from K2

Длина £2,1 £2,2 £2,3 £2,4 £2,5

100 69, 60, 36, 17, 4, 2, 0 67, 63, 38, 7, 2, 1, 0 67, 64, 35, 15, 5, 0 66, 56, 34, 19, 9, 4, 1, 0 69, 51, 31, 20, 10, 6, 2, 0

Таблица 9 / Table 9

Числовые показатели рекуррентного определения последовательностей по О3 из K3 Numeric indicators of recurrent definition of sequences by 03 from K3

Длина £3,1 £3,2 £3,3 £ 4 £3,5

100 65, 56, 37, 62, 53, 41, 49, 48, 47, 62, 47, 32, 53, 55, 38, 25,

17, 9, 3, 0 21, 7, 2, 0 34, 21, 10, 15, 10, 8, 4, 11, 5, 1, 0

8, 3, 1, 0 1, 0

4. АНАЛИЗ РЕЗУЛЬТАТОВ ВЫЧИСЛИТЕЛЬНОГО ЭКСПЕРИМЕНТА

Проведем анализ результатов вычислительного эксперимента с классами К, К2, К3, представленных в табл. 1-9. Числовые показатели рекуррентного определения префиксов длины 100 представлены первыми строчками в табл. 1-3. В этом случае числовые показатели префиксов длины 100 последовательностей имеют пересечения, например по числовому показателю 8. Это означает, что, например, по числовому показателю уровня последовательности £1)Ь £1)2, £1)3, £1)4, £2,4, £2,5, £3,5 не различимы.

Аналогичный вывод следует для префиксов последовательности длины 1000. На префиксах длины 5000 числовые показатели рекуррентного определения последовательностей совпадают только для последовательностей £1;1, £3)1. Следовательно, по числовым показателям рекуррентного определения префиксов длины 5000 генетических последовательностей не различимыми являются только последовательности , £3д. Если для генетических последовательностей рассматриваемых классов вычисляются числовые показатели уровня О0 для префиксов длины 10 000, то каждая из рассматриваемых последовательностей имеет свой, принадлежащий только ей числовой показатель: классу К1 соответствуют числовые показатели 23, 41, 49, 64, 81; классу К2 — показатели 15, 16, 73; классу К3 — показатели 17, 25, 40, 60, 378.

Числовые показатели следующего уровня дают более точную и полную характеристику рекуррентного определения последовательностей.

Для того чтобы числовые показатели по уровню для классов К, К2, К3 различались, потребовалось рассматривать префиксы длины 5000. Существенно большую полноту и точность представления структур генетических последовательностей дают числовые показатели уровня . В табл. 4-6 приведены числовые показатели для префикса длины 100. Как видно из данных таблиц, чтобы отличать генетические последовательности по их принадлежности конкретным классам, достаточно вычислить и сравнить числовые показатели префиксов длины 100.

Анализ по числовым показателям уровня 02. Рассмотрим случай распознавания генетических последовательностей как элементов в одном и том же классе. Для класса К числовые показатели отдельных последовательностей имеют пересечения для префиксов длин 100 и 1000. Для префиксов длины 5000 числовые показатели уровня О0 для последовательностей £ 1,1,.. пересечений не имеют. Следует предполагать, что последовательности в классе К2 по числовым показателям функциональных зависимостей элементов в последовательностях имеют большие различия, так как пересечения числовых показателей на префиксах длины 1000 не имеется. Анализ числовых показателей в табл. 3 показывает, что индивидуальные, присущие каждой последовательности из класса К3 числовые показатели не пересекаются на префиксах длины 10 000.

Числовые показатели рекуррентного определения последовательностей уровня достаточны, чтобы по их показателям распознавать каждую последовательность в каждом из классов К, К2, К3. Действительно, наборы числовых показателей для префиксов длины 100 последовательностей в табл. 4-6 в каждом из классов К, К2, К3 попарно различны.

ЗАКЛЮЧЕНИЕ

В исследовании генетических последовательностей одной из основных задач является определение причинно-следственных связей между свойствами генетических последовательностей и свойствами организмов, которым соответствуют последовательности.

Любые конкретные свойства генетических последовательностей, представленные формальными показателями, определяют класс последовательностей, причинно-следственно связанный с классами живых организмов, свойствами живых организмов, видами патологий организмов и т.д.

Для исследований генетических последовательностей в данной статье предлагается разработанный формальный аппарат, который позволяет:

- определять последовательность в виде числовых структур (целых положительных чисел, наборов целых положительных чисел, наборов наборов целых положительных чисел);

- строить модели для конкретных генетических последовательностей и модели для любых конечных множеств генетических последовательностей;

- разрабатывать эффективные алгоритмы для построения моделей генетических последовательностей и моделей множеств генетических последовательностей в форме числовых структур;

- выделять из универсума генетических последовательностей с использованием моделей классы генетических последовательностей и на этой основе строить классификацию;

- с использованием разработанных моделей генетических последовательностей

решать задачи проверки равенства генетических последовательностей и задачу проверки принадлежности рассматриваемой генетической последовательности конкретному классу последовательностей;

- сравнивать классы генетических последовательностей с определением непустоты области их пересечения.

В статье результаты вычислительного эксперимента иллюстрируются простейшими примерами.

Библиографический список

1. Твердохлебов В. А. Геометрическая форма автоматных отображений, рекуррентное и Z-рекуррентное определение последовательностей // Изв. Сарат. ун-та. Нов. сер. Сер. Математика. Механика. Информатика. 2016. Т. 16, вып. 2. С. 232-241. DOI: https://doi.org/10.18500/1816-9791-2016-16-2-232-241

2. Твердохлебов В. А. Z-рекуррентное определение последовательностей в задачах контроля и диагностирования процессов в системах // Докл. Акад. воен. наук. 2016. № 2 (70). С. 43-47.

3. Карякин Д. А. Анализ генетических кодов по показателям сложности взаиморасположения нуклеотидов // Компьютерные науки и информационные технологии : материалы междунар. науч. конф. Саратов : ИЦ «Наука», 2016. C. 190-193.

4. Льюин Б. Гены. M. : БИНОМ, Лаборатория знаний, 2011. 896 c.

5. Уотсон Д. Двойная спираль. Воспоминания об открытии структуры ДНК. М. : Мир, 1969. 152 c.

6. Hogeweg P. The Roots of Bioinformatics in Theoretical Biology // PLoS. Computational Biology. 2011. Vol. 7, iss. 3. Art. ID e1002021. DOI: https://doi.org/10.1371/journal.pcbi.1002021

7. Wattam A. R., Abraham D., Dalay O., Disz T. L., Driscoll T., Gabbard J. L., Gillespie J. J., Gough R., Hix D., Kenyon R., Machi D., Mao C., Nordberg E. K., Olson R., Overbeek R., Pusch G. D., Shukla M., Schulman J., Stevens R. L., Sullivan D. E., Vonstein V., Warren A., Will R., Wilson M. J., Yoo H. S., Zhang C, Zhang Y, Sobral B. W. PATRIC, the bacterial bioinformatics database and analysis resource // Nucleic Acids Res. 2014. Vol. 42, iss. D1. P. D581-D591. DOI: https://doi.org/10.1093/nar/gkt1099

8. Barnett D. W., Garrison E. K., Quinlan A. R., Stromberg M. P., Marth G. T. BamTools: a C++ API and toolkit for analyzing and managing BAM files // Bioinformatics. 2011. Vol. 27, iss. 12. P. 1691-1692. DOI: https://doi.org/10.1093/bioinformatics/btr174

9. Plieskatt J., Rinaldi G., Brindley P. J., Jia X., Potriquet J., Bethony J., Mulvenna J. Bio-clojure: a functional library for the manipulation of biological sequences // Bioinformatics. 2014. Vol. 30, iss. 17. P. 2537-2539. DOI: https://doi.org/10.1093/bioinformatics/btu311

10. Goto N., Prins P., Nakao M., Bonnal R., Aerts J., Katayama T. BioRuby: bioinformatics software for the Ruby programming language // Bioinformatics. 2010. Vol. 26, iss. 20. P. 2617-2619. DOI: https://doi.org/10.1093/bioinformatics/btq475

11. de Brevern A. G., Meyniel J. P., Fairhead C, Neuveglise C., Malpertuy A. Trends in IT Innovation to Build a Next Generation Bioinformatics Solution to Manage and Analyse Biological Big Data Produced by NGS Technologies // BioMed Research International. Vol. 2015. Article ID 904541, 15 p. DOI: http://dx.doi.org/10.1155/2015/904541

12. Schuster S. C. Next-generation sequencing transforms today's biology // Nature Methods. 2008. Vol. 5, iss. 1. P. 16-18. DOI: https://doi.org/10.1038/nmeth1156

13. Сингер М., Берг П. Гены и геномы. М. : Мир, 1998. 391 с.

14. Berg J. M, Tymoczko J. L, Stryer L. DNA, RNA, and the Flow of Genetic Information // Berg J. M., Tymoczko J. L., Stryer L. Biochemistry. 5th ed. N. Y. : W. H. Freeman and Company, 2002. 1515 p.

15. NCBI Genome List. URL: http://www.ncbi.nlm.nih.gov/genome/browse/ (дата обращения: 18.12.2017).

Образец для цитирования:

Твердохлебов В. А., Карякин Д. А. Классификация и распознавание структур генетических последовательностей // Изв. Сарат. ун-та. Нов. сер. Сер. Математика. Механика. Информатика. 2019. Т. 19, вып. 3. С. 338-350. DOI: https://doi.org/10.18500/1816-9791-2019-19-3-338-350

Classification and Recognition of Structures of Genetic Sequences

V. A. Tverdokhlebov, D. A. Kariakin

Vladimir A. Tverdokhlebov, https://orcid.org/0000-0002-2629-441X, Institute of Precision Mechanics and Control, RAS, 24 Rabochaya St., Saratov 410028, Russia, [email protected]

Denis A. Kariakin, https://orcid.org/0000-0002-0670-3407, Saratov State University, 83 Astrakhan-skaya St., Saratov 410012, Russia, [email protected]

For solving problems of determining the relationships between the properties of organisms and the properties of the corresponding genetic sequences, we proposed a classification of genetic sequences based on numerical indicators of recurrent and Z-recurrent shapes, which define the structure of functional relationships of elements in sequences. For numerical indicators of recurrent and Z-recurrent shapes, we introduce a method of classification of genetic sequences. We compared a numerical characteristic that generalizes numerical values with a numerical characteristic of recurrent or Z-recurrent shapes which determine the structure of a sequence for each sequence of a biological rank considered in the recognition problem, which has a meaningful interpretation in the application area. The problem of recognition is considered from two points of view: when we determine belonging of a sequence to a specific rank of sequences, and when we determine which group of sequences contains the experimental sequence. Basic mathematical difficulties in solving these recognition problems are associated with the search difference in numerical representation of recurrent and Z-recurrent shapes of experimental sequences. To overcome these difficulties we created a spectrum of numerical indicators of recurrent and Z-recurrent shapes. Classification and recognition of sequences are illustrated by an example with three ranks of genetic codes of organisms, each of them represented by 5 sequences. Z-recurrent shape is introduced to define and extend the classification of sequences and increase the efficiency of recognition methods.

Keywords: sequence, genetic sequence, recurrent definition of a sequence, Z-recursive definition of a sequence, recurrent shape, Z-recurrent shape, classification of sequences, recognition of sequences.

Received: 12.04.2018 / Accepted: 22.02.2019 / Published: 31.08.2019

This is an open access article distributed under the terms of Creative Commons Attribution License (CC-BY 4.0).

References

1. Tverdokhlebov V. A. Geometric Shape Automaton Mappings, Recurrent and Z-recurrent Definition Sequences. Izv. Saratov Univ. (N.S.), Ser. Math. Mech. Inform., 2016, vol. 16, iss. 2, pp. 232-241 (in Russian). DOI: https://doi.org/10.18500/1816-9791-2016-16-2-232-241

2. Tverdokhlebov V. A. Z-recurrent definition sequences in the tasks of monitoring and diagnosing processes in systems. Reports of the Academy of Military Sciences, 2016, no. 2 (70), pp. 43-47 (in Russian).

3. Kariakin D. A. Analysis of genetic codes by indicators interposition of nucleotides. In: Komp'yuternye nauki i informatsionnye tekhnologii [Computer Science and Information Technology: Proc. Int. Sci. Conf.]. Saratov, Publ. Center "Nauka", 2016, pp. 190-193 (in Russian).

4. Lewin B. Geny [Genes]. Moscow, BINOM, Laboratoriya znanij Publ., 2011. 896 p. (in Russian).

5. Watson D. Dvojnaya spiralVospominaniya ob otkrytii struktury DNK [Double helix. Memories of the discovery of the structure of DNA]. Moscow. Mir, 1969. 152 p. (in Russian).

6. Hogeweg P. The Roots of Bioinformatics in Theoretical Biology. PLoS. Computational Biology, 2011, vol. 7, iss. 3, art. ID e1002021. DOI: https://doi.org/10.1371/journal. pcbi.1002021

7. Wattam A. R., Abraham D., Dalay O., Disz T. L., Driscoll T., Gabbard J. L., Gillespie J. J., Gough R., Hix D., Kenyon R., Machi D., Mao C., Nordberg E. K., Olson R., Overbeek R., Pusch G. D., Shukla M., Schulman J., Stevens R. L., Sullivan D. E., Vonstein V., Warren A., Will R., Wilson M. J., Yoo H. S., Zhang C., Zhang Y., Sobral B. W. PATRIC, the bacterial bioinformatics database and analysis resource. Nucleic Acids Res., 2014, vol. 42, iss. D1, pp. D581-D591. DOI: https://doi.org/10.1093/nar/gkt1099

8. Barnett D. W., Garrison E. K., Quinlan A. R., Stromberg M. P., Marth G. T. BamTools: a C++ API and toolkit for analyzing and managing BAM files. Bioinformatics, 2011, vol. 27, iss. 12, pp. 1691-1692. DOI: https://doi.org/10.1093/bioinformatics/btr174

9. Plieskatt J., Rinaldi G., Brindley P. J., Jia X., Potriquet J., Bethony J., Mulvenna J. Bio-clojure: a functional library for the manipulation of biological sequences. Bioinformatics, 2014, vol. 30, iss. 17, pp. 2537-2539. DOI: https://doi.org/10.1093/bioinformatics/btu311

10. Goto N., Prins P., Nakao M., Bonnal R., Aerts J., Katayama T. BioRuby: bioinformatics software for the Ruby programming language. Bioinformatics, 2010, vol. 26, iss. 20, pp. 2617-2619. DOI: https://doi.org/10.1093/bioinformatics/btq475

11. de Brevern A. G., Meyniel J. P., Fairhead C., Neuveglise C., Malpertuy A. Trends in IT Innovation to Build a Next Generation Bioinformatics Solution to Manage and Analyse Biological Big Data Produced by NGS Technologies. BioMed Research International, vol. 2015, art. ID 904541, 15 p. DOI: http://dx.doi.org/10.1155/2015/904541

12. Schuster S. C. Next-generation sequencing transforms today's biology. Nature Methods, 2008, vol. 5, iss. 1, pp. 16-18. DOI: https://doi.org/10.1038/nmeth1156

13. Singer M., Berg P. Geny i genomy [Genes and genomes]. Moscow, Mir, 1998. 391 p. (in Russian).

14. Berg J. M., Tymoczko J. L., Stryer L. DNA, RNA, and the Flow of Genetic Information. In: Berg J. M., Tymoczko J. L., Stryer L. Biochemistry. 5th. ed. New York, W. H. Freeman and Company, 2002. 1515 p.

15. NCBI Genome List. Available at: http://www.ncbi.nlm.nih.gov/genome/browse/ (accessed 18 Desember 2017).

Cite this article as:

Tverdokhlebov V. A, Kariakin D. A. Classification and Recognition of Structures of Genetic Sequences. Izv. Saratov Univ. (N. S.), Ser. Math. Mech. Inform., 2019, vol. 19, iss. 3, pp. 338350 (in Russian). DOI: https://doi.org/10.18500/1816-9791-2019-19-3-338-350

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.