ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ
ДНК КОМБИНАТОРИКА, ПРИМЕНЕНИЕ МТДНК МАТРИЦ ДЛЯ РАСЧЁТА РОДСТВЕННЫХ СВЯЗЕЙ. ТЕОРЕМА О РАВЕНСТВЕ НУЛЮ КОРРЕКТИРУЮЩЕЙ МТДНК МАТРИЦЫ Филатов О.В. Email: [email protected]
Филатов Олег Владимирович - инженер-программист, Научно технический центр «Модуль», г. Москва
Аннотация: в последнее время в математике открыты новые фундаментальные законы, которые позволили создать ещё совсем недавно невозможный раздел -«Комбинаторика Длинных Последовательностей» - КДП. Законы КДП позволили оценивать отклонение ДНК структур от структуры идеальной случайной последовательности, что позволяет анализировать ДНК с позиций законов комбинаторики и случайности. Комбинаторная структуризация ДНК позволила резко сократить размеры отображаемой визуальной информации при визуализации структуры ДНК и резко повысить информативную ёмкость отображаемой информации, за счёт введения матричной формы отображения структур КДП в ДНК. В статье на примере анализа мтДНК Amphibians методами КДП сделана попытка ввести чисто математический расчёт близости родственных связей среди тестовой выборки Amphibians.
Ключевые слова: мтДНК, комбинаторика, матрица, элементарное событие, эл, КДП, Amphibians.
DNA COMBINATORICS, THE USE OF MTDNA MATRICES FOR
CALCULATING FAMILY TIES. THE THEOREM ON THE EQUALITY TO ZERO OF THE CORRECTING MTDNA MATRIX
Filatov O.V.
Filatov Oleg Vladimirovich - Software Engineer, SCIENTIFIC AND TECHNICAL CENTER «МОДУЛЬ», MOSCOW
Abstract: recently, new fundamental laws have been discovered in mathematical combinatorics, which made it possible to create a previously unimaginable section -"Combinatorics of Long Sequences" - CDP. The KDP laws made it possible to assess the deviation of DNA structures from the structure of an ideal random sequence, which makes it possible to analyze DNA from the standpoint of the laws of combinatorics and randomness. Combinatorial DNA structuring made it possible to sharply reduce the size of the displayed visual information when visualizing the DNA structure and to dramatically increase the informative capacity of the displayed information, due to the introduction of a matrix form for displaying CDP structures in DNA. In the article, using the example of the analysis of mtDNA Amphibians by the QDP methods, an attempt is made to introduce a purely mathematical calculation of the proximity of kinship among the test sample of Amphibians. Keywords: mtDNA, combinatorics, matrix, elementary event, el, KDP, Amphibians.
УДК 51; 34.23.37 DOI: 10.24411/2304-2338-2020-10801
Введение
Введём в описательное представление мтДНК математическую формалистику, используя «Комбинаторику Длинных Последовательностей» (КДП). Применение КДП значительно сокращает размеры информации описывающей мтДНК и чрезвычайно сильно увеличивает для человеческого восприятия наглядность и
узнаваемость различных мтДНК. Как следует из названия - «Комбинаторика Длинных Последовательностей», КДП изучает структуру и закономерности длинных случайных пос-тей. И на вопрос: «Насколько структура мтДНК является случайной и насколько структура мтДНК подчиняется формулам, которыми описываются случайные последовательности»? КДП даёт ответ.
Основным понятием для разложения любой случайной пос-ти на логические фрагменты в КДП является «Составное событие» [1 - 5]. Любая пос-ть N случайных событий (длины N) однозначно раскладывается на составные события. Поскольку мтДНК кодируется четырьмя буквами, то сравнение структуры мтДНК будем производить со структурой случайной пос-ти длины N, которая образована четырьмя равновероятными случайными событиями. В КДП независимые возможные исходы случайных событий называются вершинами и обозначаются буквой V. Численность составных событий "5W любой случайной пос-ти зависит от числа вершин V (множества случайных исходов) [4, 5]. Число одинаковых элементарных событий, образующих составное событие ySN, обозначается как п (длина составного события) [1, 2, 3]. Число составных событий "Sw длины п в пос-ти N из V равновероятных исходов описывается ф.1.1 [4, 5]:
(V - Г)2
ПС — ^_J_K¡ Ф 11
VbN - уп+1 « ^ ^^
Основная часть
Численности составных событий nSN рассчитанных по ф.1.1 для наглядности структуры мтДНК и резкого сокращения объёма отображаемой информации удобно выводить в виде таблицы (матрицы), ф.2.1. Например, мтДНК амфибии Alytes obstetricans pertinax в формате txt записанный последовательностью из четырёх букв занимает 17 490 байт, а записанный в виде матрицы Ms в формате txt, ф.2.1, занимает всего 130 байт. Размер мтДНК Acacia ligulata записанный при помощи букв в формате txt занимает 698 138 байт, этот же мтДнк в виде матрицы Ms в формате txt, ф.2.1, занимает 235 байта.
Представление мтДНК в виде матриц Ms.
Любая пос-ть мтДНК, которая записана посредством букв: A,C,G,T раскладывается на v ="Sn - составные события КДП. Матрица (таблица) Ms составных событий любой мтДНК получается очень компактной и наглядной, по
сравнению с полной буквенной пос-тью этой же мтДНК, ф.2.1:
m - i cs сs ts i ф. 2.1
п=1с п=1г с-> п=1г с-> n=ls-
"=j 5 п=2 с С-> п=2 с С-> n=2S
"=55 n=Rc С-> n=R с С-> n=R с f<J.
Где: буквой 5 обозначаются численности составных событий образованных из п - цепочек одинаковых букв (либо А, либо С, либо С, либо Т). То есть, в каждом из четырёх столбцов матрицы (А,С^,Т) собраны составные события образованные только из одной опредёлённой буквы. В верхней строке матрицы расположены составные события образованные одной буквой (единичной длины: ). Во второй строке матрицы расположены составные события, образованные из двух букв (длина в два элементарных события: п = 2 ), и т.д. В нижней строке матрицы расположены составные события образованные из Д букв (длины: п = Д ). Подчеркнём, в реальных мтДНК матрицах нижний ряд Д редко бывает заполнен всеми значениями, отличными от нуля. А также часто один или несколько рядов матрицы (с номерами меньше Д) содержат нулевые величины в каждом столбце.
Обрабатывая матрицы составных событий М5 разными методами, получаем разные характеристики отдельных мтДНК [6], которые удобно сравнивать друг с другом. В таблице 1, в столбце 1, даны удобные значения параметра « | ДДД | », который показывает близость родственных отношений между амфибиями, перечень которых дан в столбце 2. В столбце 3, для справки, дано число букв в каждом рассмотренном мтДНК.
1 2 3
| AAA | эл Amphibians N - букв в мтДНК
* 0 Alytes obstetricians - жабы-повитухи, Европа 17490
219,8 Heleophryne regis - лягушка, Африка 17620
465,8 Scaphiopus holbrookii - лягушка, США 16881
495,4 Glandirana tientaiensis- лягушка, Китай 17681
597,5 Quasipaa yei (Ye's spiny-vented лягушка) Китай 17072
628,6 Kaloula borealis - лягушка, Азия 17174
648,8 Limnonectes fujianensis - лягушка, Китай 18293
699,5 Strauchbufo raddei - монгольская жаба 17602
788,5 Fejervarya cancrivora - крабоядная лягушка, Китай 17843
812,8 Triturus carnifex - серопятнистый тритон 16560
844,9 Nanorana pleskei - лягушка Плеска, Китай 17660
888,6 Rana amurensis - амурская лягушка 18470
922,7 Xenopus Andrei - лягушка, Африка 17443
1050,5 Babina adenopleura - лягушка, Китай 18982
1143,0 Echinotriton andersoni - тритон Андерсона, Япония 16268
1156,4 Lechriodus melanopyga - лягушка, Индонезия 19205
1160,3 Uraeotyphlus gansi - червяга Ганса 16101
1266,3 Notophthalmus perstriatus - полосатый тритон, США 16336
1311,0 Pachytriton feii - настоящая саламандра, Китай 16293
1393,6 Eurycea cirrigera - саламандра, США 16759
*Родственная близость рассчитывается относительно Alytes obstetricians и её дистанцирование относительно самой себя равно нулю; Graph2\TabSheet17 (ACGT)\Button239.
При составлении таблицы 1 было проанализировано 43 мтДНК генома амфибий. Родственные связи мтДНК амфибий с мтДНК Alytes obstetricians показывает |ДХ| -расчётный параметр в элах [1, 2, 3]. Чем меньше величина |AAA|, тем теснее родство амфибий между собой. Родство Alytes obstetricians к себе самой максимально возможное, и имеет минимально возможную величину: |AAA|=0 эл. Один из мтДНК с IAAAI = 4034,9 эл был исключён, по причине сильного отличия его величины от других результатов.
Из таблицы 1 видно, что Heleophryne regis наиболее близок, по мтДНК, к Alytes obstetricians. Это не значит, что Heleophryne regis самый близкий родственник Alytes obstetricians, так как подавляющее число сейчас существующих мтДНК амфибий не было рассмотрено при составлении таблицы 1, и среди нерассмотренных мтДНК амфибий обязательно найдутся образцы с меньшим родственным удалением IAAA|.
Методика расчёта родственных удалений.
Опишем несложный математический аппарат для расчёта родственных удалений |AAA| в таблице 1.
В КДП элементарные события называются элами [1, 2, 3]. В каждом составном событии "5 содержится п одинаковых эл (элементарных событий) [1, 2, 3]. Переход от уровня составных событий к уровню элементарных событий осуществляется путём умножения числа составных событий "5 на их базовую длину п, ф.2.2:
пЕ = nS ■ п
Ф. 2.2
Если каждый член матрицы составных событий М5 (который равен числу
составных событий и5) перевести по ф.2.2 в число элементарных событий "Я, то
получим: Мв - мтДНК матрицу эл-х событий, ф.2.3: ,п=1Е п=1Е п=1Е п=1Е,
/ п=2г п= 2р п=2г п=2с \
м I СЯ СЯ 7-Я ) Ф. 2.3
Отметим, что скалярная сумма всех членов "Я матрицы Мв равна - числу букв образующих мтДНК, ф.3.3:
I
L^ - ND ЛМ Ф. 3.3
ье {лГсТс;?-}
П = 1
Где: L - это одна из четырёх букв мтДНК (¿4; С; G; Г); ^я - сумма эл-х событий во всех составных событиях тах - максимальный номер ряда R в матрице Ms.
Обозначим базовую матрицу, относительно которой будем рассчитывать родственные удаления, как: . Где: - символ эл - матрицы (матрицы
элементарных событий); N0 - символ числа букв в базовом мтДНК В таблице 1 базовому мтДНК соответствует строка «Alytes obstetricians (жаба-повитуха)». Через N, с уточняющим символом или без, будем обозначать число букв в любом мтДНК (см. таблица 1столбец 3).
Матрицы М5, Мв и представимы как объединение столбцов, в частности:
Где: - сумма эл-х событий во всех составных событиях .
Сумма по каждому столбцу матрицы MB содержит полное число каждой из букв (A,C,G,T) в мтДНК (в терминологии КДП - полное число эл): £ n=iiax2£ - а(4); ^=ГЖ Ся - с(С); £П=ГХ - 5(G); £П=ГХ ?я - t(T). Сумма букв, при объединении множеств , равна - числу букв в мтДНК,
ф.3.4:
а (4) + с (С) + д(G) + t(Г) - Ф. 3.4
Под родственной близостью (родственным удалением) будем понимать
величину, получаемую из разности матриц , измеряемую в буквах
генома (или в эл-х по терминологии КДП) и рассчитываемую по ф. 3.5:
_ ,--Ф
I АХ| - V (я 0л - ял) 2 + (я0 с - яс)2 + (я 0 с - яс)2 + (я 0 г - яг)2 3 5
Где: , , , - полная сумма по каждому из столбцов базовой
реальной эл - матрицы (см. ф. 2.3), значения которой рассчитаны по ф. 2.2. Для таблицы 1 базовой матрицей является матрица Mf^, полученная из мтДНК «Alytes obstetricians». яЛ, яс, яс, яг - полная сумма по каждому из столбцов матриц элементарных событий, любых мтДНК: .
Реальная М£ДА, идеальная ¡^М^ и корректирующая М^до матрицы.
Выше была рассмотрена матрица эл-х событий М®"44 (распределения букв) мтДНК, ф.2.3, сумма всех членов которой, по ф. 3.4, равна Обозначим матрицы мтДНК как: М®"44, ф. 2.3, и для определенности будем называть матрицы рассматриваемых мтДНК «Реальными матрицами».
Назовём «Идеальной матрицей» матрицу ¡^Мдд,, которая отражает структуру случайной пос-ти описываемой ф. 1.1, с V = 4 возможными исходами каждого из N событий. Так как идеальная матрица получается из идеальной случайной пос-ти, ф. 1.1, то дадим определение идеальной случайной пос-ти.
«Идеальной случайной пос-тью» называется пос-ть, число составных событий которой в максимально возможной степени подчиняется ф. 1.1, распределение цуг которой в максимально возможной степени подчиняется формулам из работ [6, 7], и каждое из возможных равновероятных величин которой в максимально возможной
N
степени стремится к значению: —.
Следствие 1: идеальная матрица всегда получается из реальной последовательности и соответствует ей.
Следствие 2: смысл применения идеальной матрицы и идеальной пос-ти заключается в их сравнении с реальными мтДНК пос-ми (матрицами), причём длина идеальной и реальной пос-ти должна быть одинаковой.
Корректирующая матрица.
Рассмотрим случай, когда сумма членов идеальной эл - матрицы равна
числу букв некоторого реального мтДНК. Реальному мтДНК соответствует своя матрица , распределение величин членов которой и само число членов которой
не идентично распределению членов и их величинам в идеальной матрице .
Правомерен вопрос о том насколько реальная эл - матрица М®"44 мтДНК, сумма по которой - равна длине (числу букв) исследуемого мтДНК, отличается от идеальной матрицы ^^Мдд, случайной пос-ти. Это различие наглядно показывает корректирующая матрица М®"-4, ф.4.1.
Рассчитаем корректирующую матрицу М®"-4, ф.4.1, члены которой содержат такие величины, скалярное сложение которых с соответствующими величинами реальной матрицы М®"44 в результате даёт идеальную КДП - матрицу ¡^Мдд,:
М сил = КДП М _ М к "л Ф 4 1
При скалярном сложении корректирующей матрицы с реальной матрицей
(КДП ф.1.1 и ф.2.2): К^М
М®"44 мтДНК, получим идеальную матрицу КДПмиу (КДП ф.1.1 и ф.2.2): КДПМ™ =
МОИ А I л /¡ОМА „. мDNA _ КДП.» МВЫА
, и: .
Теорема «О нулевой сумме членов корректирующей эл - матрицы».
л,'кдп
Теорема. Скалярная сумма всех членов корректирующей эл - матрицы М®"44
равна нулю, ф. 4.2:
п=й
I
_ ^кдп = а (¿) + с (С) + д (С) + £ (7) = 0 ф. 4.2
Ь6{А,С,С,Т} п=1
Доказательство. Число эл идеальной пос-ти и эл - матрицы равны числу букв N в исследуемой мтДНК, следствие 2. Из определения корректирующей эл - матрицы Мкдп, ф.4.1, видно, что она является разностью идеальной эл - матрицы КДП Мш (скалярная сумма всех членов которой равна ), и реальной эл - матрицы (скалярная сумма всех членов которой равна числу букв N исследуемой мтДНК):
= аАкдп + сскдп + 5скдп + = N; М*Г = + с^А + + tKiVA = N; K=nMBW = MÜ = N. Отсюда, скалярная разница двух эл - матриц по определению является разницей одной и той же константы N, которая вычитается сама из себя: КДПМВИ — MK¡VA = N — N = . Вычитание константы N самой из себя равно нулю, что и доказывает теорему, ф.4.2.
Свойства М^щ - корректирующей эл - матрицы.
Так как скалярная сумма всех членов корректирующей эл - матрицы М^щ равна нулю, то можно констатировать, что М^щ является сложно организованным скалярным нулём. Сумма по всем элементам М^щ - это ноль, но этот ноль, при сложении с М™А - реальной эл - матрицей мтДНК, меняет величины членов М|^А, не меняя её итоговой величины - скалярной суммы матрицы . Сумма
является идеальной матрицей .
Сумма двух корректирующих эл - матрица от разных мтДНК не будет корректирующей матрицей ни для одного из этих мтДНК, и не может уже превращать реальные эл - матрицы мтДНК1 и мтДНК2 в идеальные эл - матрицы.
Несмотря на то, что сумма по всем элементам корректирующей эл - матрицы М™А равна нулю, её нельзя вычитать не из реальных эл - матриц М^щ, и нельзя прибавлять к идеальным эл - матрицам , так как получаемые в результате этих
операций эл - матрицы являются бессмысленными: ;
мК ¡VA ф кДп М + МК¡VA МB¡V ^ ^=4М B¡V + МКДП .
Обсуждение
История развития научного знания показывает, что развитие различных наук имеет общую тенденцию. Эта тенденция заключается в том, что при зарождении той или иной науки, преобладают словесные описания накапливаемых фактов. И, по мере накопления количества фактов и их осмысления, к их описанию подключаются математические методы. Конечно, развивается и сама математика, которая по мере появления своих новых наработок пытается применить их к описанию фактов в той или иной науке. Именно это и демонстрирует данная статья. В математической теории вероятностей возникло новое направление -«Комбинаторика длинных последовательностей» - КДП, и это новое математическое направление пытается применить свои законы и свой математический аппарат к генетическому спектру наук.
В данной статье была проведена попытка соединить комбинаторные, ф. 1.1, матричные ф. 2.2 и геометрические ф.3.5 представления для описаний родственных связей (РУ) на основе цепочек (пос-тей) мтДНК.
Надо отметить, что одинаковые величины зон РУ - родственных удалений реализованные на механизме | ДХ | - ф. 3.5, могут быть получены в рамках разных классов животных: Birds, Fishes, Mammals, Reptiles. Поэтому, для создания более мощной классификации родственных удалений надо ставить верхние и нижние символы у аббревиатур РУ и , которые должны указывать, для какого конкретно класса (Amphibians, Birds, Fishes, Mammals, Reptiles) произведено вычисление.
Обязательно надо отметить, что создание идеальной матрицы не является однозначным процессом, так как получаемые по формульным расчётам результаты обычно содержат дробные части, а численность составных событий, ф. 1.1 и ф. 2.1, а так же численности эл, ф. 2.2, должны быть целыми (без дробных частей). К тому же при записи идеальной матрицы для нечётного N, придется решать проблему неполного заполнения, или заполнения строки разными величинами, вследствие того, что V¡ обычно будет не кратно четырём, и так же имеет дробную часть. Следствием из этого замечания является то, что для реального мтДНК обычно можно создать более
одной идеальной матрицы 4MBW. А существования нескольких, множества идеальных матриц {^^M^} удовлетворяющих равенству ф.3.4, приводит к существованию множества корректирующих матриц {M кдп} созданных по ф. 4.1 и удовлетворяющих равенству ф.4.2. Но в анализ этой проблемы и обоснование правил по округлению дробных частей при создании идеальных матриц выходит за рамки этой статьи. И, наконец, из сказанного следует, что пока не выработаны общепринятые правила создания идеальных матриц и расчета величин родственных удалений | ДХ| , родственные удаления будут обладать погрешностью +Д, которая зависит от используемой исследователем методики округления. Выводы
- Строение цепочек ДНК можно представлять в виде компактных, легко оцениваемых матриц составных событий, ф. 2.1 и эл - матриц, ф. 2.3.
- Любую матрицу мтДНК, построенную по законам «Комбинаторики длинных последовательностей» - КДП, можно сравнить с матрицей идеальной пос-ти посредством корректирующей матрицы, ф. 4.1.
- Матричное представление мтДНК (матрица которой построена по правилам КДП) позволяет сравнивать близость структур любых двух мтДНК, в частности посредством механизма «Родственной близости», ф. 3.5.
- Корректирующая эл - матрица исследуемого мтДНК обладает свойством сложно организованного нуля, свойство нуля корректирующей эл - матрицы проявляются только для двух причинно связанных с ней объектов: реальной матрицей исследуемого мтДНК, и идеальной матрицей исследуемого мтДНК.
Список литературы /References
1. Филатов О.В., Филатов И.О., Макеева Л.Л. и др. «Потоковая теория: из сайта в книгу». Москва. «Век информации», 2014. С. 200.
2. Филатов О.В., Филатов И.О. «Закономерность в выпадении монет - закон потоковой последовательности». Германия. Издательский Дом: LAPLAMBERT Academic Publishing, 2015. С. 268.
3. Филатов О.В., Филатов И.О. Статья «О закономерностях структуры бинарной последовательности». «Журнал научных публикаций аспирантов и докторантов», 2014. № 5 (95). С. 226-233.
4. Филатов О.В. Статья «Описание структур любых последовательностей образованных равновероятными случайными событиями». «Проблемы современной науки и образования». № 5 (138), 2019. С. 9-15, DOI: 10.24411/23042338-2019-10501.
5. Филатов О.В. Статья «Описание распределения составных событий и их мизесовских частот через число возможных исходов. Механизм сжатия некоторых «не сжимаемых на один» последовательностей». «Проблемы современной науки и образования». № 9 (39), 2015. С. 27-36. DOI: 10.20861/2304-2338-2015-39-001.
6. Филатов О.В. Статья «Применение структур случайных последовательностей для описания свойств мтДНК и определения принадлежности отдельных мтДНК к их хозяйской группе животных». «Проблемы современной науки и образования». № 5 (150), 2020. С. 6-12.
7. Филатов О.В. Статья «Описание структур любых последовательностей образованных равновероятными случайными событиями». «Проблемы современной науки и образования». № 5 (138), 2019. С. 9-15.