Научная статья на тему 'Мультиэвристический подход к сравнению качества определяемых метрик на множестве последовательностей ДНК'

Мультиэвристический подход к сравнению качества определяемых метрик на множестве последовательностей ДНК Текст научной статьи по специальности «Математика»

CC BY
155
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МУЛЬТИЭВРИСТИЧЕСКИЙ ПОДХОД / МЕТРИКА НА МНОЖЕСТВЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ДНК / АЛГОРИТМЫ / MULTIHEURISTIC APPROACH / METRICS ON THE SET OF DNA SEQUENCES / ALGORITHMS

Аннотация научной статьи по математике, автор научной работы — Мельников Борис Феликсович, Пивнева Светлана Валентиновна, Трифонов Максим Андреевич

В настоящей статье анализируется несколько метрик, определяющих различия в последовательностях ДНК разных видов. Рассматриваются несколько стандартных метрик, а также модификация оригинальной авторской метрики, предыдущие версии которой рассматривались в наших прежних публикациях. При определении качества метрик мы исходим из предположения о том, что для любых трёх далёких видов вычисляемые по этой метрике расстояния между ними должны образовывать треугольник, близкий к равнобедренному остроугольному. Мы считаем несколько вариантов отклонения треугольника от равнобедренного остроугольного, после чего считаем сумму таких отклонений для всех получающихся треугольников. На основании проведённых подсчётов делаем вывод о качестве первоначальных метрик. После этих вычислений применяем полученную методику к рассмотрению этих же метрик для близких видов (человекообразных обезьян и человека) и на этих близких видах получаем немного иные результаты сравнительного анализа рассматриваемых метрик.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Мельников Борис Феликсович, Пивнева Светлана Валентиновна, Трифонов Максим Андреевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MULTIHEURISTIC APPROACH TO COMPARE THE QUALITY OF DEFINED METRICS ON THE SET OF DNA SEQUENCES

In this article, we analyzed some several metrics that determine the differences in DNA sequences of different species. Several standard metrics are considered, as well as a modification of the original author's metric, the previous versions of which were considered in our previous publications. Determining the quality of some several metrics, we proceed from the assumption that for any three distant species, the distances between them computed from this metric should form a triangle close to an isosceles acute-angled triangle. We consider several variants of the deviation of a triangle from an isosceles acute-angled triangle, and then we consider the sum of such deviations for all the resulting triangles. Based on these calculations, we make a conclusion about the quality of the original metrics. After these calculations, we apply the obtained technique to the consideration of the same metrics for close species (anthropoid and human), and on these closely related species, we obtain slightly different results of a comparative analysis of the metrics under consideration.

Текст научной работы на тему «Мультиэвристический подход к сравнению качества определяемых метрик на множестве последовательностей ДНК»

УДК 004.89

Мельников Б.Ф.1 , Пивнева С.В.2 , Трифонов М.А.2

1 Центр информационных технологий! и систем органов исполнительной! власти, г. Москва, Россия 2 Тольяттинскии государственный университет, г. Тольятти, Россия

МУЛЬТИЭВРИСТИЧЕСКИЙ ПОДХОД К СРАВНЕНИЮ КАЧЕСТВА ОПРЕДЕЛЯЕМЫХ МЕТРИК НА МНОЖЕСТВЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ДНК

Аннотация

В настоящей статье анализируется несколько метрик, определяющих различия в последовательностях ДНК разных видов. Рассматриваются несколько стандартных метрик, а также модификация оригинальной авторской метрики, предыдущие версии которой рассматривались в наших прежних публикациях. При определении качества метрик мы исходим из предположения о том, что для любых трёх далёких видов вычисляемые по этой метрике расстояния между ними должны образовывать треугольник, близкий к равнобедренному остроугольному. Мы считаем несколько вариантов отклонения треугольника от равнобедренного остроугольного, после чего считаем сумму таких отклонений для всех получающихся треугольников. На основании проведённых подсчётов делаем вывод о качестве первоначальных метрик. После этих вычислений применяем полученную методику к рассмотрению этих же метрик для близких видов (человекообразных обезьян и человека) - и на этих близких видах получаем немного иные результаты сравнительного анализа рассматриваемых метрик.

Ключевые слова

Мультиэвристический подход; метрика на множестве последовательностей ДНК; алгоритмы.

Melnikov B.F.1, Pivneva S.V.2, Trifonov M.A. 2

1 Center of Information Technologies and Systems for Executive Power Authorities, Moscow, Russia

2 Togliatti State University, Togliatti, Russia

MULTIHEURISTIC APPROACH TO COMPARE THE QUALITY OF DEFINED METRICS ON THE

SET OF DNA SEQUENCES

Abstract

In this article, we analyzed some several metrics that determine the differences in DNA sequences of different species. Several standard metrics are considered, as well as a modification of the original author's metric, the previous versions of which were considered in our previous publications. Determining the quality of some several metrics, we proceed from the assumption that for any three distant species, the distances between them computed from this metric should form a triangle close to an isosceles acute-angled triangle. We consider several variants of the deviation of a triangle from an isosceles acute-angled triangle, and then we consider the sum of such deviations for all the resulting triangles. Based on these calculations, we make a conclusion about the quality of the original metrics. After these calculations, we apply the obtained technique to the consideration of the same metrics for close species (anthropoid and human), and on these closely related species, we obtain slightly different results of a comparative analysis of the metrics under consideration.

Keywords

Multiheuristic approach, metrics on the set of DNA sequences, algorithms.

Введение

Задача определения схожести ДНК является частным случаем задачи неточного сопоставления последовательностей [1]. «Неточность» заключается в том, что при сравнении строк имеется возможность распознать схожие

последовательности - даже несмотря на возможные ошибки и искажения в них, например, изменение, удаление или вставку нескольких символов. Количество таких искажении задает метрику на множестве строк, которая определяется по минимальному количеству

операции! редактирования, позволяющих получить из одной строки другую. Эта задача встречается во многих областях. Например, сравнение генов, хромосом и белков является однои из важнейших задач и одним из основных инструментов молекулярной биологии и биоинформатики [1,2,3,4,5,6,7]. Точное сравнение цепочек нуклеотидов здесь неприемлемо из-за наличия ошибок в данных, а также из-за возможных мутации. Неточное сопоставление осуществляется так же, как и при обработке обычного текста. Одна из метрик, получаемая при сравнении слов -расстояние Левенштеина - используется для исправления ошибок, для повышения качества распознавания отсканированных документов, для поиска в информационных системах и базах данных [1]. Для нахождения приближенного решения существуют различные алгоритмы в разных предметных областях, например, для поиска в базах данных генетической информации широко применяется алгоритм BLAST ([2] и др.), аппроксимирующий алгоритм Нидлмана-Вунша.

В разделе 1 даннои статьи описывается применение к задаче определения схожести последовательностей ДНК т.н.

мультиэвристического подхода [8,9], фактически являющегося развитием метода ветвеи и границ. Отметим, что ранее, до наших работ, метод ветвеи и границ к решению даннои задачи, по-видимому, не применялся.

Итак, расчет расстояния (метрики) между строками ДНК различных видов организмов является однои из важнейших современных задач биоинформатики. Как уже было отмечено, на сегодняшний день существует множество алгоритмов, позволяющих произвести

приближенный расчет за полиномиальное время ([4,5,6,7,10] и мн. др.). Очевидным недостатком при расчете расстояния между однои и тои же парои строк ДНК является получение различных результатов при использовании различных алгоритмов для расчета метрик. Однако авторам неизвестны работы, в которых сравнивались бы различные алгоритмы решения даннои задачи. В связи с этим одна из задач, рассматриваемых в настоящей статье, заключалась в разработке метода сравнительной оценки таких алгоритмов. Более того, эта задача, по-видимому, является наиболее важнои из рассматриваемых. В результате авторами был предложен метод оценки с использованием свойств равнобедренного треугольника в метрическом пространстве (раздел 2, т. н. «треугольная норма», по результатам которой считается т. н. badness, относящаяся к некоторой метрике для нескольких рассматриваемых видов).

В статье также рассматриваются варианты улучшения уже имеющихся метрик. При этом ни для одного из рассматриваемых методов

построения расстоянии между цепочками ДНК не является недостатком использование его для оценки расстоянии в двух разных ситуациях: как между ближними видами (пары «человек -шимпанзе» и «человек - бонобо» и т.п.), так и между более дальними (пары «человек -крокодил» и «шимпанзе - крокодил» и т.п.). Это объясняется тем, что мы рассматриваем, в первую очередь, углы треугольников в евклидовом пространстве. Однако некоторые вычислительные эксперименты, связанные с применением для преобразования метрик непрерывных

монотонных функции, нами проделаны были (раздел 3).

Краткие результаты вычислительных экспериментов над геномами 100 видов приведены в разделе 4. Среди этих результатов стоит отметить следующее. Во-первых, для «далеких» видов badness очень мала - что свидетельствует об удачном выборе наших подходов и соответствующих конкретных алгоритмов; при этом данньш факт верен для нескольких разных норм. Во-вторых, (также для «далеких» видов) предложенный нами подход к определению метрики дает наилучшие результаты (по всем рассматриваемым «треугольным» нормам) - среди 5 рассматривавшихся метрик [4,5,6,7,10]. Для «близких» видов (человек и человекообразные обезьяны) результаты несколько хуже (увеличивается значение badness, и, кроме того, наш вариант метрики дает 2-и по качеству результат). В-третьих, вряд ли какая-нибудь из этих метрик приемлема для определения расстояния между подвидами: так, при применении данных алгоритмов к человеческим расам иногда даже возникает нарушение неравенства треугольника. Точные объяснения последних фактов, по-видимому, должны приводить специалисты-биологи, однако мы ниже также пытаемся объяснить их, с нашеи точки зрения.

Возможные направления дальнеишеи работы, уже ведущиеся нашеи группой в настоящее время, кратко описаны в заключении (раздел 5).

1. Алгоритм определения расстояний между последовательностями нуклеотидов на основе мультиэвристического подхода

Как уже было сказано ранее, мультиэвристическии подход к задачам дискретной оптимизации был нами рассмотрен в [8,9] и многих других последующих публикациях. В этом разделе описын вариант его применения к задаче определения схожести

последовательностей ДНК. Для решения даннои задачи он был применен следующим образом1.

1 Здесь мы немного изменили описание алгоритма, приведенное в [10]. Авторы готовы выслать исходный код программы при запросе по электронной почте.

Пусть x, y - исходные строки, i, j - индексы символов строк x и y соответственно, г - значение метрики, которое требуется наити. Под сдвигом строки будем понимать увеличение на единицу соответствующего индекса. Общую схему алгоритма можно описать следующим образом.

Вход: Строки x и у.

Шаг 1: i := 0, j := 0, г := 0;

Шаг 2: if x[i] = y[j] then begin сдвигаем обе строки; r :+ стоимость совпадения символов x[i] иy[j]; end

elsebegin

применяем эвристики для генерации возможных «траектории» сдвига в позиции i' и j', таких что x[i] = y[j];

оцениваем их с помощью других

эвристик;

усредняем полученные оценки, используя функцию риска;

осуществляем сдвиг (при этом может измениться значение r); end;

Шаг 3: повторяем второи шаг до тех пор, пока не достигнут конец однои из строк.

Мы считаем «стоимость» совпадения двух символов, которую в простершем случае полагаем равнои 1; для ДНК можно определять ее с помощью матрицы весов аминокислотных замен BLOSUM [1,2,11] или какои-либо инои подобной матрицы.

В процессе разработки и реализации алгоритма нами были использованы следующие вспомогательные эвристики.

Выбираем траектории, для которых выражение (i'-i)+(j'-j) принимает минимальное либо близкое к минимальному значение. Например, сначала мы рассматриваем все траектории со сдвигом только однои из строк на один символ; затем - со сдвигом однои из строк на два символа или обеих на один символ; и т.д.

Сдвигаем ту строку, текущий символ которой реже встречается в другои строке. Для этои эвристики желательно знать вероятности появления символов в каждои из строк. Если они заранее неизвестны, мы считаем их равными. В процессе работы мы динамически корректируем вероятности или (в простои версии алгоритма) используем т.н. алгоритм старения [12], чтобы вероятность символа определялась по некоторому фрагменту перед текущим символом, а не по целои строке. Если вероятности для текущих символов окажутся равными, сдвигается строка, в которой осталось больше символов.

Комбинация двух предыдущих эвристик: результирующая оценка складывается как ее оценки первои и второи эвристиками. При этом

для определения оценки второи эвристики суммируются вероятности появления в другои строке для всех символов, которые придется пропустить при сдвиге.

Используем алгоритм для поиска наибольшей общеи подпоследовательности строк хр.Л+к] и У0-]+к], где эмпирически выбрано значение к ~ 15. Для сдвига выбираем такие индексы ]', в которых заканчивается наибольшая общая подпоследовательность. Если не будет найдено ни однои пары одинаковых символов, область поиска увеличивается. Отметим, что при использовании этои эвристики результат будет близок к значению наибольшей общеи подпоследовательности.

Комбинация третьеи и четвертои эвристик: оценка ситуации складывается из ее оценок обеими эвристиками. Оценка ситуации (Г, П четвертои эвристикой является отношением длины наибольшей общеи подпоследовательности строк хр.Л'] и у[]..]'] к среднеи длине сдвига строк из позиции р, ]) в позицию (Г, П.

Используем алгоритм Нидлмана-Вунша [1] для подстрок хр.Л+к] и уО.О+к], где к ~ 15. Сдвигаем строки в позицию (Г, П, для которои соответствующее значение в таблице алгоритма Нидлмана-Вунша является наибольшим.

Комбинация третьеи и шестои эвристик: оценка ситуации складывается из ее оценок этими обеими эвристиками. Оценка ситуации (Г, П шестои эвристикой является отношением значения в таблице алгоритма Нидлмана-Вунша, соответствующего этои позиции, к среднеи длине сдвига строк из позиции р, ]) в позицию (Г, ]').

При этом мы практически не отмечали специально применение функции риска (см. [13], а варианты их применения конкретно в задачах дискретной оптимизации - в [14]). Они применяются как вспомогательные эвристики практически в каждом из упомянутых здесь пунктов, несколько более подробно см. ниже.

Реализация алгоритма дала приемлемые результаты - однако, как уже было отмечено во введении, подробное обсуждение результатов вычислительных экспериментов приведено далее.

2. Варианты «треугольной» нормы определения качества метрики расстояния

Итак, существуют различные алгоритмы определения расстоянии между геномами - их можно назвать алгоритмами определения метрики на множестве геномов. Однако при этом возникают не только обычные вопросы об адекватности соответствующих математических моделей (которые, с точки зрения авторов, в даннои предметной области обычно решаются специалистами-биологами, [15] и др.), но и о сравнительной оценке этих моделей. Самьш важньш вопрос при этом, по-видимому, такои: можно ли говорить об эффективности таких алгоритмов и об адекватности этих моделей на

основе только лишь одного анализа матриц близости (расстояния) между геномами без привлечения специалистов-биологов? Авторы даннои статьи считают, что на этот вопрос следует ответить положительно.

Для нескольких разных алгоритмов [4,5,6,7,10] рассматриваем матрицы расстоянии между соответствующими геномами; в наших вычислительных экспериментах мы применяли 5 различных алгоритмов2 и строили соответствующие матрицы расстоянии, в которых количество геномов достигало 100.

При этом использовали следующее естественное соображение (аналога которому в литературе мы не нашли). Приведем его на примере человека (Ч), шимпанзе (Ш) и бонобо (Б). Согласно данным биологов, Ш и Б разошлись (имели общего предка), по разным оценкам, около 2-2.5 млн. лет назад(недаром альтернативное название Б -«карликовый Ш», [16]), а Ч с ними обоими - 5.5-7 млн. лет назад3. В связи с этим возникает вопрос: почему Ч должен быть ближе к Б чем к Ш? Или наоборот - почему он должен быть ближе к Ш чем к Б? Очевидно, что ответ на оба этих вопроса отрицательный т.е., иными словами, объяснения большеи близости существовать не может. Поэтому в матрице расстоянии между геномами все получаемые треугольники в идеале должны быть остроугольными равнобедренными.

Для сравнения качества алгоритмов построения расстоянии было предложено несколько вариантов «отхода» (т.н. badness) от этих «вытянутых равнобедренных»

треугольников. По-видимому, при расчете badness всеи матрицы для каждого варианта всегда нужно суммировать соответствующие badness по всем возможным треугольникам рассматриваемых матриц - что мы и делаем в даннои работе4.

Итак, мы в простых случаях5 будем считать badness (норму) всеи матрицы расстоянии суммои, а для badness каждого треугольника будем применять один из следующих 4 вариантов. (Всюду считаем, что в рассматриваемом треугольнике стороны - a, b и c, причемa > b > c; углы - а, ви у, причема > в > у.)

(а-р) / п.

2 Специально отметим еще раз, что среди этих алгоритмов имеется один наш, оригинальный.

3 Очень важно отметить, что точные значения времени в такои модели не являются важными!

4 Интересно отметить следующее обстоятельство. Специально, искусственно построить таблицу расстоянии размерности NxN, в которои все образуемые треугольники были бы остроугольными равнобедренными, вряд ли возможно без применения моделеи, связанных с ^-1)-мерным пространством. (См. на http://habrahabr.ru/post/238107/ решение задачи, в которои применяются подобные алгоритмы.)

5 Отметим заранее, что мы иногда рассматриваем и несколько более сложные варианты, которые, однако, в настоящей статье не описаны.

(a-ß) / а

(a-b) / a.

В последней! норме «нарушение равнобедренности» и «нарушение

остроугольности» рассмотрим отдельно:

(A) 1 - min (b/a, c/b) ;

(b) max (a-n/3, 0) / (2n/3) ;

общии ответ -(A+B) / 2 .

При этом максимальное значения badness (в каждом из этих 4 случаев) для некоторого треугольника может быть равно 1. В самом же плохом случае работы алгоритмов построения метрики - т.е. при возникающем нарушении неравенства треугольника - мы полагаем это значение равным от 1 до 2 (также в зависимости от количественных характеристик этого нарушения).

3. Специальные версии нормализации («препроцессорные» вычисления)

В этом разделе рассмотрим еще одну эвристику, которую можно считать дополнительной для всех эвристик «нарушения остроугольной

равнобедренности». Для нее рассмотрим некоторую функцию вида f(x)=xa, где значение а (обычно 0<а<1) выбирается своим для каждои рассматриваемой матрицы расстоянии между геномами. При этом каждьш из элементов x матрицы расстоянии заменяется на f(x).

Для выбора конкретных значении а, улучшающих, с нашеи точки зрения, качество выбора метрик, применялось следующее соображение. Ниже, при описании результатов вычислительных экспериментов, будет показано, что различные эвристики выбора метрик находятся в относительно разном приоритете для геномов «далеких» и «близких» видов; причем стоит отметить, что такои приоритет мало изменяется при его исследовании по различным нормам, описанным выше. Попытки улучшить значения этих норм (badness) с помощью применения какои-либо указанной выше функции вида f(x)=xa оказываются неудачными: решения соответствующих минимизационных задач дают либо максимальное, либо минимальное значение а (среди допускаемых нами). Несложно понять, что именно в этом случае получаемые в матрице расстоянии между геномами треугольники «наиболее близки к остроугольным равнобедренным». Поэтому если действительно пытаться улучшить качество метрик, то надо воспользоваться принципиально инои эвристикой. Для этого мы пытались наити такую функцию указанного выше вида, при которои набор значении расстоянии матрицы, рассматриваемый как распределение некоторой случаинои величины, получается как можно более близким к равномерному распределению6. Заранее отметим,

6 Что неформально можно объяснить, например, следующим образом. Мы уже знаем, что в нашеи модели геномы человека

что для разных задач (т.е. для разных конкретных матриц расстояний!) значения величины а, получаемых псевдооптимальными алгоритмами реального времени (реализуемыми согласно описанному нами в [8,9,14] и др.) получаются разными.

Целевую функцию при этом выбирали на основе метода максимизации энтропии ([17] и мн. др.). Конкретные результаты, связанные с применением даннои эвристики, приведены далее.

4. Некоторые результаты вычислений

Далее мы будем называть:

наш оригинальный алгоритм построения метрики между геномами - первым (ниже - №1, см. [10]);

вторым - один из алгоритмов M. van der Loo и др. (ниже - № 2, см. [5], используемая функция -jarowinkler());

третьим - другои алгоритм M. van der Loo и др. (ниже - № 3, также см. [5], используемая функция -stringdist());

четвертым - один из алгоритмов H. Pages и др. (ниже - № 4, см. [6], используемая функция -stringDist());

пятым - другои алгоритм H. Pages и др. (ниже -№ 5, также см. [6], используемая функция -pairwiseAlignment()).

Отметим, что алгоритмы № 4 и № 5 являются «несимметричными» алгоритмами, и при заполнении матрицы расстоянии мы использовали полусуммы двух получаемых значении. Также отметим, что случаи нарушения неравенства треугольника были зафиксированы только в результате работы алгоритмов № 4 и № 5 - однако в случае «далеких» видов подобных результатов было совсем немного: примерно 1 случаи на 2000 рассматриваемых потенциальных треугольников.

Для дальнейших подсчетов, во-первых, более-менее случайно выбрали геномы 100 представителей видов, приведенные в [18] (случаи рассмотрения «далеких» видов)7. Некоторые результаты вычислительных экспериментов (таблица 100х100, всего 100-99/2=4950 значении, образующих (100-99-98) / (2-3) = 161700

треугольников) приведены далее в табл. 1, в которой:

по строкам - номера алгоритмов (как указано выше);

(Ч), шимпанзе (Ш) и крокодила (К) образуют «вытянутый!» остроугольный треугольник, близкий к равнобедренному. При этом точные значения длин Ч-К и Ш-К вряд ли представляют интерес - важно то, что они примерно равны. Также вряд ли представляет интерес отношение длины Ч-Ш к длине Ч-К.

7 Все конкретные списки видов, соответствующие им геномы, взятые, в первую очередь, с саита [18], получаемые значения матриц расстоянии, а также исходные коды программ авторы готовы выслать (при вашем запросе) по электронной почте. Мы также готовы выслать подробные результаты вычисления badness, включающие не только усредненные, но и все получаемые в процессе работы значения.

по столбцам: примерное время работы создания матрицы (для получения всех 4950 значении, тактовая частота процессора ~2 ГГц); число нарушении неравенства треугольника (в промилле, т.е. в среднем на 1000 запусков); средняя badness - вычисленная для каждого из алгоритмов 1-4 расчета badness каждого треугольника.

Все значения badness приводим с точностью до 3 десятичных знаков (время работы алгоритмов построения матриц фиксировалось менее точно). Во всех таблицах мы отмечали наилучшую метрику по рассматриваемой норме (она выделена дважды) и вторую по значению (выделена жирным шрифтом).

Как мы видим, алгоритм, реализованный нашеи группои, по большинству норм оказывается оптимальным. При этом очень важно отметить, что эвристики, применявшиеся для создания этого алгоритма, не имели совершенно никакой связи с эвристиками, применявшимися для описания норм.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Во-вторых (случаи рассмотрения «близких» видов), мы также случайно выбрали геномы человека и человекообразных обезьян (бонобо, шимпанзе, горилла, орангутанг, гиббон), также приведенные в [18]. При этом у каждого вида мы брали по 4-5 представителей (всего выбрали 28 геномов), причем у человека взяли геномы представителей различных рас. Некоторые результаты вычислительных экспериментов приведены далее в табл. 2, в которой, в отличие от табл. 1, не приведено время построения. Кроме того, в связи с небольшим общим числом треугольников (менее 5000) привели число нарушении неравенства треугольника (а не относительные значения этои величины).

Как видим, существенно возрастает относительное число нарушении неравенства треугольника. Кроме того, наша оригинальная метрика расстоянии между геномами теперь не является оптимальной.

В-третьих, мы применили «препроцессорные» алгоритмы, согласно описанному ранее методу. Стоит отметить, что при применении этих вспомогательных алгоритмов практически во всех клетках уменьшилось значение badness - что, однако, не было целью применения этого алгоритма. Кроме того, «немного поменялись лидеры», т.е. наш алгоритм построения метрики (строка № 1) показывает более хорошие результаты (чем без применения вспомогательных алгоритмов). Впрочем, последний факт как раз и можно объяснить «настроикои» алгоритма № 1 на его применения для большего диапазона значении. Результаты вычислительных экспериментов приведены в табл. 3.

И, в-четвертых, мы применили те же самые алгоритмы к геномам представителей

человеческих рас (бельш, жёлтьш, негр, бушмен, австралиец). При этом у каждои расы брали по 3-4 представителя (всего 18 геномов). Некоторые результаты вычислительных экспериментов приведены далее в табл. 4, в которой смысл столбцов аналогичен столбцам табл. 2. К значениям, приведенным в табл. 4, можно было бы сделать очень много комментариев; приведем только самыи важныи из них. Относительно

Таблица 1.

большое число нарушении неравенство треугольника (и, что связано с последним, существенно большие значения badness, при ее подсчете по любои из норм), по-видимому, связано с большим числом скрещиванием конкретных людеи уже после разделения человечества на расы. Т.е., по-видимому, к подвидам данные алгоритмы (без дальнеишеи их модификации) применять не стоит. «Далёкие» виды

№ время нарушен badness- badness- badness- badness-

(ч) ия 1, 2, 3, 4,

(а-в)/п (а-в)/а (a-b) / a (A+B) / 2

1 27 0 0,0372 0,0822 0,0416 0,196

2 2.1 0 0,0954 0,197 0,0926 0,252

3 2.3 0 0,345 0,476 0,163 0,468

4 28 0.37 0,0416 0,0907 0,0469 0,176

5 28 0.38 0,0549 0,116 0,0556 0,214

Таблица 2. «Близкие» виды

№ нарушения badness-1, badness-2, badness-3, badness-4,

(а-в) / п (а-в) / а (a-b) / a (A+B) / 2

1 0 0,0757 0,152 0,0645 0,364

2 1 0,0333 0,0687 0,0302 0,215

3 1 0,514 0,622 0,170 0,582

4 32 0,0595 0,122 0,0496 0,341

5 39 0,0741 0,151 0,0615 0,350

Таблица 3. «Близкие» виды (после предварительного применения «препроцессорного» алгоритма)

нарушения

badness-1,

(а-в)/п

badness-2,

(а-в)/«

badness-3, (a-b) / a

badness-4, (A+B) / 2

0,0522

0,121

0,0527

0,351

0,0314

0,0692

0,0290

0,205

0,501

0,600

0,154

0,580

12

0,0527

0,122

0,0482

0,323

14

0,0732

0,150

0,0608

0,320

Таблица 4. Расы человека

№ нарушения badness-1, badness-2, badness-3, badness-4,

(а-в) / п (а-в) / а (a-b) / a (A+B) / 2

1 17 0,140 0,243 0,0924 0,325

2 29 0,119 0,173 0,0359 0,342

3 30 0,420 0,527 0,187 0,493

4 30 0,119 0,218 0,0880 0,313

5 26 0,129 0,229 0,0881 0,306

Однако, несмотря на последний факт, в целом представляется перспективным как дальнейшее улучшение нашего оригинального алгоритма построения метрики, так и предлагаемого нами подхода к описанию норм. Кроме того, в разных ситуациях могут оказаться относительно более адекватными разные алгоритмы построения метрик.

5. Заключение. Направления дальнейшей работы

В данном разделе рассмотрим некоторые алгоритмы, которые собираемся опубликовать в последующих статьях.

Во-первых, авторская метрика на ДНК-

последовательностях «в соревновании с другими метриками» показала весьма приемлемые результаты. По-видимому, это является достаточным основанием по продолжению работ, связанных с ее улучшением.

В качестве возможной связи между нашими подходами к решению задач биокибернетики и задачи коммивояжера (прежде всего - т. н. ее псевдогеометрическои версии, [8,19] и др.) можно назвать не только упомянутый выше мультиэвристическии подход к задачам дискретной оптимизации, но и т.н. алгоритмы псевдоразмещения точек в к-мерном евклидовом пространстве[19]. Эти вспомогательные

алгоритмы улучшают работу других биокибернетике задач является задача

рассматриваемых нами алгоритмов. Подобными восстановления матрицы расстоянии, когда

вспомогательными алгоритмами, также известно только часть заполненных элементов

применяющимися для улучшения описанных в [11,20]. Нами - с помощью тои же самои

даннои статье основных алгоритмов, можно «треугольной нормы» - предлагается

считать алгоритмы, аналогичные оригинальный алгоритм подобного

применявшимися нами в [13,14]. К этому восстановления. направлению можно отнести описанное в этих

статьях применение функции риска, а также ИнфоРмация о финанс°в°й п°ддержке

специальные варианты применения широко Работа выполнеш при поддержке российского

известного «правила 3 сигм». Фонда фуМамчтпалшых исследованш,

Кроме того, однои из часто рассматриваемых в соглашение по проекту №16-47-630829.

Литература

1. Гасфилд, Д. (2003), Строки, деревья и последовательности в алгоритмах. Информатика и вычислительная биология, СПб: Невскии Диалект, БХВ-Петербург, 654 с.

2. Toppi, J., De VicoFallani, F.,Petti, M., Veссhiato, G., Maglione, A. G., Cincotti, F., Salinari, S., Mattia, D., Babiloni, F., Astolfi, L. (2013), 'A new statistical approach for the extraction of adjacency matrix from effective connectivity networks", "IEEE Engineering in Medicine and Biology Society (EMBC)", No 3-7, pp. 2932-2935.

3. Torshin, I. Yu. (2006), "Bioinformatics in the Post-Genomic Era: The Role of Biophysics", Nova Biomedical Books, NY,ISBN 1-60021048-1.

4. Winkler, W. E. (1990), String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage, Proceedings of the Survey Research Methods Sections, American Statistical Association, pp. 354-359.

5. Van der Loo, M. P. J. (2014), "The Stringdist Package for Approximate String Matching",The R Journal, vol. 6, pp. 111-122.

6. Pages, H., Aboyoun, P., Gentleman, R., DebRaoy, S. (2009), "Biostrings: String Objects Representing Biological Sequences and Matching Algorithms", R package version 2.10.1.

7. Morgan, M., Lawrence, M. (2009), "ShortRead: Base classes and methods for high-throughput short-read sequencing data", R package version 1.0.6.

8. Melnikov, B. F., (2006) "Multiheuristic approach to discrete optimization problems", Cybernetics and Systems Analysis, No. 3, pp. 335-341.

9. Melnikov, B.F. (2005), "Discrete optimization problems some new heuristic approaches", Proceedings - Eighth International Conference on High-Performance Computing in Asia-Pacific Region, HPC Asia 2005 8th International Conference on HighPerformance Computing in Asia-Pacific Region, China Computer Federation, Beijing, pp. 73-80.

10. Makarkin, S., Melnikov, B., PaninA. (2013), "On the metaheuristics approach to the problem of genetic sequence comparison and its parallel implementation", Applied Mathematics (Scientific Research Publishing), Vol. 04, No. 10, pp. 35-39.

11. Eckes, B.,Nischt, R.,Krieg, T. (2010), "Cell-matrix interactions in dermal repair and scarring", Fibrogenesis Tissue Repair., No. 3:4, doi:10.1186/1755-1536-3-4.

12. Carr R.W., HennessyJ. L., (1981),"WSCLOCK - a simple and effective algorithm for virtual memory management", SOSP '81 Proceedings of the eighth ACM symposium on Operating systems principles, pp. 87-95.

13. Melnikov, B.F. (2001), "Heuristics in programming of nondeterministic games", Programming and Computer Software., No. 5, pp. 277-288.

14. Melnikov, B., Radionov, A.,Moseev, A.,Melnikova, E., (2006),"Some specific heuristics for situation clustering problems", ICSOFT, Technologies, Proceedings 1st International Conference on Software and Data Technologies, pp. 272-279.

15. Foley, J. (2011),"Fossil Hominids: mitochondrial DNA", available at: http://www.talkorigins.org/faqs/homs/mtDNA.html

16. Frans, B. M., (1997), "Bonobo: The Forgotten Ape", University of California Press, ISBN 0-520-20535-9; trade paperback, October, 1998, pp. 224.

17. Popkov , Y. S. (1995), "Substantiation of the entropy maximization method for problems of image restoration from projections", Automation and Remote Control, 56:1, pp. 77-82.

18. (2014) NCBI:nucleotidedatabase,availableat:http://www.ncbi.nlm.nih.gov/nuccore.

19. Макаркин, С. Б., Мельников, Б. Ф., (2013), "Геометрические методы решения псевдогеометрическои версии задачи коммивояжера", Стохастическая оптимизация в информатике, Т. 9., № 2., сс. 54-72.

20. Midwood, K. S., Williams, L. V., Schwarzbauer, J. E. (2004), "Tissue repair and the dynamics of the extracellular matrix", The International Journal of Biochemistry & Cell Biology, Vol. 36, Issue 6, pp. 1031-1037

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

21. Shao, M., Lin, Y., Moret, B. , (2014), 'An Exact Algorithm to Compute the DCJ Distance for Genomes with Duplicate Genes", Research in Computational Molecular Biology, Lecture Notes in Computer Science Volume 8394, pp. 280-292.

References

1. Gaefild, D. (2003), Stroki, derevia i posledovatelnosti v algoritmah. Informatika I vichislitelnaia biologia, SPb: Nevski Dialekt, BHV-Peterburg, 654 p.

2. Toppi, J., De VicoFallani, F.,Petti, M., Veссhiato, G., Maglione, A. G., Cincotti, F., Salinari, S., Mattia, D., Babiloni, F., Astolfi, L. (2013), 'A new statistical approach for the extraction of adjacency matrix from effective connectivity networks", "IEEE Engineering in Medicine and Biology Society (EMBC)", No 3-7, pp. 2932-2935.

3. Torshin, I. Yu. (2006), "Bioinformatics in the Post-Genomic Era: The Role of Biophysics", Nova Biomedical Books, NY,ISBN 1-60021048-1.

4. Winkler, W. E. (1990), String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage, Proceedings of the Survey Research Methods Sections, American Statistical Association, pp. 354-359.

5. Van der Loo, M. P. J. (2014), "The Stringdist Package for Approximate String Matching",The R Journal, vol. 6, pp. 111-122.

6. Pages, H., Aboyoun, P., Gentleman, R., DebRaoy, S. (2009), "Biostrings: String Objects Representing Biological Sequences and Matching Algorithms", R package version 2.10.1.

7. Morgan, M., Lawrence, M. (2009), "ShortRead: Base classes and methods for high-throughput short-read sequencing data", R

package version 1.0.6.

8. Melnikov, B. F., (2006) "Multiheuristic approach to discrete optimization problems", Cybernetics and Systems Analysis, No. 3, pp. 335-341.

9. Melnikov, B.F. (2005), "Discrete optimization problems some new heuristic approaches", Proceedings - Eighth International Conference on High-Performance Computing in Asia-Pacific Region, HPC Asia 2005 8th International Conference on HighPerformance Computing in Asia-Pacific Region, China Computer Federation, Beijing, pp. 73-80.

10. Makarkin, S., Melnikov, B., PaninA. (2013), "On the metaheuristics approach to the problem of genetic sequence comparison and its parallel implementation", Applied Mathematics (Scientific Research Publishing), Vol. 04, No. 10, pp. 35-39.

11. Eckes, B.,Nischt, R.,Krieg, T. (2010), "Cell-matrix interactions in dermal repair and scarring", Fibrogenesis Tissue Repair, No. 3:4, doi:10.1186/1755-1536-3-4.

12. Carr R.W., HennessyJ. L., (1981),"WSCLOCK - a simple and effective algorithm for virtual memory management", SOSP '81 Proceedings of the eighth ACM symposium on Operating systems principles, pp. 87-95.

13. Melnikov, B.F. (2001), "Heuristics in programming of nondeterministic games", Programming and Computer Software., No. 5, pp. 277-288.

14. Melnikov, B., Radionov, A.,Moseev, A.,Melnikova, E., (2006),"Some specific heuristics for situation clustering problems", ICSOFT, Technologies, Proceedings 1st International Conference on Software and Data Technologies, pp. 272-279.

15. Foley, J. (2011),"Fossil Hominids: mitochondrial DNA", available at: http://www.talkorigins.org/faqs/homs/mtDNA.html

16. Frans, B. M., (1997), "Bonobo: The Forgotten Ape", University of California Press, ISBN 0-520-20535-9; trade paperback, October, 1998, pp. 224.

17. Popkov , Y. S. (1995), "Substantiation of the entropy maximization method for problems of image restoration from projections", Automation and Remote Control, 56:1, pp. 77-82.

18. (2014) NCBI:nucleotidedatabase,availableat:http://www.ncbi.nlm.nih.gov/nuccore.

19. Makarrin, S., Melnikov, B., (2013), "Geometricheskie metodi reshenia psevdogeometricheskoi versii zadachi kommiviashera", Stohasticheskaia optimizacia v informatike, Т. 9., № 2., pp. 54-72.

20. Midwood, K. S., Williams, L. V., Schwarzbauer, J. E. (2004), "Tissue repair and the dynamics of the extracellular matrix", The International Journal of Biochemistry & Cell Biology, Vol. 36, Issue 6, pp. 1031-1037

21. Shao, M., Lin, Y., Moret, B. , (2014), 'An Exact Algorithm to Compute the DCJ Distance for Genomes with Duplicate Genes", Research in Computational Molecular Biology, Lecture Notes in Computer Science Volume 8394, pp. 280-292.

Поступила: 25.06.2017

Об авторах:

Мельников Борис Феликсович, доктор физико-математических наук, главный научный сотрудник, Центр информационных технологии и систем органов исполнительной власти, [email protected]:

Пивнева Светлана Валентиновна, кандидат педагогических наук, доцент кафедры высшеи математики и математического образования, Тольяттинскии государственный университет, [email protected]:

Трифонов Максим Андреевич, аспирант, Тольяттинскии государственный университет, trifonov [email protected].

Note on the authors:

Melnikov Boris F., Doctor of Physical and Mathematical Sciences, Chief Researcher, Center of Information Technologies and Systems for Executive Power Authorities, [email protected]:

Pivneva Svetlana V., Candidate of Pedagogical Sciences, Associate Professor of the Department of Higher Mathematics and Mathematical Education, Togliatti State University, [email protected]:

Trifonov Maksim A., Postgraduate, Togliatti State University, trifonov [email protected].

i Надоели баннеры? Вы всегда можете отключить рекламу.