Научная статья на тему 'Степень ультраметричности метрического пространства'

Степень ультраметричности метрического пространства Текст научной статьи по специальности «Математика»

CC BY
198
51
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОЭФФИЦИЕНТ УЛЬТРАМЕТРИЧНОСТИ / СТЕПЕНЬ УЛЬТРАМЕТРИЧНОСТИ / ЕВКЛИДОВА МЕТРИКА / РАССТОЯНИЕ ХЭММИНГА / РЕДАКЦИОННОЕ РАССТОЯНИЕ / COEFFICIENT OF ULTRAMETRICITY / DEGREE OF ULTRAMETRICITY / EUCLIDEAN METRIC / HAMMING DISTANCE / EDIT DISTANCE

Аннотация научной статьи по математике, автор научной работы — Миссаров Мукадас Дмухтасибович

Введено понятие степени ультраметричности метрического пространства. Вычислена степень ультраметричности евклидова пространства. Приведены результаты статистического эксперимента по вычислению этой степени в пространстве строк заданной длины для расстояния Хэмминга и редакционного расстояния. Показано, что степень ультраметричности растет при увеличении длины строки.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The notion of the degree of ultrametricity of a metric space is introduced. The degree of ultrametricity of the Euclidean space is obtained. The results of a statistical experiment on the computation of the degree of ultrametricity in the space of strings of given lengths for Hamming and edit distances are presented. It is shown that the degree of ultrametricity grows with an increase in the string length.

Текст научной работы на тему «Степень ультраметричности метрического пространства»

УЧЕНЫЕ ЗАПИСКИ КАЗАНСКОГО УНИВЕРСИТЕТА

Физико-математические пауки

УДК 51-7

СТЕПЕНЬ УЛЬТРАМЕТРИЧНОСТИ МЕТРИЧЕСКОГО ПРОСТРАНСТВА

М.Д. Миссаров

Аннотация

Введено попятие степени ультраметричпости метрического пространства. Вычислена степень ультраметричпости евклидова пространства. Приведены результаты статистического эксперимента по вычислению этой степени в пространстве строк заданной длины для расстояния Хэммипга и редакционного расстояния. Показано, что степень ультраметричпости растет при увеличении длины строки.

Ключевые слова: коэффициент ультраметричпости, степень ультраметричпости, евклидова метрика, расстояние Хэммипга, редакционное расстояние.

Введение

Напомним, что метрическое пространство X с метрикой р называется ультра-метричным пространством, если неравенство треугольника заменяется на более сильное неравенство ультраметричности: для любых трех точек ж, у, г € X

Ультраметрики и ультраметричные пространства стали появляться в различных задачах современной физики, вычислительной биологии, анализа данных и других областях [1 5]. Основными и наиболее изученными примерами ультраметрич-пых пространств являются р-адические пространства. Иерархическая структура р-адического пространства, вытекающая из ультраметричности р-адической метрики, позволила получить точный анализ реиормализационной группы [6]. Выяснилось также, что жадные алгоритмы дают точные решения сложных задач комбинаторной оптимизации в р-адическом пространстве [7]. Это позволило описать асимптотическое поведение решений задач комбинаторной оптимизации [8].

Интересен вопрос о том, в какой степени ультраметрично то или иное метрическое пространство. Из условия ультраметричности следует, что в любом треугольнике две наибольшие «стороны треугольника» равны друг другу. Рассмотрим произвольную тройку точек ж, у, г в метрическом пространстве X (условно назовем эту тройку «треугольником»), а также набор попарных расстояний между этими точками (р(ж, у), р(ж, г), р(у, г)) и обозначим через р1(ж, у, г) наименьшее значение в этом наборе, через р2(ж, у, г) - второе то величине значение, через рз(ж, у, г) -наибольшее значение в наборе.

(ж, у, г)

Р(ж,у) < тах(р(ж,г),р(у,г)).

(1)

Если совпадают две точки из трех, то коэффициент ультраметричности равен 1 согласно определению. Если ж = у = г , то положим и(ж, у, г) = 1. Заметим,

что коэффициент ультраметричности любой тройки лежит в диапазоне; от 0 до 1. В случае вырожденного треугольника р(х,у) = р(х, г) = р(у,г)/2 коэффициент и(х,у,г) = 0. В случае ультраметричного пространства коэффициент и(х,у,г) = = 1 для любой тройки х, у, г.

Назовем степенью ультраметричности и(Х; р) пространства (Х,р) среднее значение коэффициента ультраметричности в этом пространстве:

Здесь усреднение проводится по всем возможным тройкам вершин в пространстве (X, р). В случае конечного метрического пространства среднее определяется как среднее арифметическое значение коэффициента ультраметричности по всем возможным тройкам. В случае, когда метрическое пространство снабжено вероятностной мерой, среднее надо понимать как среднее по этой мере. В случае, когда метрическое пространство снабжено естественной мерой Хаара (как. например, евклидово пространство с мерой Лебега). среднее надо понимать как интеграл по этой мере с учетом факторизации множества всех троек по классам троек с одинаковым значением коэффициента ультраметричности. Именно такой случай рассмотрен в разд. 2.

1. Степень ультраметричности евклидова пространства

Заметим, что в случае евклидова пространства коэффициент ультраметричности тройки инвариантен относительно сдвигов, растяжений и поворотов:

Другими словами, все подобные треугольники в евклидовом пространстве имеют один и тот же коэффициент ультраметричности. Если ! > 1 и треугольник невырожденный, то его можно вписать в окружность. Пусть х, у, г — заданные точки. Выберем в каждом классе подобных треугольников треугольник, вписанный

х

ванное положение в заданной точке окружности А. Усреднение будем проводить по точкам у и г, независимо и равномерно распределенным по этой окружности. Тогда степень ультраметричности определяется как среднее по у и г: и(Яё; рЕ) = = Еи(А,у, г; рЕ)■ Обозначим дисперсию коэффициента ультраметричности как а2(Ял; рЕ) = Ли(А,у, г; рЕ). Здесь рЕ обозначает евклидову метрику.

Теорема 1. Имеют место соотношения и(Я1; рЕ) = 1/2, а2(Я1; рЕ) = 1/12. В случае !> 1

Доказательство. Пусть ! = 1. В этом случае все треугольники являются

х = 0 г = 1

0 < у < 1 ■ Усреднение проводится по у, где у равномерно распределено на отрезке

и(Х; р) = (и(х,у,г; р))-

и(х, у, г; рЕ) = и(х + а, у + а, г + а; рЕ), а € , и(х, у, г; рЕ)= и(\х,\у,\г; рЕ), X € Я, А = 0, и(Ох, Оу, Ог; рЕ) = и(х, у, г; рЕ), О € О(С).

(2)

[0,1]. Тогда

1

о

2 1

Е{Ш) =1{т&х(у, 1 - у))2 ¿у = 7■

о

Отсюда следует первая часть теоремы.

Пусть й > 1, х занимает фиксированное положение на окружности, дуга между х и у задается углом , а между х и я - углом у2, где у>1 и у2 независимо и равномерно распределены от 0 до 2п. Так как большая сторона треугольника лежит против большего угла, достаточно рассматривать соотношения между этими дугами. Три дуги по величине могут располагаться шестью возможными способами, и из соображений симметрии достаточно рассматривать один из вариантов:

< У2 - < 2п - <Р2. (3)

Фигура в квадрате 0 < < 2п, 0 < у2 < 2п, задаваемая неравенствами (3), имеет вид треугольника с площадью п2/3. № (3) следует, что 0 < < 2/3п, 2у1 < у2 < п + у1/2. Тогда

Ре,2 = цш^ - У1)/2 = бш^ - У1)/2 Ре,з вш(2п - у2)/2 Бт^2/2 '

Отсюда

2/3п п+^г/2

Ре,2 Г бш^ - У1)/2 12\п2

Е—- = ¿Р1 --:-тт.-=-2Г~ ■

РЕ,3 п2 ,] ,] БШ У2/ 2 п2

о 2^1

Можно также вычислить

2 2/3п п+^/2 2

К52) = п2/ I Ча

о 2^1

Отсюда среднее значение коэффициента ультраметричности равно

и(Ей; рЕ) = - 1 — 0.6854.

п2

Дисперсия коэффициента ультраметричности есть

а2(Ка; Ре ) 3 (1+1п4) - ^ ^ 1п2^ ^ - 0.06136.

Стандартное отклонение а(Ка; рЕ) — 0.2477■ Теорема доказана. □

Па рис. 1 изображена гистограмма выборки из 106 независимых наблюдений коэффициента ультраметричности в евклидовом случае при й > 1. По результатам этого эксперимента выборочное среднее равно 0.6857, а стандартное отклонение 0.2458.

2. Степень ультраметричности пространства строк

Пусть дан некоторый алфавит О. Рассмотрим множество X строк символов из алфавита О длины и:

а £ X, а = а1а2 ■ ■ ■ ап, а^ £ О, г = 1, ■ ■ ■ ,и.

Рис. 1. Гистограмма коэффициента ультраметричпости для евклидова расстояния

Табл. 1

п 10 20 30 40 50 60 70 80 90 100

0.776 0.186 0.826 0.137 0.852 0.115 0.869 0.102 0.880 0.092 0.889 0.085 0.897 0.079 0.903 0.075 0.907 0.075 0.912 0.068

Расстояние по Хэммингу [2] между строками А = ах... ап и В = Ьх.. .Ьп определяется как количество несовпадающих позиций в этих строках:

рн(А, В) = \11,

где I = {' £ (1,...,п) : а^ = Ь}. Тогда множе ство X с метрикой рн является метрическим пространством. В дальнейшем мы будем предполагать, что алфавит состоит из 4 букв (алфавит генетического кода определяется 4 нуклеотидами).

В табл. 1 приведены результаты статистического эксперимента для расстояния по Хэммингу 106 независимых наблюдений для каждого столбца таблицы. Здесь п обозначает длину строки, верхнее число в ячейке является выборочным средним коэффициента ультраметричпости, нижнее выборочным стандартным отклонением. Мы видим, что степень ультраметричпости для метрики Хэмминга растет

с длиной строки, в то время как стандартное отклонение уменьшается. На рис. 2

106

длины 100. В последнем случае степень ультраметричпости близка к 1 (равна 0.912).

Рассмотрим теперь случай редакционного расстояния между строками, которое широко используется в биоииформатике для сравнения геномов различных видов и построения филогенетических деревьев [2]. Мы будем предполагать, что строки А В п

пробелы "-" так, что растянутые строки имеют одинаковую длину I. Получаемые строки обозначим как А' = а[ ... а'1 и В' = Ь[ .. .Ь[. При сравнении двух выравниваемых строк штрафуется несовпадение символов с помощью штрафной функции ¿(а, Ь). В дальнейшем мы полож им, что ¿(а, Ь) = 0, тел и а = Ь; ¿(а, Ь) = = 7) 0 < 7 < 1, если а - буква го алфавита, Ь - пробел и наоборот; ¿(а, Ь) = 1, а Ь А

В

I

р(А,В) = тт^ ¿(а!1,Ь'1),

г=1

Рис. 2. Гистограмма коэффициента ультраметричпости для расстояния Хэммипга

Табл. 2

1/п 10 20 30 40 50 60 70 80 90 100

0.1 0.761 0.227 0.817 0.159 0.848 0.129 0.865 0.112 0.880 0.097 0.891 0.089 0.899 0.082 0.906 0.077 0.912 0.071 0.919 0.066

0.2 0.762 0.225 0.815 0.160 0.846 0.130 0.867 0.109 0.882 0.098 0.891 0.090 0.901 0.081 0.906 0.076 0.913 0.070 0.918 0.067

0.3 0.759 0.225 0.815 0.161 0.847 0.129 0.866 0.110 0.879 0.098 0.892 0.088 0.899 0.081 0.907 0.075 0.914 0.071 0.917 0.066

0.4 0.763 0.225 0.815 0.159 0.849 0.128 0.865 0.110 0.880 0.097 0.890 0.088 0.899 0.082 0.908 0.076 0.911 0.071 0.917 0.067

0.5 0.761 0.226 0.814 0.161 0.847 0.130 0.866 0.111 0.880 0.097 0.894 0.080 0.898 0.082 0.907 0.075 0.912 0.071 0.917 0.066

0.6 0.762 0.182 0.817 0.135 0.852 0.112 0.873 0.097 0.884 0.087 0.896 0.080 0.903 0.074 0.911 0.068 0.915 0.065 0.921 0.061

0.7 0.767 0.172 0.822 0.131 0.856 0.108 0.874 0.095 0.888 0.085 0.897 0.078 0.905 0.073 0.912 0.067 0.917 0.063 0.922 0.060

0.8 0.773 0.171 0.828 0.127 0.860 0.106 0.878 0.093 0.891 0.083 0.901 0.075 0.907 0.071 0.914 0.065 0.920 0.062 0.924 0.058

0.9 0.772 0.174 0.833 0.127 0.860 0.106 0.881 0.090 0.894 0.081 0.903 0.075 0.911 0.068 0.916 0.063 0.923 0.059 0.926 0.056

1.0 0.785 0.190 0.839 0.135 0.865 0.110 0.882 0.096 0.897 0.082 0.905 0.076 0.911 0.070 0.919 0.065 0.923 0.061 0.928 0.057

где минимум берется по всем возможным выравниваниям. Редакционное расстояние вычисляется методом динамического программирования. Известен следующий алгоритм [2]: пусть А = а1 ...ап, В = Ъ1.. .Ъп, определим

Рг,О = Р(а1... а»; 61... Ъ^); ро,о = 0;

О г

Р0,О = ^ ¿(—' Ък) = 13, Рг,0 = ^2 ¿(аи,— ) = 7«.

к=1 к= 1

Тогда

Рг,о = ш1п{рг_1,о + ¿(аг, —), рг— 1,о-1 + ¿(а», Ъ^), Рг,о-1 + Ъ^)}.

1500

1000

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

500

Jim- „mfilb -П

iL

0.7

0.8

0.9

Рис. 3. Гистограмма коэффициента ультраметричпости для редакциошюго расстояния

Если d(a, b) - метрика та алфавите, то p(A, B) - метрика на множестве строк в этом алфавите, p(A, B) = pn,n.

В табл. 2 приведены результаты статистического эксперимента при различных значениях штрафа y и различной длине строк п. Количество экспериментов в каждом случае равнялось 10000. Верхнее число в ячейке является выборочным средним коэффициентом ультраметричпости, нижнее выборочным стандартным отклонением. Мы видим, что при любом значении величины штрафа y степень ультраметричпости для редакционного расстояния растет с длиной строки, в то время как стандартное отклонение уменьшается. Это означает, что коэффициент ультраметричпости в среднем растет и все больше концентрируется вокруг среднего значения. При фиксированной длине строки коэффициент ультраметричпости в среднем почти не зависит от величины штрафа y (растет очень незначительно). На рис. 3 изображена гистограмма выборки из 104 наблюдений для пространства строк длины 100 и величиной y = 1 • В этом случае статистическая оценка степени ультраметричпости равна 0.928 при стандартном отклонении 0.057. Мож-

п

строк имеет (с некоторой погрешностью) иерархическую структуру относительно редакционного расстояния.

Автор выражает благодарность студенту ИВМиИТ Казанского федерального университета Илье Калинину за помощь в проведении расчетов в пакете Mathematica.

M.D. Missaruv. The Degree of Ultrametricit.y of a Metric Space.

The notion of the degree of ultrametricit.y of a metric space is introduced. The degree of ultrametricit.y of the Euclidean space is obtained. The results of a statistical experiment, on the computation of the degree of ultrametricit.y in the space of strings of given lengths for Hamming and edit, distances are presented. It. is shown that, the degree of ultrametricit.y grows with an increase in the string length.

Key words: coefficient, of ultrametricity, degree of ultrametricity, Euclidean metric. Hamming distance, edit, distance.

Summary

Литература

1. Mezard М., Parisi G., Virasoro М.А. Spin Glass Theory and Beyond. Singapore: World Sci., 1987. 461 p.

2. Гасфилд Д. Строки, деревья и последовательности в алгоритмах. СПб.: Невский Диалект. 2003. 653 с.

3. Vladimirov V.S., Volovich I. V., Zelenov E.I. p-Adic Analysis and Mathematical Physics. -Singapore: World Sci.. 1994. 340 p.

4. Dragovich В., Khrennikov A.Yu., Kozyrev S.V., Volovich, I.V. On p-adic mathematical physics // p-Adic Numbers Ultrametric Anal. Appl. - 2007. - V. 1, No 1. - P. 1-17.

5. Lerner E. Yu., Missarov M.D. P-adic Feynman and string amplitudes // Commun. Math. Phys. 1989. V. 121, No 1. P. 35 48.

6. Missarov M.D. Renormalizat.ion group solution of fermionic Dyson model // Asymptotic Combinatorics with Application to Mathematical Physics / Eds. V.A. Malysliev, A.M. Vershik. Springer, 2002. P. 151 166.

7. Muccapoa М.Д., Степанов P.Г. О задачах комбинаторной оптимизации в ультрамет-ричпых пространствах // Теор. и мат. физика. 2003. Т. 136, Л' 1. С. 164 176.

8. Missarov M.D., Stepanov R.G. Asymptotic properties of combinatorial optimization

pp

No 2. P. 114 128.

Поступила в редакцию 20.11.12

Миссаров Мукадас Дмухтасибович доктор физико-математических паук, заведующий кафедрой анализа данных и исследования операций Казанского (Приволжского) федерального университета.

Е-шаП: тоикаЛаи.пшиагоьQksu.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.