Модель и аксиомы метрик сходства

Знаменский Сергей Витальевич

ISSN 2079-3316 ПРОГРАММНЫЕ СИСТЕМЫ: ТЕОРИЯ И ПРИЛОЖЕНИЯ №4(35), 2017, с. 347-357

УДК 004.416

С. В. Знаменский Модель и аксиомы метрик сходства

Аннотация. В современных приложения метрики сходства обычно комбинируются с учётом сложности алгоритмов, особенностей восприятия человека, ресурсов и выборок данных. Для оптимизации требуется унифицированное формальное описание основных показателей подобия. Для оптимизации требуется выделить формально и строго описанное абстрактное понимание сходства между объектами.

Расширена система аксиом метрики сходства и для неё построена универсальная модель, обощающая известные модели сходства, не сводящиеся к евклидовой метрике. Модель базируется на взвешенном частично упорядоченном множестве.

Ключевые слова и фразы: сходство строк, выравнивание последовательностей, аксиомы сходства, 1_08, метрика Левенштейна.

Различные метрики и меры сходства широко используются в психологии, химии, биоинформатике и при обработке текстов. Иногда в этом качестве используются метрики расстояния, представленные в математике понятиями метрического пространства, псевдометрики [1], квазиметрики [1, 2], псевдометрики [1], праметрики [3], семи метрики [4] и частичной метрики [5]. Общеизвестно [6], что метрик расстояния недостаточно для описания метрик и мер сходства. Известные формализации метрик [7-9] и мер [10] сходства прояснили важные аспекты сходства. Прикладные исследования [8,11-13] убедительно показали необходимость комбинирования различных метрик.

Поиск оптимальных комбинаций метрик нуждается в прозрачной общей картине используемых понятий сходства.

Множество объектов, сопоставимых по сходству, обозначим X. Буквами в, и, х, у, г будем обозначать произвольные его элементы. Будем опускать все внешние кванторы ... ^гех во всех формулах, акцентируя в ближайшем контексте редко присутствующие внешние переменные.

ЭС1: 10.25209/2079-3316-2017-8-4-347-357

Таким образом, любая метрика сходства s предстаёт функцией на X х X со значениями в V С R. Обычно для метрики сходства

V = [0, œ) =f {v G R : v ^ 0}, а для меры сходства — единичный отрезок V = [0,1], к которому рассмотрение как-нибудь сводится. Зачастую 0 считается минимально возможным значением, показывающим отсутствие какого бы то ни было сходства, но иногда 0 лежит внутри

V и означает отсутствие выразительного сходства или различия.

Различная семантика нуля сигнализирует о путанице.

Чтобы достичь прозрачности и строгости, вспомним о практике нормализации метрик. Исходные метрики часто приводятся к требуемому диапазону значений различными преобразованиями. Возникает задача разделить качества метрик, которые могут быть получены различными преобразованиями при нормализации и те качества, которые должны характеризовать фундаментальное понятие сходства.

Требуется не ограничивая приложений предельно упростить базовую модель, основываясь на разнообразии преобразований нормализации, каждое из которых влияет сразу на несколько качеств иногда по-разному в разных практических ситуациях.

Для решения этой задачи воспользуемся системой аксиом [14], органично совмещающая различные понимания сходства и расстояния. Проанализируем её основные аксиомы и возможные ограничения на область значений V.

1. Система аксиом сходства

1.1. Аксиомы направленности и отделимости

В соответствии с [14] будем идентифицировать аксиомы либо первой буквой названия, исключая «a», «d», «s» и «t», либо второй буквой, если идентификация первой не удаётся. Аксиома направленности

(direction) сходства

(i) Vx,yeu s(x,y) < mm(s(x,x),s(y,y)).

отличается от родственной аксиомы для частичной метрики противоположным знаком неравенства. В случае V = R функции из U х U со значениями в V образуют линейное пространство, в котором (i) выделяет выпуклый конус направленных на сходство функций. Этот конус пересекается с центрально-симметричным ему конусом направленных на расстояние функций по линейному пространству, состоящему из постоянных функций.

Направленность на сходство эквивалентна условию, что любой непустой замкнутый шар

В ¡(а, г) = [х € U : s(a, х) — s(a, а) ^ г},

Вr (а, г) = [х € U : s(x, а) — s(a, а) ^ г}

имеет неотрицательный радиус и содержит свой центр а. и эквивалентна наличию системы вложенных открытых шаров Bi(a,r) = [х € U : s(a, х) — s(a, а) > г} и Br (а, г) = [х € U : s(x, а) — s(a, а) > г} c центром в произвольной точке а — её окрестностей.

Иными словами, направленная на сходство функкция задаёт топологию. Сразу возникает вопрос об отделимости. Классическая аксиома T0 отделимости топологических пространств для направленной (на сходство или на расстояние) функции s означает, что для любых разных точек есть окрестность одной из них, не содержащая другую

(0) s(x,y) = s(x,x) = s(y,y) у = X,

Аксиома T1 сильнее: она означает, что любая точка не пересекается с подходящей окрестностью любой другой

(1) ((s(x,y) = s(x,x)) V (s(x,y) = S(y,y))) у = x,

Эта аксиома существенно ограничивает общность: многие модели сходства дают полезную возможность судить о вложенности по превращению неравенства в равенство, а T1 (как и её усиление T2, означающая существование непересекающихся окрестностей у любых двух точек) такую возможность принципиально исключает.

1.2. Неравенство треугольника

Хорошо известно [6], что в классической форме из определения метрических пространств неравенство треугольника (triangle) неприменимо к сходству. Однако оно необходимо для алгоритмов, работающих с метриками расстояния, к которым метрика сходства сводится нормализацией, и для метрики сходства имеет несколько иной вид [7]:

(г) s(x,y) + s(y,z) < s(x,z) + s(y,y),

Нелинейные нормализации могут только усложнить вид неравенства треугольника.

Важная для биоинформатики возможность наглядного представления иерархии близости деревом phylogenetic tree or evolutionary tree [15] обеспечивается заменой неравенства треугольника на более сильное, чем неравенство треугольника, аддитивное (additive) неравенство (аксиому четырёх точек)

(d) s(x, у) + s(u, v) ^ min(s(x, и) + s(y, v), s(x, v) + s(u, y)),

либо на ещё более сильное неравенство ультрмметрики (ultrametric)

(u) s(x, z) > min(s(x, у), s(y, z)).

однако эти варианты существенно ограничивают общность.

1.3. Аксиома симметрии

Хорошо известно [6], что аксиома симметрии (symmetry) (У) s(x,y) = s(y,x)

не всегда применима к метрикам сходства. При этом практически используемые ассиметричные варианты сводятся к использованию асимметричной однородной нормализации

_s(x,y)_

as(x, х) + j3s(y, у) + (1 - а - j3)s(x, у)

симметричной функции сходства s(x, у) или других асимметричных нормализаций этой же функции.

Будем это интерпретировать как фундаментальность аксиомы симметрии.

1.4. Значения сходства и избранные аксиомы

Поскольку аксиома треугольника использует сложение, то множество V в абстрактной общей формулировке удобно считать замкнутым относительно сложения, а, значит, неограниченным. Ограниченность его снизу однако не противоречит ни одному из известных подходов и приложений. Инвариантность неравенства треугольника r относительно добавления к s константы, то есть сдвига, позволяет в абстрактной общей формулировке обойтись без отрицательных чисел, корректируя при необходимости смещение сдвигом.

Описанные соображения приводят к однозначному выбору в качестве V замкнутого луча [0, ж) вещественной оси и в итоге к предложенной в [7] системе аксиом, обозначенных выше (0,i,r,y).

Если исключить в отдельную группу метрики сходства, полученные нормализацией евклидовой метрики и метрики, основанные на эвристических алгоритмах и не имеющие строгих математических оснований, то оставшиеся метрики сходства как правило удовлетворяет аксиоме выравнивания (alignment) о существовании (суб)оптимальной общ^й части

(l) s(x, у) = sup{s(z, z) : s(z, z) = s(x, z) = s(z, y), z € X},

которая в случае если V не имеет конечных предельных точек, например, при V = N, приобретает вид

(2) Ух,уех3zex s(x, y) = s(z, z) = s(x, z) = s(z, y).

Рассмотрим аксиому исчерпания (exhasting):

(e) y , ^ = It )l «*,*) = '(*,»)),

Vfc s(t k, tk) = s(t к ,x) = s(t к ,y))

смысл которой несложен: Если х изнутри приближается сходящимися по s частями, входящими в у, то х входит в у.

Эта аксиома заведомо выполняется если V не имеет конечных предельных точек, например, при V = N. Не выявлено моделей, в которых добавление этой аксиомы ограничивало бы практическую применимость.

2. Содержательная общность

Метрики редактирования и меры сходства строятся на основе содержательной общности (общей информации, общей подпоследовательности, общего подграфа и т.д.) Рассмотрим абстрактную модель такого построения.

Определение 1. Пространством содержательности назовём тройку (X, ^,,w), состроящую из произвольного частично упорядоченного отношением содержательного вхождения ^ множества X, c весом содержательности w : X ^ [0, ж), для которых выполнены следующие условия:

(1) монотонность веса: х ^ z w(x) ^ w(z),

(2) существование минимального элемента с весом w(0x) = 0.

(3) супермодулярность веса: при х ^ z и у ^ z выполняется

(3) w(x) + w(y) ^ w(z) + sup{w(t) : (t ^ x)&(t ^ y)},

(4) исчерпания:

sup w(xk) = w(x) ^ (4) k xk ^x > (x ^ y);

Xk ^У )

Смысл исчерпания здесь прежний: если х изнутри приближается сходящимися по w частями, входящими в у, то х входит в у.

Если неравенство в (3) заменить равенством, то супермодулярность превращается в модулярность, а пространство содержательности становится аддитивным.

2.1. Содержательностное сходство

Мера содержательностного сходства на пространстве содержательности X это неотрицательная функция в : (X х X) ^ [0, то), определённая равенством

в(х, у) = эир^^) : (I ^ х)&(1 ^ у)}.

Лемма 1. Отношение и вес содержательности восстанавливаются из содержательного сходства формулами ,ш(х) = з(х,х) и х ^ у ^^ з(х,х) = з(х,у)

Доказательство. Первая формула и импликация вправо во второй непосредственно следуют из мнонотонности меры и>. Обратно, пусть я(х, х) = з(х, у) Тогда для любого к € N существует (I ^ х)&(Ь ^ у) для которого т^) > т(х) — . Применяя условие исчерпа-емости (4), получаем х ^ у. □

Теорема 1. Мера содержательностного сходства з(х,у) при всех х,у,г € X неотрицательно и удовлетворяет условиям (0, 1, 1, г, у, е), то есть является метрикой сходства, удовлетворяющей аксиомам выравнивания и исчерпания (1,е).

Доказательство. Условия неотрицательности и симметричности непосредственно вытекают из неотрицательности и> и определения в. Отделимость вытекает из антисимметричности отношения порядка. Направленность (1) вытекает из вложения (ш(г) : (г ^ у) & (г ^ х)} С {и)(г) : (г ^ х)}, а аксиома исчерпания получается подстановкой я(х, х) = 'ш(х).

Докажем неравенство треугольника (г). Зафиксируем произвольное £ > 0. По определению я(х, у) существует такое ух ^ х, что ух ^ у и выполнено ,ш(ух) ^ з(х,у) < т(ух) + е. По определению я(у, г) существует такое уг ^ г, что уг ^ у и выполнено ,ш(ух) ^ я(у, г) < )+ е. Применяя к ух ^ у и уг ^ у условие супермодулярности и используя монотонность в получим з(х,у) + я(у, г) — 2£ ^ и)(ух) + ) ^ ™(у) + э(Ух,Уг) < -ш(у) + в(х,г). □

2.2. Примеры пространств содержательности

Важнейшие подходы, ведущие к пространствам содержательности перечислены в таблице 1. Ключевым объектом в ней назван тот, на котором достигается верхняя грань в определении меры содержательностного сходства. В доступных описаниях метрик сходства не видно прозрачных моделей (кроме базирующихся на евклидовом расстоянии), которые не являлись бы мерами содержательностного сходства.

Таблица 1. Подходы, ведущие к пространствам содержательности

Содержательность (объекта) ад, отношение ^ ключевой объект

аддитивная мера (множества), с вероятность (события), включается/входит

мощность (множества признаков), с

длина (последовательности символов), подпоследовательность

длина (символьной строки), подстрока

колмогоровская сложность (информационного объекта),часть/целое

размер (графа), подграф

Возможные меры содержательностного сходства характеризуются системой аксиом:

Теорема 2. Пусть на множестве X задана метрика сходства в, удовлетворяющая аксиомам выравнивания и исчерпания (1, е) и элемент 0Х € X удовлетворяет в(0х,х) = 0. Тогда вес т(х) = з(х,х) и отношение х ^ у <=> ^л(х) = з(х, у) превращают X в пространство содержательности, в котором в оказывается мерой содержательного сходства.

Доказательство. Рефлексивность и антиссимметричность отношения ^ вытекают из определения ^ и аксиомы отделимости.

Покажем транзитивность. Пусть х ^ У и у ^ г. Вычитая из неравенства треугольника я(х, у) + в (у, г) ^ я(х, г) + з(у, у) равенство

3(у, у) = 3(у, г), получаем, я(х, г) ^ я(х, у), откуда используя я(х, х) = з(х, у) и з(х,х) ^ я(х, г) , получаем искомое з(х,х) = з(х, г).

Монотонность следует из определения веса и>, минимальный элемент дан в условии. Супермодулярность з(х,х) + я(у, у) ^ в(г, г) + з(х, у) получается из неравенства треугольника я(х, г) + в(у, г) ^ я(х, у) + з(г, г) применением равенств, вытекающих из х ^ г и у ^ г. Исчерпание вытекает из аксиомы (е). □

2.3. Метрические нормализации пространства содержательности

Мера содержательного сходства я(х, у) может быть по-разному представлена нормализующими предметриками. Среди них наиболее

пересечение множеств

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

произведение событий

множество общих признаков

длиннейшая общая подпоследовательность

длиннейшая общая подстрока

общая часть

максимальный общий подграф

характерны:

Размер дефицита ¿¿1о(х,у) = 1л(х) — з(х,у) — псевдометрика, показывающая насколько х далёк от вхождения в у.

Различие в весах в%(х,у) = х) — ">л(у)1 — псевдометрика, полностью игнорирующая предпорядок.

Расстояние редактирования у) = т(х) + и)(у) — 2в(х, у) —

метрика расстояния, подсчитывающая вставки и удаления (пример — метрика Левенштейна).

В качестве предметрик (Джаккарда, Дайса, Тверски (1) и других) часто используются различные функции от а = з(х, у), Ь = ,ш(х) — а и с = 'ш(у) — а. Подробнее об этом можно прочитать в [16,17].

Список литературы

J. C. Kelly. «Bitopological spaces», Proc. London Math. Soc., 13:3 (1963), с. 71-89. t 347

W. A. Wilson. «On quasi-metric spaces», Am. J. Math., 53:3 (1931), с. 675-684. t 347

A. V. Arkhangel'skii, L. S. Pontryagin (eds.), General Topology I.Basic Concepts and Constructions Dimension Theory, Encyclopaedia of Mathematical Sciences, т. 17, Springer, Berlin-Heidelberg, 1990, vii+202 с. t 347

C. Alexander. «Semi-developable space and quotient images of metric spaces», Pacific J. Math, 37:2 (1971), с. 277-293. t 347 S. G. Matthews. «Partial metric topology», Proc. 8th Summer Conference on General Topology and Applications (Queens College, City University of New York, USA, June 18-22, 1992), Ann. New York Acad. Sci., 728 (1994), с. 183-197. t 347

A. Tversky. «Features of similarity», Psychol. Rev., 84:4 (1977), с. 327-352. t 347>349>360

S. Chen, B. Ma, K. Zhang. «On the similarity metric and the distance metric», Theoretical Computer Science, 410:24-25 (2009), с. 2365-2376. t 347>349>360

R. Kunimoto, M. Vogt, J. Bajorath.. «Maximum common substructure-based Tversky index:an asymmetric hybrid similarity measure», J. Comput. Aided Mol. Des., 30 (2016), с. 523-531. t 347

E. Amigo, J. Gonzalo, F. Giner, F. Verdejo. «An Axiomatic Account of Similarity», SIGIR'17 Workshop on Axiomatic Thinking for Information Retrieval and Related Tasks (ATIR) (August 2017, Tokyo Japan), 3, 10 с., URL: https://www.eecis.udel.edu/~hfang/atir_proceedings/atir17-paper3.pdf t 347

[10] D. Guessoum, M. Miraoui, Ch. Tadj. «Survey of semantic similarity measures in pervasive computing», International journal on smart sensing and intelligent systems, 8:1 (2015), с. 125-158. t 347

[11] Th. Slimani. «Description and Evaluation of Semantic Similarity Measures Approaches», International Journal of Computer Applications, 80:10 (2013), с. 25-33. t 347

[12] F. Giner, E. Amigo. «General Representation Model for Text Similarity», Future and Emerging Trends in Language Technology. Machine Learning and Big Data (FETLT 2016) (Seville, Spain, November 30 -December 2, 2016), 2017,, с. 158-169 (Revised Selected Papers). t 347

[13] A. Gupta, A. Kumar, J. Gautam. «A Survey on Semantic Similarity Measures», IJIRST-International Journal for Innovative Research in Science & Technology, 3:12 (2017), URL: http: //www.ijirst.org/articles/IJIRSTV3I12083.pdf t 347

[14] S. V. Znamenskij. «From Similarity to Distance: Axoim Set, Monotonic Transformatons and Metric Determinacy», Journal of Siberian Federal University. Mathematics & Physics, 2018 (в печати). t 348

[15] A.J. Dobson. «Unrooted Trees for Numerical Taxonomy», Journal of Applied Probability, 11:1 (1974), с. 32-42. t 349

[16] S. Jimenez, F.A. Gonzalez, A. Gelbukh. «Soft Cardinality in Semantic Text Processing: Experience of the SemEval International Competitions», Polibits, 51 (2015), с. 63-72, URL: http://www.scielo.org.mx/pdf/poli/ n51/n51a10.pdf t 354

[17] N.J.P. van Eck, L. Waltman. How to Normalize Co-Occurrence Data? An Analysis of Some Well-Known Similarity Measures, ERIM report series research in management Erasmus Research Institute of Management, № ERS-2009-001-LIS, Erasmus Research Institute of Management, 2009, URL: http://hdl.handle.net/1765/14528 t 354

Рекомендовал к публикации д.ф.-м.н. Н . Н. Непейвода

Пример ссылки на эту публикацию:

С. В. Знаменский. «Модель и аксиомы метрик сходства», Программные системы: теория и приложения, 2017, 8:4(35), с. 347-357. URL: http://psta.psiras.ru/read/psta2017_4_347-357.pdf

Об авторе:

Сергей Витальевич Знаменский

Научные интересы мигрировали от функционального анализа и комплексных аналогов выпуклости к основаниям разработки коллаборативного ПО и метрикам сходства

e-mail:

svz@latex.pereslavl.ru

Sergej Znamenskij. Model and axioms for similarity metrics.

Abstract. Modern applications usually combine different similarity metrics taking into account the algorithms complexity, the peculiarities of human perception, data resources and samples. The optimization requires a unified formal description of the basic similarity metrics.

The system of the similarity metric axioms is enchanced and its universal model is constructed which generalizes known models of similarity that do not reduce to the Euclidean metric. The model is based on a weighted partially ordered set.

(In Russian).

Key words and phrases: similarity of strings, sequence alignment, edit distance, LCS, Levenshtein

metric.

2010 Mathematics Subject Classification: 97P20; 91C05, 91C20.

References

[1] Kelly J.C.. "Bitopological spaces", Proc. London Math. Soc., 13:3 (1963), pp. 71-89.

[2] Wilson W. A.. "On quasi-metric spaces", Am. J. Math., 53:3 (1931), pp. 675-684.

[3] Arkhangel'skii A. V., Pontryagin (eds.) L. S., General Topology I: Basic Concepts and Constructions Dimension Theory, Encyclopaedia of Mathematical Sciences, vol. 17, Springer, Berlin-Heidelberg, 1990, vii+202 p.

[4] C. Alexander. "Semi-developable space and quotient images of metric spaces", Pacific J. Math., 37:2 (1971), pp. 277-293.

[5] S. G. Matthews. "Partial metric topology", Proc. 8th Summer Conference on General Topology and Applications (Queens College, City University of New York, USA, June 18-22, 1992), Ann. New York Acad. Sci., 728 (1994), pp. 183-197.

[6] A. Tversky. "Features of similarity", Psychol. Rev., 84:4 (1977), pp. 327-352.

[7] Chen S., Ma B., Zhang K.. "On the similarity metric and the distance metric", Theoretical Computer Science, 410:24-25 (2009), pp. 2365-2376.

(c Ailamazyan Program Systems Institute of RAS, 2017 (c Program systems: Theory and Applications, 2017

DOI: 10.25209/2079-3316-2017-8-4-347-357

[8] R. Kunimoto, M. Vogt, J. Bajorath.. "Maximum common substructure-based Tversky index:an asymmetric hybrid similarity measure", J. Comput. Aided Mol. Des., 30 (2016), pp. 523-531.

[9] E. Amigo, J. Gonzalo, F. Giner, F. Verdejo. "An Axiomatic Account of Similarity", SIGIR'17 Workshop on Axiomatic Thinking for Information Retrieval and Related Tasks (ATIR) (August 2017, Tokyo Japan), 3, 10 p., URL: https://www.eecis.udel.edu/~hfang/atir_proceedings/atir17-paper3.pdf

[10] D. Guessoum, M. Miraoui, Ch. Tadj. "Survey of semantic similarity measures in pervasive computing", International journal on smart sensing and intelligent systems, 8:1 (2015), pp. 125-158.

[11] Th. Slimani. "Description and Evaluation of Semantic Similarity Measures Approaches", International Journal of Computer Applications, 80:10 (2013), pp. 25-33.

[12] F. Giner, E. Amigo. "General Representation Model for Text Similarity", Future and Emerging Trends in Language Technology. Machine Learning and Big Data (FETLT 2016) (Seville, Spain, November 30 -December 2, 2016), 2017,, pp. 158-169 (Revised Selected Papers).

[13] A. Gupta A. Kumar J. Gautam. "A Survey on Semantic Similarity Measures", IJIRST -International Journal for Innovative Research in Science & Technology, 3:12 (2017), URL: http://www.ijirst.org/articles/IJIRSTV3I12083.pdf

[14] S.V. Znamenskij. "From Similarity to Distance: Axoim Set, Monotonic Transformatons and Metric Determinacy", Journal of Siberian Federal University. Mathematics & Physics, 2018 (to appear).

[15] Dobson A. J.. "Unrooted Trees for Numerical Taxonomy", Journal of Applied Probability, 11:1 (1974), pp. 32-42.

[16] S. Jimenez, F.A. Gonzalez, A. Gelbukh. Soft Cardinality in Semantic Text Processing: Experience of the SemEval International Competitions. Polibits [online]. 2015, n.51, pp.63-72. ISSN 1870-9044. http://dx.doi.org/10.17562/PB-51-9., URL: http://www.scielo.org.mx/pdf/poli/n51/n51a10.pdf

[17] N.J.P. van Eck, L. Waltman. How to Normalize Co-Occurrence Data? An Analysis of Some Well-Known Similarity Measures (No. ERS-2009-001-LIS). ERIM report series research in management Erasmus Research Institute of Management. Erasmus Research Institute of Management. (2009), URL: http://hdl.handle.net/1765/14528

Sample citation of this publication:

Sergej Znamenskij. "Model and axioms for similarity metrics", Program systems: Theory and applications, 2017, 8:4(35), pp. 347-357. (In Russian). URL: http://psta.psiras.ru/read/psta2017_4_347-357.pdf

Модель и аксиомы метрик сходства Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Знаменский Сергей Витальевич

Похожие темы научных работ по математике , автор научной работы — Знаменский Сергей Витальевич

Model and axioms for similarity metrics

Текст научной работы на тему «Модель и аксиомы метрик сходства»