Научная статья на тему 'Исследование алгоритмов коррекции локального возмущения в конечной полуметрике'

Исследование алгоритмов коррекции локального возмущения в конечной полуметрике Текст научной статьи по специальности «Математика»

CC BY
27
9
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Майсурадзе А.И., Громов И.А.

Предлагается трехэтапная схема построения алгоритмов преобразования метрической информации в задачах интеллектуального анализа данных. В рамках схемы рассматриваются алгоритмы коррекции полуметрик, предназначенные для изменения расстояния на заданную величину между одной парой объектов и гарантировано сохраняющие метрические свойства. Для алгоритмов устанавливаются достаточные условия, при выполнении которых коррекция полуметрик в рамках трехэтапной схемы завершается в ходе первых двух этапов, а в специальном случае уже в ходе первого этапа. Приводятся результаты вычислительных экспериментов на модельных данных, даются оценки вычислительной сложности алгоритмов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A three-stage scheme for synthesis of semimetric adjustment algorithms in data-mining problems is proposed. Within its framework algorithms designed to modify the distance between a single pair of objects at the given value are studied. These adjustment algorithms guarantee preservation of the semimetric properties. The proposed adjustment procedures constructed within the three-stage scheme framework are completed within the first two stages, and in the special case within the first stage. The experimental results are considered; the estimate of the algorithms’ computational complexity is given.

Текст научной работы на тему «Исследование алгоритмов коррекции локального возмущения в конечной полуметрике»

УДК 519.7

ИССЛЕДОВАНИЕ АЛГОРИТМОВ КОРРЕКЦИИ ЛОКАЛЬНОГО ВОЗМУЩЕНИЯ В КОНЕЧНОЙ ПОЛУМЕТРИКЕ

© Майсурадзе А.И., Громов И.А.

Московский государственный университет им. М.В. Ломоносова ф-т ВМК, Ленинские горы, г. Москва, 119991, Россия e-mail: maysuradzeecs.msu.su Вычислительный центр им. а.а. Дородницына РАН ул. Вавилова, 40, г. Москва, 119333, Россия e-mail: Igor_ Gromov@mail.ru

Abstract. A three-stage scheme for synthesis of semimetric adjustment algorithms in data-mining problems is proposed. Within its framework algorithms designed to modify the distance between a single pair of objects at the given value are studied. These adjustment algorithms guarantee preservation of the semimetric properties. The proposed adjustment procedures constructed within the three-stage scheme framework are completed within the first two stages, and in the special case - within the first stage. The experimental results are considered; the estimate of the algorithms' computational complexity is given.

Введение

В настоящее время в интеллектуальном анализе данных широко применяются метрические методы. Эффективность их использования существенно зависит от выбора функции сходства (например, полуметрики) на объектах распознавания. Как правило, в прикладных задачах нельзя ввести некотоpvio единственную ^ объективную» полуметрику, следовательно, сами полуметрики становятся предметом анализа и настройки. В данной работе настройка полуметрики состоит в коррекции расстояний между объектами, выбранными экспертом в предметной области.

Пусть дано конечное множество объектов с заданной на нем полуметрикой р. Эксперт по своему усмотрению изменяет расстояние между ровно одной парой объектов, при этом могут быть нарушены неравенства треугольника (такое изменение расстояния будем называть локальным, возмущением). Интерпретацию введенного изменения эксперт задает путем выбора функционала различия полуметрик. В результате внесения локального возмущения возникает новая функция расстояния -р'. Задача коррекции полуметрики состоит в синтезе новой полуметрики р, которая близка к исходной р, но сохраняет сделанные изменения р'.

В работе изучаются некоторые алгоритмы решения данной задачи. Общие требования, предъявляемые к этим алгоритмам, следующие.

(R1). Алгоритмы быть универсальны, т. е. применимы ко всем р и р .

(R2). Эксперт может выбирать различные интерпретации вносимого им изменения, и алгоритмы способны учесть этот выбор. В

данной работе различным интерпретациям соответствуют различные функционалы различия полуметрик. (ЕЗ). Алгоритмы строят полуметрику р, максимально «близкую» (в смысле

выбран™

ного функционала различия полуметрик) к исходной полуметрике р. (R4). Указанное экспертом значение расстояния на выбранной паре объектов сохраняется в полуметрике р.

Существуют различные подходы к решению поставленной задачи коррекции полуметрики ([1]-[3]). В данной работе авторами предложен новый подход - трехэтаи-ная схема построения алгоритмов коррекции возмущенных полуметрик. В общем случае данная схема требует исследования всех троек объектов и имеет сложность 0(М3), где N - общее число обрабатываемых объектов. Однако, авторами установлены достаточные условия, при выполнении которых коррекция полуметрик в рамках трехэтапной схемы завершается в ходе первых двух этапов, а в специальном случае -уже в ходе первого этапа. Таким образом, сложность понижается до 0(М2) и О(М) соответственно. Предложены алгоритмы, осуществляющие коррекцию в рамках дан™ нон схемы. ДДля анализа реальной эффективности данных алгоритмов была проведена серия экспериментов, в которых использовались три модельные полуметрики. В работе приведены результаты экспериментов, оценена вычислительная эффективность алгоритмов, проведен сравнительный анализ результатов коррекции.

В работе используется стандартное определение метрики. Пусть V - произвольное непустое множество.

Определение 1. Отображение р : V х V —>• К называется метрикой на V, если удовлетворяет следующим условиям:

1. р(ь, ь) = 0, V V Е V]

2. р(ь1,ь2) = р(г>2,г>х), V VI, г»2 € У\

3. р(г>ьг>2) ^ 0, V г»ь г»2 Е V;

4. р(г>ьг>3) < р(г>ьг>2) + р(г>2,г>3), V г>ьг>2,г>3 е V;

5. р(г>ьг>2) = 0 г>1 = г>2, V г>ьг>2 е V.

Если отображение р удовлетворяет только условиям (1)-(4), то оно называется полуметрикой на V. Если отображение р удовлетворяет только условиям (1)-(3), то оно называется расстоянием,, или функцией расстояния, на V. Условие (4) принято называть неравенством 'треугольника.

Будем рассматривать конечные множества объектов Х'дт мощности М, элементы которых отождествим с их индексами 1.2......V. Пусть задана полуметрика

р : V х V И- К. Матрицу попарных расстояний, определенных полуметрикой р, обозначим Д; В = (г^) Е КЛГхЛГ, где г^ == р{г,з). Когда в работе говорится, что дана функция расстояния р, это означает, что дана соответствующая ей матрица попарных расстояний В. Функцию расстояния, полученную в результате экспертной модификации (внесения локального возмущения), будем обозначать р', а полуметрику, полученную в результате последующей коррекции - р. В' и В - матрицы попарных расстояний, соответствующие функциям р' и р. Расстояния вида Г|| нигде в работе рассматриваться не будут.

Во всей работе индексами ¿о и ¿о будем обозначать те два объекта, расстояние между которыми изменил эксперт: г¿0,,-0 и- гг'0Новое расстояние должно сохраниться в скорректированной полуметрике: = гг'о -0.

Введем множество неупорядоченных пар индексов

Ем = {(ьз) I ЬЗ {1.2......V}. г ф ]} и множество неупорядоченных троек

индексов Тм = {{г,3,к) | Е {1.2......V}. %,],к попарно различны}. Иными

словами, будем отождествлять пары (тройки) индексов из множества Едг (соответственно Тдг), различающиеся между собой лишь порядком индексов в них. Предполагается, что в тексте статьи вновь вводимые индексы соответствуют объектам, не совпадающим с уже проиндексированными объектами.

Обозначим через Pfj множество (отрезок числовой оси) допустимых значений расстояния между объектами г и j в полуметрике р при фиксированных остальных расстояниях. Нетрудно видеть, что

Р? = [ max |r<fc-rjfc|, min (rik + rß)} = iV(y') € EN P? ф 0;

J kevhr\{t,j} kevN\{t,j} l j j j j

tлевая граница мно^кества P^j, ^'ij правая граница мно^кества P^j.

Треугольник, построенный на тройке вершин (объектов) (i,j,k) G Tn с длинами сторон, равными г^, гцс, будем обозначать Аijk.

В работе использована графовая интерпретация метрики, определенной на конечном множестве мощности N, как нагруженной клики на N вершинах. Множество вершин графа это множество объектов, множество ребер - это множество попарных расстояний между объектами, а расстояния между объектами соответствуют весам (или «длинам»), приписанным ребрам.

1. Интерпретация изменения расстояния и функционалы

различия полуметрик

Одновременно формализуем понятия интерпретации изменения и сходства двух полуметрик. Поскольку требуется корректировать расстояние р' с целью получить полуметрику р, минимально отличную от исходной р, но в то же время учитывающую изменения, внесенные экспертом, то необходимо оценить различие двух полуметрик с учетом внесенной экспертом модификации. Рассматриваются ^два> основных исз^гх хода к интерпретации изменения одного расстояния в полуметрике: абсолютный и относительный, - а также их комбинация. Обоснование ^^нны^х иодходов приведено в [4]. Здесь мы лишь приведем соответствующие функционалы различия полуметрик р и р.

Абсолютный подход. «Схожими» считаются полуметрики, в которых абсолютные величины расстояний в полуметрике К минимально отличны от соответствую-

_ Е (ГЫ-ГЫ)2 щих расстояний в //: (}„{Н. В) = (М)ед^——2- .

(кЛ)еЕк Ы

Относительный подход применяется только для метрик. «Схожими» считаются метрики, в которых близки пропорции соответствующих расстояний. Мы будем рассматривать только случай, когда эксперт высказывает требование сохранить отношения нескорректированных расстояний в Дад'о^, к е = ■ Это

ГЗок Т]0к \2

требование формализует функционал С}т (К, К) = ^ ( ^---- ) • Отноше-

кеУм\{ц,^0} \rjok Туф)

ния величин расстояний более информативны, чем сами эти величины по отдельности, поэтому относительный подход, по-видимому, более пригоден на практике, чем абсолютный.

Взвешенный подход использует функционал: С^Ш(В, В,) = и)аС]а(В,, В,)+и)гС]г(В,, В), где та,тг ^ 0, гюа + гюг = 1. В простейшем случае значения весов та, гюг назначает эксперт. Однако может быть поставлена задача поиска этих весов, одно из решений которой предложено в [4]. Отметим, что на различных подмножествах множества треугольников {Aiojok} можно применять различные значения весов гюа, гюг.

2. Трехэтапная схема построения алгоритмов коррекции

полуметрики

Пусть эксперт изменил расстояние и указал значение гг'0-0. В общем случае это повлечет нарушение неравенств треугольника во всех треугольниках вида А^ок, к е Х'дг, к ^ {¿0)7о}- Будем строить алгоритмы коррекции по следующей «трехэтапной схеме».

1-й этап: коррекция тех Ладо к, в которых неравенства треугольника нарушены. Изменяются расстояния После первого этапа неравенства треугольника могут быть нарушены в А%к1 и А]$к1.

2-й этап: коррекция тех АцЫ и Ау^Ы, в которых неравенства треугольника нарушены. На втором этапе коррекции должны быть использованы такие методы, которые не вызовут новых нарушений неравенств треугольника в Д«оЗок.

3-й этап: коррекция тех Ак1т, в которых неравенства треугольника нарушены. На третьем этапе коррекции должны быть использованы такие методы, которые не вызовут новых нарушений неравенств треугольника в Дад'о^, АгоЫ,

V к, I, те Тдг, к,1,т £ {г0^0}.

Реализация каждого из этапов должжа быть согласована с выбранным экспертом функционалом различия полуметрик. Тем самым будет выполнено требование (113) о том, чтобы р и р были максимально близки в смысле указанного функционалов.

Нарушения неравенств треугольников в процессе коррекции распространяются по полуметрике, и на каждом следующем этапе требуется преобразовать большее число расстояний, чем на предыдущем. На 1-м этапе коррекции требуется рассмотреть О(М), на 2-м - О(.Х-). на 3-м - 0(М3) треугольников.

Внесенное экспертом локальное возмущение может быть двух типов: положительное локальное возмущение: > и > г^ + отрицательное локальное возмущение: < и либо г^ > + г^, либо г^ > + г Каждый из этих случаев имеет свою специфику и требует применения несколько разных формул коррекции в рамках одного и того же подхода.

3. Алгоритмы коррекции полуметрики А и А

В данном разделе сформулированы универсальный (для любого возмущения) алгоритм коррекции А и алгоритм коррекции А. для положительного локального возмущения.

Алгоритм А. Пусть дана полуметрика р. Эксперт модифицировал в ней одно расстояние: И- и потребовал сохранить указанное им значение Кроме

того, эксперт выбрал функционал различия полуметрик (тем самым давая интерпретацию внесенного возмущения). Тогда для коррекции возникших в р' нарушений неравенств треугольника предлагается следующий алгоритм А:

1-й этап: коррекция Дад'о^- Формулы коррекции определяются выбором функционала различия полуметрик.

2-й этап: коррекция Aioк\ и /\jokl проводится по следующему правилу; гы = £ Ея, М & {«о^'о}, где

= тах{|г<0* - по11, |Гуок - |}, г^ах = тт{(г*0* + гы), (г,-0* + г^)}, а Е [0,1] и а фиксировано для всех (к,1) е Едг, к,1 ^ {¿о^о}- Величину а определяет эксперт, однако может быть поставлена задача поиска оптимального а (см. [4]).

3-й этап: не требуется (доказательство см. [4]).

Алгоритм А\. Пусть эксперт внес в полуметрику р положительное локальное возмущение: И- г[ • . В остальном требования аналогичны требованиям в алго~ ритме А.

1-й этап: коррекция Дад'ок проводится таким образом, чтобы ^

^зок ^ гзок- При этом значения г^, г^ должны минимизировать выбранный экспертом функционал различия полуметрик.

2-й этап: коррекция Д«ок1 и /\jokl осуществляется по следующему правилу:

(гки если < гы < г§1п, если гы < г§1п; г^ах, если гы > г^ах.

3-й этап: не требуется (доказательство см. [4]).

На 1-м этапе выполнения алгоритмов А и А. требуется рассмотреть (М — 2) треугольников, на 2-м- (М — 2)(М — 3) треугольников, обработка треугольников требует постоянного времени. Таким образом, сложность вычисления 2-го этапа алгоритмов

В формулировках алгоритмов А и А. указано, что методы коррекции на первом этапе определяются выбором функционала различия. Конкретные формулы для получения таких значений г^, г^, которые минимизируют функционалы С}а1 С}Т1

приведены в [4]. Следует отметить, что сложность вычисления первого этапа алгоритмов А и А в случае коррекции посредством предлагаемых формул - 0(М). Таким образом, алгоритмы будут иметь заявленную сложность 0(М2).

Кроме того, отметим, что при > применение формул, минимизирующих <За, на первом этапе коррекции гарантировано дает полуметрику р. Таким образом, алгоритм, в котором на первом этапе коррекции положительного локального возмущения примененяются эти формулы, имеет сложность 0(М), т. е. является линейным относительно числа объектов и не требует выполнения 2-го и 3-го этапов (см. [4]).

4. Результаты вычислительных экспериментов

Вычислительные эксперименты были проведены на трех модельных полуметриках!

1. «Линия»: исходные объекты лежат на одной прямой, У(к,1) Е Едг г и = |А; —

2. (0.1)-полуметрика: исходные объекты собраны в два кластера, У{к,1) е Едг

/ 0, А\ / е Ум'

[1, А е I у • / ^ 1'лг', Ще I V С V дг

3. ^Репгётка^! исходные

объекты расположены в узлах квадратной решетки^ У{к, I) б £дг гы = у/(хк - х¡)2 + {ук - уг)2, -ик = {хк, ук), гц, = (;С|, уг), ик, -щ Е К2.

При > алгоритм А. дал лучшие результаты коррекции на всех мо-

дельных полуметриках, т. к. в результате его применения расстояния вида гк\ были минимально деформированы (в смысле функционала С}о). Это объясняется тем, что в общем случае он не требует коррекции всех расстояний (в отличие от А). На рис. 1 показана коррекция «линии». На

первом этапе были использованы формулы, согласованные с . Данный пример хорошо иллюстрирует эффект применения алгоритма А\. изменено лишь положение объектов ¿о, jo относительно остальной массы объектов.

1С: ■

Р -

8 ■

V Ё

5 -

4 ■

3 ■

2 ■ ■1

• Объекты 1 ;2 4 Объекты 3..10

а), о).

120 -|

-«8-»-

-89--

-68--

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

--ч:------

-£9--

|-1-1-1-1-1—Э I-1-1

-6 -5 -4 -3 -2 -1 С! 1 2

■ Объыпъ! 1,2 4 Объекты 3-10

Рис. 1. Коррекция «линии» алгоритмом А; ^1,2 = 1> г1,2 = ЮО-

На рис. 2.а — 2Л показаны результаты коррекции «решётки» алгоритмами А и А.. В обоих алгоритмах на первом этапе были использованы формулы, согласованные А

параметра а может как существенно нарушить структуру полуметрики (при а = О, рис. 2.6), так и сохранить в целом взаимное расположение объектов (при а = 1, рис. 2.с). Проведение оптимизации а позволяет приблизить величины гы к исходным гк1, однако искажения расстояний все же происходят. В данном случае аор1 ж 1. Наилучший результат в смысле функционалов и дает применение алгоритма

А

Для иллюстрации случая < рассмотрим (0,1)-полуметрику. Пусть для пары объектов (г'о^о) '^г^а = 1, а г'Н)^() = 0 и эксперт требует, чтобы объекты «о, ¿о были выделены в отдельный кластер и при этом все остальные расстояния были минимально деформированы (в смысле

На первом этапе коррекции были использованы формулы, согласованные с С)а. В А

первом случае объекты обоих кластеров объединяются в один (рис. 3.а), а во втором

а), с) с). #

-100

•50

1-20

-^ше-

-ее-

-ее-

-40-

-50-

50

1 Объекты 13 • Объекты 2-5

100

-20

}20 п -Ш

да

-бе-

-тб-

-29-

■10

1 Объекты 5 3 • Объекты 2-8

1СГ

20

Рис. 2. Коррекция «решётки» алгоритмами А и А; ~ 28.28, г[ д = 100.

объект образует отдельный кластер (рис. 3.Ь). Поэтому оптимизация а не приносит ожидаемого результата (рис. З.с). Алгоритм А\ для случая отрицательного локального возмущения, вообще говоря, не гарантирует построения полуметрики Д. Однако в данном случае применение А дает полуметрику, причем она соответствует желаемому результату (рис. 3.с1).

АА

ректируются 2(]У — 2), а на втором этапе — 1)/2) — 2(^¥ — 2) — 1 расстояний. В

АА

А

параметра а предлагается использовать метод «золотого сечения». Теоретические оценки сложности алгоритмов представлены в табл. 1.

АА

А

мизация параметра а методом «золотого сечения», число итераций равно 10. Этим объясняется большая скорость роста времени работы с возрастанием N. Теоретиче-

А

О.в 0.5 ОД ■ 0.3 ■

0.5 ■ 0.1 ■ О ■

о.:

о.е

о.е

Объекты 1.9 .»Объекты 2-8

-A.S-, -1

-вгй-

-в-9-

mm

ш Объекты 1.9 + Объекты 2-8

-0.5

0.5

a), hi.

с), б).

ЯШ,

■Q-.7--

-е-5-

-з^з-

-0..1 1 --3,2-— -о.э-

ч Объекты 1,9 ^Объекты 2-8

-0.05

-0.04 0.03

-0 02

1:2-, -+

-Э-.4-

■0.01

я Ооъекты ,1,9 л Объекты 2-8

Рис. 3. Коррекция (0,1)-полуметрики алгоритмами ^ A; = 1, г[ 9 = 0.

работать в 12.17 раз быстрее, чем A. По эмпирическим оценкам выигрыш по времени составляет 10.75 раз. Если в алгоритме A те проводить оптимизацию, то A не дает существенного выигрыша, по времени.

Эксперименты проводились на персональном компьютере (процессор AMD Athlon 64 processor 3000 I (2.0ГГц, 512KB cache L2), оперативная память 512МБ).

AA

Этап Метод Выч. сложность

1. формулы, оптимизирующие Qa ~ 12N

формулы, оптимизирующие Qr ~ 13JV

формулы, оптимизирующие Qw ~ 19 N

2. А, а е {0. 1 } ~ 1.5 Nz

А « е (0,1) ~ oNz

А. оптимизация а (к итераций) ~ (3.5А: + 1.5)А2

А ~ ЗА2

500 -

450 I

400 -L

т\ -

а 300 I

и 250 -

200 I

150 -L

100 1

50 I

0 \

-9—Алгоритм А -•—Алгоритм А1

■ *

100 200 30Ü 400 500 В00 700 000 900 1000 1100 N, чиспь объектов

Рис. 4. Эмпирические оценки времени коррекции «линии».

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Заключение

В работе предложена универсальная схема коррекции локальных возмущений в полуметрике, исследованы алгоритмы, построенные в ее рамках. е ДЗ^С Т* О? В «Л е Н результаты вычислительных экспериментов с использованием указанных алгоритмов. Основным направлением дальнейших исследований по данной тематике является распространение предложенного подхода на случай одновременной коррекции экспертом двух и более расстояний.

Работа выполнена при частичной финансовой поддержке РФФИ (проект № 0807-00401), гранта Президента РФ МК-2252.2008.9.

Список литературы

1. Майсурадзе А. И. Об оптимальных разложениях конечных метрических конфигураций в задачах распознавания образов. /'/' ЖВМ и МФ, Т. 44, №9, 2004 г., С. 1697-1707.

2. Майсурадзе А. И. Гомогенные и рагновые базисы в пространствах метрических конфигураций. /'/' ЖВМ и МФ, Т. 46, №2, 2006 г., С. 344-361.

3. ЮшмановС.В. Восстановление филогенетического древа по поддеревьям, порожденным четверками его висячих вершин. // Математическая кибернетика и ее приложения к биологии. -М.: Издательство Московского Университета. 1987 г., С. 141-147.

4. Громов И. А. Интерактивные методы коррекции полуметрик. /'/ Сб. статей молодых ученых факультета ВМиК МГУ, Вып. 4, 2007 г., С. 27-40.

Статья поступила в редакцию 25.04-2008

i Надоели баннеры? Вы всегда можете отключить рекламу.