Научная статья на тему 'О задачах кластеризации графов'

О задачах кластеризации графов Текст научной статьи по специальности «Математика»

CC BY
641
111
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
ГРАФ / КЛАСТЕРИЗАЦИЯ / АППРОКСИМАЦИЯ / NP-ТРУДНАЯ ЗАДАЧА / GRAPH / CLUSTERING / APPROXIMATION / NP-HARD PROBLEM

Аннотация научной статьи по математике, автор научной работы — Ильев В. П., Ильева С. Д.

В работе представлен краткий обзор результатов по вычислительной сложности и аппроксимируемости различных вариантов задачи кластеризации графа, известной так же как задача аппроксимации графа. Кроме того, исследуется новый вариант задачи кластеризации с частичным обучением. Доказано, что рассматриваемая задача является NP-трудной. В случае, когда число кластеров равно 2, доказана NP-трудность задачи на кубических графах.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On the graph clustering problems

We present a short survey of results on computational complexity and approximability of different variants of the graph clustering problem known also as the graph approximation problem. Moreover, a new version of the problem, the semi-supervised graph clustering, is also studied. It is shown that this problem is NP-hard. In case when the number of clusters is equal to 2 NP-hardness of the problem on the cubic graphs is proved.

Текст научной работы на тему «О задачах кластеризации графов»

МАТЕМАТИКА

Вестн. Ом. ун-та. 2016. № 2. С. 16-18. УДК 519.8

В.П. Ильев, С.Д. Ильева

О ЗАДАЧАХ КЛАСТЕРИЗАЦИИ ГРАФОВ*

В работе представлен краткий обзор результатов по вычислительной сложности и аппроксимируемости различных вариантов задачи кластеризации графа, известной так же как задача аппроксимации графа. Кроме того, исследуется новый вариант задачи кластеризации с частичным обучением. Доказано, что рассматриваемая задача является №-трудной. В случае, когда число кластеров равно 2, доказана № -трудность задачи на кубических графах.

Ключевые слова: граф, кластеризация, аппроксимация, -трудная задача.

Введение

В задаче кластеризации требуется разбить заданное множество объектов на несколько подмножеств (кластеров) только на основе сходства объектов друг с другом. Мера сходства оценивается по-разному в разных задачах. В машинном обучении задачи кластеризации относят к разделу обучения без учителя. Наряду с этим рассматриваются также задачи кластеризации с частичным обучением, в которых часть объектов (как правило, небольшая) изначально распределена по кластерам [1; 2].

Одной из наиболее наглядных формализаций задач кластеризации взаимосвязанных объектов является задача аппроксимации графа, которая представляет собой один из вариантов задачи кластеризации графа [3; 4]. В этой задаче структура взаимосвязей объектов задается посредством неориентированного графа, вершины которого взаимно однозначно соответствуют объектам, а ребра соединяют похожие объекты, обладающие достаточным количеством одинаковых признаков. Требуется разбить множество исходных объектов на попарно непересекающиеся группы (кластеры) так, чтобы минимизировать число связей между кластерами и число недостающих связей внутри кластеров. Количество кластеров может быть задано, ограничено или заранее не определено. Постановки и различные интерпретации задачи аппроксимации графа можно найти в [5-8].

В первой части настоящей работы рассматриваются три варианта задачи аппроксимации графа, являющейся формализацией задач кластеризации взаимосвязанных объектов. Приводится краткий обзор известных результатов по этим задачам. Во второй части рассматривается новая постановка задачи аппроксимации графа, которая является одной из форма-лизаций задачи кластеризации с частичным обучением. В этой задаче дано множество, состоящее из п объектов, которые необходимо распределить по к кластерам. Структура взаимосвязей задана с помощью неориентированного графа. Задана также выборка из к объектов, каждый из которых принадлежит одному из кластеров. В работе доказано, что рассматриваемая задача является МР-трудной. Для случая к = 2 доказана МР-трудность задачи на кубических графах.

Будем рассматривать только обыкновенные графы, т. е. графы без петель и кратных ребер. Обыкновенный граф называется кластерным графом, если каждая его компонента связности является полным графом [9]. Обозначим через М(У) множество всех кластерных графов на множестве вершин V, Мк(У) - множество всех кластерных графов на множестве вершин V, имеющих ровно к непустых компонент связности, М,к(V - множество всех кластерных графов на множестве V, имеющих не более к компонент связности, 2 < к < | V | .

* Работа первого автора поддержана грантом РНФ (проект 15-11-10009).

© Ильев В.П., Ильева С.Д., 2016

О задачах кластеризации графов

17

1. Задачи кластеризации графов

Если G = () и G2 = (V,E2) - обыкновенные графы на одном и том же множестве вершин V, то расстояние p(GvG2) между ними определяется как

p(G1,G2) = |E1AE2| = |Ед E2 | + |E2\|, т. е. p(G,G) - число несовпадающих ребер в графах G и G2.

В 60-80-е гг. XX века в литературе изучались следующие три варианта задачи аппроксимации графа, которые можно рассматривать как различные формализации задачи кластеризации взаимосвязанных объектов [6-8; 10; 11]. В дальнейшем задачи аппроксимации графов неоднократно переоткрывались и независимо изучались под разными названиями (Correlation Clustering [12], Cluster Editing [9; 13]).

Задача A. Дан обыкновенный граф

G = (V, E). Найти такой граф M е M(V) , что p(G,M*) = min p(G,M) .

M eM(V)

Задача Ak. Дан обыкновенный граф G = (V, E) и целое число k, 2 < k < | V |. Найти

такой граф M* е Mk(V), что

p(G,M*) = min p(G,M).

M eMk (V)

Задача A1 k . Дан обыкновенный граф G = (V, E) и целое число k, 2 < k < | V |. Найти

такой граф Me Mj k (V), что

p(G,M*) = min p(G,M).

M eM1k (V)

Первые теоретические результаты, относящиеся к задачам аппроксимации графов, были получены в 60-70-е гг. XX в. В 1964 г. За-ном [8] была решена задача A для графов, представляющих 2- и 3-иерархические структуры. В 1971 г. Фридман [6] выделил первый полиномиально разрешимый случай задачи аппроксимации графа A. Он показал, что задача A для любого графа без треугольников сводится к построению в нем наибольшего паросочетания.

В 1986 г. Крживанек и Моравек [14] доказали, что задача A является NP-трудной, однако их работа осталась незамеченной. В 2004 г. Бансал, Блюм и Чаула [12] и независимо Шамир, Шаран и Цур [9] доказали NP-трудность задачи A, а Ильев и Талевнин (см. [15]) установили, что взвешенная задача Ak NP-трудна при любом фиксированном k > 2 . В [9] доказано также, что задача Ak NP-трудна при любом фиксированном k > 2 ; в 2006 г. Гиотис и Гурусвами [16] опубликовали более простое доказательство этого же результата. В том же году независимо Агеев, Ильев, Кононов и Талевнин [17] доказали, что задачи A2 и A12 NP-трудны уже на кубических графах, откуда вывели, что все упомянутые ранее варианты задачи аппроксимации графа являются NP-трудными, включая и задачу A1k.

В 2004 г. Бансал, Блюм и Чаула [12] предложили 3-приближенный алгоритм для задачи A1 2. В 2006 г. Агеев, Ильев, Кононов и Талевнин [17] доказали существование рандомизированной полиномиальной приближенной схемы для задачи A12, а Гиотис и Гурусвами [16] предложили рандомизированную полиномиальную приближенную схему для задачи Ak (для любого фиксированного к > 2). В том же году Ильев, Навроцкая и Талевнин [18] показали, что алгоритм локального поиска является гарантированно асимптотически точным для задачи A12 на неплотных графах. Указав, что сложность полиномиальной приближенной схемы из [16] лишает ее перспективы практического использования, Коул-ман, Саундерсон и Вирт [19] в 2008 г. предложили 2-приближенный алгоритм для задачи A12, применив процедуру локального поиска к допустимому решению, полученному с помощью 3-приближенного алгоритма из статьи [12]. Для задачи A2 в работе [20] Ильевым, Ильевой и Навроцкой предложен (3 -6/ | V\)-приближенный алгоритм с достижимой гарантированной оценкой точности.

Что касается задачи A, то в 2005 г. Чари-кар, Гурусвами и Вирт [21] показали, что задача A является АРХ-трудной и разработали для нее 4-приближенный алгоритм. В 2008 г. Айлон, Чарикар и Ньюман [22] предложили 2,5-приближенный алгоритм для задачи A.

2. Задача кластеризации с частичным обучением

Рассмотрим следующую формализацию задачи кластеризации с частичным обучением.

Задача A+. Дан обыкновенный граф G = (V, E) и целое число к, 2 < к < | V |. Выделено множество попарно различных вершин X = (x,..., xk } £ V . Требуется найти такой

граф M* е M(V), что

p(G,M*) = min p(G,M),

M eM(V)

где минимум берется по всем кластерным графам M = (V, EM) e M (V), в которых xtXj £ Ем для любых i, j e (1,..., к} ; другими словами, никакие две вершины множества X = (x,..., X} не принадлежат одной и той же компоненте связности (т. е. одному кластеру) графа M.

Исследуем вычислительную сложность

задачи A+ . Рассмотрим сначала частный случай задачи, когда к = 2. Напомним, что граф называется кубическим, если степени всех его вершин равны 3.

Теорема 1. Задача A+ на кубических

графах NP-трудна.

Доказательство. Как было показано в работе [1], задача A2 на кубических графах

18

В.П. Ильев, С.Д. Ильева

NP-трудна. Следовательно, для доказательства NP-трудности задачи A+ на кубических графах достаточно свести к ней по Тьюрингу задачу A2 на кубических графах.

Рассмотрим произвольный кубический граф G = (V, E) - вход задачи A2 - и фиксируем две несовпадающие вершины xp Хз графа G.

Имея оптимальное решение M*( Х\, ) задачи A+ для любой такой пары вершин {Xj, х2 } е V и выбрав среди них ближайший к графу G кластерный граф

M * = argmin p(G, M *(х, x2 )),

{X, X }eV

мы, очевидно, получим оптимальное решение исходной задачи A2. Легко видеть, что построение всех n(n - 1) / 2 входов задачи A+ и получение оптимального решения исходной задачи A2 можно выполнить за время O(n2), где n = \V \.

Теорема доказана.

Теперь рассмотрим задачу A+ для произвольного фиксированного к. Докажем, что задача A+ является NP-трудной.

Теорема 2. Задача A+ на кубических графах NP-трудна при любом фиксированном к > 2.

Доказательство. Для доказательства сведем по Тьюрингу NP-трудную задачу Ak

к A+ . Рассмотрим произвольный граф G = (V, E) - вход задачи Ak - и фиксируем целое число к и произвольный набор {x1, ..., xk}, состоящий из к попарно различных вершин графа G.

Имея оптимальное решение М*(x,..., X) задачи A+ для любого такого набора {X,..., X} Е V и выбрав среди них ближайший к графу G кластерный граф

M* = argmin p(G,M*х,..., хк))

{Xi,..., Xk }eV

мы, очевидно, получим оптимальное решение исходной задачи Ak. Легко видеть, что

при фиксированном к построение всех Cк

входов задачи A+ и получение оптимального решения исходной задачи Ak можно выполнить за время O(nk), где n = \V\. Теорема доказана.

ЛИТЕРАТУРА

[1] Bair E. Semi-supervised clustering methods // Wiley Interdisciplinary Reviews: Computational Statistics. 2013. Vol. 5. № 5. P. 349-361.

[2] Chapelle O., Scholkopf B., Zein A. Semi-Supervised Learning. MIT Press: Cambridge, Massachusets, 2006.

3] Kulis B., Basu S., Dhillon I., Mooney R. Semi-supervised graph clustering: a kernel approach // Machine Learning. 2009. Vol. 74. № 1. P. 1-22.

4] Schaeffer S.E. Graph clustering // Computer Science Review. 2005. Vol. 1. № 1. P. 27-64.

5] Ляпунов А. А. О строении и эволюции управляющих систем в связи с теорией классификации // Проблемы кибернетики. М.: Наука, 1973. Вып. 27. С. 7-18.

6] Фридман ГШ. Одна задача аппроксимации графов // Управляемые системы. 1971. Вып. 8. С. 73-75.

7] Tomescu I. La reduction minimale d'un graphe 'a une reunion de cliques // Discrete Math. 1974. Vol. 10. № 1-2. P. 173-179.

8] Zahn C.T. Approximating symmetric relations by equivalence relations // J. Soc. Indust. Appl. Math. 1964. V. 12. № 4. P. 840-847.

9] Shamir R., Sharan R., Tsur D. Cluster graph modification problems // Discrete Appl. Math. 2004. Vol. 144. № 1-2. P. 173-182.

10] Ильев В. П., Фридман Г. Ш. К задаче аппроксимации графами с фиксированным числом компонент // Доклады АН СССР. 1982. Т. 264. № 3. С. 533- 538.

11 ] Фридман Г.Ш. Исследование одной задачи классификации на графах // Методы моделирования и обработка информации. Новосибирск : Наука, 1976. С. 147-177.

12] Bansal N., Blum A., Chawla S. Correlation clustering // Machine Learning. 2004. V. 56. P. 89113.

13] Ben-Dor A., Shamir R., Yakhimi Z. Clustering gene expression patterns // J. Comput. Biol. 1999. Vol. 6. № 3-4. P. 281-297.

14] K'rivanek M., Mor'avek J. NP-hard problems in hierarchical-tree clustering // Acta informatica. 1986. Vol. 23. P. 311-323.

15] Талевнин А.С. О сложности задачи аппроксимации графов // Вестник Омского университета.

2004. № 4. C. 22-24.

16] Giotis I., Guruswami V. Correlation clustering with a fixed number of clusters // Theory of Computing. 2006. Vol. 2. № 1. P. 249-266.

17] Агеев А. А., Ильев В. П., Кононов А. В., Талевнин А. С. Вычислительная сложность задачи аппроксимации графов // Дискретный анализ и исследование операций. Серия 1. 2006. Т. 13. № 1. С. 3-11.

18] Ильев В. П., Навроцкая А. А., Талевнин А. С. Полиномиальная приближенная схема для задачи аппроксимации неплотных графов // Вестник Омского университета. 2007. Вып. 4. C. 24-27.

19] Coleman T., Saunderson J., Wirth A. A local-search 2-approximation for 2-correlation clustering // Algorithms - ESA 2008: Lecture Notes in Comput. Sci. 2008. Vol. 5193. P. 308-319.

20] Ильев В. П., Ильева С. Д., Навроцкая А. А. Приближенные алгоритмы для задач аппроксимации графов // Дискретный анализ и исследование операций. 2011. Т. 18. № 1. С. 41-60.

21] Charikar M., Guruswami V, Wirth A. Clustering with qualitative information // J. Comput. Syst. Sci.

2005. Vol. 71. № 3. P. 360-383.

22] Ailon N., Charikar M., Newman A. Aggregating inconsistent information: Ranking and clustering // J. ACM. 2008. V. 55. № 5. P. 1-27.

i Надоели баннеры? Вы всегда можете отключить рекламу.