Научная статья на тему 'Связи между решетками понятий и сложность их вычисления'

Связи между решетками понятий и сложность их вычисления Текст научной статьи по специальности «Математика»

CC BY
59
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ ФОРМАЛЬНЫХ ПОНЯТИЙ / ОБЩИЕ СОДЕРЖАНИЯ / СЦЕПЛЕНИЯ / ВЫЧИСЛИТЕЛЬНАЯ СЛОЖНОСТЬ / FORMAL CONCEPT ANALYSIS / SHARED INTENTS / COMPLEXITY

Аннотация научной статьи по математике, автор научной работы — Бабин Михаил Александрович, Кузнецов Сергей Олегович

В статье изучаются возможные типы связей между таксономиями предметных областей, описываемыми в терминах решеток формальных понятий наличие интенсионально связанных понятий, общих содержаний, сцеплений. Исследована алгоритмическая сложность некоторых задач поиска связей. Получено выражение сцепления в виде общего формального содержания (замкнутого множества признаков).

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On Links between Concept Lattices and Related Complexity Problems

Several notions of links between contexts, viz. intentionally related concepts, shared intents, and bonds, as well as interrelations thereof, are considered. The algorithmic complexity of the problems related to respective closure operators is studied. The expression of bonds in terms of shared intents is given.

Текст научной работы на тему «Связи между решетками понятий и сложность их вычисления»

УДК 004.02

М. А. Бабин, С. О. Кузнецов

Национальный Исследовательский Университет Высшая Школа Экономики

Связи между решетками понятий и сложность их

вычисления

В статье изучаются возможные типы связей между таксономиями предметных областей, описываемыми в терминах решеток формальных понятий — наличие интенсионально связанных понятий, общих содержаний, сцеплений. Исследована алгоритмическая сложность некоторых задач поиска связей. Получено выражение сцепления в виде общего формального содержания (замкнутого множества признаков).

Ключевые слова: анализ формальных понятий, общие содержания, сцепления, вычислительная сложность.

1. Введение

Во многих задачах построения таксономий и онтологий прикладных областей приходится иметь дело с системами, изменяющимися с течением времени. Чтобы анализировать такую динамику, нужно отслеживать сходство между состояниями таксономии в разные моменты времени. В данной статье мы исследуем задачи анализа сходства таксономий, порождаемых как решетки формальных понятий в смысле Анализа Формальных Понятий [2,11]. Сходство формальных понятий играет, например, важную роль в модели сети понятий, основанной на мультиконтекстах (multicontexts) [12]. Сходство решеток формальных понятий использовалось при анализе динамики научных сообществ в [9], где формальные понятия с одинаковыми содержаниями представляли одно и то же сообщество в разное время. В этой статье мы изучим различные определения связей между решетками формальных понятий, такие как интенсионально связанные понятия, общие содержания и сцепления (bonds). Мы изучим алгоритмическую сложность задач вычисления замыканий и максимальных общих содержаний. Мы также изучим соотношение между сцеплениями и общими содержаниями.

Статья организована следующим образом. В разделе 2 мы введем основные определения и обсудим интенсионально связанные понятия. В разделе 3 мы изучим общие содержания нескольких контекстов, а также некоторые важные алгоритмические задачи, связанные с ними. Мы покажем, что сцепления могут быть представлены как общие содержания двух контекстов.

2. Интенсионально связанные понятия

Для начала мы напомним несколько основных определений анализа формальных понятий (АФП) [2,11].

Пусть G и М — конечные множества, называющиеся множеством объектов и множеством признаков соответственно. Пусть I — бинарное отношение I С G х М между

объектами и признаками: для д £ G, т £ М, glm выполнено тогда и только тогда, когда

объект д обладает признаком т. Тройка К = (G,M,I) называется (формальным) контекстом. Формальные контексты естественно представлять бинарными таблицами, в которых единица для пары строка-столбец (д, т) означает, что это пара принадлежит отношению

I, а ноль — не принадлежит (часто вместо единиц ставятся крестики, а вместо нулей — не ставятся крестики). Если А С G и В С М — произвольные подмножества, тогда соответствие Галуа определяется следующим оператором штриха:

А1 := {т £ М | glm для всех g £ А},

В1 := {g £ G | glm для всех т £ В}.

Пара (ДБ), где А С G, В С М, Д = В т В1 = А, называется (формальным) понятием (контекст,а, К) с объемом А и содержанием В. Для g е Gam, е М множест ва и |т}; называются объектным содержанием, и признаковым, объемом соответственно.

Формальные понятия частично упорядочены отношением общности: (А, В) < (C,D) ^ А С С.

Оператор (■)// является оператором замыкания [2], т.е. он идемпотентен (X//// = X"), экстенсивен (X С X") и монотон ен (X С У ^ X// С F"). Множест ва А С G, В С М называются замкнутыми если А// = А и Л// = Л. Очевидно, объемы и содержания — замкнутые множества. Поскольку замкнутые множества образуют систему замыканий или

К

называющуюся решеткой понятий, которая обычно обозначается В(К).

Пусть К = (G\,M,I\),К2 = (G2,М,12),... ,КГ = (Gr,M,Ir) - контексты с общим множеством признаков М. Обозначим через (•)* оператор штриха контекста К^. Набор г понятий (А\, В\), (А2, В2),..., (Аг, Вг) соответствующих коптекстов К, К2,..., Кг называется интенсионально связанным, [9], если

П Аi I = Ai,

,1<г<г )

\ 22

Q Ai I = A2,

,1<г<г /

П Аг\ = А,

у1<г<г

Таким образом, любые интенсионально связанные понятия однозначно определены множествами п 1<г<г

Рассмотрим оператор (•)*, определенный как X* = X11 П X22 П ... П Xгг для X С М.

Утверждение 1. Пусть К1 = (С1,М,11),К2 = (G2,M,I2),... ,КГ = (Gr,M,Ir) — контексты с общим множеством признаков М. Тогда оператор (■)* удовлетворяет следующим свойствам:

(1) (X *)ii = Xй, для любых X С Ми 1 < i < г.

(2) (■)* является оператором замыкания.

Доказательство. (1) Действительно, (X*)гг = (Р| 1<j<r X33)гг, поскольkv X С X33 для любого 1 < j < г, следовательно, X С Р| 1<j<r X33 и отсюда Xгг С (X*)гг. С другой стороны, пi<j<r xjj С X i\ таким образ ом, (X *)«с Xй

(2) Несложно проверить, что этот оператор является оператором замыкания:

1.Х С Y ^ Xгг С Yгг, for 1 < i < r ^ X* С Y* (монотонность).

2. X С X* (доказано выше) (экстенсивность).

3. X** = f| 1<j<r (X*)33 = f| 1<j<r X33 = X* (идемпотентность). □

Утверждение можно обобщить на случай, когда К1, К2,..., Кг имеют различные множества признаков М1, М2,..., Мг. Для этого нужно просто определить М := иг=1 Мг-Используя оператор (■)* в качестве оракула, можно перечислить все интенсионально связанные понятия с полиномиальной задержкой, применив стандартные алгоритмы анализа формальных понятий (см. обзор [7]): Norris, Next Closure, Close-bv-One и т. д. Напомним, что алгоритм, перечисляющий комбинаторные структуры в каком-либо порядке, называется алгоритмом, с полиномиальной задержкой,, если время его выполнения между любыми двумя последовательными структурами, которые он перечисляет, полиномиально от размера входа.

3. Понятия с общими содержаниями

Как и в прошлом разделе, пусть К1 = (С1, М, 11),К2 = (С2, М,12),.. .,КГ = (Сг, М, 1Г) — контексты с общим множеством признаков М, (-)г обозначает оператор штриха контекста Кг для 1 < г < й. Подмножество признаков А С М называется общим содержанием контекстов К\, К2,..., Кг, если оно является содержанием каждого контекста Кг, то есть Аы = А.

Поскольку у любого контекста множество его содержаний образует систему замыканий, то и множество общих содержаний тоже образует систему замыканий. Обозначим соответствующий оператор замыкания как (-)5.

В [5] была рассмотрена задача поиска модели из пересечения хорновских теорий, заданных своими характеристическими моделями, более того, был получен алгоритм с полиномиальной задержкой для перечисления всех моделей из пересечения хорновских теорий. На языке анализа формальных понятий хорновская теория, заданная своими характеристическими моделями, означает в точности систему замыканий, заданную (формальным) контекстом, а пересечение хорновских теорий соответствует системе замыканий общих содержаний. Из результатов авторов [5] следует, что задача построения минимального (по количеству объектных содержаний) контекста задающего систему замыканий общих содержаний, по двум заданным контекстам не может быть решена за полиномиальное время, если Р = ЫР.

Отметим, что авторы [5] в своей статье не интересовались оператором замыкания (-)5 системы замыканий общих содержаний. Помимо того, что быстрое вычисление (-)5 несет в себе самостоятельный интерес, используя линейный алгоритм для вычисления (-)5, можно получить большинство алгоритмических результатов из [5] с такой же оценкой сложности, но более коротким путем. Более того, используя алгоритм вычисления (-)5 как оракул, можно применять множество известных алгоритмов перечисления замкнутых множеств.

Теорема 1. Задача

ВХОД. Формальные контекст,ы К1 = (С\, М, 1\), К2 = (С2, М, 12),..., Кг = (Сг, М, 1Г) с общим множеством признаков М, и множество X С М.

ВЫХОД. Замыкание X5 множества X.

может быть решена за время 0(|М| ^ 1К 1<г |С^|).

Доказательство. Рассмотрим множества Бг = {§' | д € Сг,Х С д'} и {М}, 1 < г < г. Обозначим П = Плев- будем сохранять инвариантным тот факт, что для любого

1 < г < г каждое общее содержание, которое содержит X, может быть получено пересечением некоторых элементов ИЗ Яг-

Предположим, что существует такой признак т € М, что для некоторого 1 < г < г выполнено т, € Р| Тогда, поскольку каждое общее содержание, которое содержит X, может быть получено пересечением некоторых элементов из Si, каждое общее содержание, содержащее X, должно содержать т. Следовательно, если для некоторого 1 < ] < г существует А € которое те содержит т, мы можем обновить удалив их него А и инвариант останется выполненным. Когда ни одно такое удаление не может быть выполнено, мы пытаемся найти другой элемент т € М, который содержится во всех элементах из Яг, и так далее. Поскольку М конечно, на некотором шаге такое т, € М не найдется. Это означает, что любой элемент т, € М либо принадлежит каждому элементу каждого Рг, ли бо от те принадлежит каьому-ть элементу из любо го 1 < г < г.

Поэтому Пй = П $2 = ... = П ^ С П $1 и Пй имеется во всех общих содержаниях, которые содержат X, т.е. П^1 = X5.

Get Closure^)

!■; (ак#м .V 3§. for , — | to

Т; уди.: и I [• itff* строчки Ш 1 > которые- iw* додержит X Й§ for 1 -4- 1 to г

5) for Ш —I 1 to М

it if ■apt йМ»ег[т] then

|| if Ш Щ|[М = ТВДВ Vf € {1, • ■ , |GjJ} then

Щ anmw{m} ТН.СЕ

Ц дорвать m в shan^-aiiribyjm-

IQ.):- else

Il| for each tOfrj Ш Pi такого, что not /[i][j][m]

1® ^рбйЩНЕЬ 'jJ") и t)M-ifh{rU]

|Щ ШаЙйЦгНт] ^»ЯШ11Г[*] [m] + 1

MJ while ф(0е4-аШИтШ ад ауст»' li|- дас’яй'й, («i» дамргег# ятш^Шш^тЯЛАт

,lf| while noi-in[m] не nv'to

17) .ЙШс&ть (fihjedkdriMta:, тМех1-Ы4^Щ из гшЫп[т]

18) for- i 1 iff \Щ\

.l&i then

30) тш:Ыт[ФкЩф^т(^;][г] <— [*] — 1

Щ;| if ттйе1[(тАшВёп&иЩ < Otaud ио-fr snsvm{i] then

Щ Шф] = Ш-l

23| ДШавдеь-'i к

2-ij return mWcggt

Рис. 1. Псевдокод алгоритма, вычисляющего (•)s

Здесь I[г] — это бинарная матрица, задающая отношение Ij, counter[i][m] равно количеству объектов д из Gj, для которых gl^m ш Быполаеао, shared-attributes и not-in[m] могут быть реализованы как стеки или как любые другие структуры данных, поддерживающие операции «достать» (pop) любой объект и «вставить» (push) любой объект за время 0(1) □ Задача поиска максимального (по мощности) замкнутого множества относительно операторов (•) и (•)* очевидно решается за полиномиальное время: достаточно просто проверить все объектные содержания и найти максимальное. Но в отличие от этих операторов замыкания аналогичная задача поиска максимального общего содержания, отличного от М (на практике это может соответствовать «максимальной схожести двух контекстов»), для оператора (-)5 ХР-полна, как показано в следующем утверждении.

Утверждение 2. Задача

ВХОД. Два формальных контекста К\ = (Gi,M,I\),K2 = (G2,M,I2) и целое число

0 < к < |М|.

ВОПРОС. Существует ли такое X, что X = X5, X С М и |Х| > к!

ХР-полна.

Доказательство. По теореме 3 X = X5 может быть проверено за полиномиальное время, таким образом, эта задача лежит в ИР. Для доказательства ХР-трудности мы сведем хорошо известную ХР-полпую задачу о минимальном покрытии (МП) к нашей. Задача МП формулируется следующим образом [4]:

ВХОД. Конечное множество 5, множество его подмножеств V := [3\, Б2,..., Зт}, Б г С 5 и целое число к.

ВОПРОС. Существует ли подмножество Т С V такое, что ихег х = 5 И |Т| > к! Рассмотрим произвольное конечное множество 5 = («1, 82,..., 8п} и множество его подмножеств V := (51,52,... ,8т}, 5г С 5 для всех 1 < г < т, и целое число 0 < к < \РУ Пусть М = (т1,т2,..., т\з\+\р\} и С1 = (д\, д^,..., д^}- Теперь построим контекст К1 = (01,М,11)^де 11 определено как g1;I1mj для j < |51, если и только если Sj € 5^ и д1^'Шу для ] > |5| тогда и только тогда, когда j — |51 = г. Тогда покрытия 5 находятся во взаимно однозначном соответствии с содержаниями К1, которые не содержат ни одного т,г € М,г < |5|. Более того, для любого покрытия размера N соответствующее содержание будет размера |Р| — N.

Теперь построим контекст К2 = (02, м, 12), где 02 = (д2, д2, . . . , д2-р\}, 12 определено как для д2, где 1 < г < |Р|, д\ = М \ (5 и (ш^^}). Очевидно, множество всех содержаний этого контекста это в точности множество всех подмножеств множества М, которые не пересекаются с 5. Следовательно, существует взаимно однозначное соответствие между общими содержаниями контекстов К\ и К2, отличными от М, и множеством всех покрытий

5. Более того, минимальные покрытия соответствуют максимальным общим содержаниям и наоборот. Сведение доказано и его полиномиальность очевидна. □

Насколько большим может быть минимальный контекст, задающий общие содержания двух заданных контекстов? Ответ дан в следующем утверждении:

Утверждение 3. Существуют два контекста К\ и К2 такие, что множество их максимальных (по включению) общих содержаний экспоненциально относительно размеров К\

И К2-

Доказательство. Рассмотрим конечное множество 5 = (в\,82,... ,8зп}, и множество его подмножеств V = ио<г<га-1 ((«3г+1, «3г+2}, («3г+1, «3г+3}, «3г+2, «3г+3}}• Существует рОВно 3п минимальных покрытий 5, поскольку для любого 0 < г < п — 1 подмножество (®3г+1, ®3г+2, ®3г+3} может быть покрыто только тремя способами, используя ровно 2 элемента из V. Таким образом, если построить контексты К1 и К2 как в Утверждении 2 в соответствии с 5 и V, у этих контекстов будет 3п максимальных (по мощности) общих

Следствие. Существуют два контекста К1 и К2 такие, что минимальное количество объектов в контексте с оператором замыкания (-)5 экспоненциально относительно размеров Кхп К2.

4. Сцепления и общие содержания

В [2] было дано следующее определение сцеплений.

Определение 1. Пусть К1 = (01,М1,11) и К2 = (02,М2,12) — формальные контексты. Отношение I С 01 х М2 называется сцеплением из К1 = (01,М1,1{) в К2 = (02, М2, /2), есл и т1 — объем копт екста К1 для любо го т € М2, и д1 — содержание контекста Х2 для любо го д € 01.

М\ М2

С /1 /

Рис. 2. Сцеплиние из К\ = (С\, М\, 1\) в К2 = (02, М2,12)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Напомним некоторые определения из [2|. Прялюе произведение контекстов К1 = (С1,М1,11) и К2 = (С2,М2,12) определяется как

К1 х К2 := (С1 х С2, М1 х М2, V),

где (д1,д2^(т,1,т,2) & д1Ьт1 ог

Контрноминальная шкала N3 — это контекст (5, 5, =).

Двойственный контекст К^ для контекста К = (С, М, I) определяется как Ка = (М, С, 1а), где т1 лд & д1т.

Утверждение 4. Отношение В С С1 х М2 является сцеплением из контекста К1 = (С 1, М1,1{) в контекст К2 = (С2, М2,12) тогда и только тогда, когда В является общим содержанием контекстов х К2 и (К1 х N^2 )а-

Т а б л и ц а 1

Пример сцепления двух контекстов

х х х

х х х

х х х х х

х

х х

х х

Доказательство. Пусть В С С1 х М2 — общее содержание контекстов

х К2 = (С1 х С2,С1 х М2, V2) И (К1 х ЫСМ2)а = (С1 х М2,М1 х М2, V1)а.

Поскольку В — содержание контекста х К2, то

в = П ((9,т) I (и,!г^2(д,т)} =

(и,к)еВV2

= ({(и, т) | кЬт} и ((д, т) | д = и}),

и Нен(и)

где (д, т) € С1 х М2, взято по всем и таким, что (и, К) € В^2 для некоторого К,

и Н(и) = (К | (и, К) € В^2}. Следовательно, если д = -и для некоторого и, рассмотрев пересечение Р|ад, мы получим дв = Р|^^н(и) Н?2, т.е. дв замкнуто в К2, и если д = и для

всех и, взяв Р|ад, получим дв = М2- Аналогично, поскольку В — содержание контекста (К\ х N^2)d> мы можем доказать, что тв замкнуто в контексте К\ для любого т £ М2-Пусть В С G\ х М2 — сцепление из кон текста К\ в конт екст К2. Тогд а ив замкнуто в К2 дЛЯ любого u £ G\. Обознач им Н (и) = (ив У2, тогд а ив = Р| heH h1"2. Рассмотрим

« = П П ({(и, т) | hl2m] U {(д, т) | д = и}).

и heH(u)

Выше мы показали, что это множество является содержанием обоих контекстов Nq х К2 и (К\ х N^2 )d, т.е. общим содержанием этих контекстов. Тогда gD = для любо го д £ G\ и mD = люб ого m £ М2, следовател ьно, D = В, и В — общее содержание контекстов

ЩХ х К2Ж (Кг х NcM2 )d. □

Следствие. Оператор замыкания для сцеплений контекстов К\ = (Gi,Mi,I\) и К2 = (G2, М2,12) может быть вычислен за время 0((|| • |G2| + |Мг| • |М2|) • |^^2||^г|). Доказательство. Нужно применить утверждение 4 и теорему 1.

5. Вывод

Мы рассмотрели несколько определений связей формальных понятий разных контекстов, такие как интенсионально связанные понятия, общие содержания и сцепления. Типы связей между понятиями важны для изучения динамики контекстов. Была изучена сложность алгоритмов для задач, связанных с вычислением соответственных операторов замыкания, и был получен линейный от входных данных алгоритм для вычисления оператора замыкания, множества общих содержаний. Мы показали, что сцепления могут быть описаны в терминах общих содержаний. В качестве дальнейшего исследования мы предлагаем найти ответ на задачу [10] о том, могут ли сцепления быть представлены «небольшими» контекстами или, другими словами, существуют ли такие два контекста, что множество их сцеплений содержит экспоненциальное от размеров этих контекстов число максимальных по включению сцеплений.

Литература

1. Birkhoff G. Lattice Theory // Providence, RI: Amer. Math. Soc., 1967.

2. Ganter B. and Wille R. Formal Concept Analysis: Mathematical Foundations. — Berlin: Springer, 1999.

3. Ganter B. Lattices of Rough Set Abstractions as P-Products // Proc. International Conference on Formal Concept Analysis ICFCA 2008, LNCS (LNAI), 2008. — V. 4933. — P. 199-216.

4. Garey M. and Johnson D. Computers and Intractability: A Guide to the Theory of NP-Completeness. — Freeman, San Francisco, 1979.

5. Eiter Т., Ibaraki Т., Makino K. Computing Intersections of Horn Theories for Reasoning with Models // Proc. National Conference on Artificial Intelligence (AAAI’98), Madison, Wisconsin, 1998, July 26-30 - P. 292-297.

6. Kuznetsov S. O. On Computing the Size of a Lattice and Related Decision Problems // Order, 2001. - N 18 - P. 313-321.

7. Kuznetsov S.O. Obiedkov S. A., Comparing performance of algorithms for generating concept lattices // J. Exp. Theor. Artif. Intell., 2002. - V. 14, N 2-3. - P. 189-216.

8. Kuznetsov S.O., On the Intractability of Computing the Duquenne-Guigues Base // Journal of Universal Computer Science, 2004. — V. 10, N 8. — P. 927-933.

9. Kuznetsov S.O., Obiedkov S.A., Roth C. Reducing the Representation Complexity of Lattice-Based Taxonomies // Proc. 15th International Conference on Conceptual Structures (ICCS’07), LNAI, Springer, 2007. - V. 4604. - P. 241-254.

10. Krotzsch M. and Malik G. The Tensor Product as a Lattice of Regular Galois Connections // Proc. 4th Inernational Conference on Formal Concept Analysis (ICFCA’2006), LNAI, Springer, 2006. - V. 3874. - P. 89-104.

11. Wille R. Restructuring Lattice Theory: an Approach Based on Hierarchies of Concepts // Ordered Sets, Reidel, Dordrecht-Boston, 1982. — P. 445-470.

12. Wille R. Conceptual Structure of Multicontexts // Proc. 4th International Conference on Conceptual Structures, LNAI, Springer, 1996. — V. 1115. — P. 23-39.

Поступим в редакцию 02.03.2012.

i Надоели баннеры? Вы всегда можете отключить рекламу.