Научная статья на тему 'Свойства разбиения системы подмножеств по системе n локальных максимумов с использованием псевдометрики, порожденной вероятностным распределением'

Свойства разбиения системы подмножеств по системе n локальных максимумов с использованием псевдометрики, порожденной вероятностным распределением Текст научной статьи по специальности «Математика»

CC BY
186
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук

Аннотация научной статьи по математике, автор научной работы — Куприянова Т. В.

В работе доказываются свойства разбиения системы подмножеств по N локальным максимумам, а именно: связность подграфов, соответствующих классам разбиения системы подмножеств 2Х; каждый класс разбиения это множество с определенной структурой подрешеток двух типов, что означает, что любой класс с достаточно большой мощностью можно представить значительно меньшей его частью, по которой однозначно восстанавливается весь класс. Рассмотренные в работе свойства классов разбиения имеют практическую значимость при решении задачи классификации подмножеств случайного множества без указания учителя на N классов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The partition of system of subsets by n local maximums using the pseudo-metric generated by probability space

The properties of the partition of system of subsets by n local maximums are proved. These properties are the connectivity of subgraphs corresponding to the classes of partition of system of subsets 2 and the statement that each class of thb partition is the set of lattices with special structure. It means that each class with enough large capacity can be introduced by the smaller part of it. The whole class is mutually restored according to this part.

Текст научной работы на тему «Свойства разбиения системы подмножеств по системе n локальных максимумов с использованием псевдометрики, порожденной вероятностным распределением»

Вычислительные технологии

Том 7, № 4, 2002

СВОЙСТВА РАЗБИЕНИЯ СИСТЕМЫ ПОДМНОЖЕСТВ ПО СИСТЕМЕ N ЛОКАЛЬНЫХ МАКСИМУМОВ С ИСПОЛЬЗОВАНИЕМ ПСЕВДОМЕТРИКИ, ПОРОЖДЕННОЙ ВЕРОЯТНОСТНЫМ РАСПРЕДЕЛЕНИЕМ

Т. В. Куприянова Красноярский государственный университет, Россия e-mail: tanyakv@rambler.ru

The properties of the partition of system of subsets by n local maximums are proved.

These properties are the connectivity of subgraphs corresponding to the classes of partition X

of system of subsets 2X and the statement that each class of the partition is the set of lattices with special structure. It means that each class with enough large capacity can be introduced by the smaller part of it. The whole class is mutually restored according to this part.

Введение

Настоящая работа дополняет один из разделов теории случайных конечных абстрактных множеств (СКАМ), а именно разбиение системы подмножеств 2х, где X — конечное абстрактное множество. В работе доказываются свойства разбиения подмножеств по системе n локальных максимумов с использованием псевдометрики, порожденной вероятностным распределением:

X

1) если всю систему подмножеств 2х рассматривать как граф, то подграфы, соответствующие каждому классу ее разбиения, будут связны;

2) каждый класс разбиения — это множество подрешеток двух типов, где каждая под-решетка не включает в себя подрешетку из того же класса: в первом типе — наибольшее подмножество подрешетки есть объединение ее наименьшего подмножества и моды класса; во втором типе - наименьшим подмножеством является мода класса, а наибольшим подмножеством — объединение моды класса и наименьшего подмножества соответствующей подрешетки первого типа.

При решении прикладных задач часто возникает необходимость в разбиении системы подмножеств 2X. При большой мощности X анализ всех исходов или всех подмножеств множества X практически невозможен из-за их неполиномиального количества. Поэтому для изучения свойств распределения СКАМ K, заданного над X, всю систему подмножеств X

2X делят на классы по каким-либо признакам, после чего работают с классами, число © Т. В. Куприянова, 2002.

которых значительно меньше 2|Х|. Понятно, что чем проще структура каждого класса X

разбиения 2х, тем проще с ней работать.

Примером прикладной задачи, использующей в своей формулировке разбиение по системе п локальных максимумов, является задача классификации подмножеств случайного множества без указания учителя. Необходимость в решении задачи классификации без указания учителя существует в таких областях, как медицинское страхование, задача изучения покупательского спроса по ассортименту, анализ котировок акций, анализ политико-экономических ситуаций и т. д.

Задача классификации без указания учителя в общем виде сформулирована давно, причем существует обширный ряд как формулировок задачи классификации, так и методов их решения [1]. Понятно, что конкретная формулировка задачи классификации без указания учителя в первую очередь определяется отличиями классифицируемых объектов друг от друга и спецификой их взаимодействия, задающими пространство объектов, для которых решается эта задача.

Примером наиболее широко используемого пространства при решении задачи классификации без указания учителя (например, в экономике) является евклидово пространство, обладающее линейной структурой. Объекты, обладающие числовыми признаками, “погружают” в евклидово пространство с размерностью, равной числу этих признаков, и в качестве меры близости между объектами используют евклидово расстояние. Очевидно, что существуют задачи (задача медицинского страхования, задача изучения покупательского спроса по ассортименту, анализ котировок акций, анализ политико-экономических ситуаций и т. д.), где объекты — множества — не обладают числовыми признаками, или их единственный числовой признак — это вероятность значения. В работе [1] для подобных объектов в качестве меры близости предлагается использовать коэффициент корреляции. Однако коэффициент корреляции, используемый в качестве меры, не обладает метрическими свойствами, поэтому классы, построенные на его основе, являются несвязными. Более того, если рассматривать семейство независимых объектов с разными вероятностями покрытий, то мера близости между любыми двумя объектами, определяемая коэффициентом корреляции, будет одинакова для любых двух объектов, и не учитывает отличие объектов друг от друга.

В работе [2] вводится понятие вероятностной псевдометрики, которая учитывает не только статистические (вероятностная псевдометрика зависит от ковариации между множествами) и структурные зависимости между множествами, но и их вероятности покрытия — в семействе независимых подмножеств в общем случае подмножества не находятся на одинаковом псевдорасстоянии (в смысле вероятностной псевдометрики). Вероятностная псевдометрика обладает всеми метрическими свойствами, поэтому классы, построенные на ее основе, являются связными и обладают определенной структурой, характеризуемой свойством 2.

Рассмотрим пример использования свойства 2 при решении задачи анализа покупательского спроса по ассортименту. Пусть на оптовой базе есть множество товаров X. Покупатели приходят и покупают подмножества данного множества товаров. Случайного покупателя можно рассматривать как случайное множество товаров К, которое он покупает. Необходимо определить, на какие классы можно разбить все подмножества товаров или на какие классы можно разбить всех покупателей. Полученную классификацию (классы подмножеств) можно использовать при выработке стратегий поведения на том или ином рынке товаров. Но, к сожалению, при большом ассортименте товара может возникнуть проблема анализа класса подмножеств товара, имеющего неполиномиальную мощность.

Если на оптовой базе, скажем, 10 наименований товаров, то мощность отдельных классов может быть порядка 210 подмножеств. Понятно, что в этом случае заниматься анализом класса покупателей, соответствующего классу подмножеств товаров с неполиномиальной мощностью, невозможно.

Руководствуясь указанным выше свойством 2 разбиения по системе п локальных максимумов, доказанным в настоящей работе (см. следствие 6), можно при анализе каждого класса просматривать (или выводить на экран компьютера) не все подмножества каждого класса, а только значительно меньшую часть, по которой однозначно восстанавливается весь класс.

В настоящей работе приводятся основные понятия теории СКАМ, необходимые для изложения материала, излагаются результаты работы, доказываются указанные выше 1-е и 2-е свойства разбиения по системе п локальных максимумов (см. лемму и следствие), приводится пример, иллюстрирующий лемму, а также приложение результата данной работы для решения задачи классификации подмножеств случайного множества без указания учителя.

1. Основные понятия теории СКАМ

Определение 1. Случайным конечным абстрактным множеством называется измеримое отображение

К : (П, Т, Р) ^ (2Х, 22Х),

где X = { х1,...,х^} — это некоторое конечное множество, а (П, Т, Р) — вероятностное пространство. Здесь и далее в работе 2х — это система подмножеств множества X, 22 — это система подмножеств системы подмножеств множества X.

Таким образом, для любого подмножества Е С X существует вероятность р(Е) = Р(К = Е), причем £ Р(Е) = 1.

БсЖ

В работе используется обозначение

р = {р(Е) = Р(К = Е), Е е 2х]

— для произвольного распределения над X.

Определение 2. Пусть К — это некоторое СКАМ, заданное над X с распределением р. Тогда множество Е* будем называть глобальным максимумом (или первым представителем), если

Р(К = Е*) > Р(К = Е), Е,Е* С X, Е = Е*.

X

В работе [3] на множестве 2"^ для СКАМ, заданного над X с распределением р, вводится псевдометрика

й(А,Б) = Р(А С К) + Р(В С К) - 2Р(А и В С К), А, В е X. (1)

Определение 3. Пусть К — это некоторое СКАМ, заданное над X распределение-ем р, а также на множестве 2Л задана псевдометрика в,, определяемая формулой (1).

Пусть Е* — это глобальный максимум распределения р. Пусть также заданы (п — 1) неравных друг другу множества Е*,...,ЕП таких, что

й(Е1Е*) > 0, ^Е*,Е*) > 0, г = з, 2 < г < п, 2 < з < п.

Для каждого множества построим класс множеств

Л = { Е е 2Х\^Е *,Е) > й(Е*,Е),й(Е**,Е) > й(Е*,Е),

й(Е* ,Е) > й(Е*,Е),г<к < п, 2 < з<^, 2 < г < п. (2)

Соответственно формируется класс

Л\ = { Е е 2Х\д,(Е, Е*) < с1(Е, Е*), 2 < г < п} . (3)

Если для любого г (2 < г < п) множество Е* в классе Лг имеет максимальную вероятность значения, то система множеств Е*,...,ЕП называется системой п локальных

X

максимумов, а система классов Л1,..., А — это п классов системы подмножеств 2х X

или разбиение 2х по п локальным максимумам.

Очевидно, что система п локальных максимумов существует тогда и только тогда, когда существует п множеств с ненулевыми вероятностями значений.

Определение 4. Решетке подмножеств множества X взаимно однозначно соответствует граф О = (У,и). Здесь V — множество вершин, отвечающее множеству 2Х, системе подмножеств множества X,

V = 2X.

и — множество ребер; две вершины соединены ребром тогда и только тогда, когда мощность симметрической разности соответствующих вершинам подмножеств равна 1 ,

(Ь1,Ь2) е и |У1АУ2\ = 1, У1,У2 е V.

Граф О = (V, и) называется графом, соответствующим решетке подмножеств 2X.

2. Разбиение системы подмножеств

Пусть на множестве X задано некоторое СКАМ К, и пусть существует система п локальных максимумов Е*,..., ЕП, которая формирует п классов Л1,..., Ап- Так как п классов Л1,..., Ап — это разбиение системы подмножеств 2X, а решетке системы подмножеств 2X соответствует связный граф О, то каждому классу Лг (1 < г < п) можно взаимнооднозначно сопоставить подграф Ог (1 < г < п). Связность подграфа Ог (1 < г < п) доказывает лемма 5.

Лемма 5. Пусть К — это некоторое СКАМ, заданное над X с распределением р. Пусть Е*,...,ЕП — это система п локальных максимумов, а Л1,..., Л — соответствующие им классы. Пусть О — это граф, соответствующий решетке системы подмно-X

жеств 2X, а О1,...,Оп — подграфы, соответствующие классам Л1,..., Лп. Тогда каждый подграф Ог (1 < г < п) является связным.

Доказательство проводится методом от противного. Предположим, что существует г (1 < г < п) такое, что подграф Оi несвязный. В этом случае существует такое множество В е Лг (т. е. вершина В подграфа Ог), что не существует пути из вершины Е* в вершину В подграфа Ог.

Доказательством связности подграфа Ог является существование пути из вершины Е* в вершину В в подграфе Ог в случае, когда Е* С В и Е* С В.

Рассмотрим случай, когда Е* С В (рис. 1). Псевдорасстояние между множествами Е*, В и Е*, Е* С В. Пусть множества Е*, Е* — представители класса Лг и Лj соответственно. Если В е Лг, то из построения классов псевдорасстояние между В и Е* меньше, чем псевдорасстояние между В и Е*. Возьмем множество О такое, что

Пусть множество О е Лг, значит, множество О принадлежит некоторому классу Лj (г = 3). Если 3 > г, то из определения классов (2)

Ег С О, О С В.

Лз = { Е е 2х\в (Е*, Е) > д!Е, Е),в(Ег, Е) > в!(Ез, Е), в!(Ек, Е) > в!(Ез, Е),3 < к < п, 2 < г < 3^,

(4)

Лз = { Е е 2х\в (Е*,Е) > д!(Ез, Е), д!(Ек, Е) > в!(Ез,Е), в!(Ег, Е) > в(Ез, Е), 3 < г < п, 2 < к < з} ,

(3 > г) или ^(з < г) и ((в(Е*,О) > в(Е*,о))У

В

Е* гз

Распишем (4) в терминах вероятности:

Р(Е* С К) + Р(В С К) - 2Р(Е* и В С К) >

> Р(Е* С К) + Р(В С К) - 2Р(Е* и В С К). (5)

Из начального предположения доказываемой леммы В Є А, т. е. в терминах вероятности,

Р(Е* С К) + Р(В С К) - 2Р(Е* и В С К) >

> Р(Е* С К) + Р(В С К) - 2Р(Е* и В С К). (6)

Сложим неравенства (5), (6):

Р(В С К) - 2Р(Е* и В С К) + Р(В С К) - 2Р(Е* и В С К) >

> Р(В С К) - 2Р(Е* и В С К) + Р(В С К) - 2Р(Е* и В С К). (7)

Приведем подобные в (7):

Р(Е* и В С К) + Р(Е* и В С К) > Р(Е* и В С К) + Р(Е* и В С К). (8)

Так как Е* С В и Е* С В, то (8) можно представить следующим образом:

Р(Е* и В С К) + Р(В С К) > Р(В С К) + Р(Е* и В С К). (9)

Преобразуем (9):

Р(В С К) - Р(Е* и В С К) > Р(В С К) - Р(Е* и В С К), (10)

откуда следует, что

Р(В С К, Е* С К) > Р(В С К, Е* С К). (11)

Неравенство (11) неверно, так как В 3 В (рис. 2). Рассмотрим три множества В 3 В и

Е*. На рис. 2, а заштрихованная область схематично представляет Р(В С К,Е* С К), а

на рис. 2, б — Р(В С К, Е* С К). Как видно, Р(В С К, Е* С К) < Р(В С К, Е* С К).

Рассмотрим случай, когда І < і и ^(Е* ,В) = в,(Е* ,В). Запишем равенство значений псевдометрики в терминах вероятности:

Р(Е* С К) + Р(В С К) - 2Р(Е* и В С К) =

= Р(Е* С К) + Р(В С К) - 2Р(Е* и В С К). (12)

Приведем подобные в выражении (12), после чего получим следующее равенство:

Р(Е* С К) - 2Р(Е* и В С К) = Р(Е* С К) - 2Р(Е* и В С К). (13)

X

/»' 1> II ІІ1І1ИІ1І1І1ІІІ!

а б

Рис. 2.

Из (13) выразим вероятность покрытия Р(Е* С К):

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Р(Е* С К) = Р(Е* С К) + 2Р(Е* и О С К) — 2Р(Е* и О С К). (14)

Так как В еЛг и (3 < г), то из определения классов (2)

Лг = { Е е 2х\в (Е*,Е) > в'(Ег,Е),в'(Ез,Е) > в!(Ег,Е), в(Ек,Е) > в(Ег,Е), г < к < п, 2 < 3 < г} ,

следует, что

в(Е* ,В) <в(Е* ,В). (15)

Запишем выражение (15) в терминах вероятности:

Р(Е* С К) + Р(В С К) — 2Р(Е* и В С К) <

< Р(Е* С К) + Р(В С К) — 2Р(Е* и В С К). (16)

В неравенстве (16) приведем подобные

Р(Е* С К) — 2Р(Е* и В С К) < Р(Е* С К) — 2Р(Е* и В С К). (17)

Подставим вместо Р(Е* С К) в выражение (17) правую часть равенства выражения (14):

Р(Е* С К) + 2Р(Е* и О С К) — 2Р(Е* и О С К) — 2Р(Е* и В С К) <

< Р(Е* С К) — 2Р(Е* и В С К). (18)

В неравенстве (18) приведем подобные и поделим все неравенство на 2:

—Р(Е* и О С К) + Р(Е* и О) — Р(Е* и В) < Р(Е* и В). (19)

Так как Ег С В и Ег С О, то

Р(Е* и В С К) = Р(В С К), Р(Е* и О С К) = Р(О С К). Следовательно, неравенство (19) эквивалентно выражению

—Р(Е* и О) + Р(О С К) < Р(В С К) — Р(Е* и В С К). (20)

Из (20) следует, что

Р(О С К, Е* С К) < Р(В С К, Е* С К). (21)

Неравенство (21) неверно, так как В 3 О (см. рис. 2).

Таким образом, доказано, что множество О также принадлежит классу Лг, следовательно, вершина О графа О принадлежит подграфу Ог, и доказано, что для любого множества В из класса Лг такого, что Ег С В, существует путь из вершины В в вершину Ег подграфа Ог.

Пусть заданы четыре множества Е*, Е*, В, О. Множества Е*, Е* — представители

классов Лг и соответственно, при этом Е* С О С В. Известно, что В е Лг. В

таком случае псевдорасстояние от множества О до множества Е* будет больше, чем до множества Е*, т. е. множество О также принадлежит классу Лг (рис. 3).

Рис. 3. Рис. 4.

Пусть О — это граф, соответствующий решетке 2^, и пусть Лг — это г-й класс решения задачи классификации подмножеств случайного множества с представителем Е*. Классу Лг соответствует подграф Ог, и существует подмножество В 3 Е* такое, что В е Лг. Тогда все подмножества из сет-отрезка [Е*, В] принадлежат классу Лг, следовательно, соответствующие им вершины в графе О также принадлежат подграфу Ог (рис. 4). Необходимо отметить, что из вышеизложенной части доказательства следует

(е* С О С В, В еЛ^ =^ О еЛг. (22)

Так как В еЛг и Е* е Лг, то выражение (22) эквивалентно выражению

(е* с О с в, В еЛ^ =^ О еЛг. (23)

Рассмотрим случай, когда Е* С В. В этом случае доказательство существования пути из вершины В в вершину Е* в подграфе Ог сводится к доказательству двух фактов:

— для любого множества А такого, что В С А С Е* и В, соответствующая вершина А графа О также принадлежит подграфу Ог;

— для любого подмножества О такого, что Ег С О С Ег и В, соответствующая вершина О графа О также принадлежит подграфу Ог.

Докажем, что для любого множества А такого, что В С А С Е* и В, соответствующая вершина А графа О также принадлежит подграфу Ог.

Если множество В принадлежит г-му классу Лг, то выполняется неравенство

й(Е*, В) > й(Е* ,В), г = 3,

или

Р(В С К) + Р(Е* С К) — 2Р(В и Е* С К) >

> Р(В С К) + Р(Е* С К) — 2Р(В и Е* С К). (24)

Неравенство (24) можно записать следующим образом:

Р(Е* С К) — 2Р(В и Е* С К) < Р(Е* С К) — 2Р(В и Е* С К). (25)

Если множество А = В + О (О С Е* \ В) принадлежит г-му классу Лг, то после замены в

неравенстве (25) множества В на множество А неравенство (25) сохраняется. Очевидно, что В и Е* = А и Е*, поэтому левая часть неравенства (25) после замены множества В на

множество А сохраняет то же значение. Так как множество А 3 В, то Е* и В С Е* и А, поэтому

Р(Е* и А С К) < Р(Е* и В С К),

из чего следует, что правая часть неравенства (25) при замене В на А увеличится. Получившееся в результате неравенство

Р(Е* С К) — 2Р(А и Е* С К) < Р(Е* С К) — 2Р(А и Е* С К)

эквивалентно неравенству

(!(Е*, А) < с1(Е* ,А).

Следовательно, множество А принадлежит г-му классу Лг.

Таким образом, доказано, что если В 3 Е* и В еЛг, то любое множество

А = В + О, О С Е* \ В,

принадлежит классу Лг (А е Лг), т. е. вершина А принадлежит подграфу Ог (рис. 5). Пусть граф О соответствует решетке 2^, и пусть Лг — это г-й класс решения задачи классификации подмножеств случайного множества, а Ег — его представитель. Классу Лг соответствует граф Ог, подмножество В еЛг, причем Е* С В. Тогда все подмножества из сет-отрезка [В,Е* и В] принадлежат классу Лг, следовательно, соответствующие им вершины графа О принадлежат графу Ог. Из этого вытекает важный частный случай, что вершина Е* и В принадлежит подграфу Ог.

Докажем, что для любого подмножества О такого, что Е* С О С Е* и В, соответствующая вершина О графа О также принадлежит подграфу Ог.

Так как Е* С Е* и В и Е* и В е Лг и выше доказано, что для любого множества В из класса Лг такого, что Ег С В, существует путь из вершины В в вершину Ег подграфа Ог, то любое подмножество

О 3 Е*, О С Е* и В

также принадлежит классу Лг, следовательно, вершина О принадлежит подграфу Ог (рис. 6).

Пусть граф G соответствует решетке 2^, А — это г-й класс решения задачи клас-

сификации подмножеств случайного множества, а Е* — его представитель. Классу А соответствует граф Gi, и подмножество В Е А, причем Е* ф В. Тогда все подмножества из сет-отрезка [В, Е* и В] принадлежат классу А и все подмножества из сет-отрезка [Е* , Е* и В] принадлежат классу Следовательно, вершины, соответствующие подмножествам из сет-отрезка [В,Е* и В], и вершины, соответствующие подмножествам из сет-отрезка [Е*, Е* и В], графа С принадлежат графу Gi.

Таким образом, доказано, что для любого множества В из класса А такого, что Е* ф В, существует путь из вершины В в вершину Е* подграфа Gi.

Необходимо отметить, что из вышеизложенной части доказательства следует

Поскольку доказано, что для подграфа Gi существует путь из вершины Е* в вершину В в подграфе Gi в случаях, когда Е* ф В и Е* ф В, подграф Gi является связным.

Лемма доказана.

Следствие 6. (О структуре класса разбиения). Пусть К — это некоторое СКАМ, заданное над X с распределением р. Пусть Е*,...,ЕП — это система п локальных максимумов, а А\,..., Ап — соответствующие им классы. Тогда для каждого г (г : 1,...,п) существует набор множеств В^ из класса А (В'% С А?,), такой что каждый класс А есть объединение подрешеток

Здесь подрешетка {Б’1}в, определяется наименьшим множеством В' Е А и наибольшим множеством Е* и В', а подрешетка {Е'1 }в, определяется наименьшим множеством

наименьшим множеством В" Е А и наибольшим множеством Е* и В", а подрешетка { Е } В" определяется наименьшим множеством Е* и наибольшим множеством Е* и В".

Доказательство. Используем соотношения (23), (27), полученные в процессе доказательства леммы 5, а именно: если подмножество В С X принадлежит классу А% (В Е А), то любое подмножество В С X, удовлетворяющее хотя бы одному из соотношений

(26)

Так как В Е А, то выражение (26) эквивалентно выражению

Е* С В,

(27)

и

(28)

В'ЄВ'і

таких, что

(29)

Е* и наибольшим множеством Е* и В'. Аналогично подрешетка {Б'1}в„ определяется

В С В С Е* и В, Е* С В С Е* и В,

(30)

(31)

также принадлежит классу А (В Е А).

Очевидно, что соотношение (30) задает подрешетку {Бг}в с минимальным элемен-

минимальным элементом Е* и максимальным элементом Е* и В.

Так как каждый элемент подрешеток {Бг}в и {6г}в принадлежит классу А, то для любого множества В С X, принадлежащего классу А, объединение двух подрешеток {Б}в и{Е}в также принадлежит классу А■

Следовательно, класс А — это объединение подрешеток, “построенных на основе” всех подмножеств В, принадлежащих классу А ■

Из доказательства леммы 5 (см. выражение (27)), следует: если подмножество В С X принадлежит классу А, то для любого подмножества В С X такого, что

подмножество В также принадлежит классу А• Отсюда подрешетка { Б1}в содержит подрешетку { Бг}п и подрешетка { £г}в — подрешетку { £г}в■

Из доказательства леммы 5 (см. выражение (23)), следует: если подмножество В С X принадлежит классу А, то для любого подмножества В С X такого, что

подмножество В также принадлежит классу А• Отсюда подрешетка { £г}в содержит подрешетку {£г}п■

Таким образом, из (33) и (34) следует, что в объединении выражения (32) в общем случае присутствуют подрешетки, содержащие друг друга.

Очевидно, что класс А можно задать как объединение подрешеток, не содержащих друг друга, для чего в равенстве (32) необходимо объединять подрешетки не по всем множествам В еА, а только по принадлежащим семейству подмножеств В[ С А такому, что выполняется равенство

том В и максимальным элементом Е* и В, а соотношение (31) — подрешетку {£г}в с

{В' }в }в ел, і

(32)

ВеЛі

В С В Є Е* и В,

В С В С Е* и В.

(33)

Е* С В Є Е* и В,

Е* С В С Е* и В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(34)

в'еВ'і

при этом подрешетки из выражения (35) не содержат друг друга, что означает

Следствие доказано.

Пример 7. Пусть задано некоторое СКАМ К над множеством X = следующим распределением:

Р(К = { у,т} ) = ^

Р(К = { у} ) = 0, 09,

Р(К = { х,г,т} ) = 0, 08,

р(к = 0) = 0, 06, р(к = { х,г} ) = 0, 06, р(к = { т} ) = 0, 04, р(к = { г} ) = 0, 02,

р(к = { х,у,г} ) = °

В этом случае существуют две системы двух локальных максимумов

{ х} , { у,т} ), ( { х} , 0

{ х,у,г,т} со

Р(К = {х )=0,11,

р(к = {х у, г,т} ) = 0, 09,

р(к = {г т} ) = 0, 09,

р(к = {х т} ) = 0, 08,

р(к = {х у} ) = 0, 06,

р(к = { у, г} ) = 0, 05,

р(к = {х у,т}) = 0, 04,

р(к = { у, г,т} ) = 0, 03,

Каждая система образует свои классы. Для первой системы разбиение системы множеств 2Л представлено на рис. 7. Над множеством X = {х,у,г,т} задано СКАМ. Решетка 2^. Вероятность значения подмножества соответствует радиусу круга на рисунке. Чем больше вероятность, тем больше круг. Разные цвета кругов демонстрируют разбиение для первой системы двух локальных максимумов: ({ х, } , { у, т} ).Черные круги представляют

подмножества из первого класса ^{ х} , { х, т} , { х,г} , 0^, белые круги и светло-серый —

подмножества из второго класса. Множество { у,т} — мода второго класса.

Аналогично на рис. 8 представлено разбиение для второй системы двух локальных максимумов: черные круги представляют подмножества из первого класса, белые круги

и светло-серый круг — подмножества из второго класса ^0, { у} , { т}^. Пустое множество также есть мода второго класса.

Как видно из рис. 7, 8, в рассматриваемом примере подграфы, соответствующие классам А 1, А2 как первой так и второй систем двух локальных максимумов, являются связными.

В первой системе двух локальных максимумов класс А представлен объединением трех подрешеток

А1 = и{{х},0} ^{х},{х,г}) ^{х},{х,т}}■ (36)

Как видно из выражения (36), множество

В'\ = | 0, { х,г} , { х,т} |,

причем для каждого множества В' Е В[ одна из двух подрешеток { Б1} в', { £1} в' содержит другую подрешетку. Например, если В' = 0, то

а

{£^в' ={ £Ч, = {

Класс А2 в первой системе двух локальных максимумов представлен следующим обра-

зом:

А2 = и{П.,11М,„и{Б2},„ и{£П М

11{бЧ и{£2} 1)(бЧ и{£2} и {б2} и{£2} . (37)

^ I -М хУ I -М хУ ^ I -М х,ь,г\ I J I ^ I -М х,гш\ I -М

Таким образом, из выражения (37) следует, что множество В2, определенное в следствии 6, в рассматриваемом примере равно

в2 = { {у}, { т} , { г} , { х,у}, { х,у,г} , { х,г,т}^,

а класс А2 равен

А2 = и { Б2}в, и { £2}в'.

в'Ф2

Заключение

X

В работе исследуется один из видов разбиения системы подмножеств 2 , а именно разбиение по п локальным максимумам с псевдометрикой (1), навязываемой вероятностным распределением, и доказаны два свойства этого разбиения:

1. Если каждому классу А поставить в соответствие подграф Ог графа решетки подмножеств множества X, то все подграфы Ог будут связны, что свидетельствует о том, что данное разбиение — это разбиение, где множества в каждом классе связаны друг с

'' ''

другом, т. е. каждый класс А по праву “несет свое название класс ”.

2. Каждый класс разбиения — это множество подрешеток двух типов, где каждая подрешетка не включает в себя подрешетку из того же класса: в первом типе — наибольшее подмножество подрешетки есть объединение ее наименьшего подмножества и моды класса; во втором типе наименьшим подмножеством является мода класса, а наибольшим подмножеством — объединение моды класса и наименьшего подмножества соответствующей подрешетки первого типа.

Предлагается использовать свойство 2 в задаче классификации множеств без указания учителя. Если X имеет большую мощность п (например, п ^ 10), то мощность отдельных

классов, полученных при решении задачи классификации, может быть порядка 2n. В этом случае решение задачи классификации (классы подмножеств) не то, что анализировать, просматривать трудно. Поэтому на основании свойства 2 предлагается просматривать не все подмножества каждого класса, а только наименьшее и наибольшее подмножество подрешеток каждого класса, не включающих в себя подрешетки того же класса.

Математическая формулировка свойства 2 приведена в следствии 6 настоящей работы. В качестве примера использования следствия 6 приведем решение задачи классификации подмножеств случайного множества K, заданное над множеством X = { x,y,z,w} с распределением из примера 7, без указания учителя. Здесь результатом решения задачи классификации подмножеств случайного множества без указания учителя будут два решения — две системы двух локальных максимов:

({ х} , { y,w}), ({ x} , 0).

В таком случае говорят, что множество { х} — представитель первого класса для первого решения задачи классификации, множество { y, w} — представитель второго класса для первого решения задачи классификации; множество { х} — представитель первого класса для второго решения задачи классификации, 0 — представитель второго класса для второго решения задачи классификации.

В табл. 1, 2 приведены наименьшие подмножества подрешеток каждого класса каждой системы двух локальных максимумов (т. е. для двух решений).

Из рис. 8 следует, что во втором решении задачи классификации первый класс содержит 13 подмножеств. Как видно из таблиц, число наименьших подмножеств, по которым из следствия 6 однозначно восстанавливается весь класс, не превышает 6.

Таблица 1 Наименьшие подмножества подрешеток каждого класса первой системы локальных максимумов ({ х} , { у, и:} )

Представители классов м {y,w}

Наименьшее подмножество 1-й подрешетки { X, w} {z}

Наименьшее подмножество 2-й подрешетки 0 {у}

Наименьшее подмножество 3-й подрешетки {ж, 2} { X, z, w}

Наименьшее подмножество 4-й подрешетки — {x,y}

Наименьшее подмножество 5-й подрешетки — {w}

Наименьшее подмножество 6-й подрешетки — {x,y,z}

Таблица 2 Наименьшие подмножества подрешеток каждого класса второй системы локальных максимумов ({ х} , 0)

Представители классов м 0

Наименьшее подмножество 1-й подрешетки {y,w} {у}

Наименьшее подмножество 2-й подрешетки {z,w} W

Наименьшее подмножество 3-й подрешетки {y,z,w} —

Наименьшее подмножество 4-й подрешетки {y,z} —

Наименьшее подмножество 5-й подрешетки {z} —

Таким образом, следствие 6 позволило значительно сократить представление каждого класса, полученного при решении задачи классификации подмножеств случайного множества без указания учителя. Для того чтобы получить все 13 подмножеств первого класса для

второй системы двух локальных максимумов, необходимо рассмотреть семейство подреше-ток, у которых наименьшее подмножество будет из первого столбца табл. 2, а наибольшее подмножество — это объединение наименьшего подмножества и представителя соответствующего класса, в данном случае представителем является множество { х} . Аналогичным образом можно получить все подмножества каждого класса для каждой системы двух локальных максимумов.

Список литературы

[1] Вэн Дж . Классификация и кластер. М.: Мир, 1980. 389 с.

[2] Куприянова Т. В. Задача классификации подмножеств случайного множества и ее применение: Автореф. дис. канд. ф.-м. н. Красноярск: КГТУ, 2002. 20 с.

[3] Розанов Ю. А. Теория вероятностей, случайные процессы и математическая статистика. М.: Наука, Гл. редакция физ.-мат. лит-ры, 1985. 320 с.

[4] Емеличев В. А. Лекции по теории графов. М.: Наука, 1990. 384 с.

Поступила в редакцию 11 октября 2000 г. в переработанном виде — 18 марта 2002 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.