Научная статья на тему 'Задание метрики в задачах классификации объектов различной природы'

Задание метрики в задачах классификации объектов различной природы Текст научной статьи по специальности «Математика»

CC BY
195
41
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Федоров Андрей Алексеевич, Лопухин Юрий Владимирович, Скобликов Алексей Юрьевич

Рассматривается вопрос задания меры близости при классификации объектов различной природы. Проводится анализ эффективности использования евклидовой метрики в задачах классификации объектов различной природы. Рекомендуется для определения степени сходства объектов вместо коэффициентов сходства Рао, Хаммана, Дейка, Танимото использовать меру близости. Рассматривается пример практического применения меры близости для количественного определения степени сходства объектов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Федоров Андрей Алексеевич, Лопухин Юрий Владимирович, Скобликов Алексей Юрьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Specifying the metrics in the problems of objects classification of different nature

The task of establishment a measure of affinity is considered at classification of objects of the various nature. The analysis of efficiency of use euclidian metricss in problems of classification of objects of the various nature is lead. It is recommended for definition of a degree of similarity of objects instead of factors of similarity Rao, Hamman, Deike, Tanimoto to use a measure of affinity. The example of practical application of a measure of affinity for quantitative definition of a degree of similarity of objects is considered.

Текст научной работы на тему «Задание метрики в задачах классификации объектов различной природы»

УДК 658.012.102

А.А. ФЕДОРОВ, Ю.В. ЛОПУХИН, А.Ю. СКОБЛИКОВ

ЗАДАНИЕ МЕТРИКИ В ЗАДАЧАХ КЛАССИФИКАЦИИ ОБЪЕКТОВ РАЗЛИЧНОЙ ПРИРОДЫ

Рассматривается вопрос задания меры близости при классификации объектов различной природы. Проводится анализ эффективности использования евклидовой метрики в задачах классификации объектов различной природы. Рекомендуется для определения степени сходства объектов вместо коэффициентов сходства Рао, Хаммана, Дейка, Танимо-то использовать меру близости. Рассматривается пример практического применения меры близости для количественного определения степени сходства объектов.

1. Постановка задачи

Целью исследования является разработка меры близости для объектов, заданных числовым вектором. Классификации объектов различной природы, как правило, выполняется с помощью ЭВМ, что требует наличия четкого и достаточно простого алгоритма. В научных и прикладных сферах при классификации объектов или измерений используют коэффициенты сходства различных исследователей Рао, Хаммана, Дейка, Танимото [1,4]. Оперировать с коэффициентами сходства несложно, но эффективней применять меру близости [3,4]. Для решения конкретных задач классификации, чтобы определить, являются ли два объекта близкими между собой, необходимо дать количественное определение меры близости. Это достигается введением функции, измеряющей близость на множестве рассматриваемых объектов или измерений. Понятие близости является одним из основных в таких задачах и поэтому требует не интуитивного представления, а математически корректного.

2. Выбор меры близости классифицируемых объектов

Наиболее употребительной в настоящее время является евклидова мера, хотя она имеет существенный недостаток - не учитывает возможной неравномерности осей пространства. Обобщением евклидовой метрики является мера Махаланобиса, которая инвариантна относительно аффинных преобразований

а = {(X - х/ (х1 - хда (1)

где - матрица, обратная матрице рассеяния; Х1, Xj - числовые векторы измерений признаков, характеризующие соответственно 1-й и j-й элементы множества объектов.

Выбор меры близости в значительной степени зависит от особенностей классифицируемых объектов. Так, для рассматриваемого в [2] множества элементов X = {Х^}, характеризующихся структурой отношений

Х1 п ^ ф 0,Х1 е ^,|Х1И^|,1 Ф j, (2)

Х1 = {ё1к},§1к е {0,1},У = 1,п,к = 1,т , в качестве меры близости использовалось выражение на основе коэффициента сходства Рао:

^ = 1 -

Х1 п Xj

(3)

Х1 и Xj

С точки зрения практических приложений для рассматриваемого выше множества элементов Х, признаки которых являются двоичными переменными, могут оказаться полезными следующие метрики:

Х1 п X; ¿2 = 1 - '

N

+

Х\

(4)

¿3 = 1 -

2^ п Xj

XI

+

X

(5)

Для общего случая, когда е {0, 1, 2, ..., к}, в качестве меры для группирования можно использовать выражение

¿у = 1 -

т 2 ар

Р = 1

Х+

X

(6)

р

где аЦ =

0,

если gipgjp = 0

+ 8, если gipgjp * 0

Чтобы выражение (6) использовалось в качестве меры близости, необходимо проверить выполнение аксиом Фреше.

Так как для любой пары XiXj справедливо (2), то очевидно, что 0 < ¿у < 1, ¿у = dji. Необходимо проверить справедливость аксиомы треугольника

1-

Xi п Xj

Xi и Xj

< 1 - Ё^Ц +1 -

XI и Xk|

Xk п Xj

Xk и Xj

(7)

Для проверки выполнения аксиомы треугольника воспользуемся рисунком взаимных пересечений множества конструктивно-технологических признаков, характеризующих изделия X;, Xj, Xk.:

Обозначим взаимные пересечения множества признаков, характерные для объектов, представленных на рисунке:

я; =| Xi\[(Xi пXj) и (Xi п Xk)]|, aj =| Xj\[(Xj п и (Xj п Xk)]|,

^ =|Xk\[(Xk п Xi) и (Xk п Xj)]|, где я; , aj ak - признаки, присущие соответственно только 1-му, _)-му, ^му объекту:

а!| =|Xi п ^[(^ п Xj п Xk)]|, здесь ау - признаки, одновременно присущие 1-му и _|-му объектам:

aik =|Xi п Xk\[(Xi п ^ п Xk)]|, aik - признаки, одновременно присущие 1-му и ^му объектам:

^ =| Xj п Xk\[(Xi п Xj п Xk)]|,

(8) (9) (10)

(11)

(12)

(13)

где ajk - признаки, одновременно присущие .¡-му и к-му объектам:

¡ук =|Xi пXj пXk|, (14)

aijk - признаки, одновременно присущие 1-му, ¡-му и к-му объектам:

X =| Xi и X) и Xk |= я; + а) + ak + ау + aik + ajk + aijk . (15)

Согласно взаимным пересечениям, из рисунка и с учетом выражений (8)-(15) неравенство (7) примет вид:

ау + + aik + aijk ajk + < 1 (16)

X — ak X — а j X — я;

3. Исследование выполнимости меры близости

Для проверки выполнимости неравенства (16) воспользуемся теоремой о необходимых условиях экстремума функции, заданной в виде неравенства [5].

Обозначим:

аУ + aijk а;к + aijk а jk + aijk

и =--I----

X — ak X — а j X — а;

Составим функцию Лагранжа

(17)

Р = —А^^^ + — ¡^Ё) — А(£а- — X) — 2А,-а-, - = {l,j,k,lj,lk,jk,ljk},

0 X — ak X — X — а; ^ е ^ е е ^ ^ ^ ^

(18)

где А 0, А и А- - множители Лагранжа, согласно [5] не все равны нулю, при условии, что

2 а- — X = (19)

е

а- > 0 . (20)

Так как ограничения (19) линейны, то из [3] следует, что

А0 = 1. (21)

Тогда (18) будет иметь вид:

р + ацк ац + аук aik + ацк 2 ( X) 2 )

Р = ^"—¡Т — ^"—¡Г —'^—ЯТ — 2 (ае — X) — ^ Аеае). (22)

Продифференцируем (22) по а^, aik, akj, aijk, ак, Я), а;, X и приравняем производные нулю:

1 ' "АУ =0, (23)

Аik = 0, (24)

А к = 0, (25)

X — ак

1

X — а1

1

X — а; -1

аУ + aijk А А = 0

--2 — А — А к = 0, (26)

(X — ¡к)2 (26)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

+---А — А;;к = 0

X — ¡к X — а j X

— а;

Ук = 0, (27)

—А —Ак = 0,

(X — (28)

а;к — аук А А 0

-1=0 (29)

ак + аик (X - а1)2

- Л - Л = 0,

Из (23) видно, что

ау + аук а1к + аик ак] + аик .

-г---— +--— + Л = 0.

(X - ак)2 (X - а])2 (X - а1)2

1

следовательно,

Из (25) и (33) следует, что

> 0, Л1; > 0, X - ак 4

Л< 0.

Лк] > 0, ак] =

Л1 > 0, а1 = 0.

Из (30) и (34) следует, что Предположим, будто бы Тогда с учетом (21) выражение (27) примет вид

а] > 0, Л] = 0.

Л1] -

а]

Так как

то из (37) следует

4 Х(Х - а])

Л]к > 0,

Лу > 0 аук = 0.

-Л1]к = 0.

Из (29) и (37) выводим

Л = -

2

а1к + аук (X - а])

Из (31) в соответствии с (34), (39), (40) получаем

а1]к а1]к

(X - ак)2 X2

= 0

или

аукак

= 0,

если а^к = 0 , то из (28) и (37) следует Тогда из (42) получается, что Таким образом, имеем

Л к = -Л > 0. ак = 0 .

ак = а1 = 0, ак] = ац = 0. При учете же (15) и (45) выражение (16) примет вид

ау + аук + а1к + аук а ]к + а1]к = а1к + аук = 1 X - ак X - а] X - а1 X - а]

(30)

(31)

(32)

(33)

(34)

(35)

(36)

(37)

(38)

(39)

(40)

(41)

(42)

(43)

(44)

(45)

(46)

Итак, функция (18) имеет безусловный максимум, равный единице. Исходя из (46) можно заключить, что выполняется неравенство (7). Следовательно, множество X = {Xj}, i = 1,n с определенным выше расстоянием djj образует метрическое пространство.

Выводы. Предложены новые меры близости, отражающие естественные соотношения между сравниваемыми изделиями. Они характеризуются простой и ясной геометрической интерпретацией, а использование их обеспечивает исключительно четкое разделение. Эти метрики прошли апробацию в задачах планирования приборостроительного производства. Приведенные метрики могут быть использованы при анализе и синтезе структур сложных систем различной природы (технических, экономических, социологических и др.).

Список литературы: 1. Боннер Р.Е. Некоторые методы классификации. В кн.: Автоматический анализ сложных изображений. М.: Мир, 1969. 273 с. 2. Салыга В. И., Федоров А. А. Модель текущей специализации в задаче распределения квартальной программы //Электротехническая промышленность. 1977. Вып. 8 (454). С. 23-25 3. ФедоровА.А., ФедоровМ. А. Об одной мере близости экономических объектов, описываемых числовым вектором // Вестник ХГПИ. 4. Федоров А. А. Об одной мере близости объектов в признаковом пространстве // АСУ. Харьков, ХАИ. 1979. Вып. 2. С. 125-127. 5. Гаибова М.А. Многокритериальная оптимизация инвестиционных проектов развития промышленных предприятий. Самара: ГУ, 2004. 137с. 6. Иваниенко В.В. Управление эффективностью использования ресурсов производства. Харьков: Изд. ХНЭУ, 2005. 368 с.

Поступила в редколлегию 16.06.2010 Федоров Андрей Алексеевич, канд. техн. наук, доцент кафедры организации производства и управления персоналом НТУ «ХПИ». Научные интересы: разработка моделей производственных процессов, проблемы классификации. Адрес: Украина, 61002, Харьков, ул .Фрунзе, 21, тел. 707-68-56.

Лопухин Юрий Владимирович, ст. преподаватель кафедры АПВТ ХНУРЭ. Научные интересы: проектирование программного обеспечения, автоматизации проектирования цифровых устройств. Адрес: Украина, 61166, Харьков, пр.Ленина, 14, тел. 70-21-326.

Скобликов Алексей Юрьевич, асп. НИПКИ «Молния» НТУ «ХПИ» . Научные интересы: телекоммуникация. Адрес: Украина, 61002, Харьков, ул.Фрунзе, 21, тел. 707-68-56.

i Надоели баннеры? Вы всегда можете отключить рекламу.