Научная статья на тему 'Використання довжинної міри подібності в задачах кластеризації'

Використання довжинної міри подібності в задачах кластеризації Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
182
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
нечітка кластеризація / кластер / міра подібності / автоматичне групування об’єктів / кластеризація / нечеткая кластеризация / кластер / мера сходства / автоматическая группировка объектов / кластериза- ция

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кондрук Н. Е.

Актуальність. Дослідження присвячено розробці гнучкого математичного апарату, який мав би досить широкий спектр засобів для групування об’єктів за різними видами мір подібності. Це дає можливість в межах розробленого підходу ефективно розв’язувати достатньо широкі класи прикладних задач із різних предметних областей та проводити розбиття об’єктів кластерами різних геометричних форм. Метою дослідження є підвищення ефективності розв’язання прикладних задач кластеризації шляхом використання довжинної міри подібності векторних ознак об’єктів. Методи. Описано нечітке бінарне відношення та його функцію належності, що характеризує схожість об’єктів за довжинною мірою подібності їх векторних ознак. Модифіковано метод однорівневої кластеризації, заснований на нечітких бінарних відношеннях для використання довжинної міри подібності. При цьому задаються певні величини – пороги кластеризації, що характеризують ступінь подібності об’єктів в середині кластеру. Змінюючи пороги кластеризації можна проаналізувати динаміку формування кластерів, дослідити їх структуру та взаємозв’язки між об’єктами, визначити граничні об’єкти, зробити ґрунтовніший аналіз отриманих результатів. Запропонований підхід не потребує попереднього визначення кількості кластерів та дозволяє проводити кластеризацію даних концентричними сферами в умовах відсутності додаткової апріорної інформації, тому може використовуватись і на етапі попереднього аналізу даних. Результати. Розроблений підхід реалізовано у вигляді програмної системи, на основі якої розв’язано актуальну прикладну задачу дослідження інтенсивності міграційного руху населення за регіонами України. Висновки. Проведені експериментальні дослідження показали зручність та ефективність використання довжинної міри подібності при розв’язанні прикладних задач, що потребують групування кластерами у вигляді концентричних сфер. Представлений підхід забезпечив можливість проводити нові змістовні дослідження вхідних даних. Перспективи подальших досліджень полягають у розробці системи підтримки прийняття рішень, для розв’язання задач групування об’єктів на кластери концентричними сферами, конусами, еліпсами та їх перетинами; реалізації паралельної багаторівневої кластеризації проведеної одночасно за декількома критеріями подібності об’єктів та її застосуванні; дослідженні розбиттів об’єктів різними геометричними формами кластерів для однієї вибірки вхідних даних та проведенні змістовної інтерпретації отриманих результатів.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ИСПОЛЬЗОВАНИЕ ДЛИННОВОЙ МЕРЫ СХОДСТВА В ЗАДАЧАХ КЛАСТЕРИЗАЦИИ

Актуальность. Исследование посвящено разработке гибкого математического аппарата, который имеет достаточно широкий спектр средств для группировки объектов по различным видам мер сходства. Это даст возможность в рамках разработанного подхода эффективно решать достаточно широкие классы прикладных задач из разных предметных областей и проводить кластеризацию кластерами различных геометрических форм. Целью исследования является повышение эффективности решения прикладных задач кластеризации путем использования длинновой меры сходства векторных признаков объектов. Методы. Описано нечеткое бинарное отношение и его функцию принадлежности, характеризирующие подобие объектов по длинновой мере сходства их векторных признаков. Модифицировано метод одноуровневой кластеризации, основанный на нечетких бинарных отношениях для использования длинновой меры сходства. При этом задаются определенные величины пороги кластеризации, характеризующие степень подобия объектов внутри кластера. Изменяя пороги кластеризации можно проанализировать динамику формирования кластеров, исследовать их структуру и взаимосвязи между объектами, определить предельные объекты, провести более глубокий анализ полученных результатов. Предложенный подход не требует предварительного определения количества кластеров и позволяет проводить кластеризацию данных концентрическими сферами в условиях отсутствия дополнительной априорной информации, поэтому может использоваться и на этапе предварительного анализа данных. Результаты. Разработанный подход реализован в виде программной системы на основании которой решена актуальная прикладная задача исследования интенсивности миграционного движения населения по регионам Украины. Выводы. Проведенные экспериментальные исследования показали удобство и эффективность использования длинновой меры сходства при решении прикладных задач, требующих группировки кластерами в виде концентрических сфер. Представленный подход обеспечил возможность проводить новые содержательные исследования входных данных. Перспективы дальнейших исследований заключаются в разработке системы поддержки принятия решений для решения задач группировки объектов на кластеры концентрическими сферами, конусами и эллипсами и их пересечениями; реализации параллельной многоуровневой кластеризации по различным критериям и ее применении; исследовании разбиения объектов разными геометрическими формами кластеров для одной выборки входных данных и проведении содержательной интерпретации полученных результатов.

Текст научной работы на тему «Використання довжинної міри подібності в задачах кластеризації»

УДК 004.023, 519.237

ВИКОРИСТАННЯ ДОВЖИННО1 М1РИ ПОД1БНОСТ1 В ЗАДАЧАХ КЛАСТЕРИЗАЦП

Кондрук Н. Е. - канд. техн. наук, доцент, доцент кафедри кибернетики i прикладно! математики Ужгородсь-кого нацiонального ушверситету, Ужгород, Укра!'на.

АНОТАЦ1Я

Актуальнiсть. Дослвдження присвячено розробцi гнучкого математичного апарату, який мав би досить широкий спектр засобiв для групування об'ектш за рiзними видами мiр тздбносп. Це дае можливiсть в межах розробленого тдходу ефек-тивно розв'язувати достатньо широкi класи прикладних задач i3 рiзних предметних областей та проводити розбиття об'ектiв кластерами рiзних геометричних форм.

Метою дослiдження е тдвищення ефективностi розв'язання прикладних задач кластеризацп шляхом використання довжинно! мiри подiбностi векторних ознак об'ектш.

Методи. Описано нечiтке бшарне вщношення та його функцта належностi, що характеризуе схожiсть об'ектш за дов-жинною мiрою подiбностi !х векторних ознак. Модифжовано метод одш^внево! кластеризацп, заснований на нечiтких бiнарних вдаошеннях для використання довжинно! мiри тздбном! При цьому задаються певнi величини - пороги кластеризацп, що характеризують ступiнь подiбностi об'ектiв в середиш кластеру. Змiнюючи пороги кластеризацп можна про-аналiзувати динамiку формування кластерiв, дослiдити !х структуру та взаемозв'язки мiж об'ектами, визначити граничш об'екти, зробити Грунтовшший аналiз отриманих результатш. Запропонований пiдхiд не потребуе попереднього визначення кiлькостi кластерш та дозволяе проводити кластеризацта даних концентричними сферами в умовах вiдсутностi додатково! апрюрно! шформацп, тому може використовуватись i на етапi попереднього аналiзу даних.

Результати. Розроблений пiдхiд реалiзовано у виглядi програмно! системи, на основi яко! розв'язано актуальну прикла-дну задачу дослiдження iнтенсивностi мшрацшного руху населення за регiонами Укра!ни.

Висновки. Проведенi експериментальнi дослiдження показали зручшсть та ефективнiсть використання довжинно! мiри подiбностi при розв'язаннi прикладних задач, що потребують групування кластерами у виглядi концентричних сфер. Представлений тдхщ забезпечив можливiсть проводити новi змiстовнi дослiдження вхiдних даних. Перспективи подальших дослiджень полягають у розробщ системи пiдтримки прийняття ршень, для розв'язання задач групування об'екпв на клас-тери концентричними сферами, конусами, елшсами та !х перетинами; реалiзацií паралельно! багат^внево! кластеризацп проведено! одночасно за декшькома критер1ями тздбносп об'ектiв та !! застосуваннi; дослвдженш розбиттш об'ектiв рiзни-ми геометричними формами кластерiв для одте! вибiрки вхiдних даних та проведеннi змютовно! штерпретаци отриманих результатiв.

КЛЮЧОВ1 СЛОВА: нечпка кластеризащя, кластер, мiра подабносп, автоматичне групування об'ектiв, кластеризащя.

АБРЕВ1АТУРИ RV - нечiтке бiнарне ввдношення, що характеризуе

FCM - Fuzzy C-means clustering Algorithm; вiдстань мш векторами ознак;

BSA - B^ktrackrng Search optimization Algorithm; ul - пром1жковий кластер l-го кроку;

DTW - Dynamic Time Warping distance; ц ц .

SVNS - Single-valued neutrosophic sets. II II потужшсть множини;

НОМЕНКЛАТУРА в - коефщент розтягу;

C - множина векторiв ознак об'ектiв кластеризаци; ~j - функцiя належностi до нечеткого кластеру

|сг| - довжина вектора с, ; K j .

( i i i \ ¡г, ■ цR ( ) - функцiя належностi нечiткого бiнарного

сДс1,C2,...,c„J - вектор ознак об ектiв кластериза- rRV ' ^ F

вiдношення R;

дц;

*

ц rd - пори- кластеризацп при використанш дов-

R

жинно! мiри подiбностi.

ci - вектор-представник l-го кластера; K - результуючий i-й чiткий кластер;

z - кшьшсть утворених чiтких кластерiв; ВСТУП

K1 - фазифiкований кластер K; Кластерний аналiз е потужним iнструментом ште-

т - KimKicib об'ектiв кластеризацií; лектуального аналiзу даних, коли ввдсутня апрiорна

n - шльшсть ознак об'ектiв кластеризаци; шформащя про групування об'ектiв. У зв'язку iз

О, - i-й об'ект кластеризацп; швидкою динамiкою змш в содiально-економiчному,

R - нечттке бiнарне ввдношення; содiально-мiградiйному та науково-виробничому се-Rd - нечiтке бшарне ввдношення, що характеризуе редовищi кластерний аналiз е актуальним в рiзних

рiзницю довжин векторiв ознак; прикладних сферах i предметних областях, зокрема: RK - нечiтке бiнарне вщношення, що характеризуе при дослiдженнi м^ацшних показник1в; формуваннi

кут мiж векторами ознак; споживчого кошика; прийняттi ршення про надання

споживчого кредиту; виявленш потенцшних хвороб пащенпв; побудовi показово-репрезентативних вибь рок, тощо.

Отже, потреба в кластеризацп виникае в тих областях дiяльностi, де е необхщшсть роздiлити об'екти на шдмножини, так щоб кожний кластер складався iз схожих об'ектiв за певними ознаками. Чггкий подiл на кластери можливий тшьки в щеа-льних умовах i при значно вщмшних ознаках об'ектiв кластеризацп. Тому для виршення реаль-них завдань все частше застосовуються нечiткi ме-тоди, в яких розбиття об'екпв проводиться iз ви-значенням ступеня належност об'ектiв кластерам. Це дае додаткову можлившть для проведення грун-товшшого аналiзу отриманих результатiв.

Крiм того, б№шють розроблених методiв кластеризацп забезпечують групування об'ектiв лише за одним критерiем подiбностi визначеним деякою метрикою вщсташ. При цьому утворюються кластери тiльки елшсо!дно! форми. Але юнуе велика кiлькiсть прикладних задач, де такий вид групування об'екпв е неадекватним поставленiй меп i неефективним.

Таким чином, дощльною е розробка гнучкого ма-тематичного апарату, який мав би досить широкий спектр засобiв для групування об'ектiв за рiзними геометричними формами кластерiв. Дану властивють може забезпечувати змiна мiри подiбностi в однор!в-невому методi кластеризацп, заснованому на нечiтких бшарних вiдношеннях [1]. Це дае можливють в межах розробленого пiдходу ефективно розв'язувати достат-ньо широк! класи прикладних задач iз рiзних предме-тних областей. Так елшсо!днш кластеризацп та вико-ристанню ввдстанево! м!ри под!бносп присвячена праця [1]. Кутову м!ру под!бносп, конусну кластери-зацш та ввдповщш прикладнi задачi представлено в [2-4]. Дана робота е продовженням цих дослщжень i присвячена використанню довжинно! м!ри под!бносп при нечитай кластеризацп, яка забезпечуе групування об'екпв концентричними сферами та И застосуванню.

Отже, метою досл1дження е тдвищення ефектив-носп розв'язання прикладних задач кластеризацп шляхом використання довжинно! м!ри под!бносп век-торних ознак об'екпв.

Для досягнення мети в робот! необхвдно розв'язати наступш задач!:

- описати нечпке бшарне вщношення та його фу-нкцш належносп, що характеризуе схожесть об'екпв за довжинною м!рою под!бносп !х векторних ознак;

- модиф!кувати метод однор!внево! кластеризацп, заснований на нечгтких бшарних вщношеннях [1] для довжинно! м!ри под!бносп та проведення кластеризацп концентричними сферами;

- прошюструвати використання довжинно! мри по-д!бносп для розв'язання реально! прикладно! задач!.

1 ПОСТАНОВКА ЗАДАЧ1

Вщсутшсть единого загальноприйнятого форму-лювання нечпко! модифжацп задач! кластерного ана-

л1зу потребуе чгткий змютовний опис дослвджувано! проблеми.

Розглянемо загальну задачу нечеткого кластерного анал1зу в наступнш постановщ.

Нехай дано деяк1 об'екти 01,...,От, як1 характе-ризуються n шльшсними ознаками. Кожному об'екту 0i, i = 1, m однозначно ставиться у вщповвдшсть вектор ознак ci [c[,c2,...,c'n), i = 1,m .

Потр1бно розбити задаш об'екти 0i, i = 1,m на од-норвдш групи «схожосп» (кластери) по вах n ознаках за довжинною м1рою под1бносп, причому визначити i м1ру ïx належностi до отриманих кластерiв. Для цьо-го, з математичноï точки зору, потрiбно розв'язати задачу нечгтко! кластеризацiï векторiв ознак

ci (c1,c2,...,ci), i = 1,m .

2 ОГЛЯД Л1ТЕРАТУРИ

В наш час математичний апарат нечiткоï кластеризацп бурхливо розвиваеться i забезпечуе сучасш засо-би ефективного розв'язання багатьох прикладних задач. Так в [5-8] описано огляд та порiвняння чгтких (жорстких) та нечiткиx (м'яких) базових методiв кла-стеризацiï. Але рiзна прикладна природа вxiдниx да-них, цшей, видiв кластеризацiï приводить до принци-повоï неможливостi побудови одного единого ефективного ушверсального методу групування. Це приводить до необхщносп створення нових методiв або модифшацп вже iснуючиx при розв'язанш прикладних задач. Так в робоп [9] модифiковано класичний нечгткий c-means (FCM) алгоритм для кластеризацп сенсорних вузлiв бездротових сенсорних мереж та використано правило нечiткого виводу Сугено для визначення ïx представнишв. У [10] представлено новий метод кластеризацп зображень на основi ком-бiнацiï FCM та BSA алгоритму.

Як зазначалось, використання вщстаневих метрик (Евклвда, Маxаланобiса, манхеттенсько!' та ш.) для визначення подiбностi об'ектiв закладено в основi бiльшостi базових методiв кластеризацiï. Але iснуе цiлий ряд практичних задач де ïx використання приводить до невщповвдносп отриманих результапв по-ставленим цiлям та завданням кластеризацп. Так в робоп [11] обгрунтовано необxiднiсть та доцшьшсть використання динамiчноï вiдстанi часу (DTW) при кластеризацп часових рядiв для отримання адекват-них результатiв групування та запропоновано три альтернативнi методи нечи:'^ кластеризацп на ïï основа В дослiдженнi [12] представлено модифшацш нечiткого c-means (FCM) методу iз використанням ядро-iндукованоï вiдстаневоï мiри в задачах сегментацiï зображень. В [13] для виршення проблеми вибору постачальника пропонуеться iерарxiчний метод кластеризацп, оснований на новш формулi неевклiдовоï вiдстанi. В [14] розроблено алгоритм кластеризацп за вщстанню, основаною на

м1Р1 пoдiбнoстi мгж oднoзнaчними нeйpoсoфськими мнoжинaми (SVNS).

Отжe, юнування вeликoï кlлькoстi таких дoслi-джeнь щe раз пiдтвepджye той факт, щo спeцифiкa прикладних задач po6rnb нeмoжливим aвтoмaтичнe пepeнeсeння мeтoдiв в 1НШУ пpиклaднy oблaсть бeз РИЗИКУ свiдoмo oтpимaти нeякlсний poзв'язoк. Таким чинoм, дoцiльним е poзpoбкa та poзвитoк математич-нoгo aпapaтy, який пepeдбaчae мoжливiсть пpoвeдeн-ня клaстepизaцiï за якiснo Р1ЗНИМИ кpитepiями ШД16-нoстi oб'eктiв. Цe, в свoю чepгy, дoзвoлить пpoвoдити гpyпyвaння oб'eктiв Р1ЗНИМИ гeoмeтpичними фopмaми клaстepiв. Зoкpeмa, викopистaння дoвжиннoï М1РИ пoдiбнoстi зaбeзпeчить пpoвeдeння клaстepизaцiï тон-цeнтpичними сфepaми та дoзвoлить eфeктивнo poзв'язyвaти шиpшe кoлo прикладних задач.

3 МАТЕР1АЛИ I МЕТОДИ

В зaлeжнoстi в1Д цiлeй клaстepизaцiï гeoмeтpичнi фopми пoтpiбних клaстepiв мoжyть 6ути р!зними. Кр1м тoгo, oднy i ту ж мшжину даних мoжнa poзби-вати на р1зн1 види клaстepiв та oтpимyвaти при цьoмy р!зну змiстoвнy iнтepпpeтaцiю peзyльтaтiв. Дoслi-джeння [1-3] пoкaзaли, щo гнучким та eфeктивним aпapaтoм для пpoвeдeння eлiптичнoï та кoнiчнoï клас-тepизaцiï е oднopiвнeвий мeтoд п. 6 в [1]. При цьoмy, пoдiбнiсть oб'eктiв за дeяким кpитepieм характеризу-еться ^чихим бiнapним вiднoшeнням R на мтажиш

вeктopних oзнaк С = {ci|i = 1, m} 1з функщею нaлeж-нoстi c, cj ), дe цr : С2 ^[0,l]. Чим бiльшe зна-чeння вeличини (c¡, cj ) близью дo 1, тим в бшь-

шoмy стyпeнi oб'eкти Oi та Oj будуть пoдiбними за цим кpитepieм. Зoкpeмa, яшсна змша виду М1РИ года-бнoстi oб'eктiв пpизвoдить дo ЗМ1НИ гeoмeтpичнoï фopми клaстepiв.

Так для yтвopeння eлiптичнo пoдiбних клaстepiв зpyчнo та eфeктивнo кopистyвaтись мipoю пoдiбнoстi «ввдстань», щo oписyeться нeчiтким бiнapним ввдш-шeнням RV [1].

Heчiткe бiнapнe вiднoшeння RK [2, 3] хapaктepизye

кут вiдхилeння м1ж вeктopaми oзнaк ci i

]

Иoгo

викopистaння дaлo мoжливlсть пpoвoдити кластери-зaцiю кoнiчними кластерами.

«Дoвжиннy» м1ру пoдiбнoстi, щo дoзвoляe poзби-вати вeктopи oзнaк oб'eктiв на клaстepи кoнцeнтpич-ними сфepaми, пpoпoнyeться oписaти бiнapним в1д-нoшeнням Rd 1з фyнкцieю нaлeжнoстi

п2 „

ц rd : С ^

R

1,1

Ц RD

типу:

(, cj)=e

(1)

Викopистaння eкспoнeнцiaльнoï функцп нaлeжнo-ст1 тaкoгo виду те е випaдкoвим. Аpгyмeнтoм eraro-^Km е пpoнopмoвaнa вeличинa, щo змшюеться ввд 0 дo 1. %му ïï знaчeннями будуть вiдпoвiднo вeличини

В1Д 1 дo 1. Пpичoмy, мeншiй Р1ЗНИЦ1 дoвжин вeктopiв

e

oзнaк oб'eктiв бyдe вiдпoвiдaти ближчe дo 1 знaчeння ц„в . Ця влaстивiсть визначае тoй факт, щo нeчiткe

бiнapнe вiднoшeння Rв характеризуе схoжlсть вeктo-р1в ci i cj за дoвжинaми.

Пpoвeдeмo мoдифiкaцiю чiткoгo мeтoдy oднopiв-нeвoï клaстepизaцiï п. 6 в [1] для викopистaння дoв-жиннoï м!ри пoдiбнoстi oб'eктiв.

Heхaй задана числoвa вeличинa ц„в e [0; 1] - го-

pir клaстepизaцiï. Вш хapaктepизye нeoбхiднy ступ1нь

пoдiбнoстi oб'eктiв в мeжaх oднoгo клaстepy. Якщ

*

цrD = 0 , то стутнь пoдiбнoстi oб'eктiв бyдe найсла-

бшoю, щo пpивeдe дo фopмyвaння oднoгo клaстepy

сфepичнoгo виду, куди ув1йдуть вс1 oб'eкти. Якщ ж

*

ц„в = 1, тод1, навпаки, oб'eкти 1з р!зтаю дoвжинoю

вeктopiв oзнaк сфopмyють oкpeмi клaстepи, 6o сту-

п1нь пoдiбнoстi oб'eктiв бyдe нaйвищoю. Отжe, ближ-

*

чoмy знaчeнню ц„в дo oдиницi бyдe вiдпoвiдaти 6Í-

льша кшьшсть сфopмoвaних клaстepiв.

Пpoвeдeння практичних eкспepимeнтiв пoкaзaлo, щo «хopoшa» чутлив1сть функци типу (1) в oкoлi свo-ro гpaничнoгo знaчeння (sup ц„в =1) дoзвoляe пpoвo-

дити кластеризащю oб'eктiв для вс1х мoжливих вeли-чин пopoгiв пpoмiжкy [0; 1] 1з пeвнoю тoчнiстю (на-приклад, 1з тoчнiстю 0,01). Цe зaбeзпeчye мoжливiсть пpoвoдити дoслiджeння в^е1' динам!ки зм1ни класте-р1в та 1'х структури.

Приймаеться eвpистикa: на oснoвi двoх «найбшьш схoжих» за дoвжиннoю мipoю пoдiбнoстi нeзгpyпoвa-них oб'eктiв мае фopмyвaтись нoвий клaстep.

Дал! пoкpoкoвo oписaнo внeсeнi зм1ни в l-y irepa-цш poбoти читаго мeтoдy oднopiвнeвoï клaстepизaцiï oб'eктiв [1] для дого адаптацй' дo викopистaння дoв-жиннoï м1РИ пoдiбнoстi.

Kpoк 1 залишаеться бeз зм1н. Слад зауважити, щo дoвжинa oбpaнoгo дoмiнaнтнoгo вeктopa-цeнтpoïдa

c* !з мнoжини {с"| i e Q} бyдe визначати paдiyс сфe-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ри, нaвкoлo я^ бyдe фopмyвaтись 1-й клaстep.

При пpoвeдeннi пpoцeдypи цeнтpyвaння клaстepy

Ul кpoкlв 2 та 3 дoвжинa вeктopa-цeнтpoïдa уточню-еться, за фopмyлoю:

ci :=-

I f

cieUl

Ul

• cl .

(2)

дe Д = maxcJ-mincj , i = 1,m , j = 1,

Якщ пoтpiбнa iнфopмaцiя нe т1ЛЬКИ пpo poзпoдiл oб'eктiв пo клaстepaм, a й ^o ступ1нь 1х пpинaлeжнo-

e

c, - c

Д

m

CTi кожнш i3 множин, то необхвдно провести процедуру фазифкацп.

За чiтким однорiвневим методом п. 6 в [1], та опи-саними модифiкацiями проводиться кластериза^ на

чiткi кластери K1, K2, ..., K2, z < m i3 вiдповiдними

* * *

представниками q, С2, ...,cz знайденими за формулою (2). Функцп належностi ~ j : C ^ [0,1] фазифко-

ваних кластерiв KJ , j = 1, z пропонуеться визначати за формулою:

■О

c, cj

(3)

або за формулою:

. (

= exp

1 -Ц

-|2 А

ß

(4)

V /

Зокрема, розрахований коефiцiент ß=0,0882 за правилом трьох агм.

Використання функцiй належностi типу (1) та за-стосування формули (3) не е загальноприйнятим для

фазифжацп даних, так як ~ j : С ^

1;1

буде проведено на прикладнш задачi кластеризацй' у двовимiрному просторi. Це дасть додаткову вiзуальну можливiсть оцiнити отриманий результат.

Все бшьш глобальними стають проблеми зростаю-чих масштабiв мiграцiï населення Украши та ïï регу-лювання, модершзацп мiграцiйноï полiтики держави. Вони потребують високий та сучасний рiвень науко-вих засобiв вивчення мiграцiйних процеав населення в сучасних економiчних, суспшьних та полiтичних умовах. Зокрема, системний шдхвд до аналiзу м^а-цшних явищ передбачае дослвдження iнтенсивностi м^ацшного руху населення.

Отже, пропонуеться, розглянути актуальну задачу дослвдження iнтенсивностi мнрацшного руху населення регiонiв Украши, наприклад, за сiчень-листопад 2017 року. Вхвдт данi отриманi iз офiцiйного сайту Держко-мстату Украши, представленi в наступнш таблиц!

Таблиця 1 - Мцрацшний рух населення у ачт-

тобто мiра

належностi найвiддаленiших об'екпв до j-го кластеру

буде не менша, як число 1. Але, в цьому випадку,

e

можна зробити як1сний аналiз отриманих результапв кластеризацп та числових значень ~j зпдно шкали

бажаносп Харрiнгтона [1]. Використання функцп належносп гауавського типу (4) приводить до ïï норма-лiзацiï, тобто ~ j : С ^ (0; 1].

4 ЕКСПЕРИМЕНТИ

Для проведення експерименпв була розроблена комп'ютерна программа, що реалiзуе запропонований пiдхiд при кластеризацiï' об'ектiв за довжинною мiрою подiбностi. Вона е доповненням до вже iснуючого програмного забезпечення для проведення елiпсоïдноï [1] та конусноï [2, 3] кластеризацп i забезпечуе роз-биття об'екпв концентричними сферами.

Вхщною iнформацiею для проведення групування

об'екпв е числовi величини n, m, та координати

векторiв ci . Далi для чiткоï' кластеризацiï' застосову-еться метод однорiвневоï кластеризацiï iз п. 6 [1], ада-птований до використання довжинноï' мiри подiбнос-ri, що описана формулою (1). Фазифжащя кластерiв проводиться за формулами (3) та (4).

Враховуючи те, що яшсть машинноï кластеризацiï' визначаеться ïï вщповщшстю класифiкацiï, що проведена людиною, верифiкацiю розробленого пiдходу

№ Регюни Украши Кiлькiсть прибулих осiб Юлькють вибулих осiб

1 Вшницька 5454 9816

2 Волинська 7608 8405

3 Дншропетровська 48663 24741

4 Донецька 6686 30039

5 Житомирська 12857 13649

6 Закарпатська 5271 5451

7 Запорiзька 6411 9215

8 1вано-Франювська 13963 12588

9 Кш'вська 50611 22098

10 Юровоградська 9847 11395

11 Луганська 2203 20918

12 Львiвська 26483 24031

13 Микола1вська 7215 8939

14 Одеська 20712 17430

15 Полтавська 18137 18962

16 Рiвненська 13909 15591

17 Сумська 15207 15957

18 Тернопiльська 5889 7384

19 Харкiвська 52007 40497

20 Херсонська 4091 6673

21 Хмельницька 6368 9060

22 Черкаська 14720 15093

23 Чершвецька 4828 4787

24 Чернiгiвська 7485 9499

25 м.Кшв 32363 28881

Входною шформащею для експериментальних до-слвджень групування регiонiв Украши були пронор-мованi данi табл. 1 та рiзнi пороги кластеризацй.

5 РЕЗУЛЬТАТИ

Зпдно шкали бажаносп Харршгтона та проведе-них попередшх практичних дослiджень [1] найбiльш

D

R

Ci, С

D

R

e

значимыми та змютовними при розв язанн1 практич-них задач виявились величини поропв кластеризацп близью до 0,8. Отримаш фрагментарш результати чигсо! кластеризащ за довжинною м1рою под1бност1 1з функщею належносп (1) представлено в табл. 2 та рис. 1.

Таблиця 2 - Фрагментарш результати чгшо! кластеризацп розглядувано! сукупноста

Числовi значення порогу кластеризацп Результати кластеризаци

Кластер 1: об'екти з номерами 1, 2, 5, 6-8, 10, 11, 13, 16-18, 20-24;

* Цкп £ [0,64; 0,84] Кластер 2: об'екти з номерами 4, 12, 14, 15;

Кластер 3: об'екти з номерами 3, 9, 19, 25.

Кластер 1: об'екти з номерами 1, 2, 5, 6-8, 10, 11, 13, 16, 18, 20-24;

Кластер 2: об'екти з номерами 4, 12, 14, 15, 17;

* Цдв £ [0,85; 0,86] Кластер 3: об'ект з номером 25;

Кластер 4: об'екти з номерами 3, 9;

Кластер 5: об'ект з номером 19.

Рисунок 1 - Геометрична штерпретащя результата чгт-ко! кластеризацп за довжинною м1рою под1бносп при

ц*к в £ [0,64; 0,84]

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На рис. 1 пунктирними лш1ями позначено дуги концентричних к1л, що ввдповщають представникам вщповвдних кластер1в.

Для штерпретаци нечгтких результапв кластеризацп було використано матриц нечеткого розподшу об'екттв по кластерах (табл. 3). Проанал1зуемо, на-приклад, матрицю вщповвдного нечеткого розбиття

(табл. 3) при ц^в £ [0,64; 0,84] та його лшшш д1агра-

ми (рис. 1-2).

Для в1зуального представлення нечггких результата побудована лшшна д1аграма нечетких розбитпв. По ос1 ординат д1аграми ввдкладаються значення сту-пешв належносп, а по ос абсцис - номери об'ектш. Належшсть об'ектш кластеру визначаеться точкою перетину лшш, що вщповвдае номеру об'екта та сту-пеня належносп об'екта кластеру. Номер кластера вказуеться поряд з точкою.

Таблиця 3 - Матриц нечтшого розбиття дослвджувано! сукупноста об'ектав при £ [0,64; 0,84]

№ об'екта Мiри належносп виду (3) Мiри належносп виду (4)

Кластер 1 Кластер 2 Кластер 3 Кластер 1 Кластер 2 Кластер 3

1 0,98 0,43 0,05 0,95 0,73 0,48

2 0,98 0,44 0,05 0,96 0,73 0,48

3 0,06 0,27 1,00 0,50 0,66 1,00

4 0,50 1,00 0,28 0,75 0,99 0,67

5 0,93 0,71 0,09 0,92 0,83 0,54

6 0,89 0,32 0,03 0,90 0,68 0,45

7 0,98 0,43 0,05 0,95 0,73 0,48

8 0,93 0,71 0,09 0,92 0,83 0,54

9 0,06 0,25 1,00 0,50 0,65 0,99

10 1,00 0,57 0,07 0,98 0,78 0,51

11 0,87 0,80 0,12 0,89 0,86 0,57

12 0,34 0,91 0,42 0,69 0,91 0,72

13 0,98 0,44 0,05 0,96 0,73 0,48

14 0,64 0,97 0,20 0,80 0,95 0,63

15 0,67 0,96 0,19 0,81 0,94 0,62

16 0,87 0,80 0,12 0,89 0,86 0,56

17 0,83 0,84 0,13 0,87 0,87 0,57

18 0,94 0,38 0,04 0,93 0,71 0,46

19 0,02 0,09 0,72 0,42 0,54 0,83

20 0,89 0,33 0,03 0,90 0,69 0,45

21 0,97 0,43 0,05 0,95 0,73 0,48

22 0,86 0,80 0,12 0,89 0,86 0,57

23 0,86 0,30 0,03 0,89 0,68 0,44

24 0,99 0,46 0,05 0,97 0,74 0,49

25 0,18 0,63 0,71 0,61 0,80 0,82

5.00 ■

0,90 ■

■р 0,80 ■

| 0 70 ■

I 0,60 ■

™ 0,50 ■

| 0.40 ■

1 о.за ■ £ 0,20 0.10

ООО ■

. г» г ♦ 1

• 1* г, г

»Г :}ч

а............................

и*

и

О 1 2 3 4 5 6 7 8 9 1011 1213141516171610 2021 22232425 об'сктн

Рисунок 2 - Лшшна д1аграма нечгжого розбиття розглядувано! сукупносл 1з м1рою належносп, визначеною за формулою (3) На рис. 2 пунктирною лшею представлено умовну межу ступеня значно! (сильно!) под1бносп об'екпв в межах одного кластеру. З даграми рис. 2 видно, що об'ект 1з номером 17 е граничним для кластер1в 1 та 2. Тому при повторнш кластеризацп 1з збшьшенням порогу

вш мoжe бути roperi^^! мгж цими кластерами (див. табл. 2). Об'екти !з нoмepaми 5, 8, 11, 16, 22 хoчa i вщш-сeнi дo 1-гo клaстepy при ч1тк1й кластеризаци тaкoж ма-ють висoкy стутнь шдабюсп дo oб'eктiв 2-гo кластеру. Об'ект 1з нoмepoм 25 3-го кластеру мае сильну шдаб-тсть дo oб'eктiв 2-гo клaстepy, а 14 та 15 oб'eкти 1з 2-гo клaстepy пoдiбнi дo oб'eктiв 1-гo клaстepy.

Дал1 пpeдстaвлeнo oтpимaнy л1н1йну д1аграму (рис. 3) при викopистaннi фopмyли нopмyвaння (4).

5.00 ■

0,90 ■ 1 0.80 * g 0.70 ■

I о.во ■

I 0,50 ■ £ 0.40 ■ "с 0.30 ■ 5 030 ■ 0.10 ■

• ■'• i. г

,¡. s

э, э* Э. 1» э + 3

♦ э* з . J -з

i i ; }т ч í;i

0 1 г 3 4 5 6 7 В Й ЮН 1213 14 15 50 17 1В 19 2021 2223 2425 об'екти

Рисутак 3 - Л1н1йна д1аграма нeчiткoгo poзбиття poз-глядyвaнoï сукуптаст! 1з нopмoвaнoю мipoю нaлeжнo-ст1, визнaчeнoю за фopмyлoю (4)

Як видю з д1аграми фopмyлa (4) ж зм1нюе картину poзбиття, а лишe уточнюе iï. Пyнктиpнoю лшею вид1-лeнo вс1 точки 1з максимальними знaчeннями функци нaлeжнoстi. Об'екти з нoмepaми 25 та 19 мають най-мeншi м1ри шд1бюст1 дo свoïх ч1тких клaстepiв сepeд вс1х видiлeних (пoдiбнiсть цих oб'eктiв е «нaйслaбшoю» в мeжaх вiдпoвiднoгo клaстepy), тому при збiльшeннi ropory клaстepизaцiï oб'eктiв вoни будуть клкговими при фopмyвaннi нoвих клaстepiв (див. табл. 2).

Отжe, фазиф1кац1я чггких клaстepiв дае мoжли-в1сть пpoвeсти дoдaткoвий анал1з взaeмoзв'язкiв м1ж oб'eктaми, уточнюе 1х ступ1нь пoдiбнoстi та дае змo-гу визначити граничш (пepeхiднi) oб'eкти.

Згiднo oтpимaних peзyльтaтiв мoжнa зpoбити на-ступну зм1стовну iнтepпpeтaцiю пoстaвлeнoï задач1:

- дo peгioнiв Укpaïни 1з пасивним м1грацшним ру-хoм нaсeлeння за сiчeнь-листoпaд 2017 poкy мoжнa вiднeсти: Вшницьку, Вoлинськy, Житомирську, Зака-рпатську, Затр1зьку, Iвaнo-Фpaнкiвськy, Кшвську, Kipoвoгpaдськy, Луганську, Мигалах^^^, Piвнeнсь-ку, Тepнoпiльськy, Хepсoнськy, Хмeльницькy, 4epra-ську, Чepнiвeцькy, Чepнiгiвськy oблaстi;

- в Сумськ1й oблaстi спoстepiгaeться граничний пaсивнo-пoсepeднiй м1грац1йний рух нaсeлeння за сiчeнь-листoпaд 2017 poкy;

- дo peгioнiв Украши 1з пoсepeднiм м1грац1йним pyхoм нaсeлeння за сiчeнь-листoпaд 2017 poкy мoжнa вiднeсти: Дoнeцькy, Льв1вську, Одeськy та Шлтавсь-ку oблaстi;

- дo peгioнiв Украши 1з пoсилeним м1грац1йним pyхoм нaсeлeння за сiчeнь-листoпaд 2017 poкy мoжнa вiднeсти: Днiпpoпeтpoвськy, Кшвську, Харк1вську oблaстi та м. Кшв.

Пepeхiднa динам1ка мiгpaцiйнoгo руху спoстepiгa-еться в:

- Сумськ1й, Луганськ1й, Piвнeнськiй, Чepкaськiй, Житомирськ1й та Iвaнo-Фpaнкiвськiй oблaстi в1д па-сивнoгo дo пoсepeдньoгo темпу;

- Одeськiй та Пoлтaвськiй oблaстi в1д пoсepeдньo-гo дo пaсивнoгo тeмпy;

- м. Кшв в1д пoсилeнoгo дo пoсepeдньoгo тeмпy.

б ОБГОВОРЕННЯ

Пopiвняння мeтoдiв клaстepнoгo анал1зу нe е зo-вс1м кopeктним 6o нe 1снуе eдинoгo критерш oптимa-льнoстi oцiнки peзyльтaтiв кластеризаци. Koжeн 1з них мае свoï нeдoлiки та пepeвaги i мoжe бути eфeк-тивн1шим при poзв'язaннi пeвнoгo класу задач.

Зoкpeмa, пpoвeдeнi eкспepимeнтaльнi дoслiджeння пoкaзaли зручн1сть та eфeктивнiсть мeтoдy oднopiв-нeвoï кластеризаци п. 6 в [1] aдaптoвaнoгo дo викopи-стання дoвжиннoï м1ри пoдiбнoстi для poзв'язaння дeяких клаав прикладних задач, кoли вiдстaнeвi мeт-рики нe е кopeктними. При цьoмy мoжнa визначити oснoвнi пepeвaги зaпpoпoнoвaнoгo пiдхoдy:

- дае мoжливiсть пpoвoдити клaстepизaцiю кoнцe-нтричними сфepaми та oтpимyвaти якiснo нoвi зм1с-товн1 peзyльтaти;

- фазиф1кац1я чиких клaстepiв дoзвoляe визначати ступ1нь пoдiбнoстi oб'eктiв, виявляти граничн1 oб'eкти, poбити грунтовн1ший анал1з oтpимaних pe-зульталв;

- виб1р р1зних пopoгiв кластеризаци дае дoдaткoвy мoжливiсть спoстepiгaти за динамтою фopмyвaння клaстepiв, змiнoю "х структури та виявляти пpихoвaнi взaeмoзв'язки м1ж oб'eктaми;

- мoжe бути викopистaний як для пoпepeдньoгo анал1зу даних, так i для пpoвeдeння сaмoï пpoцeдypи клaстepизaцiï.

Викopистaння нeчiткoгo бiнapнoгo вiднoшeння RD в мeтoдi oднopiвнeвoï пoслiдoвнoï клaстepизaцiï [1] зaбeзпeчилo мoжливiсть пpoвoдити нoвi зм1стовн1 дoслiджeння вх1дних даних.

Дана праця е пpoдoвжeнням та poзвиткoм дoслi-^em [1-3]. В пoдaльшoмy пepeдбaчaeться poзpoблe-ний п1дх1д викopистaти для:

- peaлiзaцiï пapaлeльнoï бaгaтopiвнeвoï клaстepи-заци oднoчaснo пpoвeдeнoï за дeкiлькoмa критер1ями пoдiбнoстi та ïï застосування;

- poзpoбки систeми п1дтримки прийняття prnem, щo зaбeзпeчить групування oб'eктiв на кластери кoн-цeнтpичними сфepaми, тонусами, eлiпсaми та 1х пepe-тинами;

- дoслiджeння викopистaння клaстepизaцiï oб'eктiв за р1зними гeoмeтpичними фopмaми кластер1в для oднieï виб1рки вх1дних даних та пpoвeдeння зм1стов-нoï iнтepпpeтaцiï oтpимaних peзyльтaтiв.

ВИСНОВКИ

Вир1шуеться пpoблeмa poзвиткy мeтoдiв клaстepи-зацй, oснoвaних на ^читах б1нарних вiднoшeннях для пpoвeдeння poзбиття oб'eктiв кoнцeнтpичними сфepaми.

Наукова новизна отриманих результапв полягае в тому, що описано нечтгке бшарне вщшшення R та його функцш надежноси, яю характеризують довжинну мру подабносп векторних ознак об'екпв. Модиф1ковано метод однор1внево! кластеризаци [1] для використання довжинно! м1ри под1бност1 об'екпв. При цьому зада-ються певш величини - пороги кластеризаци, що характеризують стутнь схожосп об'екпв в середиш кластеру. Змшюючи пороги кластеризацИ можна проаналзу-вати динашку формування кластер1в, дослвдити !х структуру та взаемозв'язки м1ж об'ектами. Запропонований тдхщ дозволяе проводити кластеризащю об'екпв кон-центричними сферами в умовах ввдсутносп додатково! апрюрно! шформаци, тому може використовуватись i на етап попереднього аналiзу даних.

Практичне значения отриманих результатiв полягае в розробленому програмному забезпеченнi, що реалiзуе представлений пiдхiд. Проведення експери-ментiв показало його ефективнiсть при розв'язанш певних класiв прикладних задач кластерного аналiзу. Проiлюстровано роботу нечеткого однорiвневого методу, основаного на довжиннш мiрi подiбностi на ре-альнiй задачi дослвдження iнтенсивностi м^ацшного руху населення регiонiв Украши. Проведено аналiз та змiстовну iнтерпретацiю отриманих результапв.

ПОДЯКИ

Роботу виконано в рамках держбюджетно! науко-во-дослщно! теми Ужгородського нацiонального ут-верситету «Розробка математичних моделей i методiв для оброблення шформаци та iнтелектуального аналь зу даних» (номер державно! реестрацп 0115U004630).

Л1ТЕРАТУРА/ ЛИТЕРАТУРА

1. Kondruk N. Clustering method based on fuzzy binary relation / N. Kondruk // Eastern-European Journal of Enterprise Technologies. - 2017. - No. 2(4). - P. 10-16. DOI: 10.15587/1729-4061.2017.94961

2. Кондрук Н. Е. Алгоритм кластеризаци критерiальиого простору для задач вибору / Н. Е. Кондрук, М. М. Маляр //Вюник Кшвського ушверситету. Сер1я: ф1з.-мат. наук. -2006. - Вип. 3. - С. 225-229.

3. Кондрук Н. Е. Деяю методи автоматичного групування об'екпв / Н. Е. Кондрук // Швденно-Свропейський журнал передових технологш. - 2014. - Т. 2, № 4 (68). - С. 20-24.

4. Кондрук Н. Е. Системи шдтримки прийняття ршень для автоматизованого складання д1ет / Н. Е. Кондрук //

ynpaB^rnHa po3bhtkom CKnagHHX CHCTeM. - 2015. -Bun. 23(1). - C. 110-114.

5. Peters G. Soft clustering-fuzzy and rough approaches and their extensions and derivatives / G. Peters // International Journal of Approximate Reasoning. - 2013. - Vol. 54, № 2. -P. 307-322. DOI: 10.1016/j.ijar.2012.10.003

6. Banu P. K. N. Performance analysis of hard and soft clustering approaches for gene expression data / P. K. N. Banu, S. Andrews //International Journal of Rough Sets and Data Analysis (IJRSDA). - 2015. - Vol. 2, № 1. - P. 58-69. DOI: 10.4018/ijrsda.2015010104

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7. Bora D. J. Comparative study between fuzzy clustering algorithm and hard clustering algorithm / D. J. Bora, D. Gupta, A. A. Kumar // International Journal of Computer Trends and Technology (IJCTT). - 2014. - Vol. 10(2). - C. 108-113. DOI: 10.14445/22312803/IJCTT-V10P119

8. Jipkate B. R. A comparative analysis of fuzzy c-means clustering and k means clustering algorithms / B. R. Jipkate, V. V. Gohokar // International Journal Of Computational Engineering Research. - 2012. - Vol. 2. - № 3. - P. 737-739.

9. Shokouhifar M. Optimized sugeno fuzzy clustering algorithm for wireless sensor networks / M. Shokouhifar, A. Jalali //Engineering applications of artificial intelligence. - 2017. -Vol. 60. - P. 16-25. DOI: 10.1016/j.engappai.2017.01.007

10. Toz G. A Fuzzy Image Clustering Method Based on an Improved Backtracking Search Optimization Algorithm with an Inertia Weight Parameter / G. Toz, I. Yucedag, P. Erdogmuj // Journal of King Saud University-Computer and Information Sciences. - 2018. In press. DOI: 10.1016/j.jksuci.2018.02.011

11. Izakian H. Fuzzy clustering of time series data using dynamic time warping distance / H. Izakian, W. Pedrycz, I. Jamal // Engineering Applications of Artificial Intelligence. - 2015. - Vol. 39. - P. 235-244. DOI: 10.1016/j.engappai.2014.12.015

12. Chen, S. Robust image segmentation using FCM with spatial constraints based on new kernel-induced distance measure / S. Chen, D. Zhang //IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics). - 2004. - Vol. 34, № 4. -P. 1907-1916. DOI: 10.1109/TSMCB.2004.831165

13. Heidarzade A. Supplier selection using a clustering method based on a new distance for interval type-2 fuzzy sets: A case study / A. Heidarzade, I. Mahdavi, N. Mahdavi-Amiri // Applied Soft Computing. - 2016. - Vol. 38. - P. 213-231. DOI: 10.1016/j.asoc.2015.09.029

14. Ye J. Clustering methods using distance-based similarity measures of single-valued neutrosophic sets / J. Ye // Journal of Intelligent Systems. - 2014. - Vol. 23, № 4. - P. 379-389. DOI: 10.1515/jisys-2013-0091

CTaTTa Haginmga go pegaK^I 18.02.2018.

nicaa gopoSKH 02.04.2018.

УДК 004.023, 519.237

ИСПОЛЬЗОВАНИЕ ДЛИННОВОЙ МЕРЫ СХОДСТВА В ЗАДАЧАХ КЛАСТЕРИЗАЦИИ

Кондрук Н. Э. - канд. техн. наук, доцент, доцент кафедры кибернетики и прикладной математики Ужгородского национального университета, Ужгород, Украина.

АННОТАЦИЯ

Актуальность. Исследование посвящено разработке гибкого математического аппарата, который имеет достаточно широкий спектр средств для группировки объектов по различным видам мер сходства. Это даст возможность в рамках разработанного подхода эффективно решать достаточно широкие классы прикладных задач из разных предметных областей и проводить кластеризацию кластерами различных геометрических форм.

Целью исследования является повышение эффективности решения прикладных задач кластеризации путем использования длинновой меры сходства векторных признаков объектов.

Методы. Описано нечеткое бинарное отношение и его функцию принадлежности, характеризирующие подобие объектов по длинновой мере сходства их векторных признаков. Модифицировано метод одноуровневой кластеризации, основанный на нечетких бинарных отношениях для использования длинновой меры сходства. При этом задаются определенные величины - пороги кластеризации, характеризующие степень подобия объектов внутри кластера. Изменяя пороги кластеризации можно проанализировать динамику формирования кластеров, исследовать их структуру и взаимосвязи между объектами, определить предельные объекты, провести более глубокий анализ полученных результатов. Предложенный подход не требует предварительного определения коли© Кондрук Н. Е., 2018 БО! 10.15588/1607-3274-2018-3-11

чества кластеров и позволяет проводить кластеризацию данных концентрическими сферами в условиях отсутствия дополнительной априорной информации, поэтому может использоваться и на этапе предварительного анализа данных.

Результаты. Разработанный подход реализован в виде программной системы на основании которой решена актуальная прикладная задача исследования интенсивности миграционного движения населения по регионам Украины.

Выводы. Проведенные экспериментальные исследования показали удобство и эффективность использования длинновой меры сходства при решении прикладных задач, требующих группировки кластерами в виде концентрических сфер. Представленный подход обеспечил возможность проводить новые содержательные исследования входных данных. Перспективы дальнейших исследований заключаются в разработке системы поддержки принятия решений для решения задач группировки объектов на кластеры концентрическими сферами, конусами и эллипсами и их пересечениями; реализации параллельной многоуровневой кластеризации по различным критериям и ее применении; исследовании разбиения объектов разными геометрическими формами кластеров для одной выборки входных данных и проведении содержательной интерпретации полученных результатов.

КЛЮЧЕВЫЕ СЛОВА: нечеткая кластеризация, кластер, мера сходства, автоматическая группировка объектов, кластеризация.

UDC 004.023, 519.237

USE OF LENGTH-BASED SIMILARITY MEASURE IN CLUSTERING PROBLEMS

Kondruk N. E. - PhD, Associate Professor, Associate Professor of Department of Cybernetics and Applied Mathematics, Uzhgorod National University, Uzhgorod, Ukraine.

ABSTRACT

Context. The study is devoted to the development of a flexible mathematical apparatus, which should have a sufficiently wide range of means for grouping objects into different types of similarity measures. This makes it possible, within the framework of the developed approach, to efficiently solve sufficiently broad classes of applied problems from different subject areas and to partition objects with clusters of different geometric forms.

Objective. The aim of the study is improvement of the efficiency of solving cluster problems by applying a similar measure of the vector characteristics of objects.

Method. A fuzzy binary relation and its membership function describing the similarity of objects according to the level of similarity of their vector attributes are described. The method of single-level clustering, based on fuzzy binary relations for the use of a similarity measure, is modified. In this case, certain values are set - the thresholds of clusterization that characterize the similarity degree of objects within the cluster. By changing the thresholds of clusterization, one can analyze the dynamics of cluster formation, investigate their structure and interrelationships between objects, determine the ultimate objects, and make a thorough analysis of the obtained results. The proposed approach does not require a preliminary determination of the number of clusters and allows clustering of data in concentric spheres in the absence of additional a priori information, so it can be used at the stage of preliminary data analysis.

Results. The developed approach is implemented in the form of a software system on the basis of which the actual applied problem of investigating the intensity of population migration by regions of Ukraine is solved.

Conclusions. The conducted experimental researches show the convenience and efficiency of using the similarity measure for solving applied problems requiring clustering in the form of concentric spheres. The presented approach provides an opportunity to conduct new meaningful studies of input data. Prospects for further research are development of a decision support system, to solve the problems of grouping objects into clusters by concentric spheres, cones, ellipses and their intersections; implementation of parallel multi-level clustering carried out simultaneously by several criteria of similarity of objects and their application; study of the partitioning of objects by different geometric forms of clusters for a single sample of input data and carrying out a meaningful interpretation of the obtained results.

KEYWORDS: fuzzy clustering, cluster, measure of similarity, automatic grouping of objects, clustering.

REFERENCES

Kondruk N. Clustering method based on fuzzy binary relation,

Eastern-European Journal of Enterprise Technologies, 2017, 9. No. 2(4), pp. 10-16. DOI: 10.15587/1729-4061.2017.94961 Kondruk N. E., Malyar M. M. Algorytm klasteryzacii' kryte-rial'nogo prostoru dlja zadach vyboru, Visnyk Kyi'vs'kogo univer-sytetu, 2006, Issue. 3, pp. 225-229. 10.

Kondruk, N. E. Dejaki metody avtomatychnogo grupuvannja ob'jektiv, Eastern-European Journal of Enterprise Technologies, 2014, Vol. 2, No. 4 (68), pp. 20-24.

Kondruk N. E. Systemy pidtrymky pryjnjattja rishen' dlja av-tomatyzovanogo skladannja dijet, Management of Development of 11 Complex Systems, 2015, Issue. 23(1), pp. 110-114. Peters, G. Soft clustering-fuzzy and rough approaches and their extensions and derivatives, International Journal of Approximate Reasoning, 2013, Vol. 54, No. 2, pp. 307-322. DOI: 12. 10.1016/j.ijar.2012.10.003

Banu P. K. N., Andrews S. Performance analysis of hard and soft clustering approaches for gene expression data, International Journal of Rough Sets and Data Analysis (IJRSDA), 2015, Vol. 2, No. 1, pp. 58-69. DOI: 10.4018/ijrsda.2015010104 13.

Bora D. J., Gupta D., Kumar A. A. Comparative study between fuzzy clustering algorithm and hard clustering algorithm, International Journal of Computer Trends and Technology (IJCTT), 2014, Vol. 10(2), pp. 108-113. DOI: 10.14445/22312803/IJCTT- 14. V10P119

Jipkate B. R., Gohokar V. V. A comparative analysis of fuzzy c-means clustering and k means clustering algorithms, International

Journal Of Computational Engineering Research, 2012, Vol. 2, No. 3, pp. 737-739.

Shokouhifar M., Jalali A. Optimized sugeno fuzzy clustering algorithm for wireless sensor networks, Engineering applications of artificial intelligence, 2017, Vol. 60, pp. 16-25. DOI: 10.1016/j.engappai.2017.01.007

Toz G., Yucedag 1., Erdogmuç P. A Fuzzy Image Clustering Method Based on an Improved Backtracking Search Optimization Algorithm with an Inertia Weight Parameter, Journal of King Saud University-Computer and Information Sciences, 2018. In press. DOI: 10.1016/j.jksuci.2018.02.011

Izakian H., Pedrycz W., Jamal I. Fuzzy clustering of time series data using dynamic time warping distance, Engineering Applications of Artificial Intelligence, 2015, Vol. 39, pp. 235-244. DOI: 10.1016/j.engappai.2014.12.015

Chen S., Zhang D. Robust image segmentation using FCM with spatial constraints based on new kernel-induced distance measure,

IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2004, Vol. 34, No. 4, pp. 1907-1916. DOI: 10.1109/TSMCB.2004.831165

Heidarzade A., Mahdavi I., Mahdavi-Amiri N. Supplier selection using a clustering method based on a new distance for interval type-2 fuzzy sets: A case study, Applied Soft Computing, 2016, Vol. 38, pp. 213-231. DOI: 10.1016/j.asoc.2015.09.029 Ye J. Clustering methods using distance-based similarity measures of single-valued neutrosophic sets, Journal of Intelligent Systems, 2014, Vol. 23, No. 4, pp. 379-389. DOI: 10.1515/jisys-2013-0091

i Надоели баннеры? Вы всегда можете отключить рекламу.